Kaggle 赛题解析 | AMP 帕金森进展预测
迪丽瓦拉
2025-06-01 18:48:32
0

文章目录

  • 一、前言
  • 二、比赛说明
    • 1. Evaluation
    • 2. Timeline
    • 3. Prize
    • 4. Code Requirements
  • 三、数据说明
  • 四、总结

🍉 CSDN 叶庭云https://yetingyun.blog.csdn.net/


一、前言

竞赛题目:AMP®-Parkinson’s Disease Progression Prediction

竞赛地址:https://www.kaggle.com/competitions/amp-parkinsons-disease-progression-prediction

竞赛目标:本次比赛的目标是预测 MDS-UPDR 评分,该评分用于测量帕金森患者的病情进展。运动障碍学会赞助的统一帕金森病评分量表修订版 (MDS-UPDRS) 是对与帕金森病相关的运动和非运动症状的全面评估。您将开发一个模型,该模型以帕金森患者和正常同龄对照组中的蛋白质和肽水平随时间变化的数据为基础进行训练。您的工作可能有助于提供关于哪些分子在帕金森疾病进展过程中发生变化的重要突破性信息。

竞赛背景:

  • 帕金森病是一种致残的脑部疾病,影响运动、认知、睡眠和其他正常功能。不幸的是,目前还没有治愈方法,而且病情会随着时间的推移而恶化。据估计,到 2037 年,美国将有 160 万人患上帕金森病,经济成本将接近 800 亿美元。研究表明,蛋白质或肽异常在该病的发病和恶化中起着关键作用。通过数据科学更好地理解这一点,可能为开发减缓帕金森病发展甚至实现治愈的新型药物提供重要线索
  • 目前的努力已经获得了 10000 名受试者的复杂的临床和神经生物学数据,以便与研究社区广泛共享。使用这些数据已经发现了一些重要的发现,但仍缺乏明确的生物标志或治愈方法
  • 竞赛主办方——加速药物合作伙伴关系®帕金森病 (AMP®PD) 是由政府、工业界和非营利组织组成的公私合作伙伴关系,通过美国国立卫生研究院基金会 (FNIH) 进行管理。该合作伙伴创建了 AMP®PD 知识平台,其中包括对帕金森病患者进行深度分子特征化和纵向临床分析,旨在确定和验证帕金森病的诊断、预后和/{/}/或疾病进展生物标志物。
  • 您的工作可能有助于寻找治愈帕金森病的方法,从而减轻患者的巨大痛苦和医疗费用。

二、比赛说明

1. Evaluation

提交的作品将根据预测值和实际值之间的 SMAPE 进行评估。我们定义当实际值和预测值均为 0 时,SMAPE = 0。对于每次采集蛋白质/肽样本的病人就需要估算他们在该次访问时的 UPDRS 评分,并预测他们在可能的 6、12 和 24 个月后的任何访问中的评分。最终没有实现的访问的预测将被忽略。

您必须使用提供的 Python 时间序列 API 提交到这个竞赛,该 API 可以确保模型不向前窥视时间。要使用 API,请在 Kaggle Notebooks 中遵循此模板:

import amp_pd_peptideenv = amp_pd_peptide.make_env()             # initialize the environment
iter_test = env.iter_test()                 # an iterator which loops over the test filesfor (test, test_peptides, test_proteins, sample_submission) in iter_test:sample_prediction_df['rating'] = np.arange(len(sample_prediction))       # make your predictions hereenv.predict(sample_prediction_df)       # register your predictions

2. Timeline

除非另有说明,所有截止日期均为当天 UTC 时间晚上 11:59。竞赛组织者保留更新比赛时间表的权利,如果他们认为有必要的话。

  • 2023 年 2 月 16 日 - 开始日期。
  • 2023 年 5 月 11 日 - 报名截止日期。您必须在此日期之前接受竞赛规则才能参加比赛。
  • 2023 年 5 月 11 日 - 团队合并截止日期。这是参与者加入或合并团队的最后一天。
  • 2023 年 5 月 18 日 - 最终提交截止日期。

3. Prize

  • 第 1 名 - 25,000 美元
  • 第 2 名 - 20,000 美元
  • 第 3 名 - 15,000 美元

4. Code Requirements

这是一场代码竞赛。竞赛作品必须通过 Notebooks 提交。为了使 “提交” 按钮在提交后处于活动状态,必须满足以下条件:

  • CPU Notebook <= 9小时运行时间。
  • GPU Notebook <= 9小时运行时间。
  • 禁用互联网访问。
  • 允许使用自由和公开可用的外部数据,包括预训练模型。
  • 提交文件必须命名为 submission.csv。API 将为您生成此提交文件。

请参阅 Code Competition FAQ 以获取有关如何提交的更多信息。如果遇到提交错误,请查看代码调试文档。


三、数据说明

本次竞赛的目标是利用蛋白质丰度数据预测帕金森病 (PD) 的病程。PD 涉及的完整蛋白质组仍然是一个开放的研究问题,任何具有预测价值的蛋白质都值得进一步研究。数据集的核心包括从数百名患者的脑脊液 (CSF) 样本中获得的质谱读数导出的蛋白质丰度值。每个病人在多年的时间内贡献了多个样本,同时还进行了 PD 严重程度的评估。

本次竞赛是一个时间序列的代码竞赛:您将收到测试集数据,并使用 Kaggle 的时间序列 API 进行预测。

train_peptides.csv 是蛋白质质谱数据在肽水平上的表现形式,肽是蛋白质的组成部分。

  • visit_id - 访问的ID代码。
  • visit_month - 访问月份,相对于该病人的第一次访问而言。
  • patient_id - 病人的 ID 代码。
  • UniProt - 相关蛋白质的 UniProt ID 代码,通常每个蛋白质有几个肽。
  • Peptide - 肽中所包含的氨基酸序列。请参考此表格中的相关代码。一些罕见的注释可能未包含在表格中。测试集可能包含在训练集中未发现的肽
  • PeptideAbundance - 样品中氨基酸的频率。

train_proteins.csv 是从肽水平数据聚合的蛋白质表达频率。

  • visit_id - 访问的ID代码。
  • visit_month - 访问月份,相对于该病人的第一次访问而言。
  • patient_id - 病人的 ID 代码。
  • UniProt - 相关蛋白质的 UniProt ID 代码。通常每个蛋白质有几个肽。测试集可能包含在训练集中未发现的蛋白质。
  • NPX - 经过归一化的蛋白质表达。该蛋白质在样本中出现的频率。可能与组成肽的氨基酸并非一对一的关系,因为某些蛋白质包含重复的给定肽片段

train_clinical_data.csv 是临床相关的数据。

  • visit_id - 访问的 ID 代码。
  • visit_month - 访问月份,相对于该病人的第一次访问而言。
  • patient_id - 病人的 ID 代码。
  • updrs_[1-4] - 统一帕金森病评分量表 (UPDRS) 第 N 部分的病人得分。较高的分数表示症状更为严重。每个子部分涵盖不同的症状类别,例如第 1 部分涵盖情绪和行为,第 3 部分涵盖运动功能。
  • upd23b_clinical_state_on_medication - 病人在 UPDRS 评估期间是否服用 Levodopa 等药物。预计主要影响第 3 部分(运动功能)的得分。这些药物的效果相当快(约为一天),因此病人在一个月内常常会两次接受运动功能测试,一次在服用药物的情况下,一次在未服用药物的情况下。

supplemental_clinical_data.csv 是没有任何跟脑脊液样本相关的临床记录。该数据旨在提供关于帕金森病的典型进展的额外背景。与 train_clinical_data.csv 相同的列。

example_test_files/ 里的文件旨在说明 API 功能的数据,包括 API 提供的相同列(即没有 updrs 列)。

amp_pd_peptide/ 里的文件使 API 能够运行。预计 API 能够在不到五分钟的时间内提供所有数据(少于 1000 个额外病人),并保留少于 0.5 GB 的内存。这里提供了 API 提供的简短演示。

public_timeseries_testing_util.py 是一个可选文件,旨在使自定义离线 API 测试更容易运行。有关详细信息,请参阅脚本的 docstring。


四、总结

竞赛题目:使用帕金森病患者的蛋白质和肽数据测量来预测疾病的进展

竞赛类型:数据挖掘、时间序列、回归预测

关键词:时间序列、帕金森进展预测、生物信息、数据分析、机器学习

在这里插入图片描述

赛题是一个典型的结构化数据预测赛题,拥有多张表,且是以患者作为样本,多了解一些相关的专业知识更好。

在解决题目时,需要考虑:

  • 支持多维输入的时序预测模型。
  • 模型训练和预测速度,以及可解释性。
  • 模型泛化性和鲁棒性。
  • 根据样本个数,应该是树模型和基础时序模型为主要的预测模型。

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...