数据集

基因组与遗传学数据集

基因组与遗传学数据集数据来源：互联网公开数据标签：基因组,遗传学,基因突变,遗传疾病,遗传测试,医疗数据,机器学习,预测分析

数据概述：本数据集包含患有遗传性疾病的儿童的医疗信息，旨在用于预测遗传疾病及其子类别的诊断。数据集来源于HackerEarth举办的机器学习挑战赛，包含两个主要文件：训练数据（train.csv）和测试数据（test.csv），以及一个样本提交文件（sample_submission.csv）。训练数据包含22,083条记录，45个特征；测试数据包含9,465条记录，43个特征。数据集涵盖了患者的基本信息（如年龄、性别、出生地等）、遗传背景（如父母的基因缺陷、遗传病史）、医疗测试结果（如血液测试、呼吸率、心率等）以及疾病诊断（如遗传疾病及其子类别）。

数据用途概述：该数据集适用于遗传疾病诊断、预测模型开发、遗传学研究等多种场景。研究人员可以利用此数据进行机器学习模型的训练和验证，以提高遗传疾病的预测准确性；医生可以通过分析数据更好地理解遗传疾病的特征和趋势；医疗机构可以利用数据优化遗传测试流程，提高疾病早期检测和预防的能力。此外，数据集还适用于教育培训，帮助学习者了解遗传学和基因组学的基本概念及其应用。

举例：数据集中的训练文件train.csv包含22,083条记录，每个记录包含45个特征。例如，Patient Id（患者ID）用于唯一标识每个患者；Patient Age（患者年龄）表示患者的年龄；Genes in mother's side（母亲基因）记录了患者母亲基因中的缺陷；Blood cell count (mcL)（血液细胞计数）则表示患者的血液细胞计数。通过这些特征，机器学习模型可以学习和预测患者的遗传疾病及其子类别。

数据与资源

基因组与遗传学数据集.zipZIP
1.97 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	1.97 MiB
最后更新	2025年4月14日
创建于	2025年4月14日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

基因组与遗传学数据集

数据与资源

附加信息

注册成功！