健康医疗与基因组学数据集
数据来源:互联网公开数据
标签:健康医疗,基因组学,机器学习,分类,回归,生存分析,乳腺癌,抗生素耐药性,痴呆症
数据概述:
本数据集为经过整理和优化的健康医疗与基因组学数据集,适用于机器学习任务,包括二分类、回归和生存分析等。数据集来源于公开可用的资源,并经过清洗和预处理,以支持健康医疗和基因组学研究中的多种应用场景。每个子数据集专注于特定领域和任务,便于研究人员构建和评估模型。
数据用途概述:
- 乳腺癌数据集
文件名:breast_cancer_data.xlsx
数据来源:UCI ML Repository 的乳腺癌威斯康星数据集
数据描述:该数据集设计用于乳腺癌诊断的二分类任务。数据包含乳腺肿块的细针穿刺活检测量值,分为良性肿瘤和恶性肿瘤两类。目标变量为诊断结果(良性=0,恶性=1)。
应用场景:
- 乳腺癌诊断与预测。
-
特征选择,以识别恶性肿瘤的关键预测因子。
-
Azithromycin 组合数据集
文件名:combined_data_Azithromycin.csv
数据来源:nwheeler443 的淋病单元序列数据
数据描述:该数据集针对回归和生存分析任务,专注于与阿奇霉素耐药性相关的基因组标记。数据包含基因组片段(单元序列)特征和抗生素耐药性相关元数据。
应用场景:
-
预测阿奇霉素耐药性。
-
Ciprofloxacin 组合数据集
文件名:combined_data_Ciprofloxacin.csv
数据来源:nwheeler443 的淋病单元序列数据
数据描述:该数据集设计用于回归和生存分析任务,专注于环丙沙星耐药性。数据包含基因组片段(单元序列)特征和抗生素耐药性相关元数据。
应用场景:
-
预测环丙沙星耐药性。
-
痴呆症数据集
文件名:dementia_dataset.csv
数据来源:shashwatwork 的痴呆症预测数据集
数据描述:该数据集设计用于二分类任务,目标是基于临床和人口统计数据预测痴呆症的存在。特征包括认知测试结果、人口统计信息和患者功能评估。目标变量为痴呆症诊断的二元指示器。
应用场景:
- 痴呆症诊断预测。
- 探索性数据分析,以识别高影响力的预测因子。
致谢:
本数据集基于公开可用的资源,并向以下原始数据集的创建者表示感谢:
- shashwatwork(痴呆症数据集)。
- nwheeler443(淋病单元序列数据)。
- UCI ML Repository(乳腺癌威斯康星数据集)。
经过整理和优化后,这些数据集适用于更高效、更流畅的机器学习工作流。