健康医疗与基因组学数据集

健康医疗与基因组学数据集

数据来源:互联网公开数据

标签:健康医疗,基因组学,机器学习,分类,回归,生存分析,乳腺癌,抗生素耐药性,痴呆症

数据概述:

本数据集为经过整理和优化的健康医疗与基因组学数据集,适用于机器学习任务,包括二分类、回归和生存分析等。数据集来源于公开可用的资源,并经过清洗和预处理,以支持健康医疗和基因组学研究中的多种应用场景。每个子数据集专注于特定领域和任务,便于研究人员构建和评估模型。

数据用途概述:

  1. 乳腺癌数据集
    文件名:breast_cancer_data.xlsx
    数据来源:UCI ML Repository 的乳腺癌威斯康星数据集
    数据描述:该数据集设计用于乳腺癌诊断的二分类任务。数据包含乳腺肿块的细针穿刺活检测量值,分为良性肿瘤和恶性肿瘤两类。目标变量为诊断结果(良性=0,恶性=1)。
    应用场景:
  2. 乳腺癌诊断与预测。
  3. 特征选择,以识别恶性肿瘤的关键预测因子。

  4. Azithromycin 组合数据集
    文件名:combined_data_Azithromycin.csv
    数据来源:nwheeler443 的淋病单元序列数据
    数据描述:该数据集针对回归和生存分析任务,专注于与阿奇霉素耐药性相关的基因组标记。数据包含基因组片段(单元序列)特征和抗生素耐药性相关元数据。
    应用场景:

  5. 预测阿奇霉素耐药性。

  6. Ciprofloxacin 组合数据集
    文件名:combined_data_Ciprofloxacin.csv
    数据来源:nwheeler443 的淋病单元序列数据
    数据描述:该数据集设计用于回归和生存分析任务,专注于环丙沙星耐药性。数据包含基因组片段(单元序列)特征和抗生素耐药性相关元数据。
    应用场景:

  7. 预测环丙沙星耐药性。

  8. 痴呆症数据集
    文件名:dementia_dataset.csv
    数据来源:shashwatwork 的痴呆症预测数据集
    数据描述:该数据集设计用于二分类任务,目标是基于临床和人口统计数据预测痴呆症的存在。特征包括认知测试结果、人口统计信息和患者功能评估。目标变量为痴呆症诊断的二元指示器。
    应用场景:

  9. 痴呆症诊断预测。
  10. 探索性数据分析,以识别高影响力的预测因子。

致谢:

本数据集基于公开可用的资源,并向以下原始数据集的创建者表示感谢:
- shashwatwork(痴呆症数据集)。
- nwheeler443(淋病单元序列数据)。
- UCI ML Repository(乳腺癌威斯康星数据集)。

经过整理和优化后,这些数据集适用于更高效、更流畅的机器学习工作流。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 3.84 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。