数据集概述
本数据集包含基于真实急性髓系白血病患者数据生成的合成患者信息,采用CTAB-GAN+和归一化流(NFlow)两种生成式AI方法构建,每种模型对应一千六百零六例合成患者数据,可用于临床研究的模拟分析。
文件详解
- 数据字典文件
- 文件名称:
datadictionary.csv
- 文件格式:CSV
- 字段映射介绍:包含字段名称(NAME)、标签(LABEL)、类型(TYPE)和编码列表(CODELIST),涵盖年龄、AML状态、基因突变指标、细胞遗传学特征、生存时间等关键信息的定义与编码规则。
- 合成患者数据文件
- 文件名称:
synthetic_aml_data.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含两种模型生成的合成患者记录,涵盖年龄(AGE)、AML状态(AMLSTAT)、基因突变指标(如ASXL1、ATRX)、细胞遗传学特征(如CGCX、CGNK)、生存时间(如EFSTM、OSTM)等七十余个字段。
数据来源
论文“Mimicking clinical trials with synthetic acute myeloid leukemia patients using generative artificial intelligence”(npj Digital Medicine, 2024)
适用场景
- 临床研究模拟: 用于模拟急性髓系白血病临床试验,减少对真实患者数据的依赖。
- 生成式AI模型验证: 评估CTAB-GAN+和NFlow模型在医疗数据生成中的准确性与适用性。
- 医疗数据分析方法测试: 为新的统计分析方法或预测模型提供标准化测试数据。
- 医学教育与培训: 作为教学案例,帮助学习者理解急性髓系白血病患者数据结构与分析逻辑。