乳腺癌预后预测数据集

乳腺癌预后预测数据集 数据来源:互联网公开数据 标签:乳腺癌,预后预测,医学数据,机器学习,数据清洗,特征选择,决策树,逻辑回归,神经网络,支持向量机

数据概述: 乳腺癌威斯康星(预后)数据集汇集了数百例乳腺癌病例的数据,适用于乳腺癌预后的预测研究。数据集包含30个特征,例如半径、质地、面积、紧致度和凹陷度等,这些特征从患者的细针穿刺活检(FNA)图像中提取,用于描述每个病例中的细胞核特征。此外,数据集还提供了复发和非复发的结果,以及复发病例的复发时间等信息。

该数据集由威斯康星大学临床科学中心的威廉·H·沃尔伯格博士、计算机科学系的W.尼克·斯特里特博士和奥尔维·L·曼加斯亚里安博士等人共同创建。他们利用线性规划模型构建决策树系统,实现了对疾病复发的快速准确预测。

数据用途概述: 该数据集适用于乳腺癌预后预测的机器学习研究。研究人员可以使用该数据集进行数据预处理、特征选择、模型训练和验证等步骤,以开发有效的预后预测模型。具体应用场景包括: - 使用机器学习算法(如决策树、逻辑回归、神经网络和支持向量机)来预测乳腺癌患者的复发情况。 - 开发特征选择算法,提高预测准确性。 - 通过统计分析研究不同特征与时间的关系,识别乳腺癌复发的风险因素。

举例: 数据集中的每一行代表一个乳腺癌病例,包含患者的ID号、时间、肿瘤特征(如半径、质地、面积等)以及预后结果(如是否复发、复发时间等)。例如: 119513, 31, 18.02, 27.6, 117.5, 1013, 0.09489, 0.1036, 0.1086, 0.07055, 0.1865, 0.06333, 0.6249, 1.89, 3.972, 71.55, 0.004433, 0.01421, 0.03233, 0.01395, 0.0189, 0.0217, 0.02077, 0.00866, 0.01037, 0.01863, 0.02057, 0.00457, 0.01326, 0.01844, 0.02018, 0.02273, 0.0186 以上数据记录代表一个患者的ID号为119513,时间(天)为31,肿瘤的半径、质地、面积分别为18.02、27.6、117.5等特征,以及一系列描述细胞核特征的参数。

数据集包含多个CSV文件,每个文件包含不同的特征和数据。例如: - unformatted-data.csv 文件包含每个病例的ID号、时间、肿瘤特征等信息。 - wpbc.data.csv 文件包含每个病例的ID号、肿瘤特征、预后结果等信息。 - breast-cancer-wisconsin.data.csv 文件包含每个病例的患者ID、细胞形状均匀度、边缘粘附性等特征,以及分类结果。 - wdbc.data.csv 文件包含每个病例的ID号、预后结果(M表示恶性,B表示良性)、肿瘤特征等信息。

使用该数据集时,请确保引用原始作者和UCI的数据源,并遵循数据集的许可证条款。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.07 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。