乳腺癌肿瘤细胞核特征良恶性判别结构化数据集

数据简介:

本数据集包含多项基于乳腺肿瘤细胞核特征提取的医学测量值,用于辅助良恶性肿瘤(诊断结果为“B”或“M”)的分类研究。特征来自数字化乳腺细针穿刺活检(FNA)图像,包括肿瘤半径、周长、纹理、平滑度、紧致度等多维指标。该数据集广泛用于医学影像分析、肿瘤分类建模、机器学习训练等应用。

字段说明:

id:唯一标识符

diagnosis:诊断结果,M 表示恶性(Malignant),B 表示良性(Benign)

以下为肿瘤形态学特征的均值(mean)、标准误(se)、和“worst”值(即在图像中最恶劣的 10% 像素块所测得的最大值):

radius_*:半径,估算为从质心到边界的平均距离

texture_*:纹理,灰度值的标准差

perimeter_*:周长

area_*:面积

smoothness_*:轮廓平滑程度(边界长度变化)

compactness_*:紧致度,定义为周长²/面积−1.0

concavity_*:轮廓凹陷程度

concave points_*:轮廓上凹点的数量

symmetry_*:对称性

fractal_dimension_*:分形维度,衡量轮廓的复杂性

数据特征:

特征维度:30 个数值型特征 + 1 个标签(diagnosis)

特征类型:连续变量(均为标准化数值)

标签类型:二分类(B/M)

数据来源: 美国威斯康星大学麦迪逊分校医院,原始数据由 Dr. William H. Wolberg 收集,广泛用于机器学习教学和医学分类研究。该版本可能源自 UCI Machine Learning Repository 的 WBCD 数据集(Breast Cancer Wisconsin Diagnostic)。

数据格式: 表格结构,列为字段,行为样本记录,均为结构化数据。字段无缺失值,适合直接用于建模分析。

适用场景:

医学图像分析辅助诊断

二分类模型训练与评估(如决策树、支持向量机、神经网络等)

特征工程与降维研究(如 PCA、LDA)

医学可解释性建模与敏感特征分析

packageimg

数据与资源

附加信息

字段
数据集大小 0.05 MiB
最后更新 2025年6月12日
创建于 2025年6月12日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。