数据简介:
本数据集包含多项基于乳腺肿瘤细胞核特征提取的医学测量值,用于辅助良恶性肿瘤(诊断结果为“B”或“M”)的分类研究。特征来自数字化乳腺细针穿刺活检(FNA)图像,包括肿瘤半径、周长、纹理、平滑度、紧致度等多维指标。该数据集广泛用于医学影像分析、肿瘤分类建模、机器学习训练等应用。
字段说明:
id:唯一标识符
diagnosis:诊断结果,M 表示恶性(Malignant),B 表示良性(Benign)
以下为肿瘤形态学特征的均值(mean)、标准误(se)、和“worst”值(即在图像中最恶劣的 10% 像素块所测得的最大值):
radius_*:半径,估算为从质心到边界的平均距离
texture_*:纹理,灰度值的标准差
perimeter_*:周长
area_*:面积
smoothness_*:轮廓平滑程度(边界长度变化)
compactness_*:紧致度,定义为周长²/面积−1.0
concavity_*:轮廓凹陷程度
concave points_*:轮廓上凹点的数量
symmetry_*:对称性
fractal_dimension_*:分形维度,衡量轮廓的复杂性
数据特征:
特征维度:30 个数值型特征 + 1 个标签(diagnosis)
特征类型:连续变量(均为标准化数值)
标签类型:二分类(B/M)
数据来源:
美国威斯康星大学麦迪逊分校医院,原始数据由 Dr. William H. Wolberg 收集,广泛用于机器学习教学和医学分类研究。该版本可能源自 UCI Machine Learning Repository 的 WBCD 数据集(Breast Cancer Wisconsin Diagnostic)。
数据格式:
表格结构,列为字段,行为样本记录,均为结构化数据。字段无缺失值,适合直接用于建模分析。
适用场景:
医学图像分析辅助诊断
二分类模型训练与评估(如决策树、支持向量机、神经网络等)
特征工程与降维研究(如 PCA、LDA)
医学可解释性建模与敏感特征分析