均衡采样肤色像素数据集-2021-scolianni
数据来源:互联网公开数据
标签:肤色,像素,公平表示,机器学习,种族偏见,数据集,图像处理,皮肤分割
数据概述:
本数据集包含从FairFace数据集中均衡采样所得的BGR像素值。FairFace数据集旨在通过更好的种族代表性来减少机器学习中的种族偏见。本数据集提供了类似UCI皮肤分割数据集的功能,但具有更好的不同群体代表性。数据集由随机选择的来自FairFace训练集和验证集的10,000张每种种族的图像组成。每张图像经过裁剪以显著减少噪声,然后从每张图像中均匀随机选择100个像素样本。数据存储在fairly_sampled_skin_pixels.csv文件中,保留了其原始的FairFace结构,只是增加了bgr_pixel_samples列。该列中的BGR通道值以逗号分隔,而BGR颜色值以制表符分隔。可以通过以下代码将像素数据转换回numpy数组:
df_from_csv = pd.read_csv('fairly_sampled_skin_pixels.csv')
df_from_csv['bgr_pixel_samples'] = df_from_csv['bgr_pixel_samples'].apply(lambda s_list: np.array([bgr.split(',') for bgr in s_list.split('\t')]).astype(np.uint8))
更多关于本数据集的创建信息,请参阅FairlySampledSkinPixelsDataset文档。
数据用途概述:
该数据集适用于机器学习模型的训练、肤色识别研究、种族偏见减少研究、以及皮肤分割算法的开发等多种场景。研究人员可以利用此数据集来训练和评估机器学习模型,确保模型在不同种族肤色上的公平性和准确性;教育者可以利用此数据集进行肤色识别的教学和实验;政策制定者可以通过分析数据集来制定减少种族偏见的政策。此外,本数据集还适用于皮肤分割技术的研究,帮助提高对不同肤色的识别能力。