公平ML基准数据集
数据来源:互联网公开数据
标签:公平机器学习,高中学生,学生成绩预测,性别刻板印象,教育数据,机器学习评估,数据预处理
数据概述:
本数据集包含了高中学生及其实际和预测考试成绩的信息。数据集的大部分信息,包括学生的常规信息及其考试成绩,基于一个已有的数据集,而预测的考试成绩则是通过一项人类实验得出的。在该实验中,参与者根据提供的学生简短描述(基于原始数据)进行排名和成绩预测。实验前,部分参与者被暴露于某种“刻板印象激活”,即暗示男孩在学校的表现不如女孩。
数据用途概述:
该数据集适用于评估公平机器学习算法的有效性,研究性别刻板印象对评分的影响,以及了解教育数据中的偏见。研究人员可以利用此数据集分析和比较不同的机器学习模型在公平性方面的表现,教育机构可以借此了解评分过程中可能存在的性别偏见,政策制定者则可以基于数据评估教育公平政策的效果。
数据集包含以下两个文件:
1. original_data.csv:包含了学生的原始数据信息,经过预处理后合并了数学和葡萄牙语两个学科的信息,并添加了“subject”列以区分学生的学科。在此基础上,我们排除了所有G3(最终考试成绩)为0的数据,并从原始数据中随机抽取了856名学生供参与者进行成绩预测。
2. CompleteDataAndBiases.csv:包含了学生的原始数据索引、参与者ID、学生姓名、性别、学习时间、课余时间、是否恋爱、周末饮酒量、每周外出次数、父母教育水平、缺课次数、选择学校的原因、实际成绩、是否通过、预测成绩、预测排名、刻板印象激活情况、基于预测成绩的通过/不及格策略以及基于预测排名的通过/不及格策略等字段。