绩效与预测绩效数据集
数据来源:互联网公开数据
标签:高中学生,考试成绩,预测分析,偏见,教育研究,公平机器学习,性别差异
数据概述:
本数据集包含高中学生的真实考试成绩及其预测成绩信息。大部分信息,包括学生的一般信息和考生成绩,来自一个已有的数据集。预测成绩则是通过一项人类实验得出的。在实验中,参与者根据简短的学生描述(基于原始数据)对学生的预期成绩进行排名和评分。实验前,部分参与者被暴露于某种“刻板印象激活”中,认为男孩在学校的成绩不如女孩。
数据用途概述:
该数据集适用于教育研究、预测分析、公平机器学习等场景。研究者可以利用此数据集研究学生的实际成绩与预测成绩之间的差异,分析性别刻板印象对评分的影响,以及评估公平机器学习算法的有效性。此外,数据集也适合用于教育培训,帮助学习者理解评分偏见和教育公平的重要性。
数据集描述:
数据集包括两个主要文件:original_data.csv 和 CompleteDataAndBiases.csv。
original_data.csv 描述:
基于一个现有的高中学生酒精消耗数据集(在Kaggle上有相应页面:https://www.kaggle.com/datasets/uciml/student-alcohol-consumption),我们从中提取了部分学生资料,用于参与者进行成绩预测。我们对原始数据进行了预处理,包括合并数学和葡萄牙语课程的学生信息,并添加了“课程”列。我们排除了G3(最终考试成绩)为0的所有数据记录,并从原始数据中随机选择了856名学生,供参与者进行预测。
CompleteDataAndBiases.csv 描述:
index - 对应 original_data.csv 中的索引,可以通过这些索引将原始数据的列添加到预测成绩数据集中。
ParticipantID - 参与者ID,每位参与者预测8名学生的成绩,共有107名不同参与者。
name - 为使预测任务更具吸引力,参与者需要对8名学生的成绩和排名进行预测,这8名学生被随机分配了4个男孩或女孩的姓名之一。
sex - 学生性别,分为女性(F)和男性(M),可用于公平机器学习算法的敏感属性。
studytime - 学生的学习时间,分为三类:小于2小时、2-5小时、5小时以上。
freetime - 学生的空闲时间,分为三类:非常低、低、一般、高、非常高。
romantic - 学生是否处于恋爱关系的二元变量。
Walc - 学生在周末的酒精消费量,分为三类:非常低、低、一般、高。
goout - 学生每周外出的频率,分为三类:非常少、少、一般、多、非常多。
Parents_edu - 学生父母的最高教育水平,分为四类:低、中等、高、非常高。
absences - 学生的缺课次数,分为四类:0-4、5-6、7-14、15以上。
reason - 学生选择该学校的原因,包括:离家近、学校声誉、学校课程、其他。
G3 - 学生的最终考试成绩,范围为0-20。
Pass - 是否通过考试的二元变量,成绩 >= 10 为通过。
Predicted Grade - 实验中参与者预测的学生成绩。
Predicted Rank - 实验中参与者对学生排名的预测,范围为1-8。
Stereotype Activation - 参与者在预测前暴露的刻板印象激活条件,包括:无、基于案例、统计数据。
Predicted_Pass_PassFailStrategy - 基于预测成绩是否通过的二元变量。
Predicted_Pass_RankingStrategy - 基于预测排名是否通过的二元变量。