性别偏见分析数据集

性别偏见分析数据集

数据来源:互联网公开数据

标签:性别偏见,年龄偏见,澳大利亚,工作广告,自然语言处理,机器学习,数据偏见,公平性研究

数据概述:
本数据集与论文《Developing a Large-Scale Language Model to Unveil and Alleviate Gender and Age Biases in Australian Job Ads》配套,旨在为研究人员提供用于训练模型和开展用户研究的全面数据。数据集包含了澳大利亚IT行业的工作广告,以及针对性别和年龄偏见的分析结果,适用于研究和缓解工作广告中的偏见问题。

数据用途概述:
该数据集适用于以下场景:
1. 性别和年龄偏见分析:研究人员可以利用数据集中的工作广告和偏见评分,分析澳大利亚IT行业中存在的性别和年龄偏见问题。
2. 机器学习模型训练:数据集包含多个经过清洗的IT行业工作广告,可用于训练自然语言处理(NLP)模型,以检测和缓解性别和年龄偏见。
3. 用户实验研究:数据集提供了用户研究的结果,可用于验证偏见检测和缓解方法的有效性。
4. 公平性研究:政策制定者和企业可以借助数据集中的分析结果,评估工作广告中的偏见对招聘公平性的影响,并采取相应措施改善招聘流程。
5. 学术研究:研究人员可以利用数据集,验证和对比不同方法(如词典方法和监督学习方法)在检测性别偏见中的表现。

数据集文件描述:
- it_40.csv:包含40条经过清洗的澳大利亚IT行业工作广告,为分析工作广告中的偏见提供了数据基础。
- it40_score.csv:提供了30条工作广告的偏见评分,有助于评估偏见的严重程度。
- old_bias_text.csv:包含与年龄偏见(针对老年人群体)相关的数据,可用于分析和缓解对老年人的歧视问题。
- young_bias_text.csv:包含与年龄偏见(针对年轻人群体)相关的数据,可用于分析和缓解对年轻人的歧视问题。
- y_o_m_f.csv:对40条工作广告进行了性别和年龄偏见的多维度分析,涵盖了女性、男性、年轻人和老年人的偏见情况,为全面研究数据偏见提供了支持。

代码组件概述:
数据集中还包含以下与GPT模型相关的代码组件,可用于进一步分析和缓解偏见问题:
- age_bias_detector:一个分析笔记本,展示了与年龄偏见相关的研究结果。
- gpt_model_young:一个训练好的GPT模型,专门用于检测和缓解针对年轻人的偏见。
- gpt_model_old:一个训练好的GPT模型,专门用于检测和缓解针对老年人的偏见。
- gpt_model_female:一个训练好的GPT模型,专门用于检测和缓解针对女性的偏见。

通过结合数据集和相关代码,研究人员可以全面探索和解决工作广告中的性别和年龄偏见问题,推动招聘过程的公平性和包容性。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 19.98 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。