性别偏见核心指代数据集-职业刻板印象研究-2023
数据来源:互联网公开数据
标签:性别偏见,核心指代,职业刻板印象,WinoBias,Huggingface,自然语言处理,数据集,科研,教育
数据概述:
本数据集是专门为解决核心指代问题设计的综合资源,特别关注性别偏见问题。数据集包含Winograd模式样式的句子,其中各种实体通过其职业(如护士、医生或木匠)来指代。该数据集的主要目标是帮助准确有效地解决这些句子中的核心指代问题,特别是涉及性别相关偏见的情况。通过分析上下文中单词与其指代对象的关系,核心指代解析模型有机会发现并解决性别刻板印象可能被强化的地方。
每个数据集条目包含多个属性,增强了其实用性和多功能性,这些属性包括关键的语法元素,如词性标签、句法结构注释、词义、说话者信息、命名实体识别标签(识别实体如人或地点)、动词谓语、谓语词形(动词原型)和核心指代簇。
该数据集包含多样化的、包含微妙性别偏见的职业相关句子,为致力于改进核心指代解析系统的研究人员、开发人员和评估人员提供了宝贵的资源。通过使用该数据评估模型性能,利益相关者可以深入了解其算法中的潜在偏差领域,努力实现更公平的语言处理技术。
数据用途概述:
该数据集在自然语言处理任务中为解决性别偏见做出了重要贡献,特别关注核心指代解析。其丰富的、精心标注的句子集合为开发更强大的模型提供了机会,这些模型能够减轻基于性别刻板印象的职业相关偏见假设。
文件描述:
数据集包括多个CSV文件,每个文件具有不同的用途:
type2_anti_validation.csv:该文件包含验证数据,用于评估WinoBias数据集中与职业相关的性别偏见句子的核心指代解析模型性能。
type2_pro_test.csv:这是一个测试文件,评估核心指代解析模型在与职业相关性别偏见句子上的性能。
type1_pro_validation.csv:此文件包含验证数据,用于评估WinoBias数据集中职业性别偏见的核心指代解析模型性能。
每个CSV文件包含多个列,表示每个句子的不同特征和信息,如句子部分编号、单词编号、标记(单词)、词性标签(POS标签)、每个标记的句法位、谓语词形(动词词形)、上下文单词意义、说话者信息、命名实体识别标签(NER标签)、句子中使用的动词谓语和核心指代簇。
使用说明:
要有效利用该数据集:
1. 将一个或多个相关的CSV文件导入您首选的编程环境或工具,该工具支持处理表格数据(例如,Python pandas)。
2. 探索列并参考本指南中提供的列描述,以理解其含义。
3. 分析数据并根据您的特定研究或分析目标执行必要的预处理步骤。您可以考虑的任务包括性别偏见检测、核心指代解析模型开发或现有模型的评估。
4. 选择适合您任务的适当特征/列并相应地使用它们。
5. 利用该数据集的见解,更好地理解核心指代解析中的性别偏见,并寻找减轻这些偏见的方法。
研究思路:
1. 偏见检测:可以使用此数据集评估和测量核心指代解析模型中的性别偏见存在情况。通过分析不同模型在与职业相关的偏见句子上的表现,研究人员可以识别并解决这些模型中的任何偏见。
2. 模型改进:该数据集也可用于改进现有核心指代解析模型,通过在性别偏见示例上对其进行训练。通过将此数据纳入模型训练,研究人员可以增强模型在涉及性别特定职业的句子中准确解决核心指代的能力。
3. 算法开发:研究人员可以使用此数据集开发新的算法或解决性别偏见的方法。通过在提供的示例上测试不同的策略,他们可以识别有效的减少或消除这些模型中偏见的方法。
许可:
许可证:CC0 1.0 Universal(CC0 1.0)- 公共领域声明
无版权 - 您可以复制、修改、分发和表演此作品,即使用于商业目的,也不需要征得许可。详见其他信息。
列说明:
文件:type2_anti_validation.csv
列名 描述
part_number 数据集中的句子部分编号。(整数)
word_number 句子中的单词位置。(整数)
tokens 每个句子中的单个单词。(文本)
pos_tags 与每个标记关联的词性标签。(文本)
parse_bit 每个标记的句法结构信息。(文本)
predicate_lemma 句子中使用的动词的词形。(文本)
word_sense 上下文中的单词意义。(文本)
speaker 每个句子中的说话者。(文本)
ner_tags 标识组织或地点等具体类型的命名实体识别标签。(文本)
verbal_predicates 句子中通过其相应动词识别的动词谓语。(文本)
coreference_clusters 指代相同实体的单词组。(文本)
文件:type2_pro_test.csv
列名 描述
part_number 数据集中的句子部分编号。(整数)
word_number 句子中的单词位置。(整数)
tokens 每个句子中的单个单词。(文本)
pos_tags 与每个标记关联的词性标签。(文本)
parse_bit 每个标记的句法结构信息。(文本)
predicate_lemma 句子中使用的动词的词形。(文本)
word_sense 上下文中的单词意义。(文本)
speaker 每个句子中的说话者。(文本)
ner_tags 标识组织或地点等具体类型的命名实体识别标签。(文本)
verbal_predicates 句子中通过其相应动词识别的动词谓语。(文本)
coreference_clusters 指代相同实体的单词组。(文本)
文件:type1_pro_validation.csv
列名 描述
part_number 数据集中的句子部分编号。(整数)
word_number 句子中的单词位置。(整数)
tokens 每个句子中的单个单词。(文本)
pos_tags 与每个标记关联的词性标签。(文本)
parse_bit 每个标记的句法结构信息。(文本)
predicate_lemma 句子中使用的动词的词形。(文本)
word_sense 上下文中的单词意义。(文本)
speaker 每个句子中的说话者。(文本)
ner_tags 标识组织或地点等具体类型的命名实体识别标签。(文本)
verbal_predicates 句子中通过其相应动词识别的动词谓语。(文本)
coreference_clusters 指代相同实体的单词组。(文本)
致谢:
如果您在研究中使用此数据集,请引用原始作者。
如果您在研究中使用此数据集,请引用wino_bias(来自Huggingface)。