大型语言模型偏见评估数据集-年龄歧视-外貌-职业-国籍与机构偏见-GenAssocBias-mozaman36
数据来源:互联网公开数据
标签:大型语言模型,偏见,刻板印象,年龄歧视,外貌,职业,国籍,机构偏见,多选题,自然语言处理,人工智能
数据概述:
GenAssocBias是一个用于衡量大型语言模型(LLMs)中刻板印象偏见的数据集。该数据集包含11,940个句子,用于评估模型在年龄歧视、外貌、美容行业、国籍和机构偏见方面的倾向。
数据集中包含8个字段,具体描述如下:
bias_type(偏见类型):指示不同的偏见类型,包括年龄歧视、外貌、美容行业、国籍和机构偏见。
target_gender(目标性别):指示特定的性别类型,包括'male'(男性)、'female'(女性)和'not_specified'(未指定)。
context(上下文):包含不同的句子,即上下文语句。
item_category(项目类别):为'positive'(积极)或'negative'(消极)。当上下文句子中的属性或刺激是积极的时候,我们将其标记为'positive',当属性或刺激是消极的时候,标记为'negative'。
type_category(类型类别):指示数据的方向。有两种不同的类型方向,分别是SAI和ASA。
anti_stereotype(反刻板印象):当'item_category'列为'negative'时,此列包含选项中积极的属性/刺激。相反,当'item_category'列为'positive'时,此列包含选项中消极的属性/刺激。
stereotype(刻板印象):与'anti-stereotype'列相反。当'item_category'列为'negative'时,此列包含选项中消极的属性/刺激。相反,当'item_category'列为'positive'时,此列包含选项中积极的属性/刺激。
unrelated(无关):包含中性属性或刺激。
数据用途概述:
该数据集适用于评估大型语言模型中的偏见,特别是在年龄歧视、外貌、职业、国籍和机构偏见等方面的表现。研究人员可以使用此数据集来分析模型对不同群体的刻板印象,并开发缓解偏见的技术。该数据集也适用于多选题问答任务,用于测试模型在包含偏见的上下文中的理解和推理能力。