性别歧视文本分类数据集SexismTextClassificationDataset-aa120310000
数据来源:互联网公开数据
标签:性别歧视, 文本分类, 自然语言处理, 情感分析, 社交媒体, 数据标注, 机器学习, 语料库
数据概述:
该数据集包含来自社交媒体平台的数据,记录了用于识别和分类性别歧视言论的文本示例。主要特征如下:
时间跨度:数据未明确标注时间,可视为静态语料库。
地理范围:数据来源于全球范围内的社交媒体,主要为英语文本。
数据维度:数据集包含多个CSV文件,核心数据项包括“rewire_id”(文本唯一标识符)、“text”(文本内容)、“label_sexist”(是否包含性别歧视,取值为"sexist"或"not sexist")、“label_category”(性别歧视类别,如"misogyny"、"hostility"等,或"none")、“label_vector”(性别歧视向量表示,如"attack"、"stereotyping"等,或"none")。此外,还包括用于提交的示例文件,包含预测标签。
数据格式:数据以CSV格式提供,便于数据分析和处理。核心文件为train_all_tasks.csv,包含已标注的训练数据。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于自然语言处理、社会计算、情感分析等领域的学术研究,例如性别歧视检测、情感分析、文本分类、偏见分析等。
行业应用:可以为社交媒体平台、内容审核公司提供数据支持,用于构建自动化的性别歧视内容检测系统,提升内容审核效率。
决策支持:支持社会舆情分析、风险评估,帮助了解社交媒体上的性别歧视言论,并制定相应的干预措施。
教育和培训:作为自然语言处理、机器学习课程的实训数据,帮助学生和研究人员理解性别歧视检测技术,并进行模型训练。
此数据集特别适合用于探索社交媒体文本中的性别歧视模式,构建和评估性别歧视检测模型,并促进对社会偏见的理解。