维基中立性语料库数据集

维基中立性语料库数据集 数据来源:互联网公开数据
标签:中立性,文本分析,自然语言处理,语料库,偏见检测,文本修改,数据科学
数据概述:
本数据集由超过18万对对齐的句子组成,这些句子来自2004年至2019年间英语维基百科编辑者在修订过程中提供的中立化前后文本。数据集中的每条记录包含唯一标识符、原始文本及其分词版本、中立化后的文本及其分词版本,以及原始文本的词性标注和中立化后文本的句法解析标签。

数据用途概述:
该数据集适用于研究中立性文本生成、偏见检测与修正、自然语言处理模型训练等场景。研究者可利用此数据集探索文本中立化的过程与策略;开发者可将其用于训练文本中立化模型;教育工作者可借助数据集进行文本分析与语料库研究的教学。此外,数据集也支持对文本修改规律的深入分析,为理解维基百科编辑行为提供数据支持。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 123.53 MiB
最后更新 2025年4月23日
创建于 2025年4月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。