种族歧视检测数据集

种族歧视检测数据集 数据来源:互联网公开数据 标签:种族歧视,评论分析,自然语言处理,情感分析,偏见检测,机器学习,数据清洗 数据概述: 本数据集包含用英语标注的评论,其中1表示种族歧视性评论,0表示非种族歧视性评论。该数据集是为我的毕业设计项目创建的,旨在构建一个种族歧视检测模型。此数据集是基于Kaggle上已有的数据集(https://www.kaggle.com/datasets/gilchristmiguel/racist-comments-dataset)进行改进的版本,主要解决了原始数据集中出现的编码问题:“UnicodeDecodeError: 'utf8' codec can't decode byte 0x92 in position : invalid start byte”,通过将编码更改为UTF-8解决了该问题。 数据用途概述: 该数据集适用于种族歧视检测、评论分析、自然语言处理和情感分析等多种应用场景。研究者可以利用此数据集训练和评估种族歧视检测模型;社交媒体平台可以使用该数据集来识别和过滤种族歧视性内容;教育机构和培训项目可以利用该数据集帮助学习者理解和识别种族歧视语言。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.05 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。