在线评论有毒性检测数据集OnlineCommentToxicityDetectionDataset-retechtrash
数据来源:互联网公开数据
标签:有毒评论, 文本分类, 情感分析, 社交媒体, 仇恨言论, 偏见检测, 机器学习, 自然语言处理
数据概述:
该数据集包含来自在线评论平台的数据,记录了用户发表的评论及其有毒性评估结果。主要特征如下:
时间跨度:数据未标明具体时间,可视为静态数据集。
地理范围:数据来源未明确,但评论内容涉及多元文化和社会议题,可能来自全球范围内的社交媒体平台。
数据维度:数据集包含多个字段,包括评论的唯一标识符(ID)、有毒性标签(Toxicity,0代表无毒,1代表有毒),以及与评论内容相关的多个属性,例如评论是否涉及种族、宗教、性别、性取向、残疾等方面的偏见(Asian, Atheist, Bisexual, Black, Buddhist, Christian, Female, Heterosexual, Hindu, Homosexual gay or lesbian, Intellectual or learning disability, Jewish, Latino, Male, Muslim, Other disability, Other gender, Other race or ethnicity, Other religion, Other sexual orientation, Physical disability, Psychiatric or mental illness, Transgender, White),以及评论的文本内容(Comment)。
数据格式:CSV格式,包括dev_raw.csv、test_raw.csv和train_raw.csv三个文件,分别对应开发集、测试集和训练集,便于模型训练和评估。
来源信息:数据来源于公开的评论数据,并已进行标注,提供了有毒性标签和属性标签。该数据集适合用于有毒评论的检测和分析。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于自然语言处理、情感分析、仇恨言论检测等领域的学术研究,例如有毒评论识别、偏见检测、文本分类等。
行业应用:为社交媒体平台、在线论坛、新闻网站等提供数据支持,用于构建自动化的内容审核系统,过滤有害言论,改善用户体验。
决策支持:支持平台制定内容管理策略,提高社区治理效率,维护健康的网络环境。
教育和培训:作为人工智能、机器学习等相关课程的实训材料,帮助学生和研究人员掌握有毒评论检测技术。
此数据集特别适合用于探索有毒评论的特征,识别潜在的偏见,并构建用于检测和过滤有害内容的模型,从而提升网络社区的健康度和安全性。