维基百科评论毒性评估数据集WikipediaCommentsToxicityAssessment-wochidadonggua
数据来源:互联网公开数据
标签:文本分类, 毒性检测, 评论分析, 情感分析, 机器学习, 自然语言处理, 负面情绪识别, 多标签分类
数据概述:
该数据集包含来自维基百科的评论数据,记录了对评论文本进行毒性评估的指标。主要特征如下:
时间跨度:数据未标明具体时间,视作静态评论数据集使用。
地理范围:数据来源于维基百科平台,面向全球用户。
数据维度:数据集包括评论的ID以及针对六种毒性类别的评估结果:toxic(有毒)、severe_toxic(严重有毒)、obscene(淫秽)、threat(威胁)、insult(侮辱)、identity_hate(身份仇恨)。评估结果为浮点数,表示评论属于该类别的概率。
数据格式:CSV格式,文件名为 neo_bagging_1515685296.csv,便于数据读取与分析。数据已进行初步处理,包括对评论进行毒性标签的概率打分。
该数据集适合用于文本分类、情感分析和毒性检测等任务。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于自然语言处理、文本挖掘、情感分析等领域的学术研究,例如,毒性检测算法的开发、评论情绪分析、社交媒体内容审核等。
行业应用:可以为社交媒体平台、在线论坛、评论区等提供数据支持,用于自动化内容审核、用户行为分析和社区管理。
决策支持:支持平台制定内容审核策略,优化用户体验,维护社区健康。
教育和培训:作为自然语言处理、机器学习等课程的辅助材料,帮助学生和研究人员理解文本分类、情感分析等技术。
此数据集特别适合用于探索评论中不同毒性类型的分布规律,评估不同算法的毒性检测效果,并为构建更高效、更准确的文本审核系统提供数据支持。