数据集

社交媒体评论毒性检测数据集

社交媒体评论毒性检测数据集_Social_Media_Comment_Toxicity_Detection

数据来源：互联网公开数据

标签：文本分类, 毒性检测, 自然语言处理, 机器学习, 情感分析, 多语言, 数据标注, 评论分析

数据概述：该数据集包含来自社交媒体平台的用户评论数据，用于训练和评估毒性检测模型。主要特征如下：时间跨度：数据未标明具体时间，可视为静态语料数据集使用。地理范围：数据来源未明确，但评论内容涵盖多种语言，推测为全球范围内的社交媒体用户生成内容。数据维度：数据集包含两个主要文件，分别针对英语和多语言评论： english_10fold_data.csv：包含"comment_text"（评论文本）、"toxic"（毒性评分，数值型，0表示无毒性，数值越高毒性越强）和"kfold"（交叉验证折叠标识）字段。 multilingual_10fold_data.csv：包含"comment_text"（评论文本）、"kfold"（交叉验证折叠标识）和"toxic"（毒性评分，数值型，0表示无毒性，数值越高毒性越强）字段。数据格式：CSV格式，方便数据读取与分析。数据集已进行预处理，并提供了交叉验证的折叠信息。来源信息：数据来源于社交媒体平台公开数据，经过清洗和标注，用于毒性检测模型的训练和评估。该数据集适合用于文本分类、情感分析和自然语言处理领域的研究。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于自然语言处理、机器学习和情感分析领域的学术研究，如毒性言论识别、情感分析、恶意内容检测等。行业应用：为社交媒体平台、在线论坛、评论系统等提供数据支持，用于构建自动化的内容审核系统，过滤有害言论，维护社区环境。决策支持：支持内容审核策略的制定，辅助平台管理人员识别和处理违规内容，提升用户体验。教育和培训：作为自然语言处理、机器学习相关课程的实训素材，帮助学生和研究人员理解毒性检测模型的设计和应用。此数据集特别适合用于探索不同语言环境下毒性言论的特征，并开发更精准的毒性检测模型，从而提升社交媒体平台的健康度和安全性。

数据与资源

社交媒体评论毒性检测数据集_Social_Media_Comment_Toxicity_Det...ZIP
878.97 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	878.97 MiB
最后更新	2025年11月4日
创建于	2025年11月4日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

社交媒体评论毒性检测数据集

数据与资源

附加信息

注册成功！