Quora不真诚问题数据集

Quora不真诚问题数据集

数据来源:互联网公开数据

标签:不真诚问题,自然语言处理,文本分类,Quora,情感分析,毒性检测,机器学习

数据概述: 本数据集旨在预测Quora平台上提出的问题是否为不真诚问题。不真诚问题通常具有非中立、夸张、具有针对性或煽动性等特征,可能包含对特定群体的歧视、刻薄攻击或基于错误信息的内容。数据集包含问题唯一标识符(qid)、问题文本(question_text)以及目标标签(target),其中target=1表示问题被标记为不真诚。需要注意的是,数据集中的标签可能存在一定的噪声,不保证完全准确。

数据用途概述: 该数据集适用于自然语言处理领域中的文本分类任务,可用于训练模型识别不真诚问题。其应用场景包括但不限于:1)内容审核与社区管理,帮助平台自动识别和过滤不真诚内容;2)学术研究,探索文本分类算法在社交问答平台中的应用;3)产品开发,如开发智能回复系统或内容推荐系统,提升用户体验。此外,数据集也可用于训练毒性检测模型,帮助识别具有攻击性或歧视性的文本内容。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 54.4 MiB
最后更新 2025年4月25日
创建于 2025年4月25日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。