Quora问答平台问题真伪分类训练数据集-2018

Quora问答平台问题真伪分类训练数据集-2018 数据来源:互联网公开数据 标签:自然语言处理,文本分类,问答系统,Quora,机器学习,训练数据,问题真伪,情感分析 数据概述: 本数据集是Quora平台2018年“不诚实问题”竞赛的预处理训练数据。原始训练数据经过处理,移除了停用词、数字、标点符号和常用词,并转换为小写。处理后的数据使用scikit-learn/NLTK库进行了词形还原和词干提取。数据集包含约130万条Quora问题,其中target=0代表诚实问题,target=1代表不诚实问题。 数据用途概述: 该数据集主要用于构建自然语言处理(NLP)领域的机器学习模型,特别是在文本分类任务中具有重要应用价值。可用于训练问题真伪分类模型,从而识别Quora平台上的不诚实问题。也可用于情感分析、文本相似度计算、信息检索等多个NLP应用场景。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 62.01 MiB
最后更新 2025年4月19日
创建于 2025年4月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。