数据集

Quora问题真实性预测文本数据集-2017年-minakshikarwa

数据来源：互联网公开数据

标签：自然语言处理,文本分类,问题,Quora,真实性,机器学习,NLTK,TfidfVectorizer,朴素贝叶斯

数据概述：本数据集旨在用于Quora问题真实性预测任务，包含了Quora平台上大量的问题文本及其对应的真实性标签。数据集构建于2017年，涵盖了该年度Quora平台上的问题数据，旨在帮助研究人员和数据科学家开发和评估文本分类模型，以识别不诚实或误导性的问题。数据集主要包括问题文本（questions）和对应的标签（标签表明问题是否为不诚实问题，1代表不诚实，0代表诚实）。

数据用途概述：该数据集主要用于自然语言处理（NLP）领域的文本分类任务，特别是在识别网络问答平台上的不诚实问题。研究人员可以使用该数据集来训练和评估文本分类模型，例如使用NLTK进行文本预处理，使用TfidfVectorizer进行特征提取，并使用高斯朴素贝叶斯等算法进行分类。具体应用场景包括：

模型训练与评估：用于训练文本分类模型，并评估模型在识别不诚实问题上的性能。
算法研究：用于研究不同的文本预处理方法、特征提取技术和分类算法对模型性能的影响。
实践应用：用于构建自动识别不诚实问题的系统，例如在Quora等问答平台上进行内容审核。
教育与研究：作为一个标准的文本分类数据集，用于教学、学术研究和数据科学竞赛。

数据集的创建者和贡献者：数据集来源于Kaggle竞赛“Quora Insincere Questions Classification”。该竞赛旨在鼓励数据科学家和机器学习爱好者构建模型来识别Quora平台上不诚实的问题。数据集的创建和发布，离不开Quora平台的数据贡献，以及Kaggle社区的共同努力。

数据与资源

versions_20250407184813.zipZIP
70.07 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	70.07 MiB
最后更新	2025年5月5日
创建于	2025年5月5日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

Quora问题真实性预测文本数据集-2017年-minakshikarwa

数据与资源

附加信息

注册成功！