数据集

虚假新闻检测文本数据集FakeNewsDetectionTextDataset-karthikeyanmsk

数据来源：互联网公开数据

标签：虚假新闻，文本分类，自然语言处理，新闻文本，机器学习，情感分析，信息溯源，舆情分析

数据概述：该数据集包含来自新闻网站与社交媒体的文本数据，记录了用于识别虚假新闻的文章标题、正文、主题和发布日期等信息。主要特征如下：时间跨度：数据未标明具体时间，但从发布日期来看，涵盖了2016年至2017年的新闻内容，反映了特定时期的信息传播情况。地理范围：数据主要关注全球新闻事件，涉及政治、社会、经济等多个领域，具有一定的国际视野。数据维度：包括“title”（文章标题）、“text”（文章正文）、“subject”（文章主题）、“date”（发布日期）和“label”（分类标签，0代表虚假新闻，1代表真实新闻）等字段。部分数据集还包含“wordlen”（文章字数）字段，可用于文本长度分析。数据格式：CSV格式，包含多个文件，如ISOT_25K.csv、Fake.csv、True.csv等，便于文本数据的处理和分析。数据来源于公开新闻网站和社交媒体，已进行标注，方便用于训练和评估虚假新闻检测模型。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于自然语言处理、文本挖掘、机器学习等领域的学术研究，如虚假新闻检测算法的开发与评估、情感分析、信息传播模式分析等。行业应用：为新闻媒体、社交平台、搜索引擎等提供数据支持，尤其在自动化内容审核、舆情监控、风险预警等方面具备实用价值。决策支持：支持政府部门、企业机构等进行舆情分析和风险管理，帮助其及时发现和应对虚假信息传播。教育和培训：作为机器学习、自然语言处理等课程的实训素材，用于学生训练模型、理解文本分类任务。此数据集特别适合用于探索虚假新闻的识别方法，如基于文本内容、发布时间、来源等多维度特征的分析，帮助用户实现对虚假信息的有效甄别和过滤，提升信息接收的准确性和可靠性。

数据与资源

versions_20250408054028.zipZIP
153.09 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	153.09 MiB
最后更新	2025年5月29日
创建于	2025年5月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。