虚假新闻文本分类数据集FakeNewsTextClassificationDataset-buvanaar

虚假新闻文本分类数据集FakeNewsTextClassificationDataset-buvanaar

数据来源:互联网公开数据

标签:虚假新闻, 文本分类, 新闻分析, 自然语言处理, 机器学习, 情感分析, 舆情分析, 数据标注

数据概述: 该数据集包含来自新闻网站的虚假新闻文本,记录了新闻标题、正文内容、主题、发布日期以及标签等信息,用于虚假新闻的识别与分析。主要特征如下: 时间跨度:数据集包含新闻的发布日期信息,时间跨度未知,但可根据日期字段进行分析。 地理范围:数据可能来源于全球范围的新闻网站,但具体来源未明确。 数据维度:包括“title”(新闻标题)、“text”(新闻正文)、“subject”(新闻主题)、“date”(发布日期)、“label”(标签,指示新闻真伪)等字段,以及大量未命名的字段。 数据格式:CSV格式,文件名为combined_fake_news new.csv,方便进行文本处理和数据分析。 来源信息:数据来源于公开新闻网站,已进行一定程度的整理和标注。 该数据集适合用于文本分类、自然语言处理和机器学习等研究领域。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于虚假新闻检测、情感分析、文本摘要等研究,以及探索新闻内容与传播规律。 行业应用:可为新闻媒体、社交平台、内容审核机构提供数据支持,用于自动化内容过滤、风险预警等。 决策支持:支持政府部门、监管机构制定相关政策,打击虚假信息传播,维护网络环境。 教育和培训:作为自然语言处理、机器学习等课程的实训材料,帮助学生理解文本分类、数据标注等技术。 此数据集特别适合用于研究虚假新闻的传播模式、识别关键特征,并开发有效的检测模型,从而提升新闻内容的真实性与可靠性。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 40.87 MiB
最后更新 2025年5月28日
创建于 2025年5月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。