数据集

巴西新闻真伪识别数据集BrazilianNewsFakeNewsDetection-ojoaugusto

数据来源：互联网公开数据

标签：假新闻检测, 文本分类, 自然语言处理, 巴西新闻, 情感分析, 机器学习, 数据预处理, 新闻语料

数据概述：该数据集包含来自巴西新闻网站的预处理新闻文章，用于训练和评估假新闻检测模型。主要特征如下：时间跨度：数据未明确标注时间，可视为静态语料库。地理范围：数据主要来源于巴西新闻，内容涉及巴西政治、社会、经济等领域。数据维度：数据集包含三个字段：index（文章索引），label（新闻标签，"fake"表示假新闻，其他标签未在样例中体现），preprocessed_news（预处理后的新闻内容）。数据格式：CSV格式，文件名为pre-processed.csv，便于文本分析和机器学习任务。数据已进行预处理，适合直接用于模型训练。来源信息：数据来源于公开网络资源，具体来源未在提供的描述中指明，但已进行预处理，包括文本清洗、分词等。该数据集适合用于假新闻检测、文本分类、自然语言处理等研究领域，以及相关模型的开发和评估。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于假新闻检测、文本情感分析、信息传播模式分析等学术研究，可以探索不同特征对新闻真伪判断的影响。行业应用：为新闻媒体、社交平台等提供数据支持，可用于构建自动化的假新闻过滤系统，提升信息内容的质量。决策支持：支持政府机构、社会组织等对虚假信息的监测和治理，帮助制定应对策略，维护信息环境的健康。教育和培训：作为自然语言处理、机器学习等课程的实训材料，用于学生和研究人员进行模型训练、算法验证和实践操作。此数据集特别适合用于研究巴西新闻语境下的假新闻识别问题，探索不同预处理方法和模型对检测效果的影响，并为构建高效的假新闻检测系统提供数据基础。

数据与资源

巴西新闻真伪识别数据集BrazilianNewsFakeNewsDetection-ojoau...ZIP
6.58 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	6.58 MiB
最后更新	2025年5月17日
创建于	2025年5月17日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。