巴西新闻集团新闻文章数据集-2014-2020

巴西新闻集团新闻文章数据集-2014-2020

数据来源:互联网公开数据

标签:新闻,巴西,文章,新闻集团,内容分析,文本挖掘,时事,政治,经济,体育,娱乐

数据概述: 本数据集收录了2014年至2020年期间,从巴西新闻集团(Grupo Globo)旗下网站抓取的新闻文章。 数据集包含超过1万篇文章,涵盖了不同主题和领域的新闻报道。

数据包含以下字段:

  • Data:文章从网站抓取的时间。
  • Url da notíci no web.archive:文章在互联网档案馆(web.archive)中的存档链接。
  • Url da notíci:文章在原始网站上的链接。
  • Título:文章标题。
  • Conteúdo:文章正文内容。
  • Assunto:文章的主题(体育、经济、政治或名人)。

数据集的创建方式: 本数据集是通过一个可以灵活修改的脚本(网络抓取)从网站上抓取数据创建的,该脚本可在提供的Notebook中找到。

数据用途概述: 该数据集主要用于数据科学研究和实践。 可用于文本分析、情感分析、新闻主题分类、趋势分析等多种研究。 例如,研究人员可以利用该数据集分析巴西新闻报道的内容特征、主题分布,以及不同主题新闻在时间上的变化趋势。 此外,该数据集也可用于机器学习模型的训练和测试。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 10.81 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。