德国新闻文章内容分类数据集-dirkbahle

德国新闻文章内容分类数据集-dirkbahle 数据来源:互联网公开数据 标签:德国新闻,新闻文章,文本分析,自然语言处理,内容分类,新闻爬取,文本数据,时事新闻 数据概述: 本数据集包含了从多个德语新闻网站抓取的新闻文章内容。数据来源于一个可扩展的爬虫管道,该管道通过提供新闻网站的URL来抓取和提取数据。数据集主要从15个新闻来源抓取文章,覆盖较长时间段;另有33个新闻来源仅用于测试。数据集旨在展示该管道的强大功能和灵活性。

数据包含以下字段:

text:文章正文内容,以字符串形式存储。 tags:文章标签,可选项。 Ausland:标记为“Ausland”(国外)的文章,标记为1,否则为0。 Deutschland:标记为“Deutschland”(德国)的文章,标记为1,否则为0。 Wirtschaft:标记为“Wirtschaft”(经济)的文章,标记为1,否则为0。 Panorama:标记为“Panorama”(全景)的文章,标记为1,否则为0。 Sport:标记为“Sport”(体育)的文章,标记为1,否则为0。 Coronavirus:标记为“Coronavirus”(新冠疫情)的文章,标记为1,否则为0。 Berlin:标记为“Berlin”(柏林)的文章,标记为1,否则为0。 Politik:标记为“Politik”(政治)的文章,标记为1,否则为0。 news:标记为“news”(新闻)的文章,标记为1,否则为0。

数据用途概述: 该数据集适用于多种研究和应用场景,尤其适用于文本分析、自然语言处理和信息检索等领域。具体应用包括:新闻文章分类、主题建模、情感分析、信息提取、新闻推荐系统构建等。研究人员可以利用此数据集进行文本挖掘,分析德国新闻媒体的报道内容和趋势,也可以用于训练和评估文本分类模型。此外,该数据集也为语言学研究、社会学研究等提供了丰富的文本资源。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 88.59 MiB
最后更新 2025年6月1日
创建于 2025年6月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。