数据集

德国新闻文章内容分类数据集-dirkbahle

德国新闻文章内容分类数据集-dirkbahle 数据来源：互联网公开数据标签：德国新闻,新闻文章,文本分析,自然语言处理,内容分类,新闻爬取,文本数据,时事新闻数据概述：本数据集包含了从多个德语新闻网站抓取的新闻文章内容。数据来源于一个可扩展的爬虫管道，该管道通过提供新闻网站的URL来抓取和提取数据。数据集主要从15个新闻来源抓取文章，覆盖较长时间段；另有33个新闻来源仅用于测试。数据集旨在展示该管道的强大功能和灵活性。

数据包含以下字段：

text：文章正文内容，以字符串形式存储。 tags：文章标签，可选项。 Ausland：标记为“Ausland”（国外）的文章，标记为1，否则为0。 Deutschland：标记为“Deutschland”（德国）的文章，标记为1，否则为0。 Wirtschaft：标记为“Wirtschaft”（经济）的文章，标记为1，否则为0。 Panorama：标记为“Panorama”（全景）的文章，标记为1，否则为0。 Sport：标记为“Sport”（体育）的文章，标记为1，否则为0。 Coronavirus：标记为“Coronavirus”（新冠疫情）的文章，标记为1，否则为0。 Berlin：标记为“Berlin”（柏林）的文章，标记为1，否则为0。 Politik：标记为“Politik”（政治）的文章，标记为1，否则为0。 news：标记为“news”（新闻）的文章，标记为1，否则为0。

数据用途概述：该数据集适用于多种研究和应用场景，尤其适用于文本分析、自然语言处理和信息检索等领域。具体应用包括：新闻文章分类、主题建模、情感分析、信息提取、新闻推荐系统构建等。研究人员可以利用此数据集进行文本挖掘，分析德国新闻媒体的报道内容和趋势，也可以用于训练和评估文本分类模型。此外，该数据集也为语言学研究、社会学研究等提供了丰富的文本资源。

数据与资源

versions_20250407064119.zipZIP
88.59 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	88.59 MiB
最后更新	2025年6月1日
创建于	2025年6月1日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

德国新闻文章内容分类数据集-dirkbahle

数据与资源

附加信息

注册成功！