德国新闻文章内容分类数据集-dirkbahle
数据来源:互联网公开数据
标签:德国新闻,新闻文章,文本分析,自然语言处理,内容分类,新闻爬取,文本数据,时事新闻
数据概述:
本数据集包含了从多个德语新闻网站抓取的新闻文章内容。数据来源于一个可扩展的爬虫管道,该管道通过提供新闻网站的URL来抓取和提取数据。数据集主要从15个新闻来源抓取文章,覆盖较长时间段;另有33个新闻来源仅用于测试。数据集旨在展示该管道的强大功能和灵活性。
数据包含以下字段:
text:文章正文内容,以字符串形式存储。
tags:文章标签,可选项。
Ausland:标记为“Ausland”(国外)的文章,标记为1,否则为0。
Deutschland:标记为“Deutschland”(德国)的文章,标记为1,否则为0。
Wirtschaft:标记为“Wirtschaft”(经济)的文章,标记为1,否则为0。
Panorama:标记为“Panorama”(全景)的文章,标记为1,否则为0。
Sport:标记为“Sport”(体育)的文章,标记为1,否则为0。
Coronavirus:标记为“Coronavirus”(新冠疫情)的文章,标记为1,否则为0。
Berlin:标记为“Berlin”(柏林)的文章,标记为1,否则为0。
Politik:标记为“Politik”(政治)的文章,标记为1,否则为0。
news:标记为“news”(新闻)的文章,标记为1,否则为0。
数据用途概述:
该数据集适用于多种研究和应用场景,尤其适用于文本分析、自然语言处理和信息检索等领域。具体应用包括:新闻文章分类、主题建模、情感分析、信息提取、新闻推荐系统构建等。研究人员可以利用此数据集进行文本挖掘,分析德国新闻媒体的报道内容和趋势,也可以用于训练和评估文本分类模型。此外,该数据集也为语言学研究、社会学研究等提供了丰富的文本资源。