数据集概述
该数据集是《Korpuslinguistik(narr Starter)》教材的配套材料,包含一百五十篇德语美食博客文章及相关元数据、标注文件。数据格式多样,为德语美食博客文本的语言学分析提供了结构化与非结构化相结合的资源。
文件详解
该数据集包含五个文件,具体说明如下:
- 文本集合文件:
- Foodblog-Korpus.zip:压缩包格式,内含一百五十篇德语美食博客文章。
- foodblogs_all.txt:TXT格式,所有文章的合并文本文件,用于WebLicht平台上传。
- 元数据文件:
- Foodblog-Korpus_Metadaten.csv:CSV格式,含文本ID、文件名、博客名称、作者性别、文章标题等元数据字段。
- Foodblog-Korpus_Metadaten.xlsx:Excel格式,内容与CSV元数据文件一致。
- 标注文件:
- Textteile.xlsx:Excel格式,CATMA工具导出的手动文本片段标注文件。
数据来源
Andresen, Melanie und Heike Zinsmeister(2019)《Korpuslinguistik(narr Starter)》配套材料
适用场景
- 德语语言学研究:分析美食博客文本的词汇、句法特征。
- 语料库语言学教学:作为教材配套数据,支持语料库工具实操训练。
- 文本标注研究:基于手动标注数据探索美食领域文本的语义结构。
- 数字人文分析:挖掘德语美食博客的作者特征与内容主题分布。