d_Prose德语文学散文文本数据集1870_1920

数据集概述

该数据集包含1870至1920年间出版的2511篇德语文学散文文本,涵盖通俗与高雅文学叙事,单篇文本不少于1000词。数据集经去重、去副文本处理,提供纯文本文件及元数据表格,支持自动化文本分析。

文件详解

  • 文件名称: d-prose_1870-1920_V.2.0.zip:压缩包格式,包含2511篇纯文本散文文件,文本已去除副文本元素(如献词、编者按),仅保留作品标题与正文。
  • 文件名称: d-prose_V2_norm_year.csv:CSV格式元数据文件,字段包括ID、来源库、作者姓名、国籍、性别、作品标题、文件名、出版年份、词数等核心元数据。

数据来源

hermA项目“Gender und Krankheit”子项目

适用场景

  • 德语文学研究:分析19世纪末至20世纪初德语散文的文学风格演变与主题趋势
  • 性别研究:探究该时期不同性别作者的创作特征差异
  • 数字人文分析:基于元数据开展作者国籍、作品长度等变量的统计分析
  • 历史语言学研究:考察1870-1920年德语词汇使用与语言结构变化
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 185.98 MiB
最后更新 2025年12月16日
创建于 2025年12月16日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。