XML_corpus_Based_文学文本XML语料库数据

数据集概述

本数据集为XML格式的文学文本语料库,包含席勒、莱辛、克莱斯特、歌德、蒂克等作家的作品,共56个XML文件,无目录层级结构,未划分训练/测试、数据/标签或原始/处理集,所有文件均为XML格式,其中5个含XML元数据。

文件详解

  • 核心文件:
  • 文件名称:包含Schiller_Verschwoerung.xml、Lessing_Schatz.xml、Lessing_Misogyn.xml、Schiller_JungfrauOrleans.xml、Kleist_Schroffenstein.xml、Goethe_GoetzBerlichingen.xml、Tieck_Genoveva.xml、Goethe_Iphigienie.xml等56个XML文件
  • 文件格式:XML
  • 字段映射介绍:未检测到统一命名模式,包含文学文本内容及相关标记
  • 元数据文件:
  • 文件名称:5个含XML元数据的文件(具体名称未列出)
  • 文件格式:XML
  • 字段映射介绍:包含语料库相关的元数据信息

数据来源

TextGrid(授权协议CC-BY 3.0),由Katrin Dennerlein博士整合

适用场景

  • 文学文本分析: 用于席勒、歌德等作家作品的文本内容研究与分析
  • 数字人文研究: 基于XML格式的文学语料开展计算机语言学或数字人文领域的研究
  • 语料库构建参考: 为同类文学语料库的构建提供XML格式组织的示例
  • 文本标记语言应用: 研究XML在文学文本存储与处理中的应用场景
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 32.73 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。