ELTE_Poetry_Corpus_Based_匈牙利经典诗歌多维度特征标注完整数据

数据集概述

该数据集为ELTE诗歌语料库,包含匈牙利53位经典诗人的14358首完整诗歌,涵盖词汇语法特征、押韵模式、节奏、头韵等诗歌声音特征,以TEI及非TEI XML格式存储,为诗歌研究提供结构化标注数据。

文件详解

  • 文件名称:poetry-corpus-1.0.zip
  • 文件格式:ZIP压缩包
  • 内部目录及内容:
  • level1:人工校验的TEI XML文件,含诗歌结构单元标注
  • level2:带通用依存语法格式形态句法特征标注的TEI XML文件
  • level2_emMorph:带e-magyar工具emMorph格式形态句法特征标注的TEI XML文件
  • level3:含押韵、节奏、头韵、语音特征、格律等诗歌特征标注的TEI XML文件
  • level4:采用项目自定义非TEI XML格式,含扩展诗歌特征标注的文件

数据来源

Eötvös Loránd University数字人文系

适用场景

  • 计算诗学研究:分析诗歌韵律、格律、语音修辞特征
  • 匈牙利语自然语言处理:训练和测试诗歌文本的语法标注模型
  • 文学数字化研究:探索经典诗歌的结构特征与风格演变
  • 教育与文化遗产保护:为诗歌教学和数字化保存提供标注资源
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 541.85 MiB
最后更新 2025年12月6日
创建于 2025年12月6日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。