HTRD_Based_15世纪德语散文文本重用检测评估数据集

数据集概述

本数据集为15世纪德语散文文本重用检测(HTRD)的评估集,包含两篇采用TEI标准标注的文本:《科隆荆棘冠》和《科隆圣城编年史》。标注内容涵盖文本重用实例的分类与链接,文本为里普利安方言,存在拼写变体及手写文本识别(HTR)转录错误,适用于历史文本重用检测方法的评估。

文件详解

  • 文件名称:Evaluation_Set_for_Historical_Text_Reuse_Detection.xml
  • 文件格式:XML
  • 字段映射介绍:采用TEI标准格式,包含两篇15世纪德语散文文本的内容,以及文本重用(TR)实例的标注信息,包括重用实例的分类、链接关系等结构化数据;文本因HTR转录存在拼写变体和错误。

适用场景

  • 历史文本重用检测方法评估:用于验证和测试HTRD计算工具在中世纪德语文本中的检测性能。
  • 历史语言学研究:分析15世纪里普利安方言的拼写变体及文本传承特征。
  • 数字人文研究:支持中世纪文献文本关系的自动化分析与可视化。
  • 手写文本识别(HTR)误差影响研究:探究HTR转录错误对文本重用检测任务的干扰机制。
packageimg

数据与资源

该数据集没有数据

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.0 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。