GreetingsFrom_Based历史明信片地址转录数据集2023

数据集概述

本数据集包含500张具有历史意义的明信片背面的地址转录数据,覆盖比利时、法国、德国、卢森堡、荷兰和英国六个国家。数据集提供人类标注的Ground Truth(GT)和手写文本识别(HTR)两种转录版本,用于历史明信片地址信息的提取研究。

文件详解

  • GreetingsFrom_GT.zip
  • 文件格式:ZIP
  • 内容包含:500张明信片的JPEG图像、TXT格式转录文本、TEI XML格式转录文件、带转录的PDF展示文件、METS XML元数据文件、page文件夹(含单张图像的XML元数据)、metadata.xml数据集元数据、GT_addresses_GPT4.json结构化地址数据文件
  • GreetingsFrom_HTR.zip
  • 文件格式:ZIP
  • 内容包含:500张明信片的JPEG图像、TXT格式转录文本、TEI XML格式转录文件、带转录的PDF展示文件、METS XML元数据文件、page文件夹(含单张图像的XML元数据)、metadata.xml数据集元数据、HTR_addresses_GPT4.json结构化地址数据文件
  • GT_addresses_GPT4.json
  • 文件格式:JSON
  • 内容介绍:由人类标注的GT转录数据经GPT-4处理后生成的结构化地址数据,包含每张明信片的详细地址信息
  • HTR_addresses_GPT4.json
  • 文件格式:JSON
  • 内容介绍:由Transkribus Text Titan I系统生成的HTR转录数据经GPT-4处理后生成的结构化地址数据,包含每张明信片的详细地址信息

适用场景

  • 手写文本识别模型训练与评估:用于训练和测试历史手写地址的文本识别模型,对比HTR系统与人类标注的性能差异
  • 历史地理信息提取:从结构化地址数据中提取历史地址信息,支持历史地理分布研究
  • 历史邮政系统研究:分析不同国家历史明信片的地址格式和书写习惯,探究近代邮政系统的发展
  • 自然语言处理应用:用于训练地址信息抽取、实体识别等自然语言处理模型,优化历史文本的信息提取效果
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 98.7 MiB
最后更新 2026年1月22日
创建于 2026年1月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。