数据集概述
本数据集包含500张具有历史意义的明信片背面的地址转录数据,覆盖比利时、法国、德国、卢森堡、荷兰和英国六个国家。数据集提供人类标注的Ground Truth(GT)和手写文本识别(HTR)两种转录版本,用于历史明信片地址信息的提取研究。
文件详解
- GreetingsFrom_GT.zip
- 文件格式:ZIP
- 内容包含:500张明信片的JPEG图像、TXT格式转录文本、TEI XML格式转录文件、带转录的PDF展示文件、METS XML元数据文件、page文件夹(含单张图像的XML元数据)、metadata.xml数据集元数据、GT_addresses_GPT4.json结构化地址数据文件
- GreetingsFrom_HTR.zip
- 文件格式:ZIP
- 内容包含:500张明信片的JPEG图像、TXT格式转录文本、TEI XML格式转录文件、带转录的PDF展示文件、METS XML元数据文件、page文件夹(含单张图像的XML元数据)、metadata.xml数据集元数据、HTR_addresses_GPT4.json结构化地址数据文件
- GT_addresses_GPT4.json
- 文件格式:JSON
- 内容介绍:由人类标注的GT转录数据经GPT-4处理后生成的结构化地址数据,包含每张明信片的详细地址信息
- HTR_addresses_GPT4.json
- 文件格式:JSON
- 内容介绍:由Transkribus Text Titan I系统生成的HTR转录数据经GPT-4处理后生成的结构化地址数据,包含每张明信片的详细地址信息
适用场景
- 手写文本识别模型训练与评估:用于训练和测试历史手写地址的文本识别模型,对比HTR系统与人类标注的性能差异
- 历史地理信息提取:从结构化地址数据中提取历史地址信息,支持历史地理分布研究
- 历史邮政系统研究:分析不同国家历史明信片的地址格式和书写习惯,探究近代邮政系统的发展
- 自然语言处理应用:用于训练地址信息抽取、实体识别等自然语言处理模型,优化历史文本的信息提取效果