数据集概述
本数据集为ICDAR'25历史地图文本竞赛提供训练与验证数据,包含从Val de Marne档案馆拿破仑地籍地图裁剪的2K×2K图像切片,含训练集228张切片、验证集25张切片及对应标注文件,是2024版数据集的扩展与优化版本。
文件详解
- 训练集文件
- 文件名称:ign25_train.zip、ign25_train.json
- 文件格式:ZIP(图像)、JSON(标注)
- 内容说明:包含228张2K×2K历史地图切片图像,标注覆盖25,564个文字实例,含23,542个标签组、1,684个模糊词、1,351个截断词及23,880个有效词
- 验证集文件
- 文件名称:ign25_val.zip、ign25_val.json
- 文件格式:ZIP(图像)、JSON(标注)
- 内容说明:包含25张2K×2K历史地图切片图像,标注覆盖2,725个文字实例,含2,413个标签组、274个模糊词、129个截断词及2,451个有效词
数据来源
Val de Marne档案馆拿破仑地籍地图(截至2024年12月11日可通过https://archives.valdemarne.fr获取原始图像)
适用场景
- 历史地图文本检测算法训练:用于训练模型识别历史地图中的文字区域
- 历史地图文本识别模型验证:通过验证集评估模型对模糊、截断文字的识别精度
- 地图文本链接任务研究:基于标注的标签组探索历史地图文字与地理实体的关联方法
- 竞赛算法开发:为ICDAR'25历史地图文本竞赛参赛团队提供标准化训练验证数据