塞维利亚古版书字符分割与识别数据集1494_1500

数据集概述

该数据集包含针对1494-1500年塞维利亚古版书(INC/901)的字符分割与光学字符识别模型,基于Kraken工具训练,含62页、5556行数据,字体类型为97G,分割符合SegmOnto词汇标准。

文件详解

  • 文件名称: inc_901_zenodo.zip
  • 文件格式: ZIP压缩包
  • 内容说明: 包含基于Kraken训练的字符识别模型(识别错误率约3%)、基线与区域两种分割模型,以及ALTO格式的真实标签和JPEG格式的图像文件

适用场景

  • 古籍数字化研究: 用于15世纪末西班牙古版书的文本自动识别与数字化处理
  • 字符识别模型优化: 作为训练数据或基准,提升早期印刷字体OCR模型的精度
  • 数字人文分析: 支持基于古版书文本的历史语言学、出版史定量研究
  • 古籍分割标准验证: 验证SegmOnto词汇标准在早期印刷品图像分割中的适用性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 322.33 MiB
最后更新 2025年12月11日
创建于 2025年12月11日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。