塞维利亚古版书字符分割与识别数据集1494_1500

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

塞维利亚古版书字符分割与识别数据集1494_1500

数据集概述

该数据集包含针对1494-1500年塞维利亚古版书（INC/901）的字符分割与光学字符识别模型，基于Kraken工具训练，含62页、5556行数据，字体类型为97G，分割符合SegmOnto词汇标准。

文件详解

文件名称: inc_901_zenodo.zip
文件格式: ZIP压缩包
内容说明: 包含基于Kraken训练的字符识别模型（识别错误率约3%）、基线与区域两种分割模型，以及ALTO格式的真实标签和JPEG格式的图像文件

适用场景

古籍数字化研究: 用于15世纪末西班牙古版书的文本自动识别与数字化处理
字符识别模型优化: 作为训练数据或基准，提升早期印刷字体OCR模型的精度
数字人文分析: 支持基于古版书文本的历史语言学、出版史定量研究
古籍分割标准验证: 验证SegmOnto词汇标准在早期印刷品图像分割中的适用性

数据与资源

7178325.zipZIP
322.33 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	322.33 MiB
最后更新	2025年12月11日
创建于	2025年12月11日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？