数据集 - 海数据

HTR_Based_中世纪拉丁及法语手稿文档识别模型数据集

2026年1月30日 30 145 113

数据集概述本数据集用于训练和评估适用于拉丁及法语中世纪文档手稿的手写文本识别（HTR）模型，包含12-15世纪的宪章、登记簿等手稿数据，涉及1855页、12万行文本及近100万字符，整合了Alcar-HOME、e-NDP、Himanis三个开源真实语料库，支持多语言多字体识别，可用于中世纪文献的数字化处理。文件详解 GT_list：...

ZIP

Gado2_Based_荷属东印度群岛多语言报纸手写文本识别标注数据集

2026年1月26日 30 140 91

数据集概述本数据集包含Gado2命名实体处理应用的手写文本识别（HTR）标注数据，覆盖荷属东印度群岛及印度尼西亚的多语言报纸。因扫描质量问题，光学字符识别（OCR）错误率较高，而HTR将字符错误率（CER）降至0.5%以下，提升了命名实体识别（NER）效率。数据集含41个文件，包括无错误的全标注文件及印尼实体知识库。文件详解...

ZIP

Okralact_Tesseract_Based_OCR引擎训练模型数据

2026年1月22日 30 101 81

数据集概述本数据集为基于Okralact训练的Tesseract OCR引擎模型，包含模型文件与元数据文件，字符错误率为1.24%。数据集共2个文件，无目录层级，主要文件类型为ZIP压缩包和JSON，可用于OCR识别相关的模型部署与性能分析。文件详解 metadata.json 文件格式：JSON...