-
HTR_Based_中世纪拉丁及法语手稿文档识别模型数据集
2026年1月30日 30 145 113
数据集概述 本数据集用于训练和评估适用于拉丁及法语中世纪文档手稿的手写文本识别(HTR)模型,包含12-15世纪的宪章、登记簿等手稿数据,涉及1855页、12万行文本及近100万字符,整合了Alcar-HOME、e-NDP、Himanis三个开源真实语料库,支持多语言多字体识别,可用于中世纪文献的数字化处理。 文件详解 GT_list:...
-
Gado2_Based_荷属东印度群岛多语言报纸手写文本识别标注数据集
2026年1月26日 30 140 91
数据集概述 本数据集包含Gado2命名实体处理应用的手写文本识别(HTR)标注数据,覆盖荷属东印度群岛及印度尼西亚的多语言报纸。因扫描质量问题,光学字符识别(OCR)错误率较高,而HTR将字符错误率(CER)降至0.5%以下,提升了命名实体识别(NER)效率。数据集含41个文件,包括无错误的全标注文件及印尼实体知识库。 文件详解...
-
Okralact_Tesseract_Based_OCR引擎训练模型数据
2026年1月22日 30 101 81
数据集概述 本数据集为基于Okralact训练的Tesseract OCR引擎模型,包含模型文件与元数据文件,字符错误率为1.24%。数据集共2个文件,无目录层级,主要文件类型为ZIP压缩包和JSON,可用于OCR识别相关的模型部署与性能分析。 文件详解 metadata.json 文件格式:JSON...
-
深度学习模型训练评估指标数据集
2025年7月21日 30 200 31
深度学习模型训练评估指标数据集_Deep_Learning_Model_Training_Evaluation_Metrics 数据来源:互联网公开数据 标签:深度学习, 模型评估, 文本识别, 机器翻译, 训练日志, 性能分析, 交叉熵, 字符错误率 数据概述:...



