-
Tesseract_Based_阿尔萨斯方言OCR训练模型数据集
2026年1月28日 30 115 53
数据集概述 本数据集包含为阿尔萨斯方言开发的两个Tesseract OCR训练模型,由法国ANR资助的RESTAURE项目生成。模型分别针对Tesseract 3.0x和4.0x版本训练,基于不同训练文本和方法构建,配套字典数据来自多类阿尔萨斯语料库与词典,可用于阿尔萨斯方言文本的光学字符识别。 文件详解 ISKO_2015.zip 文件格式:ZIP...
-
Okralact_Tesseract_Based_OCR引擎训练模型数据
2026年1月22日 30 183 20
数据集概述 本数据集为基于Okralact训练的Tesseract OCR引擎模型,包含模型文件与元数据文件,字符错误率为1.24%。数据集共2个文件,无目录层级,主要文件类型为ZIP压缩包和JSON,可用于OCR识别相关的模型部署与性能分析。 文件详解 metadata.json 文件格式:JSON...
-
Pracalit_OCR_Based梵语与纽瓦手稿OCR模型真值数据_持续更新
2026年1月20日 30 25 19
数据集概述 本数据集为Pracalit字体梵语与纽瓦手稿OCR模型的真值数据,包含PNG和XML文件,将持续更新。基于四份尼泊尔手稿的Pracalit Unicode转录文本创建,用于训练Transkribus平台的PyLaia模型,涵盖16至19世纪的梵语与纽瓦语手稿,支持古文字OCR模型的开发与优化。 文件详解...
-
SurveySet_OCR与OMR问卷数字化数据集
2025年12月20日 30 168 111
数据集概述 该数据集为SurveySet,是基于真实客户体验问卷构建的数据集,用于支持统一OCR-OMR模型的开发与评估。包含手写数字、勾选标记、叉号、部分填充气泡等文本与视觉输入类型,反映实体问卷的多样性与结构变异性。 文件详解 文件名称: SurveySet.zip 文件格式: ZIP压缩包 内容说明:...
-
塞维利亚古版书字符分割与识别数据集1494_1500
2025年12月11日 30 71 43
数据集概述 该数据集包含针对1494-1500年塞维利亚古版书(INC/901)的字符分割与光学字符识别模型,基于Kraken工具训练,含62页、5556行数据,字体类型为97G,分割符合SegmOnto词汇标准。 文件详解 文件名称: inc_901_zenodo.zip 文件格式: ZIP压缩包 内容说明:...
-
欧盟车牌图像数据集
2025年12月6日 30 206 43
数据集概述 该数据集包含来自欧盟(主要为德国)的车辆车牌裁剪图像,涵盖德国多个州的车牌样本,可用于训练车牌检测、提取及OCR模型,支持贴纸检测与州分类模型开发。 文件详解 文件名称: eu-license-plates-0.0.1.zip 文件格式: .zip(压缩包) 内容说明:...
-
希腊议会二战后会议记录分析与识别数据集1946_1947
2025年12月5日 30 197 58
数据集概述 该数据集通过文本识别与自然语言处理技术,解锁1946-1947年希腊议会会议记录的历史语料。包含经Transkribus训练的文本识别模型处理的3156张扫描图像,以及通过语言模型优化、信息提取技术分析的演讲数据,首次量化了获得掌声的议题。 文件详解 文件名称: README.md,文件格式: Markdown,内容:...



