数据集 - 海数据

Tesseract_Based_阿尔萨斯方言OCR训练模型数据集

2026年1月28日 30 115 53

数据集概述本数据集包含为阿尔萨斯方言开发的两个Tesseract OCR训练模型，由法国ANR资助的RESTAURE项目生成。模型分别针对Tesseract 3.0x和4.0x版本训练，基于不同训练文本和方法构建，配套字典数据来自多类阿尔萨斯语料库与词典，可用于阿尔萨斯方言文本的光学字符识别。文件详解 ISKO_2015.zip 文件格式：ZIP...

ZIP

Okralact_Tesseract_Based_OCR引擎训练模型数据

2026年1月22日 30 183 20

数据集概述本数据集为基于Okralact训练的Tesseract OCR引擎模型，包含模型文件与元数据文件，字符错误率为1.24%。数据集共2个文件，无目录层级，主要文件类型为ZIP压缩包和JSON，可用于OCR识别相关的模型部署与性能分析。文件详解 metadata.json 文件格式：JSON...

ZIP

Pracalit_OCR_Based梵语与纽瓦手稿OCR模型真值数据_持续更新

2026年1月20日 30 25 19

数据集概述本数据集为Pracalit字体梵语与纽瓦手稿OCR模型的真值数据，包含PNG和XML文件，将持续更新。基于四份尼泊尔手稿的Pracalit Unicode转录文本创建，用于训练Transkribus平台的PyLaia模型，涵盖16至19世纪的梵语与纽瓦语手稿，支持古文字OCR模型的开发与优化。文件详解...

ZIP

SurveySet_OCR与OMR问卷数字化数据集

2025年12月20日 30 168 111

数据集概述该数据集为SurveySet，是基于真实客户体验问卷构建的数据集，用于支持统一OCR-OMR模型的开发与评估。包含手写数字、勾选标记、叉号、部分填充气泡等文本与视觉输入类型，反映实体问卷的多样性与结构变异性。文件详解文件名称: SurveySet.zip 文件格式: ZIP压缩包内容说明:...

ZIP

塞维利亚古版书字符分割与识别数据集1494_1500

2025年12月11日 30 71 43

数据集概述该数据集包含针对1494-1500年塞维利亚古版书（INC/901）的字符分割与光学字符识别模型，基于Kraken工具训练，含62页、5556行数据，字体类型为97G，分割符合SegmOnto词汇标准。文件详解文件名称: inc_901_zenodo.zip 文件格式: ZIP压缩包内容说明:...

ZIP

欧盟车牌图像数据集

2025年12月6日 30 206 43

数据集概述该数据集包含来自欧盟（主要为德国）的车辆车牌裁剪图像，涵盖德国多个州的车牌样本，可用于训练车牌检测、提取及OCR模型，支持贴纸检测与州分类模型开发。文件详解文件名称: eu-license-plates-0.0.1.zip 文件格式: .zip（压缩包）内容说明:...

ZIP

希腊议会二战后会议记录分析与识别数据集1946_1947

2025年12月5日 30 197 58

数据集概述该数据集通过文本识别与自然语言处理技术，解锁1946-1947年希腊议会会议记录的历史语料。包含经Transkribus训练的文本识别模型处理的3156张扫描图像，以及通过语言模型优化、信息提取技术分析的演讲数据，首次量化了获得掌声的议题。文件详解文件名称: README.md，文件格式: Markdown，内容:...

ZIP

找到7个数据集

注册成功！