-
新皮塔瓦尔刑事案例集1842_1890
2025年12月22日 30 180 115
数据集概述 本数据集是《新皮塔瓦尔》(1842-1890)刑事案例集的数字化文本语料库,包含五七百个来自不同国家、不同时期的刑事案例,共六十卷,由数字人文合作项目采用校正OCR技术处理,为相关文学语料库分析研究提供基础数据。 文件详解 该数据集主要包含一个ZIP压缩包文件,具体说明如下: - 文件名称: DerNeuePitaval_v1.2.zip...
-
缅因州法律索引数据集
2025年12月20日 30 14 9
数据集概述 本数据集是Local Geohistory Project的一部分,旨在传播美国缅因州的法律索引数据。内容聚焦1820至1957年间的私人与特别法律,不包含法律全文或链接,因OCR技术可能存在未捕获的错误。 文件详解 文件名称: localgeohistoryproject/law-indexes-maine-v1.1.1.zip...
-
InftyMCCDB_2数学表达式数据集
2025年12月18日 30 200 143
数据集概述 该数据集是InftyCDB-2的修改版本,包含扫描文章页面中的数学表达式。原始数据含21,056个表达式,经去除矩阵和网格公式后保留19,381个,覆盖213个符号类,按符号与关系类分布划分为训练集(12,551张图像)和测试集(6,830张图像),表达式符号数量平均为7.33个。 文件详解 压缩文件包: LG_test.zip:...
-
葡萄牙语发票收据图像及字段标注数据集
2025年12月14日 30 127 88
数据集概述 该数据集包含八百一十三张葡萄牙语的私人公司发票与收据图像,以及对应文本文件,记录了销售方名称、地址、税号、购买方税号、发票日期、总金额、税额和文档编号等关键字段的转录信息。 文件详解 1_Images.zip:压缩文件,包含所有发票与收据的图像文件,格式未提及。...
-
CIS_OCR工作坊早期印刷品OCR与后校正数据集
2025年12月12日 30 195 88
数据集概述 本数据集包含2015年在慕尼黑LMU举办的CIS OCR工作坊资料,聚焦数字人文领域早期印刷品的OCR技术与后校正方法,以压缩包形式存储,为相关技术研究提供参考资料。 文件详解 文件名称:OCR-Workshop-v1.0.zip 文件格式:ZIP压缩包...
-
十诫表格_卡纳达语
2025年12月6日 30 169 99
数据集概述 该数据集包含以卡纳达语呈现的十诫文本,同时提供了对应的英文说明。数据以图像文件和三维模型文件形式存储,涵盖了十诫的核心内容,为研究宗教文本的多语言呈现提供支持。 文件详解 图像文件(共5个,.jpeg格式):...
-
跑步比赛号码识别OCR数据集-2023-trainingdatapro
2025年5月7日 30 79 17
跑步比赛号码识别OCR数据集-2023-trainingdatapro 数据来源:互联网公开数据 标签:比赛号码识别,OCR技术,跑步赛事,计算机视觉,图像标注,文本检测,文本识别,马拉松,比赛号码检测,图像数据集,文本提取 数据概述:...
-
越南高考考生答题卡图像与成绩数据集VietnamNationalHighSchoolExamAnswerSheetImageandScore-tuan10201
2025年5月5日 30 76 48
越南高考考生答题卡图像与成绩数据集VietnamNationalHighSchoolExamAnswerSheetImageandScore-tuan10201 数据来源:互联网公开数据 标签:高考, 答题卡, 图像识别, OCR, 成绩分析, 越南, 教育, 数据集 数据概述:...
-
FAST-NU院校指南信息提取数据集-ahmedembedded
2025年4月23日 30 44 37
FAST-NU院校指南信息提取数据集-ahmedembedded 数据来源:互联网公开数据 标签:FAST-NU,院校指南,OCR技术,学术项目,录取标准,课程详情,教育研究,数据科学,机器学习,信息提取 数据概述: 本数据集包含从FAST-NU(巴基斯坦国家科学技术大学基金会)院校指南中提取的文本数据,利用Tesseract...
-
光学字符识别火车文本检测数据集
2025年4月15日 30 165 152
光学字符识别火车文本检测数据集 数据来源:互联网公开数据 标签:OCR技术,火车识别,文本检测,图像标注,计算机视觉,交通数据,铁路运输,文字识别,对象检测 数据概述:...
-
匈牙利电子采购合同数据集
2025年4月14日 30 19 18
匈牙利电子采购合同数据集 数据来源:互联网公开数据 标签:匈牙利,电子采购,合同数据,OCR技术,文本提取,日期,价格,参与方 数据概述: 本数据集包含从匈牙利电子采购系统下载的135份合同文件,这些合同文件最初为PDF格式,后使用Tesseract...



