找到8个数据集

分类: 公开数据 标签: OCR技术

过滤结果
  • TEI_XML_OGD_苏黎世州政府决议数字化档案数据集_1887_1902

    2026年1月20日 30 156 61

    数据集概述 本数据集包含1887至1902年苏黎世州政府决议的TEI-XML文件,源自政府会议记录的转录与格式转换。数据覆盖政治决策及日常事务等广泛主题,约4万份文件,按档案原卷册结构组织,含决议元数据及正文内容,为历史研究提供结构化政府档案资源。 文件详解 主文件:TKR_RRB_1887-1902_OCR_NER.zip 文件格式:ZIP(压缩包)...
    packageimg
  • Local_Geohistory_Project_Based_康涅狄格州法律索引数据1789_1943

    2026年1月3日 30 31 8

    数据集概述 本数据集是Local Geohistory Project的一部分,旨在传播康涅狄格州的法律索引数据,涵盖1789年至1943年的私人和特殊法律。这类法律针对特定个人、实体或地区,是新英格兰地区调整市政边界和政府形式的主要方式。数据集包含一个TSV格式的法律索引文件,无法律全文或链接。 文件详解 文件名称:law-indexes-...
    packageimg
  • 新皮塔瓦尔刑事案例集1842_1890

    2025年12月22日 30 116 44

    数据集概述 本数据集是《新皮塔瓦尔》(1842-1890)刑事案例集的数字化文本语料库,包含五七百个来自不同国家、不同时期的刑事案例,共六十卷,由数字人文合作项目采用校正OCR技术处理,为相关文学语料库分析研究提供基础数据。 文件详解 该数据集主要包含一个ZIP压缩包文件,具体说明如下: - 文件名称: DerNeuePitaval_v1.2.zip...
    packageimg
  • 缅因州法律索引数据集

    2025年12月20日 30 30 13

    数据集概述 本数据集是Local Geohistory Project的一部分,旨在传播美国缅因州的法律索引数据。内容聚焦1820至1957年间的私人与特别法律,不包含法律全文或链接,因OCR技术可能存在未捕获的错误。 文件详解 文件名称: localgeohistoryproject/law-indexes-maine-v1.1.1.zip...
    packageimg
  • InftyMCCDB_2数学表达式数据集

    2025年12月18日 30 183 59

    数据集概述 该数据集是InftyCDB-2的修改版本,包含扫描文章页面中的数学表达式。原始数据含21,056个表达式,经去除矩阵和网格公式后保留19,381个,覆盖213个符号类,按符号与关系类分布划分为训练集(12,551张图像)和测试集(6,830张图像),表达式符号数量平均为7.33个。 文件详解 压缩文件包: LG_test.zip:...
    packageimg
  • 葡萄牙语发票收据图像及字段标注数据集

    2025年12月14日 30 132 70

    数据集概述 该数据集包含八百一十三张葡萄牙语的私人公司发票与收据图像,以及对应文本文件,记录了销售方名称、地址、税号、购买方税号、发票日期、总金额、税额和文档编号等关键字段的转录信息。 文件详解 1_Images.zip:压缩文件,包含所有发票与收据的图像文件,格式未提及。...
    packageimg
  • CIS_OCR工作坊早期印刷品OCR与后校正数据集

    2025年12月12日 30 143 101

    数据集概述 本数据集包含2015年在慕尼黑LMU举办的CIS OCR工作坊资料,聚焦数字人文领域早期印刷品的OCR技术与后校正方法,以压缩包形式存储,为相关技术研究提供参考资料。 文件详解 文件名称:OCR-Workshop-v1.0.zip 文件格式:ZIP压缩包...
    packageimg
  • 十诫表格_卡纳达语

    2025年12月6日 30 207 179

    数据集概述 该数据集包含以卡纳达语呈现的十诫文本,同时提供了对应的英文说明。数据以图像文件和三维模型文件形式存储,涵盖了十诫的核心内容,为研究宗教文本的多语言呈现提供支持。 文件详解 图像文件(共5个,.jpeg格式):...
    packageimg