找到3个数据集

标签: OCR处理

过滤结果
  • Astronomia_nova_Kepler著作预处理文本机器学习数据集

    2026年1月21日 30 183 166

    数据集概述 本数据集为开普勒《新天文学》(Astronomia nova)的预处理文本语料库,源自Donahue翻译的2015年修订版,经OCR和自动化文本处理生成UTF8编码的机器可读纯文本,移除特殊字符、引用标记等,保留部分OCR误差。包含3个文件,用于机器学习场景。 文件详解 readme.md 文件格式:MD...
    packageimg
  • 希腊教父文献集_Patrologia_Graeca_OCR化与分析文本数据集

    2025年12月18日 30 139 83

    数据集概述 本数据集是CGPG项目(Calfa GREgORI Patrologia Graeca)的成果,旨在对《希腊教父文献集》(Patrologia Graeca)未数字化的卷册进行OCR处理。数据集包含带有语言学标记的Sketch Engine XML文件,为研究古希腊语文献提供数字化资源支持。 文件详解 文件名称: PG.zip 文件格式:...
    packageimg
  • Poa_secunda亚种分类学补充材料2018

    2025年12月10日 30 44 35

    数据集概述 本数据集为2018年发表的Poa secunda亚种分类学研究的补充材料,包含David D. Keck对原归为P. ampla、P. canbyi等8个类群的标本注释列表,覆盖美国西部为主的北美地区标本记录,经OCR处理便于检索。 文件详解 文件名称: oo_240281.pdf 文件格式: PDF 文件内容: 包含David D....
    packageimg