-
越南语OCR文字识别数据集
2026年2月28日 30 94 92
越南语OCR文字识别数据集_Vietnamese_OCR_Text_Recognition_Dataset 数据来源:互联网公开数据 标签:OCR, 文字识别, 越南语, 图像处理, 深度学习, 数据集, 文本识别, 自然语言处理 数据概述:...
-
DBNL_Based荷兰数字化图书OCR与校正文本数据集
2026年1月30日 30 148 63
数据集概述 本数据集包含荷兰DBNL平台数字化的220本图书的OCR相关数据,涵盖原始OCR输出文本、校正后的TEI格式文本及元数据,共3个文件,用于图书数字化文本的存储与处理。 文件详解 文件名称:Metadata_DBNL_OCR_v1.xlsx 文件格式:XLSX 字段映射介绍:包含数据集的元数据信息,具体字段未提供预览 文件名称:TXT.zip...
-
基于柏林国家图书馆历史报纸的OCR_OLR系统训练与评估真实数据集
2026年1月27日 30 34 2
数据集概述 本数据集包含柏林国家图书馆50页数字化历史报纸的真值数据,用于OCR/OLR系统的训练与评估,由欧盟ICT-PSP项目Europeana Newspapers产出。数据集含PAGE-XML格式真值文件、全分辨率及二值化扫描图像、对应OCR结果等5个压缩包,为历史报纸文本识别技术提供标准化测试资源。 文件详解 gt_page.zip...
-
Gado2_Based_荷属东印度群岛多语言报纸手写文本识别标注数据集
2026年1月26日 30 48 9
数据集概述 本数据集包含Gado2命名实体处理应用的手写文本识别(HTR)标注数据,覆盖荷属东印度群岛及印度尼西亚的多语言报纸。因扫描质量问题,光学字符识别(OCR)错误率较高,而HTR将字符错误率(CER)降至0.5%以下,提升了命名实体识别(NER)效率。数据集含41个文件,包括无错误的全标注文件及印尼实体知识库。 文件详解...
-
Tansey_Lab_PBMC海马线粒体应激测试OCR和ECAR数据
2026年1月23日 30 100 3
数据集概述 本数据集由Tansey Lab提供,包含人外周血单个核细胞(PBMCs)通过海马(Seahorse)线粒体应激测试获得的细胞耗氧率(OCR)和细胞外酸化率(ECAR)数据。数据集仅含一个文件,可用于分析PBMCs的线粒体功能状态及代谢特征。 文件详解 文件名称:ECAR and OCR PBMCs_ASAP_FINAL.xlsx...
-
Hofdiarium_1665_Based德累斯顿宫廷日记库兰特手写体基准数据集
2026年1月19日 30 188 124
数据集概述 本数据集为17世纪萨克森库兰特手写体的手写文本识别(HTR/OCR)基准数据集,包含《选帝侯约翰·格奥尔格二世1665年宫廷日记》(SLUB Mscr.Dresd.K.80)的10页(fol.85r-89v)基准数据,采用eScriptorium完成图像与文本对齐,提供多种格式文件及转录指南。 文件详解 压缩包文件...
-
德累斯顿宫廷日记1673年手写文本识别基准数据集
2025年12月19日 30 69 38
数据集概述 本数据集包含1673年《德累斯顿选帝侯约翰·格奥尔格二世宫廷日记》的二十页手写文本基准数据,采用17世纪末萨克森典型楷书体书写,偶见混合字体。提供与原始图像对齐的转录文本及元数据,支持手写文本识别模型训练与评估。 文件详解 该数据集包含三类文件,具体说明如下: - 图像文件(20个): - 文件格式:JPG(.jpg) -...
-
长链脂肪酸合成酶17β_HSD12对乳腺癌细胞增殖迁移影响研究图6数据集
2025年12月24日 30 89 68
数据集概述 本数据集为研究长链脂肪酸合成酶17β‑HSD12对乳腺癌细胞增殖、迁移影响的论文图6对应数据,包含原始图像及细胞组学扫描、氧消耗率、细胞外酸化率、Western blot等实验的CSV格式原始数据,支持相关机制研究。 文件详解 该数据集包含46个文件,按类型及内容分类说明如下: - 原始图像文件: -...
-
InftyMCCDB_2数学表达式数据集
2025年12月18日 30 100 52
数据集概述 该数据集是InftyCDB-2的修改版本,包含扫描文章页面中的数学表达式。原始数据含21,056个表达式,经去除矩阵和网格公式后保留19,381个,覆盖213个符号类,按符号与关系类分布划分为训练集(12,551张图像)和测试集(6,830张图像),表达式符号数量平均为7.33个。 文件详解 压缩文件包: LG_test.zip:...
-
桑托斯盆地地表水微塑料污染初步评估补充材料表格S2
2025年12月14日 30 53 48
数据集概述 该数据集为《桑托斯盆地地表水微塑料污染初步评估:巴西最重要油气勘探中心的丰度与多样性》一文的补充材料表格S2,内容为海洋人为垃圾的尺寸范围分类,为研究该区域微塑料污染提供基础数据支持。 文件详解 文件名称: Ferreira & Lôbo-Hajdu Table S2_OCR.pdf 文件格式: PDF (.pdf) 文件内容:...
-
CIS_OCR工作坊早期印刷品OCR与后校正数据集
2025年12月12日 30 98 1
数据集概述 本数据集包含2015年在慕尼黑LMU举办的CIS OCR工作坊资料,聚焦数字人文领域早期印刷品的OCR技术与后校正方法,以压缩包形式存储,为相关技术研究提供参考资料。 文件详解 文件名称:OCR-Workshop-v1.0.zip 文件格式:ZIP压缩包...
-
长链脂肪酸合成酶17β_HSD12对乳腺癌细胞增殖迁移影响图5数据集
2025年12月7日 30 68 10
数据集概述 本数据集为研究长链脂肪酸合成酶17β‑HSD12对乳腺癌细胞增殖与迁移影响的图5相关数据,包含实验原始图像、氧消耗率(OCR)和细胞外酸化率(ECAR)原始数据及实验元数据,支持相关实验结果的复现与分析。 文件详解 该数据集包含13个文件,具体说明如下: - 图像文件: -...
-
桑托斯盆地微塑料污染形态丰度补充材料_Figure_S7_2020_2021
2025年12月7日 30 105 57
数据集概述 本数据集为《桑托斯盆地地表水微塑料污染初步评估》研究的补充材料,包含2020-2021年冬夏两季桑托斯盆地地表水微塑料颗粒形态丰度的分析图表Figure S7,用于展示不同季节微塑料形态分布特征。 文件详解 文件名称:Ferreira & Lôbo-Hajdu_Figure S7_OCR.pdf 文件格式:PDF...
-
基因组基准数据集版本1
2025年12月4日 30 145 143
数据集概述 该数据集为《Genomic benchmarks: a collection of datasets for genomic sequence classification》手稿中发表的数据集集合,包含27个文件,涉及人类、果蝇等物种的基因组序列分类相关数据,支持基因组序列分类研究。 文件详解 该数据集包含两种格式的文件,具体说明如下: -...
-
图像文字识别数据集
2025年11月12日 30 96 5
图像文字识别数据集_Image_Text_Recognition_Dataset 数据来源:互联网公开数据 标签:OCR, 图像识别, 文字识别, 深度学习, 数据集, 文本标注, 计算机视觉, 机器学习 数据概述: 该数据集包含图像文件及其对应的文本标注,记录了用于训练和评估光学字符识别(OCR)模型的数据。主要特征如下:...
-
字符识别训练数据集
2025年10月27日 30 138 29
字符识别训练数据集_Character_Recognition_Training_Dataset 数据来源:互联网公开数据 标签:字符识别, 图像识别, 机器学习, 计算机视觉, OCR, 数据集, 训练数据, 图像分类 数据概述: 该数据集包含用于训练和评估字符识别模型的图像数据,记录了字符图像及其对应的标签。主要特征如下:...
-
手写英文字符识别图像数据集
2025年10月23日 30 4 1
手写英文字符识别图像数据集_Handwritten_English_Character_Recognition_Image_Dataset 数据来源:互联网公开数据 标签:手写字符识别, OCR, 图像分类, 机器学习, 深度学习, 计算机视觉, 数据集, 字符图像 数据概述:...
-
多模态越南街景OCR数据集
2025年9月20日 30 93 91
多模态越南街景OCR数据集_Multimodal_Vietnamese_Street_Scene_OCR_Dataset 数据来源:互联网公开数据 标签:OCR, 文本识别, 图像标注, 越南, 街景, 多模态, 深度学习, 数据集 数据概述: 该数据集包含来自越南街景的图像数据以及对应的文本标注信息,旨在用于OCR(Optical Character...



