-
ICDAR2019后OCR文本校正竞赛数据集
2025年12月19日 30 118 42
数据集概述 该数据集为ICDAR2019后OCR文本校正竞赛的语料库,包含约2200万字符的OCR文本及对应标准文本(GS),源自法国国家图书馆、大英图书馆等机构的数字馆藏,用于训练和评估后OCR文本校正方法。 文件详解...
-
维基文库标题草稿数据集ZhWikiSourceTitleDraftDataset-raynardj
2025年5月29日 30 69 61
维基文库标题草稿数据集ZhWikiSourceTitleDraftDataset-raynardj 数据来源:互联网公开数据 标签:维基文库,标题,草稿,文本分析,自然语言处理,数据集,中文,语料库 数据概述: 该数据集包含来自维基文库(ZhWikiSource)的标题草稿数据,记录了维基文库中标题草稿的详细信息。主要特征如下:...



