-
dsfsi_Based非洲语言新闻语料库2022
2026年2月1日 30 150 110
数据集概述 本数据集为2022年的isiZulu新闻(含文章及标题)与Siswati新闻(仅标题)语料库,包含相关非洲语言的新闻文本资源,支持非洲语言的自然语言处理研究,数据集以单个压缩文件形式呈现。 文件详解 文件名称:dsfsi/za-isizulu-siswati-news-2022-v0.9.5.zip 文件格式:ZIP...
-
Tesseract_Based_阿尔萨斯方言OCR训练模型数据集
2026年1月28日 30 179 174
数据集概述 本数据集包含为阿尔萨斯方言开发的两个Tesseract OCR训练模型,由法国ANR资助的RESTAURE项目生成。模型分别针对Tesseract 3.0x和4.0x版本训练,基于不同训练文本和方法构建,配套字典数据来自多类阿尔萨斯语料库与词典,可用于阿尔萨斯方言文本的光学字符识别。 文件详解 ISKO_2015.zip 文件格式:ZIP...



