找到2个数据集

标签: 语言资源保护

过滤结果
  • dsfsi_Based非洲语言新闻语料库2022

    2026年2月1日 30 150 110

    数据集概述 本数据集为2022年的isiZulu新闻(含文章及标题)与Siswati新闻(仅标题)语料库,包含相关非洲语言的新闻文本资源,支持非洲语言的自然语言处理研究,数据集以单个压缩文件形式呈现。 文件详解 文件名称:dsfsi/za-isizulu-siswati-news-2022-v0.9.5.zip 文件格式:ZIP...
    packageimg
  • Tesseract_Based_阿尔萨斯方言OCR训练模型数据集

    2026年1月28日 30 179 174

    数据集概述 本数据集包含为阿尔萨斯方言开发的两个Tesseract OCR训练模型,由法国ANR资助的RESTAURE项目生成。模型分别针对Tesseract 3.0x和4.0x版本训练,基于不同训练文本和方法构建,配套字典数据来自多类阿尔萨斯语料库与词典,可用于阿尔萨斯方言文本的光学字符识别。 文件详解 ISKO_2015.zip 文件格式:ZIP...
    packageimg