找到15个数据集

格式: ZIP 标签: 语料资源

过滤结果
  • ALT_Based_亚洲语言树库项目缅甸语树库数据

    2026年1月31日 30 152 58

    数据集概述 本数据集是亚洲语言树库(ALT)项目下的缅甸语树库,包含约2万句从英文维基新闻翻译而来的缅甸语句子,由NICT和UCSY联合开发,遵循CC BY-NC-SA 4.0许可协议,为缅甸语自然语言处理研究提供结构化语料资源。 文件详解 压缩文件 文件名称:my-alt-190530.zip 文件格式:ZIP...
    packageimg
  • dsfsi_Based非洲语言新闻语料库2022

    2026年2月1日 30 176 118

    数据集概述 本数据集为2022年的isiZulu新闻(含文章及标题)与Siswati新闻(仅标题)语料库,包含相关非洲语言的新闻文本资源,支持非洲语言的自然语言处理研究,数据集以单个压缩文件形式呈现。 文件详解 文件名称:dsfsi/za-isizulu-siswati-news-2022-v0.9.5.zip 文件格式:ZIP...
    packageimg
  • LIM_SOAS_Based藏语动词配价可视化词典数据

    2026年1月31日 30 33 24

    数据集概述 本数据集包含支撑《藏语动词配价可视化词典》的JSON格式数据及其说明文档,由英国研究与创新署(UKRI)资助、伦敦大学亚非学院(SOAS)开展的“动态词典学:藏语动词史”(LIM)项目产出,总计包含两个文件。 文件详解 数据文件 文件名称:LIM_TibetanVerbValencyDictionary_data.json...
    packageimg
  • TuReV_Corpus_突尼斯革命在线新闻报道语料库

    2026年1月30日 30 128 21

    数据集概述 本数据集为TuReV语料库,收录了关于突尼斯革命的在线新闻报道文本,是用于自然语言处理(NLP)研究的单文件语料库资源,可支持对突尼斯革命相关新闻内容的文本分析任务。 文件详解 文件名称:corpus TuReV.docx 文件格式:DOCX...
    packageimg
  • Parabank_Based_黎巴嫩亲属称谓范式标注完整数据

    2026年1月29日 30 2 1

    数据集概述 本数据集为Parabank项目中按亲属称谓范式标注的黎巴嫩亲属称谓数据,记录了符合该范式的黎巴嫩亲属称谓信息,可用于语言学领域中亲属称谓系统的研究,仅包含一个文件。 文件详解 文件名称:Parabank_Lebanese.xlsx 文件格式:XLSX...
    packageimg
  • novel_request_Based_十部小说中文请求句语料数据

    2026年1月27日 30 207 174

    数据集概述 本数据集包含从十部小说中提取的中文请求句语料,核心内容为小说中的请求类句子集合,可用于中文自然语言处理领域的相关研究,数据集仅包含一个文件。 文件详解 文件名称:corpus novel_request.xlsx 文件格式:XLSX 字段映射介绍:未提供具体字段信息,文件内容为从十部小说中提取的中文请求句语料集合 适用场景...
    packageimg
  • KDPII_Based_韩语对话文本PII去标识化数据集_Revised

    2026年1月21日 30 68 20

    数据集概述 本数据集为KDPII数据集,是针对韩语对话文本的个人可识别信息(PII)去标识化任务构建的新型数据集。包含丰富的韩语对话文本,整合了大量韩语PII实例,旨在解决韩语隐私保护领域语言模型训练资源不足的问题,为韩语PII去标识化技术研发提供支撑。 文件详解 文件名称:PII_dataset_V3.json 文件格式:JSON...
    packageimg
  • Jack_the_Ripper_Corpus_开膛手杰克信件语料库数据v1_0

    2026年1月20日 30 90 72

    数据集概述 本数据集为开膛手杰克信件语料库v1.0,包含与开膛手杰克相关的信件文本集合,是用于历史研究和文本分析的语料资源。数据集以压缩包形式存储,未进行训练测试、数据标签或原始处理数据的拆分。 文件详解 文件名称:andreanini/jacktherippercorpus-v1.0.zip 文件格式:ZIP(压缩包)...
    packageimg
  • Multi_CAST_Based_多语言口语文本标注语料库_Mandarin_Version2311

    2026年1月4日 30 76 22

    数据集概述 本数据集为Multi-CAST多语言口语标注文本语料库的中文部分,由Maria Vollmer于2023年贡献,收录于Geoffrey Haig和Stefan Schnell主编的语料库版本2311中。数据以压缩包形式提供,是研究中文口语标注文本的基础语料资源。 文件详解 文件名称:Multi-...
    packageimg
  • 古典藏语标注语料库第二部分_词性标注版

    2025年12月22日 30 5 1

    数据集概述 本数据集是基于佛教数字资源中心(BDRC)数字化文本集构建的古典藏语词性标注语料库第二部分,使用TiMBL的基于记忆的标注器(Memory-Based Tagger)完成标注,未经过后处理或人工校正。 文件详解 压缩文件集(共12个,均为.zip格式):...
    packageimg
  • 乌兹别克语生态相关文档_Anvarbekov_Islombek

    2025年12月21日 30 208 205

    数据集概述 该数据集包含一份以乌兹别克语撰写的、主题与生态学相关的文档,文档标题为“O'RMONCHILIKNING EKOLOGIYA UCHUN AHAMIYATI”,可能探讨林业在生态方面的重要性。 文件详解 该数据集包含一个PDF格式的文档文件,具体如下: - 文件名称: Anvarbekov Islombek.pdf - 文件格式: PDF...
    packageimg
  • 中文隐喻语料库

    2025年12月21日 30 182 97

    数据集概述 该数据集为中文隐喻语料库,包含一个压缩文件,未提供训练/测试、数据/标签、原始/处理数据的划分,主要用于隐喻相关的自然语言处理研究与应用。 文件详解 文件名称: ChineseMetaphorCorpus-metaphor.zip 文件格式: ZIP(压缩文件) 内容说明:...
    packageimg
  • 意大利语动词情感推理词典

    2025年12月14日 30 137 47

    数据集概述 本数据集是用于情感推理的意大利语动词词典,包含动词的句法框架、极性、语义效果、关系及示例等信息,部分动词通过同义词框架引用关联,为意大利语文本的情感分析提供结构化动词语义标注支持。 文件详解 文件名称: clicl.pdf 文件格式: PDF 内容说明: 提供数据集理论背景与构建方法的相关论文,解释动词规范的理论基础。 文件名称:...
    packageimg
  • 土佐日记现代日语及英语翻译数据集

    2025年12月12日 30 175 26

    数据集概述 本数据集是《土佐日记》的现代日语及英语翻译文本集合,包含原文及对应翻译内容,以JSON格式存储,涵盖标题、作者、段落文本、假名注音、直译与意译等多维度信息,为古典文学翻译与研究提供结构化资源。 文件详解 该数据集包含一个压缩文件,具体说明如下: - 文件名称: yamagen/tosa-translation-v1.0.0.zip -...
    packageimg
  • 汉乌英三种语言中抽象名词的语义解读数据集

    2025年12月9日 30 63 15

    数据集概述 本数据集聚焦于中文、乌兹别克语和英语三种语言中抽象名词的语义解读研究,以单一PDF文档形式呈现相关研究内容,为跨语言词汇语义对比分析提供资料支持。 文件详解 文件名称: Jabborov Azamat Ashirkul oʽgʽli.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg