找到576个数据集

标签: 语料库建设

过滤结果
  • Ugric_Based历史语言学词汇表同源词研究数据

    2026年1月31日   

    数据集概述 本数据集是论文《Drastic demographic events triggered the Uralic spread》的附录,包含仅在匈牙利语与汉特语、曼西语中出现的Ugric同源词词汇表,为Uralic语系传播相关的历史语言学研究提供基础词汇数据支撑。 文件详解 文件名称:Ugric_vocabulary.xlsx...
    packageimg
  • VeLeRo_Based_罗马尼亚语动词屈折词库数据

    2026年1月31日   

    数据集概述 本数据集为VeLeRo,即标准罗马尼亚语的屈折动词词库,包含7297个动词的完整语音形式词形变化范式,提供词元级和词形单元级频率数据。数据集共10个文件,涵盖数据文件、文档、代码及元数据等类型,支持罗马尼亚语形态学研究与分析。 文件详解 数据文件(CSV格式,共5个)...
    packageimg
  • Bangla_Based_孟加拉语信息检索测试集数据

    2026年1月31日   

    数据集概述 本数据集为孟加拉语信息检索测试集,包含1182份文档(182份泰戈尔的短篇故事、小说、散文,1000份2013年《普罗托姆·阿洛》报纸文章)、94条不同复杂度的查询及查询-文档相关性判断,填补了孟加拉语信息检索标准数据集的空白。 文件详解 文件名称:README.txt 文件格式:TXT...
    packageimg
  • GRETIL_Based印度语言电子文本TEI数据集

    2026年1月31日   

    数据集概述 本数据集为GRETIL(哥廷根印度语言电子文本注册库)的TEI格式数据,包含一百零一份印度语言电子文本文件,均为XML格式,无目录层级划分,未进行训练测试、数据标签或原始处理数据的拆分,可用于印度语言文献的数字化研究与分析。 文件详解 数据文件 文件名称:包含sa_bAdarAyaNa-...
    packageimg
  • Kpelle_Mano_语半自发话语标注论文补充数据

    2026年1月31日   

    数据集概述 本数据集为待评审论文的补充材料,包含Kpelle语和Mano语的半自发话语标注内容,提供一份结构化的语言数据文件,支持相关语言学研究与分析。 文件详解 文件名称:all_data_submission.xlsx 文件格式:XLSX...
    packageimg
  • 加泰罗尼亚语_中文平行句子机器翻译评估数据集_测试版

    2026年1月31日   

    数据集概述 本数据集包含来自加泰罗尼亚语维基新闻、加泰罗尼亚语维基百科和西班牙语维基导游的平行句子,共一千零二十二条。数据涵盖加泰罗尼亚语、西班牙语及对应的GPT-4生成中文翻译和人工修订中文翻译,覆盖科学技术、文化、经济等十大主题,可用于机器翻译模型评估与强化学习人类偏好数据研究。 文件详解 文件名称:test.json 文件格式:JSON...
    packageimg
  • 胡氏儒艮螳螂亚属补充材料_2_两栖动物分类学研究数据

    2026年1月31日   

    数据集概述 本数据集为ZooKeys发表的Huicundomantis亚属(Pristimantis属)系统学研究的补充材料2,记录该亚属物种的分布等相关信息,包含1个文件,用于支持两栖动物分类学研究。 文件详解 文件名称:oo_322433.xlsx 文件格式:XLSX...
    packageimg
  • ILR_RAS_新约多谓词原因结构语境数据库_1_1版

    2026年1月31日   

    数据集概述 本数据集为新约文本中含多谓词原因结构的语境数据库,包含1630个原因语境(来自1504个经文),通过俄、英、法三种语言新约译本的原因连词自动提取并人工编辑生成,可用于单语言及类型学研究。另含86个语境的试点标注子样本,标注内容包括语义语用类型与信息结构。 文件详解 主数据库文件...
    packageimg
  • English_Yoruba_英语到约鲁巴语翻译数据集

    2026年1月31日   

    数据集概述 本数据集为英语到约鲁巴语的翻译数据,适用于Android手机的短消息服务语音和文本翻译场景,包含1个文件,无目录结构,主要文件格式为.xlsx。 文件详解 文件名称:Updated Translation Datasets.xlsx 文件格式:XLSX...
    packageimg
  • enviPath_PFAS_BART_原始实验数据文件

    2026年1月30日   

    数据集概述 本数据集为enviPath平台下PFAS物质的BART实验原始数据文件集合,包含75个XLSX格式文件,无目录结构。文件命名多含作者、年份及PFAS物质标识,覆盖醚类PFAS、FTMAC、FTUCA等多种物质的实验数据,可用于PFAS相关的环境分析研究。 文件详解 数据文件...
    packageimg
  • 黑洞物理_SXS_BBH_0742_双黑洞系统模拟数据

    2026年1月30日   

    数据集概述 本数据集为SXS:BBH:0742双黑洞系统的数值模拟结果,由SpEC代码演化生成,包含36个文件,涵盖.h5格式科学文件和.json格式数据文件各18个,无目录层级结构。数据记录了双黑洞系统的初始参数、轨道演化及引力波应变等核心信息,是黑洞物理与引力波研究的基础数据。 文件详解 科学文件(.h5格式,18个)...
    packageimg
  • Oupoco_Based_法语十四行诗库_文学创作数据

    2026年1月30日   

    数据集概述 本数据集是Oupoco项目框架下开发的法语十四行诗库,包含四千八百七十首十四行诗,主要来自十九世纪至二十世纪初。涵盖七百六十七位作者,其中男性作者六百六十位(四千四百一十二首)、女性作者一百零七位(四百三十九首),另有十九首作者性别未明确。数据可免费复用,支持文学研究、语料库分析等多场景应用。 文件详解 文件名称:oupoco.dtd...
    packageimg
  • NICKLE_Based_韩国英语学习者中介语语料库数据

    2026年1月30日   

    数据集概述 本数据集为NICKLE(Neungyule韩国英语学习者中介语语料库),含约100万词,包含书面和口语内容(比例约9:1),按主题和交际语境分为不同文本类型。语料库未明确标注 proficiency 水平,主要涵盖基础至中级水平,部分含高级文本,可通过来源大学名称或文本长度识别。 文件详解 文件名称:Basic statistical...
    packageimg
  • La_Pola_Siero_西班牙地图第三问方言语料数据

    2026年1月30日   

    数据集概述 本数据集包含与“西班牙地图:第三问”相关的La Pola Siero方言语料,核心为1个docx格式文件,无目录结构及数据拆分,聚焦方言相关内容的记录与呈现。 文件详解 文件名称:Mapa de España.Pregunta3.docx 文件格式:docx 字段映射介绍:无明确字段划分,为单一文档文件,内容围绕“西班牙地图:第三问”的La...
    packageimg
  • LAGT_Based_多源整合古希腊文本语料库_v4_1

    2026年1月30日   

    数据集概述 本数据集为LAGT(lemmatized ancient Greek texts)古希腊文本语料库,整合自Perseus数字图书馆、First 1000 Years of...
    packageimg
  • DBNL_Based荷兰数字化图书OCR与校正文本数据集

    2026年1月30日   

    数据集概述 本数据集包含荷兰DBNL平台数字化的220本图书的OCR相关数据,涵盖原始OCR输出文本、校正后的TEI格式文本及元数据,共3个文件,用于图书数字化文本的存储与处理。 文件详解 文件名称:Metadata_DBNL_OCR_v1.xlsx 文件格式:XLSX 字段映射介绍:包含数据集的元数据信息,具体字段未提供预览 文件名称:TXT.zip...
    packageimg
  • TLS_Based_中国语言学词库_2024_07_23

    2026年1月30日   

    数据集概述 本数据集为中国语言学词库(Thesaurus Linguae Sericae, TLS)的互联Markdown文件压缩包,包含一份2024年7月23日的词库数据压缩文件,无额外目录结构,主要用于语言学研究与词库应用场景。 文件详解 文件名称:tls-md-2024-07-23.zip 文件格式:ZIP...
    packageimg
  • Pyu_Based骠铭文语料库XML数据20180326

    2026年1月30日   

    数据集概述 本数据集为骠铭文语料库的XML压缩文件,包含由Arlo Griffiths、Marc Miyake和Julian K. Wheatley完成的骠铭文转写内容,语料库通过指定网址持续更新。每个XML文件对应一份骠铭文,转写中用C表示未知辅音、V表示未知元音,为骠铭文研究提供结构化文本资源。 文件详解 文件名称:Corpus of Pyu...
    packageimg
  • 梵蒂冈教皇文件的语料库语言学分析_1967年至2020年

    2026年1月30日   

    数据集概述 本数据集是对1967至2020年梵蒂冈教宗通谕、宗座劝谕和世界传播日致辞的语料库语言学分析结果。包含两个阶段:先是通过软件识别量化大众媒体与新媒体技术相关术语,后深入研究“媒体”术语的演变,包括相关动词的筛选、分类及伦理特征分析。 文件详解 文件名称:Papal Communication - WCD Messages - Media-...
    packageimg
  • La_Pola_Siero_西班牙地图_问题4_语料数据

    2026年1月30日   

    数据集概述 本数据集包含与“西班牙地图:问题4”相关的语料数据,源自La Pola Siero地区的语言材料,以单一文档形式呈现,未进行训练/测试、数据/标签或原始/处理等类型的划分。 文件详解 文件名称:Mapa de España.Pregunta4.docx 文件格式:DOCX...
    packageimg