找到590个数据集

标签: 语言学研究

过滤结果
  • ParaKar_Based_Livvi_Karelian语音符号名词范式数据

    2026年1月20日   

    数据集概述 本数据集是基于VepKar数据库构建的Livvi Karelian名词范式集合,包含语音符号和正字法符号两种标记形式,符合Paralex标准,适用于计算分析和人工分析场景。数据集仅包含一个压缩文件。 文件详解 文件名称:1.0.2.zip 文件格式:ZIP 字段映射介绍:压缩包内包含Livvi...
    packageimg
  • CONTRAST_IT_Based意大利语新闻语料库数据集2011_2012

    2026年1月20日   

    数据集概述 本数据集为CONTRAST-IT多语言语料库的意大利语部分,包含2011-2012年从意大利三家电子日报(repubblica.it、lastampa.it、corriere.it)采集的531篇真实新闻文章,总计约三十万字,覆盖政治、体育、科技等多个主题,用于多语言对比语言学研究。 文件详解 意大利语新闻文章文件...
    packageimg
  • dictionaria_Based_所罗门群岛Teanu语言词典数据_v1_0

    2026年1月20日   

    数据集概述 本数据集为2021年发布的所罗门群岛Teanu语言词典,由Alexandre François编纂,属于Dictionaria系列第15卷,内容包含1-1877页的词典条目,是研究Teanu语言的重要资源。 文件详解 文件名称:dictionaria/teanu-v1.0.zip 文件格式:ZIP...
    packageimg
  • Areal_diachronic_Slavic_论元标记时空趋势研究修正数据集

    2026年1月20日   

    数据集概述 本数据集是论文《Areal and diachronic trends in argument flagging across Slavic》的修正版数据库,由多所高校及研究机构合作构建,聚焦斯拉夫语系中论元标记的区域分布与历时演变趋势。数据集包含一个文件,为语言学研究提供结构化的分析基础。 文件详解...
    packageimg
  • P_demotion_Extended_Sample_语言学实验扩展样本数据集

    2026年1月20日   

    数据集概述 本数据集是Polonez Bis项目(编号2021/43/P/HS2/01395)的组成部分,由Adam Mickiewicz University的Katarzyna Janic团队创建并填充,数据收集自语法挖掘及语言专家咨询。数据集对应Polonez Bis 1项目的扩展样本,包含1个Excel文件,当前处于待调整状态。 文件详解...
    packageimg
  • El_habla_de_La_Pola_Siero_阿斯图里亚斯地图问题1语料

    2026年1月19日   

    数据集概述 本数据集为拉波拉谢罗方言语料,围绕阿斯图里亚斯地图问题1展开,包含1个文档文件,无训练/测试、数据/标签、原始/处理数据的划分,文档类型单一,无额外说明或预览内容。 文件详解 文件名称:Mapa de Asturias.Pregunta1.docx 文件格式:DOCX...
    packageimg
  • IMTVault_Based_低资源语言语际标注文本提取与富集数据集_2022

    2026年1月19日   

    数据集概述 本数据集为IMTVault,主要内容是从语法描述和类型学调查文章中提取并富集的低资源语言语际标注文本。数据集由1个压缩文件构成,无训练测试、数据标签或原始处理数据的拆分,适用于低资源语言的语言学研究与资源开发。 文件详解 文件名称:cldf-datasets/imtvault-v1.2.zip 文件格式:ZIP...
    packageimg
  • Assimilation_Directionality_希腊语与德语词典条目数据

    2026年1月19日   

    数据集概述 本数据集包含带有[x]或[c]标记的希腊语与德语词典条目数据,聚焦于同化方向性主题。数据集仅含一个文件,无分层目录结构,未划分训练测试集、数据标签集或原始处理集,主要文件类型为.xlsx。 文件详解 文件名称:directionality of assimilation.data.xlsx 文件格式:XLSX...
    packageimg
  • Pragmatic_Failures_Based_约旦跨文化交际语用失误研究数据

    2026年1月19日   

    数据集概述 本数据集围绕约旦跨文化交际中的语用失误展开,以文档形式呈现相关研究证据,聚焦跨文化交际场景下语用失误的具体表现与案例,为语言学及跨文化研究提供实证素材。 文件详解 文件名称:Data set 2.docx 文件格式:DOCX...
    packageimg
  • Alpha_Bantu_Tone_2_班图语声调研究主要描述性来源文献目录数据_V2

    2026年1月18日   

    数据集概述 本数据集为班图语声调研究的文献目录数据,是数据库Alpha版本的第二版,收录了班图语声调研究的主要描述性来源文献信息,为语言学研究提供结构化的文献参考资料,包含1个压缩文件。 文件详解 文件名称:AlphaBantuDatabase-2.zip 文件格式:ZIP...
    packageimg
  • Hypocoristic_Truncation_Sardinian_语言学研究数据集

    2026年1月18日   

    数据集概述 本数据集是用于语言学研究的撒丁岛昵称截断数据,对应论文Cabré, Teresa等人的相关研究。数据聚焦撒丁岛语言中昵称的截断现象,为分析该语言现象提供结构化资料,仅包含一个文件。 文件详解 文件名称:dataset_Hypocoristic_truncation_in_Sardinian.xlsx 文件格式:XLSX...
    packageimg
  • Hunter_Gatherer_Based_语言数据库衍生CLDF数据集_2021版

    2026年1月18日   

    数据集概述 本数据集是基于Bowern等人2021年的《Hunter-Gatherer Language Database》生成的CLDF格式数据集,包含1个压缩文件,旨在为语言学研究提供结构化的狩猎采集者语言相关数据,便于跨研究场景的复用与分析。 文件详解 压缩文件 文件名称:lexibank/huntergatherer-v2.1.zip...
    packageimg
  • Navzájem_vzájemně_and_spolu_Based_捷克语互惠标记词分类研究数据

    2026年1月11日   

    数据集概述 本数据集围绕捷克语中"navzájem/vzájemně"和"spolu"作为互惠标记词的用法展开,包含4个文件,按标记词的基本与非基本属性分类,用于语言学领域对捷克语互惠标记词的语法功能研究。 文件详解 数据文件组(共4个.xlsx文件) 文件名称:navzájem-vzájemně as a non-basic marker.xlsx...
    packageimg
  • Jordanian_Arabic_Based_自闭症儿童所有格代词使用研究数据集

    2026年1月15日   

    数据集概述 本数据集围绕自闭症谱系障碍儿童对约旦阿拉伯语所有格代词的使用展开,包含1份文档文件,用于支持相关语言学研究,为分析自闭症儿童语言特征提供基础数据。 文件详解 文件名称:dataset.docx 文件格式:DOCX 字段映射介绍:未提供文件内容预览,推测包含与自闭症谱系障碍儿童使用约旦阿拉伯语所有格代词相关的研究数据或分析内容。 适用场景...
    packageimg
  • lexibank_Based_手语传播进化动力学研究CLDF数据集_v1_0_2

    2026年1月15日   

    数据集概述 本数据集是CLDF格式的压缩包文件,为研究“手语传播的进化动力学”提供支持。数据来自lexibank项目,包含1个压缩文件,未划分训练/测试集或原始/处理数据,整体结构简洁,便于语言学领域的相关研究使用。 文件详解 压缩文件 文件名称:lexibank/powerma-v1.0.2.zip 文件格式:ZIP...
    packageimg
  • Observations_Based_英法俄snowclones句法结构观察数据

    2026年1月15日   

    数据集概述 本数据集为硕士论文配套数据,聚焦snowclones(部分填充且具有文化辨识度的句式结构)的句法结构研究,涵盖法语、英语、俄语三种语言,呈现snowclones在词汇变量层面的范式变异及句法形式层面的组合变异。 文件详解 文件名称:Discussion autour de la forme des snowclones.xlsx...
    packageimg
  • IN01033_Sanskrit_XML_Devarahalli授权文书梵语文本

    2026年1月15日   

    数据集概述 本数据集包含IN01033编号的Devarahalli授权文书(Mandhatrraja统治第5年)的梵语XML文件,无附加元数据。文件记录了该历史授权文书的原始梵语文本内容,为研究古代梵语铭文和历史授权制度提供数字化文本资源。 文件详解 文件名称:IN01033.xml 文件格式:XML...
    packageimg
  • IN02068_EpiDoc_Bhrngaresvara寺庙铭文梵语XML草稿数据

    2026年1月15日   

    数据集概述 本数据集包含IN02068编号的Bhrngaresvara寺庙铭文的梵语XML文件,为EpiDoc格式的草稿版本,计划纳入"Siddham"档案。数据无元数据,仅包含一份核心文件,用于历史铭文的数字化存储与文本分析。 文件详解 文件名称:IN02068.xml 文件格式:XML...
    packageimg
  • ESRC_Paradigms_in_use_俄语名词语法功能屈折类文本频率研究数据

    2026年1月15日   

    数据集概述 本数据集由ESRC资助项目“Paradigms in use”创建,包含俄语名词相关的语法功能、屈折类及文本频率数据,以8个Excel表格形式存储,仅保留文本中出现至少5次的词位,排除低频次词位以避免统计误差。 文件详解 文件名称:paradigms-in-use-data.zip 文件格式:ZIP...
    packageimg
  • Multi_CAST_Nafsan_Based多语言口语文本标注语料库数据2311

    2026年1月15日   

    数据集概述 本数据集为Multi-CAST多语言口语文本标注语料库的一部分,具体包含Nafsan语言的口语文本标注数据。该语料库由班贝格大学发布,属于Multi-CAST项目的2311版本,是多语言口语文本资源的重要组成部分。 文件详解 压缩文件 文件名称:mcnafsan-v2311.zip 文件格式:ZIP 字段映射介绍:压缩包内包含Multi-...
    packageimg