找到188个数据集

标签: 语言研究

过滤结果
  • 北萨米语广播字幕语料库_2021_2024

    2026年2月1日 0 185 169

    数据集概述 本数据集为北萨米语YLE Areena字幕语料库,包含2021年3月31日至2024年11月15日期间从YLE Sápmi广播收集的北萨米语字幕句子,涵盖完整句子、句子ID及来源元数据,可用于北萨米语语言研究与资源开发。 文件详解 文件名称:sami_subtitles.json 文件格式:JSON...
    packageimg
  • eBL_Based_楔形文字符号OCR识别结果数据

    2026年1月31日 0 58 43

    数据集概述 本数据集是电子巴比伦图书馆团队通过OCR模型对eBL平台约七万五千张楔形文字泥板照片进行识别的结果。尽管设置了高阈值以提升准确率,仍提取出约一百二十二万四千一百零九个符号。数据集包含一个JSON文件,无目录结构,未区分训练/测试、数据/标签或原始/处理数据。 文件详解 文件名称:eBL_OCRed_Signs.json 文件格式:JSON...
    packageimg
  • VeLeSpa_Spanish_西班牙语动词词库数据

    2026年1月31日 30 160 150

    数据集概述 本数据集为VeLeSpa,是半岛西班牙语的动词词库,包含六百五十五三个动词的全部六十三个音系形式词形变化范式,以及对应的词目级和词形级频率数据。数据集共包含十个文件,涵盖数据表格、说明文档、代码文件等类型。 文件详解 数据文件(CSV格式) 文件名称:VeLeSpa_cells.csv、VeLeSpa_features-...
    packageimg
  • La_Pola_Siero_西班牙地图第三问方言语料数据

    2026年1月30日 30 201 133

    数据集概述 本数据集包含与“西班牙地图:第三问”相关的La Pola Siero方言语料,核心为1个docx格式文件,无目录结构及数据拆分,聚焦方言相关内容的记录与呈现。 文件详解 文件名称:Mapa de España.Pregunta3.docx 文件格式:docx 字段映射介绍:无明确字段划分,为单一文档文件,内容围绕“西班牙地图:第三问”的La...
    packageimg
  • CLDF_Based_南美低地语言比较词表数据集2024

    2026年1月30日 30 94 38

    数据集概述 本数据集为CLDF格式,源自Blum等人2024年的研究,包含用于探究南美低地语言间远亲关系的比较词表。数据以压缩包形式存储,可支持语言亲缘关系分析、词汇比较研究等应用。 文件详解 压缩包文件 文件名称:pano-tacanan-history/blumpanotacana-v1.2.zip 文件格式:ZIP...
    packageimg
  • CLDF_Ivani_Suansu基础词汇数据集2019

    2026年1月30日 30 119 27

    数据集概述 本数据集是基于Ivani 2019年关于印度东北部藏缅语族语言Suansu的基础词汇研究形成的CLDF格式数据集,核心内容为Suansu语言的基础词汇信息,为语言研究提供结构化资源。 文件详解 文件名称:lexibank/ivanisuansu-v2.0.zip 文件格式:ZIP...
    packageimg
  • La_Pola_Siero_西班牙地图_问题4_语料数据

    2026年1月30日 30 142 65

    数据集概述 本数据集包含与“西班牙地图:问题4”相关的语料数据,源自La Pola Siero地区的语言材料,以单一文档形式呈现,未进行训练/测试、数据/标签或原始/处理等类型的划分。 文件详解 文件名称:Mapa de España.Pregunta4.docx 文件格式:DOCX...
    packageimg
  • Kam_Niger_Congo_Based语言比较词表数据

    2026年1月30日 30 198 55

    数据集概述 本数据集是基于莱比锡-雅加达词表收集的比较词表,用于对比Kam语与其他尼日尔-刚果语族语言的基础词汇。包含文献中已有的多种原始语言(如Jukunoid、Mumuyic、原始班图语等)的重构数据,以及作者对尼日尔-刚果语族、贝努埃-刚果语支等的准重构内容和同源词判断,仅包含一个文件。 文件详解 文件名称:Lesage2024-Kam-...
    packageimg
  • Kessler_Based_词表显著性统计分析数据集2001

    2026年1月29日 30 160 0

    数据集概述 本数据集基于Kessler 2001年的研究《The Significance of Wordlists》构建,属于CLDF格式数据集。核心内容围绕词表的统计显著性分析展开,包含一个压缩文件,用于支持词表相关的统计研究与分析工作。 文件详解 压缩文件...
    packageimg
  • eWAVE_Based_英语变体电子世界地图集数据集2013

    2026年1月29日 30 167 26

    数据集概述 本数据集为《英语变体电子世界地图集》(eWAVE 2.0)的归档文件,由Kortmann与Lunkenheimer主编,2013年发布于马克斯·普朗克进化人类学研究所。数据包含英语变体相关内容,以压缩包形式提供,支持语言研究领域对全球英语变体的分析与参考。 文件详解 文件名称:ewave-v2013.zip 文件格式:ZIP(压缩归档文件)...
    packageimg
  • OWT_Tag_Based_奥克语传统书面民间故事词性标注语料库

    2026年1月28日 30 183 147

    数据集概述 本数据集包含5篇奥克语传统书面民间故事文本摘录,均按照Grace标准进行了词元与词性的人工标注。文本摘录自J.-F. Bladé、J.-V. Lalanne等作者的民间故事集,每篇约1500词,用于评估奥克语词性标注工具Talismane针对OcOr语料库的性能,由ExpressioNarration项目产出。 文件详解 文件名称:OWT-...
    packageimg
  • CLDF_JIPA_Based_IPA期刊音位清单数据集2021

    2026年1月28日 30 160 122

    数据集概述 本数据集为CLDF格式,包含从《国际语音协会期刊》(Journal of the IPA)中提取的音位清单数据,由Baird等人于2021年整合。数据基于《北风与太阳》文本采样,可用于语言学领域中音位系统的研究与分析,共包含一个压缩文件。 文件详解 文件名称:cldf-datasets/jipa-v1.0.zip 文件格式:ZIP...
    packageimg
  • Source_Concepts_Based非洲语言源概念研究数据

    2026年1月28日 30 106 91

    数据集概述 本数据集是论文“Mouths, tongues, and ears: Source concepts for 'language' across Africa”配套的Excel表格数据,包含非洲语言中“语言”相关源概念的研究数据,共1个文件,用于支撑非洲语言概念系统的分析研究。 文件详解...
    packageimg
  • srWac_Based_塞尔维亚_克罗地亚语重音标准动词发音数据库

    2026年1月27日 30 89 27

    数据集概述 本数据集为塞尔维亚语标准塞尔维亚-克罗地亚语中3000个最常用动词的重音标注数据库,收录了来自尼什、博尔和扎耶查尔的四位重音标准使用者对每个动词的限定式和非限定式发音及重音位置标注,旨在呈现该语言的重音标准情况。 文件详解 文件名称:Stress_standard_Serbian_3000verbs.xlsx 文件格式:XLSX...
    packageimg
  • ANU_Based_澳大利亚语言词汇表方案整合数据_20181101

    2026年1月23日 30 121 59

    数据集概述 本数据集是澳大利亚语言各类“基础词汇表”的Excel汇编,整合了多位作者的研究成果,对英文注释及参考代码进行了对齐,并添加了来自ANU语言学网站的语义编码,为澳大利亚语言词汇研究提供结构化参考。 文件详解 文件名称:various_wordlist_schemes_20181101.xlsx 文件格式:XLSX...
    packageimg
  • CLDF_Derived_声音象征类型学语义与语音特征数据集2020

    2026年1月23日 30 133 14

    数据集概述 本数据集是基于Johansson等人2020年发表的《声音象征类型学》研究生成的CLDF格式数据集,核心内容为通过语义和语音特征定义宏观概念的声音象征类型学研究数据,包含一个压缩文件,便于语言类型学领域的研究与分析。 文件详解 压缩文件 文件名称:lexibank/johanssonsoundsymbolic-v1.3.zip...
    packageimg
  • Broken_English_Experiment_Master_Data

    2026年1月21日 30 108 102

    数据集概述 本数据集为Broken English实验专用的主数据,包含实验所需的核心基础数据,无额外目录结构,仅提供一个文件,支持相关语言实验的基础数据调用与分析。 文件详解 文件名称:Master_Data.xlsx 文件格式:XLSX 字段映射介绍:未提供具体字段信息,为Broken English实验的主数据文件,需结合实验背景使用。 适用场景...
    packageimg
  • Thorsten_Voice_Based_黑森方言语音数据集2023_09

    2026年1月21日 30 120 89

    数据集概述 本数据集为Thorsten-Voice项目的一部分,聚焦德语黑森方言(Hessisch),包含2108条语音短语。语音由Thorsten Müller录制,Dominik Kreutz优化音频,采用LJSpeech结构,采样率22.050Hz,单声道,归一化至-24dB,无首尾静音,以CC0协议开放授权。 文件详解...
    packageimg
  • ElarArchive_dk0071_Dalabon语言占位词使用偏好数据

    2026年1月21日 30 184 148

    数据集概述 本数据集来自Ponsonnet的Dalabon语料库,记录了澳大利亚Gunwinyguan语系Dalabon语言中占位词keninjhbi及其变体的使用实例,用于研究该语言中占位词使用的个体偏好特征,包含2个数据文件。 文件详解 文件名称:Ponsonnet data set 2401026.ods 文件格式:ODS...
    packageimg
  • ParaKar_Based_Livvi_Karelian语音符号名词范式数据

    2026年1月20日 30 94 8

    数据集概述 本数据集是基于VepKar数据库构建的Livvi Karelian名词范式集合,包含语音符号和正字法符号两种标记形式,符合Paralex标准,适用于计算分析和人工分析场景。数据集仅包含一个压缩文件。 文件详解 文件名称:1.0.2.zip 文件格式:ZIP 字段映射介绍:压缩包内包含Livvi...
    packageimg