数据集 - 海数据

Max_Planck_Institute_Based_Glottolog_2_7语言分类完整数据

2025年12月6日

数据集概述该数据集为Glottolog数据库2.7版，由Hammarström等人编制，记录了全球语言的分类信息，由马克斯·普朗克人类历史科学研究所发布，提供标准化的语言谱系数据支持。文件详解文件名称：glottolog-data-v2.7a.zip 文件格式：ZIP压缩包（.zip）...

ZIP

印欧语系词汇同源数据库及系统发育树数据集2021

2025年12月5日

数据集概述该数据集提供印欧语系词汇同源关系数据及贝叶斯系统发育树样本，基于IELex数据库（Dunn et al. 2011）构建，包含词汇条目、概念映射、系统发育分析文件等，可支持印欧语系演化关系的比较研究，是原IELex网站下线后的替代数据资源。文件详解数据集包含多个文件，具体说明如下： - 核心数据文件（位于data/目录）： -...

ZIP

阿拉瓦克语族词汇表注释数据集2017

2025年12月5日

数据集概述该数据集是基于Chacon 2017年发表的"阿拉瓦克语族词汇表注释"研究生成的CLDF格式数据集，聚焦西北亚马逊地区阿拉瓦克语族与图卡诺语族的史前接触研究，提供标准化的词汇数据支持。文件详解文件名称: lexibank/chaconarawakan-v2.1.zip 文件格式: .zip（压缩包）内容说明:...

ZIP

古俄语附着词空间研究及扎利兹尼亚克著作评述

2025年12月5日

数据集概述本数据集为一篇评述性文献，围绕俄罗斯语言学家安德烈·扎利兹尼亚克2008年著作《古俄语附着词》展开，对比其1993年关于古俄语存在瓦克纳格尔定律的研究，探讨古俄语口语与书面语附着词系统的关系、多维分类方法及韵律与句法分析视角的差异。文件详解文件名称：2009-1_259-277.pdf 文件格式：PDF（.pdf）...

ZIP

早期现代拉丁炼金术印刷品语料库数据集_EMLAP

2025年12月5日

数据集概述本数据集记录早期现代拉丁炼金术印刷品语料库，包含精选数字转录样本、元数据目录、带自动形态标注的句子数据、词形还原句子及预处理脚本，用于自动隐喻检测等文本分析研究。文件详解文件名称: CCS-ZCU/EMLAP_ETL-v0.5.zip 文件格式: ZIP压缩包包含内容:...

ZIP

缅语族语言词汇数据机器可读集合

2025年12月5日

数据集概述本数据集包含缅语族语言的词汇列表，大部分词汇已按WordNet进行语义标准化，全面整合了已发表的缅语族语言数据，为缅语族语言词汇研究提供机器可读的基础数据支持。文件详解压缩文件集合： burmish.list.zip：词汇列表压缩文件 burmish.table.zip：表格形式的词汇数据压缩文件...

ZIP

西科霍_布瓦语预测实验数据集

2025年12月4日

数据集概述本数据集包含西科霍-布瓦语预测实验的所有录音文件及转录数据，实验旨在测试比较语言学方法对未记录词汇的预测能力，为历史语言学研究提供实证数据支持。文件详解文件名称: predictions_results.csv 文件格式: CSV 字段映射: 包含实验预测结果的结构化数据，可通过英文概念（如BACK）检索对应录音文件文件名称:...

ZIP

Kilcoolaght_East_VI石刻文物三维重建数据集

2025年12月4日

数据集概述该数据集是爱尔兰 Kerry 郡 Kilcoolaght East 地区一处奥格姆石刻（Kilcoolaght East VI）的三维重建数据，通过摄影测量技术（Agisoft Photoscan）生成，包含石刻的三维模型文件及多角度缩略图，石刻铭文为[RI]TTUVV[E]CC MAQ[I] VEDDONỌS。文件详解...

ZIP

Objaverse_Granavollen_Runestone_Based_维京符文石文化遗产数字化完整数据

2025年12月4日

数据集概述本数据集包含挪威Granavollen符文石的相关信息，包括其历史背景、古北欧符文原文、现代语言转写及翻译内容，以及通过三维重建技术生成的可视化文件，为研究维京时期历史与文化提供支持。文件详解图片文件（共5个）：...

ZIP

基于Sagart等人2019年汉藏语词汇同源词数据库的CLDF数据集

2025年12月4日

数据集概述该数据集是基于Sagart等人2019年发布的"汉藏语词汇同源词数据库"转换而来的CLDF格式数据集，主要用于汉藏语系语言的词汇同源关系研究，为语言比较和历史语言学分析提供结构化数据支持。文件详解文件名称: lexibank/sagartst-v2.1.zip 文件格式: ZIP (.zip) 文件内容:...

ZIP

乌拉尔语系类型学数据库UraTyp

2025年12月4日

数据集概述该数据集为乌拉尔语系类型学数据库（UraTyp），包含与乌拉尔语系语言类型学相关的综合数据，数据以压缩包形式存储，未提供文件内容预览信息。文件详解文件名称: cldf-datasets/uratyp-v1.1.zip 文件格式: ZIP压缩包内容说明:...

ZIP

世界借词数据库衍生CLDF数据集2009

2025年12月4日

数据集概述该数据集是基于2009年Haspelmath和Tadmor主编的《世界借词数据库》生成的CLDF格式数据集，为语言研究领域提供标准化的借词数据支持。文件详解文件名称: lexibank/wold-v4.1.zip 文件格式: ZIP压缩包内容说明: 包含基于《世界借词数据库》衍生的CLDF格式数据，具体字段信息需解压后查看原始数据结构...