找到207个数据集

标签: 历史语言学

过滤结果
  • Lexibank_Based_嘉绒语族语言历史比较词汇数据集2023

    2026年2月6日 0 125 122

    数据集概述 本数据集是基于Lai和List 2023年《嘉绒语族语言比较》的CLDF格式词汇数据,包含嘉绒语族语言的历史比较词汇信息,由莱比锡马克斯·普朗克进化人类学研究所发布,版本为1.0,仅含一个压缩文件。 文件详解 文件名称:lexibank/lairgyalrong-v0.4.zip 文件格式:ZIP...
    packageimg
  • afbo_Source_世界范围词缀借用调查数据集

    2026年1月31日 30 54 10

    数据集概述 本数据集是关于世界范围词缀借用的调查数据,由Frank Seifart于2013年发布,记录了全球语言中词缀借用的相关信息,旨在为语言学领域研究语言接触现象提供结构化参考资料,数据集包含一个压缩文件。 文件详解 文件名称:cldf-datasets/afbo-v1.0.zip 文件格式:ZIP...
    packageimg
  • Vietic_Based_116项系统发育词汇数据

    2026年1月31日 30 160 71

    数据集概述 本数据集为Vietic语言分类的116项词汇统计数据,包含30种Vietic语言变体、原始Vietic语,以及作为外群的Khmu语和Jahai语。数据基于Swadesh 100和200词表调整生成,通过NEXUS文件记录同源词赋值,可用于生成系统发育树和邻接网络。 文件详解...
    packageimg
  • AfBo_Based_词缀借用全球调查数据集2013

    2026年1月31日 30 60 17

    数据集概述 本数据集为2013年发布的AfBo全球词缀借用调查数据,由Frank Seifart完成,记录了全球范围内语言词缀借用现象的调查内容,可通过指定在线链接获取,包含1个压缩文件。 文件详解 文件名称:waab-v2013.zip 文件格式:ZIP(压缩文件) 字段映射介绍:未提供具体字段信息,文件为压缩包格式,内部内容需解压后查看 数据来源...
    packageimg
  • AGREE_Based_古希腊语义模型评估基准数据集

    2026年1月31日 0 149 117

    数据集概述 本数据集为AGREE基准,用于评估古希腊语义模型,包含两项专家任务的原始数据、最终基准数据集及问卷原始答案。数据基于专家对古希腊词汇语义相关性的判断构建,支持语义模型性能验证,总计包含5个文件。 文件详解 1_agree_task1.json(JSON格式)...
    packageimg
  • LSJ_Based_LAGT古希英词典_计算分析用数据

    2026年1月30日 30 86 22

    数据集概述 本数据集是基于LSJ词典构建的古希英数字词典,专为古希语文本计算分析设计,支持LAGT数据集相关研究。包含64,774个原始词元、46,693个标准化词元及对应英文释义,附Python查询脚本,适用于离线Python工作流,助力古希腊语料库语义与词汇探索。 文件详解 文件名称:lsj_dictionary_v1_0_0.json...
    packageimg
  • CLICS_2_0_Based_坦桑尼亚语言调查数据集

    2026年1月30日 0 41 15

    数据集概述 本数据集为CLICS 2.0的一部分,来源于20世纪70年代初开展的坦桑尼亚语言调查(TLS),涵盖约100种坦桑尼亚语言的词汇统计数据,基于斯瓦希里语和英语平行列的1079个条目翻译表整理而成,支持语言关系与词汇共性研究。 文件详解 文件名称:tls.zip 文件格式:ZIP...
    packageimg
  • CLDF_Based_南美低地语言比较词表数据集2024

    2026年1月30日 30 16 0

    数据集概述 本数据集为CLDF格式,源自Blum等人2024年的研究,包含用于探究南美低地语言间远亲关系的比较词表。数据以压缩包形式存储,可支持语言亲缘关系分析、词汇比较研究等应用。 文件详解 压缩包文件 文件名称:pano-tacanan-history/blumpanotacana-v1.2.zip 文件格式:ZIP...
    packageimg
  • WOLD_Based_古爱尔兰借词数据库_6_9世纪AD

    2026年1月30日 30 83 9

    数据集概述 本数据集为基于古爱尔兰文本构建的借词数据库,文本涵盖公元6-7世纪至9世纪的古爱尔兰文献,参考世界借词数据库(WOLD)的1456个通用词含义(分24类),收录借词、非借词及未证实词汇,共包含2个文件。 文件详解 文件名称:Jasmim Drigo_Old Irish loans.csv 文件格式:CSV...
    packageimg
  • CLDF_Ivani_Suansu基础词汇数据集2019

    2026年1月30日 30 1 0

    数据集概述 本数据集是基于Ivani 2019年关于印度东北部藏缅语族语言Suansu的基础词汇研究形成的CLDF格式数据集,核心内容为Suansu语言的基础词汇信息,为语言研究提供结构化资源。 文件详解 文件名称:lexibank/ivanisuansu-v2.0.zip 文件格式:ZIP...
    packageimg
  • Caucalex_Based_高加索52语言词汇数据集1_0

    2026年1月29日 30 146 44

    数据集概述 本数据集为Caucalex 1.0,包含高加索地区52种语言的词汇数据,覆盖卡尔特维利语系、纳赫-达吉斯坦语系、西北高加索语系、印欧语系和突厥语系五大语言家族,是研究高加索语言词汇特征的基础资料。 文件详解 文件名称:Caucalex 1.0.xlsx 文件格式:XLSX...
    packageimg
  • HTRD_Based_15世纪德语散文文本重用检测评估数据集

    2026年1月29日 0 178 168

    数据集概述 本数据集为15世纪德语散文文本重用检测(HTRD)的评估集,包含两篇采用TEI标准标注的文本:《科隆荆棘冠》和《科隆圣城编年史》。标注内容涵盖文本重用实例的分类与链接,文本为里普利安方言,存在拼写变体及手写文本识别(HTR)转录错误,适用于历史文本重用检测方法的评估。 文件详解...
    packageimg
  • APOSCRIPTA_Based_教皇书信统一语料库研究数据

    2026年1月29日 30 94 82

    数据集概述 本数据集为APOSCRIPTA数据库,收录罗马教皇自起源至近代的书信、庄严法令、教规及教令集等文献的文本与元数据,涵盖各类手稿传统。由CIHAM于2017年发起,目标建成关联开放数据资源,目前包含超25000份文献,持续更新中。 文件详解 文件名称:APOSCRIPTA database. Unified Corpus of Papal...
    packageimg
  • 南部班图语比较辅助词汇表_南部非洲班图语辅助词汇比较研究数据

    2026年1月29日 30 133 9

    数据集概述 本数据集是南非班图语辅助词比较电子表格,从语法描述、学术论文、学位论文、词典等资料中提取辅助词信息,包含辅助词形式、来源意义、功能分类、后续动词形式等结构化内容,支持跨语言比较分析,版本更新至v2.0,含多个工作表及详细字段说明。 文件详解 电子表格文件(未指定具体文件名) 文件格式:电子表格格式(推测为XLSX或类似格式) 工作表内容:...
    packageimg
  • IN01064_哈里瓦曼王8年马哈马莱帕利敕令梵语XML数据

    2026年1月29日 30 22 2

    数据集概述 本数据集为IN01064编号的哈里瓦曼王8年马哈马莱帕利敕令的梵语XML文件,无元数据。包含1个XML格式文件,未划分训练/测试集、数据/标签集或原始/处理集,文件类型单一为XML。 文件详解 文件名称:IN01064.xml 文件格式:XML...
    packageimg
  • Gauchat_1925_瑞士罗曼什方言语音表CLDF数据集

    2026年1月29日 30 21 6

    数据集概述 本数据集是基于Gauchat等人1925年的《瑞士罗曼什方言语音表》构建的CLDF格式数据集,核心内容为瑞士罗曼什方言的语音表信息,是研究该方言语音特征的重要历史语言学资料。 文件详解 文件名称:lexibank/tppsr-v1.1.1.zip 文件格式:ZIP...
    packageimg
  • IN02053_Based_巴希利托勒铭文梵语XML草稿版数据

    2026年1月29日 30 116 93

    数据集概述 本数据集包含IN02053号巴希利托勒铭文(位于帕坦)的梵语文本,以XML格式存储,为Epidoc标准的草稿版本,将纳入“Siddham”存档。数据无元数据,共包含一个文件,是研究该铭文文本内容的基础数字化资料。 文件详解 文件名称:IN02053.xml 文件格式:XML...
    packageimg
  • Central_Loloish_Based_语言词汇同言线数据库

    2026年1月28日 30 36 15

    数据集概述 本数据集为Central Loloish(Ngwi)语言的潜在词汇同言线数据库,聚焦该语系语言中的词汇同言线现象,提供结构化数据支持语言学研究。数据集包含1个文件,无目录层级划分,未区分训练/测试、数据/标签或原始/处理数据。 文件详解 文件名称:Central_Loloish_lexical_isogloss_database.xlsx...
    packageimg
  • HCP_Based_历史汉语音韵学网络方法论文附源码数据2018

    2026年1月27日 30 36 14

    数据集概述 本数据集为论文《More on Network Approaches in Historical Chinese Phonology (音韻學)》配套的第一版源码和数据,由List, Johann-Mattis于2018年发表。数据以压缩包形式提供,包含支撑论文研究的相关代码与数据内容,为历史汉语音韵学的网络方法研究提供可复现的技术资源。...
    packageimg
  • Nicobarese_Source语言系统发育分析词表数据2021

    2026年1月27日 30 74 66

    数据集概述 本数据集基于改良的Swadesh 100词表,用于分析尼科巴语支的内部语言分支关系。尼科巴语支包含约七种语言,多数仅部分记录,仅两种语言有详细词典和语法描述,数据处理难度较高。数据集支持作者2021年在瑞典隆德ICAAL会议发表的论文及后续版本。 文件详解 文件名称:Nicobarese 100 lexicon+Nexus.xlsx...
    packageimg