找到212个数据集

标签: 历史语言学

过滤结果
  • ItAnt_古意大利语言文献目录_多格式发布数据

    2026年2月9日 30 194 0

    数据集概述 本数据集为古意大利语言文献目录,重点收录ItAnt项目分析的语言相关文献,支持TEI与TTL两种格式。TEI格式兼容EpiDoc标准,TTL格式基于IFLA开发的FRBRoo/LRMoo概念模型映射,与CIDOC CRM协调,提供半正式的书目信息表示。数据集来自意大利MUR资助的PRIN 2017项目,包含2个文件。 文件详解...
    packageimg
  • Dogon_ATR_Based多贡语比较词干数据

    2026年2月9日 30 12 3

    数据集概述 本数据集包含多贡语(Dogon languages)间的ATR(高级舌冠根Advanced Tongue Root)比较词干数据,旨在为语言学研究提供多贡语族内词汇形态的对比分析基础。数据集仅包含一个文档文件。 文件详解 文件名称:Dogon ATR appendix.docx 文件格式:DOCX...
    packageimg
  • AGREE_Based_古希腊语义模型评估基准数据集

    2026年1月31日 30 82 53

    数据集概述 本数据集为AGREE基准,用于评估古希腊语义模型,包含两项专家任务的原始数据、最终基准数据集及问卷原始答案。数据基于专家对古希腊词汇语义相关性的判断构建,支持语义模型性能验证,总计包含5个文件。 文件详解 1_agree_task1.json(JSON格式)...
    packageimg
  • 基于卡巴耶扎尔托什语的三语铭文_词级对齐与命名实体开放数据

    2026年2月9日 30 33 6

    数据集概述 本数据集包含Ka'ba-ye Zartošt(ŠKZ)三语铭文的希腊语、中古波斯语、帕提亚语版本的句级与词级对齐语料,以及人工提取的命名实体。语料遵循Huyse(1999)的行编号,对齐由Ugarit工具生成,命名实体含近400个标注为人物、地点或地点衍生物的条目,部分关联维基数据。 文件详解 对齐语料文件 合并文件:alignment-...
    packageimg
  • HTRD_Based_15世纪德语散文文本重用检测评估数据集

    2026年1月29日 30 64 7

    数据集概述 本数据集为15世纪德语散文文本重用检测(HTRD)的评估集,包含两篇采用TEI标准标注的文本:《科隆荆棘冠》和《科隆圣城编年史》。标注内容涵盖文本重用实例的分类与链接,文本为里普利安方言,存在拼写变体及手写文本识别(HTR)转录错误,适用于历史文本重用检测方法的评估。 文件详解...
    packageimg
  • TEI_MCM_Based历史语料库元数据模型定制化实现数据

    2026年2月8日 30 29 16

    数据集概述 本数据集包含用于历史语料库元数据文档的TEI ODD定制化内容,通过TEI p5首部结构映射元数据模型(MCM),覆盖语料库、文档、制备三类对象,结合TEI指南子集实现标准化元数据记录,含定制化说明及配套HTML文档。 文件详解 文件名称:TEI-MCM-ODDs_S8.zip 文件格式:ZIP 字段映射介绍:压缩包内含TEI...
    packageimg
  • Benchmark_Database_语音对齐手动编辑基准数据

    2026年2月8日 30 134 84

    数据集概述 本数据集为语音对齐基准数据库,包含十五个压缩文件,涵盖斯拉夫语、法语、罗曼语等多种语言的手动编辑语音对齐数据,旨在为历史语言学和方言学领域的自动对齐算法提供测试与性能优化的基准平台,覆盖语音对齐分析中的典型问题。 文件详解 压缩文件组(archive_files)...
    packageimg
  • CLICS_2_0_Based_坦桑尼亚语言调查数据集

    2026年1月30日 30 24 9

    数据集概述 本数据集为CLICS 2.0的一部分,来源于20世纪70年代初开展的坦桑尼亚语言调查(TLS),涵盖约100种坦桑尼亚语言的词汇统计数据,基于斯瓦希里语和英语平行列的1079个条目翻译表整理而成,支持语言关系与词汇共性研究。 文件详解 文件名称:tls.zip 文件格式:ZIP...
    packageimg
  • Lexibank_Based_嘉绒语族语言历史比较词汇数据集2023

    2026年2月6日 0 133 11

    数据集概述 本数据集是基于Lai和List 2023年《嘉绒语族语言比较》的CLDF格式词汇数据,包含嘉绒语族语言的历史比较词汇信息,由莱比锡马克斯·普朗克进化人类学研究所发布,版本为1.0,仅含一个压缩文件。 文件详解 文件名称:lexibank/lairgyalrong-v0.4.zip 文件格式:ZIP...
    packageimg
  • afbo_Source_世界范围词缀借用调查数据集

    2026年1月31日 30 100 36

    数据集概述 本数据集是关于世界范围词缀借用的调查数据,由Frank Seifart于2013年发布,记录了全球语言中词缀借用的相关信息,旨在为语言学领域研究语言接触现象提供结构化参考资料,数据集包含一个压缩文件。 文件详解 文件名称:cldf-datasets/afbo-v1.0.zip 文件格式:ZIP...
    packageimg
  • Vietic_Based_116项系统发育词汇数据

    2026年1月31日 30 71 52

    数据集概述 本数据集为Vietic语言分类的116项词汇统计数据,包含30种Vietic语言变体、原始Vietic语,以及作为外群的Khmu语和Jahai语。数据基于Swadesh 100和200词表调整生成,通过NEXUS文件记录同源词赋值,可用于生成系统发育树和邻接网络。 文件详解...
    packageimg
  • AfBo_Based_词缀借用全球调查数据集2013

    2026年1月31日 30 55 4

    数据集概述 本数据集为2013年发布的AfBo全球词缀借用调查数据,由Frank Seifart完成,记录了全球范围内语言词缀借用现象的调查内容,可通过指定在线链接获取,包含1个压缩文件。 文件详解 文件名称:waab-v2013.zip 文件格式:ZIP(压缩文件) 字段映射介绍:未提供具体字段信息,文件为压缩包格式,内部内容需解压后查看 数据来源...
    packageimg
  • LSJ_Based_LAGT古希英词典_计算分析用数据

    2026年1月30日 30 55 16

    数据集概述 本数据集是基于LSJ词典构建的古希英数字词典,专为古希语文本计算分析设计,支持LAGT数据集相关研究。包含64,774个原始词元、46,693个标准化词元及对应英文释义,附Python查询脚本,适用于离线Python工作流,助力古希腊语料库语义与词汇探索。 文件详解 文件名称:lsj_dictionary_v1_0_0.json...
    packageimg
  • CLDF_Based_南美低地语言比较词表数据集2024

    2026年1月30日 30 51 11

    数据集概述 本数据集为CLDF格式,源自Blum等人2024年的研究,包含用于探究南美低地语言间远亲关系的比较词表。数据以压缩包形式存储,可支持语言亲缘关系分析、词汇比较研究等应用。 文件详解 压缩包文件 文件名称:pano-tacanan-history/blumpanotacana-v1.2.zip 文件格式:ZIP...
    packageimg
  • WOLD_Based_古爱尔兰借词数据库_6_9世纪AD

    2026年1月30日 30 16 13

    数据集概述 本数据集为基于古爱尔兰文本构建的借词数据库,文本涵盖公元6-7世纪至9世纪的古爱尔兰文献,参考世界借词数据库(WOLD)的1456个通用词含义(分24类),收录借词、非借词及未证实词汇,共包含2个文件。 文件详解 文件名称:Jasmim Drigo_Old Irish loans.csv 文件格式:CSV...
    packageimg
  • CLDF_Ivani_Suansu基础词汇数据集2019

    2026年1月30日 30 193 124

    数据集概述 本数据集是基于Ivani 2019年关于印度东北部藏缅语族语言Suansu的基础词汇研究形成的CLDF格式数据集,核心内容为Suansu语言的基础词汇信息,为语言研究提供结构化资源。 文件详解 文件名称:lexibank/ivanisuansu-v2.0.zip 文件格式:ZIP...
    packageimg
  • Caucalex_Based_高加索52语言词汇数据集1_0

    2026年1月29日 30 7 5

    数据集概述 本数据集为Caucalex 1.0,包含高加索地区52种语言的词汇数据,覆盖卡尔特维利语系、纳赫-达吉斯坦语系、西北高加索语系、印欧语系和突厥语系五大语言家族,是研究高加索语言词汇特征的基础资料。 文件详解 文件名称:Caucalex 1.0.xlsx 文件格式:XLSX...
    packageimg
  • APOSCRIPTA_Based_教皇书信统一语料库研究数据

    2026年1月29日 30 108 103

    数据集概述 本数据集为APOSCRIPTA数据库,收录罗马教皇自起源至近代的书信、庄严法令、教规及教令集等文献的文本与元数据,涵盖各类手稿传统。由CIHAM于2017年发起,目标建成关联开放数据资源,目前包含超25000份文献,持续更新中。 文件详解 文件名称:APOSCRIPTA database. Unified Corpus of Papal...
    packageimg
  • 南部班图语比较辅助词汇表_南部非洲班图语辅助词汇比较研究数据

    2026年1月29日 30 202 32

    数据集概述 本数据集是南非班图语辅助词比较电子表格,从语法描述、学术论文、学位论文、词典等资料中提取辅助词信息,包含辅助词形式、来源意义、功能分类、后续动词形式等结构化内容,支持跨语言比较分析,版本更新至v2.0,含多个工作表及详细字段说明。 文件详解 电子表格文件(未指定具体文件名) 文件格式:电子表格格式(推测为XLSX或类似格式) 工作表内容:...
    packageimg
  • IN01064_哈里瓦曼王8年马哈马莱帕利敕令梵语XML数据

    2026年1月29日 30 45 19

    数据集概述 本数据集为IN01064编号的哈里瓦曼王8年马哈马莱帕利敕令的梵语XML文件,无元数据。包含1个XML格式文件,未划分训练/测试集、数据/标签集或原始/处理集,文件类型单一为XML。 文件详解 文件名称:IN01064.xml 文件格式:XML...
    packageimg