-
Dogon_ATR_Based多贡语比较词干数据
2026年2月9日 30 53 43
数据集概述 本数据集包含多贡语(Dogon languages)间的ATR(高级舌冠根Advanced Tongue Root)比较词干数据,旨在为语言学研究提供多贡语族内词汇形态的对比分析基础。数据集仅包含一个文档文件。 文件详解 文件名称:Dogon ATR appendix.docx 文件格式:DOCX...
-
afbo_Source_世界范围词缀借用调查数据集
2026年1月31日 30 85 17
数据集概述 本数据集是关于世界范围词缀借用的调查数据,由Frank Seifart于2013年发布,记录了全球语言中词缀借用的相关信息,旨在为语言学领域研究语言接触现象提供结构化参考资料,数据集包含一个压缩文件。 文件详解 文件名称:cldf-datasets/afbo-v1.0.zip 文件格式:ZIP...
-
APOSCRIPTA_Based_教皇书信统一语料库研究数据
2026年1月29日 30 131 17
数据集概述 本数据集为APOSCRIPTA数据库,收录罗马教皇自起源至近代的书信、庄严法令、教规及教令集等文献的文本与元数据,涵盖各类手稿传统。由CIHAM于2017年发起,目标建成关联开放数据资源,目前包含超25000份文献,持续更新中。 文件详解 文件名称:APOSCRIPTA database. Unified Corpus of Papal...
-
IN01064_哈里瓦曼王8年马哈马莱帕利敕令梵语XML数据
2026年1月29日 30 199 111
数据集概述 本数据集为IN01064编号的哈里瓦曼王8年马哈马莱帕利敕令的梵语XML文件,无元数据。包含1个XML格式文件,未划分训练/测试集、数据/标签集或原始/处理集,文件类型单一为XML。 文件详解 文件名称:IN01064.xml 文件格式:XML...
-
IN01059_Sanskrit_XML_梵语历史授权文书数据
2026年1月28日 30 113 51
数据集概述 本数据集包含IN01059号文献《Mrgesavarman 4年Devagiri授权文书》的梵语XML文件,无元数据。文件总数1个,无目录层级,未划分训练/测试、数据/标签或原始/处理集,主要文件类型为XML,占比百分之百。 文件详解 文件名称:IN01059.xml 文件格式:XML 字段映射介绍:包含《Mrgesavarman...
-
IN00601_BHAMODRA_MOHOTA_PLATE_XML数据
2026年1月26日 30 187 31
数据集概述 本数据集包含一份编号为IN00601的BHAMODRA MOHOTA PLATE相关XML文件,文件总数为1个,无目录层级,无训练/测试、数据/标签或原始/处理数据拆分。 文件详解 文件名称:IN00601_TEI.xml 文件格式:XML 字段映射介绍:包含BHAMODRA MOHOTA...
-
IN01011_Source_Sudevaraja宪章梵语XML数据
2026年1月23日 30 123 17
数据集概述 本数据集包含IN01011号Sudevaraja的Sirpur宪章梵语文本,以XML格式存储,无元数据。数据集仅含一个文件,无目录层级划分,无训练/测试、数据/标签或原始/处理数据的拆分,文件类型单一为XML。 文件详解 文件名称:IN01011.xml 文件格式:XML...
-
Anindilyakwa_Based_澳大利亚北部语言同源词研究论文附录数据
2026年1月20日 30 14 0
数据集概述 本数据集为论文《The genetic Position of Anindilyakwa》的附录数据,包含澳大利亚北部语言Anindilyakwa、Wubuy与Ngandi之间已发现的所有同源词信息,共收录2个文件,用于支持该语言遗传学研究的相关分析。 文件详解 App1_Swadesh_new.xlsx 文件格式:XLSX...
-
Lausanne_Based_19世纪人口普查手写文本识别训练数据集_2023版
2026年1月15日 30 34 26
数据集概述 本数据集包含三万四千九百一十三条人工转录的文本片段,用于历史文献(如人口普查表格)的手写文本识别训练。数据基于瑞士洛桑市1805至1898年的八十九页人口普查档案,主要语言为法语,含部分日耳曼姓名及地名。 文件详解 README.md 文件格式:MD 字段映射介绍:包含数据集作者、机构、发布日期、描述等元信息 Images.zip...
-
Wangerooge_Frisian_Based_已灭绝东弗里斯兰语录音转录数据集
2026年1月15日 30 105 24
数据集概述 本数据集包含已灭绝的东弗里斯兰语——Wangerooge弗里斯兰语的转录录音资料,总时长34分钟。录音于1924-1927年采集,涉及4位母语使用者,2024-25年完成转录,提供音频及对应的文本转录与英文翻译,是该濒危语言研究的重要资料。 文件详解 压缩包文件(Archive files) 文件名称:包括rec-br-...
-
IN02019_Based_Pasupati_Sivalinga底座梵语XML草案数据
2026年1月14日 30 145 109
数据集概述 本数据集为IN02019号文物(Abhiri的Pasupati Sivalinga底座)的梵语文本XML文件,采用Epidoc格式草案版本,无元数据,计划纳入"Siddham"档案。数据核心为该梵语铭文的数字化文本,支持考古与梵语文献研究。 文件详解 文件名称:IN02019.xml 文件格式:XML...
-
KBNL03000178388_基于荷兰格尔德兰地区的法律文献转录数据集_纠缠的历史项目成果
2026年1月12日 30 71 47
数据集概述 本数据集为1783年出版的荷兰法律文献《Gelrische landt- en stadt-rechten in het Overquartier van Ruremonde》的转录成果,源自荷兰国家图书馆(KB)馆藏副本,是“Entangled...
-
IN01004_Podagadh_Based_Skandavarman毗湿奴足迹梵语铭文XML数据
2026年1月6日 30 17 13
数据集概述 本数据集包含IN01004号梵语铭文XML文件,内容为Skandavarman时期毗湿奴足迹相关的Podagadh基金会铭文,无附加元数据。数据集仅含一个文件,用于梵语铭文的数字化保存与文本分析。 文件详解 文件名称:IN01004.xml 文件格式:XML...
-
HTR_2023_2024_年冬季学校_维也纳国家图书馆_ONB_3891_号中世纪拉丁语手稿转录数据
2026年1月3日 30 122 32
数据集概述 本数据集为2023/2024年维也纳HTR手写文本识别冬季学校产出的中世纪晚期拉丁语手稿底本数据,对应维也纳国家图书馆(ÖNB)Cod....
-
IN01053_Sanskrit_XML_Mrgesavarman_Halsi_Grant梵语铭文文件
2026年1月3日 30 2 0
数据集概述 本数据集包含IN01053号Mrgesavarman的Halsi Grant梵语铭文的XML文件,无元数据。数据集仅含一个文件,无目录层级,文件类型单一为XML格式,未划分训练/测试、数据/标签或原始/处理数据。 文件详解 文件名称:IN01053.xml 文件格式:XML 字段映射介绍:包含Mrgesavarman的Halsi...
-
Kleinewillinghöfer_Based_Bikwin_Jen语言比较词表CLDF数据集2015
2025年12月31日 30 143 55
数据集概述 本数据集是基于Kleinewillinghöfer于2015年发布的《Bikwin-Jen Comparative Wordlist》构建的CLDF格式数据集,包含Bikwin-Jen语言组的词汇比较信息,为语言比较研究提供结构化数据支持。 文件详解 主文件...
-
CLDF_Based_South_American_Languages_Borrowing研究数据集2023
2025年12月28日 30 24 11
数据集概述 本数据集是Miller和List在2023年发表的《South American Languages Borrowing》研究的配套CLDF数据集,包含1个压缩文件,用于支持对南美洲语言词汇借用现象的检测与分析研究,文件存储于单层目录结构中。 文件详解 压缩文件 文件名称:lexibank/sabor-v1.0.zip 文件格式:ZIP...
-
NewsEye_READ_AS_19世纪芬兰报纸训练数据集
2025年12月24日 30 203 57
数据集概述 该数据集包含19世纪芬兰报纸页面的带注释文本数据,共200页训练集页面图像由芬兰国家图书馆(NLF)提供,数据按PAGE格式构建,通过Transkribus平台生成,附带相关指南文档,为报纸文本识别模型训练提供支持。 文件详解 文件名称: Article GT guidelines for...
-
俄语语法统一性研究报告2019
2025年12月22日 30 101 100
数据集概述 本数据集为2019年5月在俄罗斯科学院俄语研究所举办的语法会议上发表的演讲报告,探讨俄语语法是否统一的核心问题,提出语法作为约束集合的统一性观点,并分析语言内部变异对语法统一性的影响。 文件详解 文件名称: IS_RUSSIAN_GRAMMAR_UNIFORM_Russ.pdf 文件格式: PDF (.pdf) 文件内容:...
-
北京大学1964年汉语方言词汇CLDF数据集
2025年12月21日 30 42 9
数据集概述 该数据集是基于北京大学1964年《汉语方言词汇》的CLDF格式数据集,包含汉语方言词汇相关内容,以压缩包形式存储,为方言词汇研究提供结构化数据支持。 文件详解 文件名称:lexibank/beidasinitic-v5.1.zip 文件格式:ZIP压缩包(.zip)...



