-
nikopartanen_Based_古芬兰文学语料随机抽取手动词形还原数据集_V1_0
数据集概述 本数据集包含从芬兰古文学语料库中随机抽取并手动完成词形还原的句子。数据覆盖部分历史年代,1690、1720、1740、1770年等年代尚未完成词形还原,且存在部分年代语料缺失。数据集目前含1个压缩文件,旨在为古芬兰文学语言研究提供标注资源,后续计划补充完善缺失内容。 文件详解 文件名称:nikopartanen/old-literary-...
-
Phlorest_Lee_Hasegawa_日语系语言农业起源系统发育树研究数据2011
数据集概述 本数据集为基于Lee & Hasegawa 2011年研究构建的Phlorest系统发育树数据,核心内容是支持日语系语言农业起源假说的贝叶斯系统发育分析结果,以压缩文件形式提供,用于语言演化研究领域的相关分析。 文件详解 文件名称:phlorest/lee_and_hasegawa2011-v1.1.zip...
-
IN02091_Sanskrit_Epidoc草案版Tungahiti石刻铭文XML数据
数据集概述 本数据集为IN02091号Tungahiti石刻铭文的梵语XML文件,是采用Epidoc格式的草案版本,不含元数据,计划纳入“Siddham”档案。数据集仅包含一个XML文件,无目录层级,无训练/测试、数据/标签、原始/处理数据的划分。 文件详解 文件名称:IN02091.xml 文件格式:XML...
-
IN01032_Kasipura_Grant_of_Ravivarman梵语XML数据文件
数据集概述 本数据集包含IN01032号《拉维瓦尔曼的卡西普拉特许状》梵语文献的XML文件,无元数据。文件数量为1,无目录层级结构,主要文件类型为XML,占比百分之百。数据可用于梵语铭文数字化研究与历史文献分析。 文件详解 文件名称:IN01032.xml 文件格式:XML...
-
IN01035_Sanskrit_Bennur_Krsnavarman_II授权文书XML数据
数据集概述 本数据集包含编号为IN01035的Bennur Grant of Kṛṣṇavarman II梵语XML文件,未包含元数据。文件记录了Kṛṣṇavarman II的授权文书内容,为研究古代梵语历史文献提供原始文本数据支持,数据集仅有一个文件。 文件详解 文件名称:IN01035.xml 文件格式:XML...
-
Oskolskaya_Stoynova_Based_俄语动词词干纳奈语借入体特征完整数据2024
数据集概述 本数据集记录了借入纳奈语的俄语动词词干按体特征的分布情况,是俄语动词在纳奈语中适应性策略研究的基础数据,源自2024年相关语言学研究,包含1个核心文件。 文件详解 文件名称:Oskolskaya&Stoynova_Nanai verbs-2024-2.xlsx 文件格式:XLSX...
-
IN01040_Sanskrit_Based_Mrgesavarman第7年授权文书梵语XML数据
数据集概述 本数据集包含IN01040号Hiṭnahebbāgilu地区Mṛgeśavarman第7年授权文书的梵语文本XML文件,无元数据。文件数量为1,未划分训练/测试集、数据/标签集或原始/处理集,主要用于梵语历史文献的数字化存储与分析。 文件详解 梵语授权文书文件 文件名称:IN01040.xml 文件格式:XML...
-
IN01004_Podagadh_Based_Skandavarman毗湿奴足迹梵语铭文XML数据
数据集概述 本数据集包含IN01004号梵语铭文XML文件,内容为Skandavarman时期毗湿奴足迹相关的Podagadh基金会铭文,无附加元数据。数据集仅含一个文件,用于梵语铭文的数字化保存与文本分析。 文件详解 文件名称:IN01004.xml 文件格式:XML...
-
HTR_2023_2024_年冬季学校_维也纳国家图书馆_ONB_3891_号中世纪拉丁语手稿转录数据
数据集概述 本数据集为2023/2024年维也纳HTR手写文本识别冬季学校产出的中世纪晚期拉丁语手稿底本数据,对应维也纳国家图书馆(ÖNB)Cod....
-
ChroniclingAmerica_Based_美国报纸孤立主义语言AI分析数据集1898_1900
数据集概述 本数据集包含基于Chronicling America数据集的AI驱动搜索分析结果,聚焦1898-1900年美国报纸中与外交事务相关的“isolation”/“isolated”词汇使用情况,共包含2个文件,无目录结构。 文件详解 数据文件 文件名称:Zenodo Isolation 1898-1900.xlsx 文件格式:XLSX...
-
Historical_Corpus_of_Dutch_Based荷兰语历史时期动词簇语序变异研究数据集
数据集概述 本数据集为荷兰语历史动词簇语序变异研究的核心数据,包含对早期至晚期近代荷兰语中动词簇语序变异的影响因素分析数据,涉及社会语言学变量(时间、地域、文本体裁)与结构变量(过去分词形态、助动词类型等),支持相关语言学研究。 文件详解 文件名称:data_volgordevariatie_BTFG.xlsx 文件格式:XLSX...
-
IN02024_Draft_Siddham存档Kisipidi_Kulanchetole石碑梵语XML数据
数据集概述 本数据集为IN02024 Kisipidi Kulanchetole石碑的梵语文本XML文件,采用EpiDoc格式草案版本,计划纳入“Siddham”存档。数据无元数据,包含1个XML文件,用于记录该梵语石碑的数字化文本内容。 文件详解 文件名称:IN02024.xml 文件格式:XML...
-
CLDF_Based_South_American_Languages_Borrowing研究数据集2023
数据集概述 本数据集是Miller和List在2023年发表的《South American Languages Borrowing》研究的配套CLDF数据集,包含1个压缩文件,用于支持对南美洲语言词汇借用现象的检测与分析研究,文件存储于单层目录结构中。 文件详解 压缩文件 文件名称:lexibank/sabor-v1.0.zip 文件格式:ZIP...
-
GENT900000165290_Entangled_Histories_卢森堡与希尼伯爵领地法规汇编数据1691
数据集概述 本数据集为1691年出版的《卢森堡公国及希尼伯国敕令、条例、声明与规章汇编》(Recueil d'édits...)的转录数据,由Ghent University所藏版本转录而来,属于“纠缠历史”(Entangled Histories)项目成果,主要记录该时期两地的法律与行政文件内容。 文件详解...
-
瓦克纳格尔定律研究论文
数据集概述 本数据集为一篇研究瓦克纳格尔定律的论文,探讨不同语言中附着词排序的句法分析方法,比较扎利兹尼亚克与其他学者模型的差异,涉及古俄语、保加利亚语等语言的附着词簇分析,为句法理论研究提供参考。 文件详解 文件名称: Go to Wackernagel.pdf 文件格式: PDF (.pdf) 文件内容:...
-
NewsEye_READ_AS_19世纪芬兰报纸训练数据集
数据集概述 该数据集包含19世纪芬兰报纸页面的带注释文本数据,共200页训练集页面图像由芬兰国家图书馆(NLF)提供,数据按PAGE格式构建,通过Transkribus平台生成,附带相关指南文档,为报纸文本识别模型训练提供支持。 文件详解 文件名称: Article GT guidelines for...
-
拉丁编年史_斯拉夫国王纪_人工与计算文本分析结果数据集
数据集概述 本数据集包含一份PDF文件,呈现了对拉丁编年史《斯拉夫国王纪》(Gesta regum Sclavorum)中特定词元的频率分析结果,对比了基于Milorad Medini著作《Kako je postao Ljetopis popa Dukljanina》(1942)的人工分析与计算文本分析的对应数据。 文件详解...
-
俄罗斯维吾尔乌兹别克人名变化的语言和超语言因素分析
数据集概述 该数据集聚焦俄罗斯维吾尔乌兹别克人名的变化现象,从语言和超语言因素两个维度展开分析,通过单篇PDF文档呈现相关研究内容,为探究人名演变的内外驱动机制提供资料支持。 文件详解 文件名称:S. S. Ibragimova.pdf 文件格式:PDF...
-
斯拉夫语言中激进代词脱落与第三人称特指性研究
数据集概述 本数据集为一篇语言学研究论文,聚焦斯拉夫语言中的代词脱落现象,提出基于“激进代词脱落”与“弱/非代词脱落”的新分类体系,探讨第一、二人称与第三人称代词脱落的差异及历史成因。 文件详解 文件名称:Aggressive_pro_drop_and_the_specificity.pdf 文件格式:PDF(.pdf)...
-
藏缅语音和词汇CLDF数据集1991
数据集概述 该数据集是基于孙宏开1991年出版的《藏缅语音和词汇》构建的CLDF格式数据集,核心内容为藏缅语族语言的语音与词汇相关数据,为语言比较研究提供标准化数据支持。 文件详解 文件名称:lexibank/suntb-v4.1.zip 文件格式:ZIP压缩包(.zip)...



