-
IN02092_Epidoc_Based巴希利托尔帕坦铭文梵语XML草稿数据
数据集概述 本数据集包含IN02092巴希利托尔帕坦铭文的梵语XML文件,为Epidoc格式的草稿版本,不含元数据,计划纳入“Siddham”档案。数据集仅含一个文件,聚焦铭文文本的数字化编辑内容。 文件详解 文件名称:IN02092.xml 文件格式:XML...
-
mromanello_APh_Corpus_v2_0_自然语言处理语料库数据
数据集概述 本数据集为APh语料库v2.0版本,由Matteo Filipponi用于瑞士联邦理工学院(EPFL)硕士项目评估。数据以压缩包形式存储,无训练测试、数据标签或原始处理数据的拆分,未提供自述文件或内容预览。 文件详解 文件名称:mromanello/APh_Corpus-v2.0.zip 文件格式:ZIP...
-
Objaverse_1_0_Based_中国西北维吾尔族女孩传统服饰数字资源
数据集概述 本数据集包含中国西北维吾尔族女孩身着传统服饰的数字资源,由图像文件和三维模型文件组成,旨在记录和展示该民族的传统服饰文化。数据集共6个文件,无目录层级结构,主要文件类型为JPEG图像和GLB三维模型。 文件详解 图像文件(.jpeg)...
-
g2320_Based_Kaspar_Gerle_音乐家档案数据_v0_0_1
数据集概述 本数据集为音乐家Kaspar Gerle(musiXplora-ID:g2320)的个人档案数据,包含其姓名、性别、宗教信仰、活跃时间、行业领域、职业、活动地点、家族关系及相关文献等信息,以JSON格式存储,为研究该音乐家的生平及相关历史提供结构化数据支持。 文件详解 文件名称:g2320_DE.json 文件格式:JSON...
-
IN02025_Based_Kisipidi石碑梵语Epidoc草稿XML数据
数据集概述 本数据集为IN02025号482年Kisipidi石碑的梵语文本数据,采用Epidoc格式的XML文件存储(无元数据),是拟纳入“Siddham”档案的草稿版本。数据集包含1个XML文件,无目录层级,未进行训练/测试、数据/标签或原始/处理的拆分。 文件详解 文件名称:IN02025.xml 文件格式:XML...
-
Objaverse_Source_Popes_pilskalns_3D模型数据
数据集概述 本数据集为Popes pilskalns的3D模型数据,包含该地点的3D模型文件及相关缩略图,提供地理坐标信息,可用于文化遗产数字化展示与研究,共包含6个文件。 文件详解 3D模型文件 文件名称:e75c49e1933b4c9e91483ac78a968c90.glb 文件格式:GLB 字段映射介绍:3D模型文件,记录Popes...
-
musiXplora_William_Fendt_f1089_音乐人物档案数据
数据集概述 本数据集为音乐人物William Fendt(musiXplora-ID: f1089)的档案信息,包含其基本身份信息、家庭关系、教育背景、职业领域、工作经历、作品集及相关事件等内容,以结构化数据形式记录,为音乐人物研究提供参考。 文件详解 文件名称:f1089_DE.json 文件格式:JSON 字段映射介绍:包含以下核心信息模块...
-
Objaverse_Source_悉尼Rookwood公墓砂岩雕像三维模型数据
数据集概述 本数据集为悉尼Rookwood公墓B区旧圣公会区RR区域的“井边丽贝卡”砂岩雕像的数字化成果,包含14张照片经3DFlow Zephyr Lite 5.007处理生成的三维模型及缩略图,共6个文件,用于记录该文化遗产的数字化形态。 文件详解 三维模型文件 文件名称:cab8b33bda1b4dd48f137bec2161322d.glb...
-
Wikidata_wdumps_Based_俄英名词语法性别RDF数据集_原始
数据集概述 本数据集是通过wdumps工具生成的Wikidata RDF转储,核心内容为包含语法性别的俄语、英语名词数据。数据集包含4个文件,涵盖JSON格式的配置与元数据文件、压缩的N-Triples数据文件及预览文件,可用于语义网络、自然语言处理等领域的相关研究。 文件详解 配置与元数据文件 文件名称:wdumper-spec.json...
-
CoSIH_Haifa_Corpus_Based希伯来语口语左移位标注研究数据
数据集概述 本数据集为希伯来语口语左移位研究的Excel文件,包含研究中使用的所有示例。示例以原始希伯来语转录呈现,标注了来源文件、互动属性、韵律、流利度、指称语用状态、问答类型、更新属性、左移位结构特征、独立名词短语形式及常见解读等信息,共1个文件。 文件详解 文件名称:Data for Left Dislocation in spoken...
-
f1786_Based_Wilhelm_Fraenkel_音乐历史人物档案数据
数据集概述 本数据集为音乐家Wilhelm Fraenkel(musiXplora-ID: f1786)的人物档案数据,包含其基本信息、职业领域、专利发明、相关机构及术语等内容,记录了其在乐器制造领域的专利成果及活动地点等关键信息,是研究该历史音乐人物的结构化参考资料。 文件详解 文件名称:f1786_DE.json 文件格式:JSON...
-
El_habla_de_La_Pola_Siero_阿斯图里亚斯地图问题1语料
数据集概述 本数据集为拉波拉谢罗方言语料,围绕阿斯图里亚斯地图问题1展开,包含1个文档文件,无训练/测试、数据/标签、原始/处理数据的划分,文档类型单一,无额外说明或预览内容。 文件详解 文件名称:Mapa de Asturias.Pregunta1.docx 文件格式:DOCX...
-
Paĩ_Tavyterã_Based_巴拉圭Amambay地区语言田野调查数据
数据集概述 本数据集记录了对巴拉圭Amambay地区Paĩ Tavyterã Guarani语言的田野调查内容,核心为名词词干与动词词干的采集数据,支持美洲原住民语言的结构分析与研究,仅包含一个文件。 文件详解 文件名称:PTA_2017_01_02.xlsx 文件格式:XLSX 字段映射介绍:未提供具体字段信息,推测包含Paĩ Tavyterã...
-
IMTVault_Based_低资源语言语际标注文本提取与富集数据集_2022
数据集概述 本数据集为IMTVault,主要内容是从语法描述和类型学调查文章中提取并富集的低资源语言语际标注文本。数据集由1个压缩文件构成,无训练测试、数据标签或原始处理数据的拆分,适用于低资源语言的语言学研究与资源开发。 文件详解 文件名称:cldf-datasets/imtvault-v1.2.zip 文件格式:ZIP...
-
MeSDiCon_Based_西班牙语医学疾病症状候选名称词汇集_未过滤初始版
数据集概述 本数据集为MeSDiCon(西班牙语医学疾病与症状名称词汇集)的未过滤初始版本,包含西班牙语临床文本中提及的疾病和症状候选名称列表。数据通过自动识别、翻译及临床语料匹配生成,每条记录关联目标术语命名空间(MeSH或OMIM)及对应标识符,提供术语在2000万份西班牙语临床笔记中的出现频率和文档频率。 文件详解...
-
Oxford_Merton_MS_249_Bestiaire抄写缩写研究数据集
数据集概述 本数据集为牛津默顿学院图书馆MS 249号手稿(《Bestiaire》)1r至10v页的抄写缩写研究配套数据,包含3个文件,涵盖缩写判定标准、文本转写编码及缩写统计分析,用于中世纪手稿抄写缩写模式的学术研究。 文件详解...
-
IN02023_EpiDoc_Balambu卢库_马哈迪奥石碑梵语XML草稿数据
数据集概述 本数据集为IN02023 Balambu卢库·马哈迪奥石碑的梵语XML文件,采用EpiDoc格式草稿版,无元数据,计划纳入“Siddham”档案。包含1个XML文件,记录该石碑的梵语文本内容,用于碑铭文献的数字化整理与研究。 文件详解 文件名称:IN02023.xml 文件格式:XML...
-
musiXplora_Source_Chanot_c1187_音乐家生平档案数据
数据集概述 本数据集为音乐家Georges Chanot(musiXplora-ID:c1187)的生平档案数据,包含其基本信息、出生与死亡信息、职业领域、活动地点、亲属关系及相关文献来源等内容,以结构化JSON格式存储,为音乐历史研究提供标准化的人物档案参考。 文件详解 文件名称:c1187_DE.json 文件格式:JSON...
-
CLDF_Based_1853年Mentawei群岛数字词汇比较数据集_2_0_0版
数据集概述 本数据集基于Carl Benjamin Hermann von Rosenberg1853年发表的《De Mentawei-Eilanden en Hunne Bewoners》文献,提取并整理为CLDF格式的比较数字词汇数据,用于研究Mentawei群岛语言中的数字系统特征,当前为2.0.0版本,包含1个压缩文件。 文件详解...
-
e_Cartae_Experimental_Corpus_Evreux主教文书数字版
数据集概述 本数据集是埃夫勒主教文书的数字版,收录11世纪至1223年的主教文书,由Grégory Combalbert在e-Cartae平台完成。该平台是基于XML-TEI的中世纪文书批判编辑工具,数据集为e-...



