-
Peter_Singer_s1466_Based_音乐家生平职业信息数据
数据集概述 本数据集是音乐家Peter Singer(musiXplora-ID: s1466)的结构化信息档案,包含其基本身份信息、生卒细节、职业领域、活动地点及教育背景等内容,为音乐人物研究提供标准化参考数据。 文件详解 文件名称:s1466_DE.json 文件格式:JSON 字段映射介绍:包含以下核心信息字段...
-
BLOQUES_Source_日语母语者西班牙语学习博客语料库_v1_0
数据集概述 本数据集为BLOQUES日语母语者西班牙语学习博客语料库,包含2669条博客URL,对应41位日语母语西班牙语学习者在Blogger和WordPress平台发布的46个博客内容,可用于研究日语母语者西班牙语学习的语言特征与学习行为。 文件详解 文件名称:bloques-v1.0.zip 文件格式:ZIP...
-
Kannada_Based情态意义故事板录音与ELAN标注数据集2023
数据集概述 本数据集包含达罗毗荼语系Kannada语言的录音资料,聚焦情态表达,基于《Tom and Mittens》和《Chore Girl》两个故事板制作。数据由音频文件及ELAN格式的转录、部分翻译和注释组成,是2023年杜塞尔多夫大学"城市语言田野调查"课程的成果,可用于Kannada情态语义及类型学研究。 文件详解...
-
La_Pola_Siero_Based_阿斯图里亚斯地图第五问口语语料数据
数据集概述 本数据集为关于阿斯图里亚斯地图第五问的口语语料数据,来自La Pola Siero地区的口语语料库。数据集包含1个文件,无目录结构,未划分训练/测试集、数据/标签集或原始/处理集,主要文件类型为DOCX格式。 文件详解 文件名称:Mapa de Asturias.Pregunta5.docx 文件格式:DOCX...
-
IN02086_Siddham_水渠石刻梵语铭文Epidoc草案XML数据
数据集概述 本数据集包含IN02086号Minanatha水渠石刻铭文的梵语XML文件,为Epidoc格式草案版本,将纳入“Siddham”档案。数据记录石刻铭文内容,无元数据,是文化遗产数字化的重要文献资源,共包含1个文件。 文件详解 文件名称:IN02086.xml 文件格式:XML...
-
NEUROTOXINS_Source_神经毒物筛查可疑列表数据集_2019
数据集概述 本数据集包含用于神经毒物可疑筛查的多组化学物质列表,对应Schymanski等人(修订中)论文的表1内容及NEUROTOXINS列表的源数据,覆盖神经发育毒性、潜在阴性对照、人类神经毒物等多类场景,共7个文件。 文件详解 DNTEFFECTS列表文件...
-
ElarArchive_dk0071_Dalabon语言占位词使用偏好数据
数据集概述 本数据集来自Ponsonnet的Dalabon语料库,记录了澳大利亚Gunwinyguan语系Dalabon语言中占位词keninjhbi及其变体的使用实例,用于研究该语言中占位词使用的个体偏好特征,包含2个数据文件。 文件详解 文件名称:Ponsonnet data set 2401026.ods 文件格式:ODS...
-
Multi_CAST_Arta_Based多语言口语标注文本数据集2311
数据集概述 本数据集为Multi-CAST Arta多语言口语标注文本语料库,是Multi-CAST项目的一部分,收录于《Multi-CAST: Multilingual corpus of annotated spoken texts》第2311版本中。数据以压缩包形式提供,包含多语言口语文本的标注内容,适用于语言学领域的多语言口语研究。 文件详解...
-
MOWLCorp_Manchester_OWL语料库OWLXML序列化数据
数据集概述 本数据集为曼彻斯特OWL语料库(MOWLCorp)的OWL/XML序列化版本,包含本体文件及元数据。文件目录存实际本体文件,元数据目录含CSV格式的本体关键指标数据,部分历史可解析文件因导入不可用或解析器不兼容,在2015年1月20日无法解析,详细日志可在元数据目录查看。 文件详解 压缩包文件...
-
Multi_CAST_Based_多语言口语文本标注语料库数据_v2211
数据集概述 本数据集为Multi-CAST项目中的Tulil语料库,属于多语言口语文本标注语料库,由Meng, Chenxi于2022年创建,收录于班贝格大学发布的Multi-CAST版本2211中,包含医疗相关的CT语义关键词,是研究多语言口语文本标注的基础资源。 文件详解 文件名称:Multi-CAST/mctulil-v2211.zip...
-
CPLP_tuites_Based_葡萄牙语多中心推特语料库数据_2022
数据集概述 本数据集为CPLP:tuítes葡萄牙语多中心推特语料库,包含来自安哥拉、巴西、佛得角等七个葡语国家53个新闻机构账号的125,827条推特,共2,633,507个词元。涵盖原始推文、元数据及标注文件三类资源,是研究葡萄牙语多中心变体的结构化语料资源。 文件详解 原始推文文件 文件名称:tweets_untagged.zip...
-
Intermediate_Input_新加坡规划法规语义数据集生成中间数据
数据集概述 本数据集为生成新加坡语义数据集的中间输入数据,用于计算地块允许总建筑面积及生成新加坡规划法规子集的语义数据集。包含一个压缩文件,无目录层级划分,无训练/测试、数据/标签、原始/处理数据等划分。 文件详解 压缩文件(input.zip) 文件名称:input.zip 文件格式:ZIP...
-
La_Pola_Siero_Based_阿斯图里亚斯地图问题8方言语料数据
数据集概述 本数据集为阿斯图里亚斯地图相关的问题8语料,基于La Pola Siero方言构建,包含1个文档文件,无训练/测试、数据/标签或原始/处理数据拆分,文件类型单一为docx格式。 文件详解 文件名称:Mapa de Asturias.Pregunta8.docx 文件格式:docx...
-
musiXplora_Paul_Lösche_l2033_音乐人物档案数据
数据集概述 本数据集为Paul Lösche(musiXplora-ID: l2033)的人物档案数据,包含其基本信息、职业经历、关联人物与机构、专利信息等内容,记录了这位1872-1925年间活跃于莱比锡的自动乐器制造师、管风琴制造师的职业生涯与相关背景,为研究早期机械音乐行业历史提供参考。 文件详解 文件名称:l2033_DE.json...
-
Multi_CAST_Tondano_多语言语音文本标注语料库数据2023
数据集概述 本数据集为Multi-CAST多语言标注语音文本语料库的一部分,包含Tondano语言的语音文本标注数据,由Timothy Brickell于2023年贡献,收录于Geoffrey Haig和Stefan Schnell主编的语料库版本2311中,用于多语言语音文本研究。 文件详解 文件名称:Multi-...
-
ArchiMob_Based_瑞士德语变体口语转录语料库_Release_1
数据集概述 本数据集为ArchiMob语料库Release 1,包含瑞士境内使用的德语变体口语转录文本,是首个瑞士德语长文本电子资源,总规模达528381个词元,可用于形态句法特征空间分布研究及自然语言处理任务。 文件详解 文件名称:ArchiMob_Release1_160812.zip 文件格式:ZIP(压缩包)...
-
UNIC_Templates_Based语料库元数据上传标准化模板v1_11
数据集概述 本数据集包含UNIC平台(https://unic.dipintra.it)用于上传语料库元数据的两种模板文件,版本为v1.11。支持通过JSON文件直接上传,或使用Excel模板输入后转换为JSON。Excel模板含宏验证功能,用户需保持列顺序,新增内容可在现有列后添加新列。 文件详解 UNIC_Metadata upload...
-
IN02001_Based_昌古纳拉扬石柱东轴梵语铭文XML数据_Draft
数据集概述 本数据集包含IN02001昌古纳拉扬石柱东轴铭文的梵语文本,以XML格式存储,为Epidoc标准的草稿版本,计划纳入Siddham档案。数据无元数据,仅包含一份核心文件,用于铭文的数字化保存与研究。 文件详解 核心文件 文件名称:IN02001.xml 文件格式:XML...
-
La_Pola_Siero_Based_西班牙地图问题1_拉波拉谢罗语料数据
数据集概述 本数据集为拉波拉谢罗语料库的一部分,核心内容是与“西班牙地图”相关的问题1的语料数据,以文档形式存储,可用于语言研究领域的相关分析。 文件详解 文件名称:Mapa de España.Pregunta1.docx 文件格式:DOCX 字段映射介绍:未提供具体字段信息,文件为单一文档,内容围绕“西班牙地图:问题1”的拉波拉谢罗语料展开。...
-
musiXplora_François_Baschet_音乐艺术人物信息数据
数据集概述 本数据集为François Baschet(musiXplora-ID: b3725)的人物信息档案,包含其基本身份信息、职业背景、亲属关系及关联人物等内容,以JSON格式存储,是研究该人物及其相关领域的基础资料。 文件详解 文件名称:b3725_DE.json 文件格式:JSON 字段映射介绍:包含以下核心字段...



