-
UNIC_Based语料库对齐文件模板数据v1_1
2026年1月31日 30 7 6
数据集概述 本数据集为UNIC平台的语料库对齐文件模板,包含JSON模板和Excel模板,支持用户按模板结构化语料库对齐文件,可通过转换工具将Excel文件转为JSON压缩包上传至UNIC平台,共包含2个文件。 文件详解 UNIC_Alignment template.json 文件格式:JSON...
-
TwiSty_Based_多语言Twitter作者性别与人格分析语料库
2026年1月22日 30 49 46
数据集概述 本数据集为TwiSty多语言Twitter作者分析语料库,用于作者特征识别研究。包含六种语言共18,168位作者的人格(MBTI)和性别标注信息,以及作者的Twitter ID和其可用推文ID。推文已完成语言识别,分为“确认语言”和“其他语言”两类。 文件详解 文件名称:twisty.zip 文件格式:ZIP...
-
UNIC_JSON_Template_Based_对齐语料库数据上传模板
2026年1月22日 30 162 114
数据集概述 本数据集为UNIC平台上传对齐语料库数据所需的JSON模板文件,用于规范单文件对齐语料库数据的上传格式。数据集包含一个JSON格式的模板文件,无目录结构,可联系unic@dipintra.it获取协助。 文件详解 文件名称:UNIC_Template for uploading aligned data.json 文件格式:JSON...
-
Multi_CAST_Based_多语言口语文本标注语料库数据_v2211
2026年1月21日 30 19 12
数据集概述 本数据集为Multi-CAST项目中的Tulil语料库,属于多语言口语文本标注语料库,由Meng, Chenxi于2022年创建,收录于班贝格大学发布的Multi-CAST版本2211中,包含医疗相关的CT语义关键词,是研究多语言口语文本标注的基础资源。 文件详解 文件名称:Multi-CAST/mctulil-v2211.zip...
-
Multi_CAST_Tondano_多语言语音文本标注语料库数据2023
2026年1月21日 30 146 15
数据集概述 本数据集为Multi-CAST多语言标注语音文本语料库的一部分,包含Tondano语言的语音文本标注数据,由Timothy Brickell于2023年贡献,收录于Geoffrey Haig和Stefan Schnell主编的语料库版本2311中,用于多语言语音文本研究。 文件详解 文件名称:Multi-...
-
Multi_CAST_Based_多语言口语文本标注语料库_Mandarin_Version2311
2026年1月4日 30 91 49
数据集概述 本数据集为Multi-CAST多语言口语标注文本语料库的中文部分,由Maria Vollmer于2023年贡献,收录于Geoffrey Haig和Stefan Schnell主编的语料库版本2311中。数据以压缩包形式提供,是研究中文口语标注文本的基础语料资源。 文件详解 文件名称:Multi-...
-
HEREDITary_Based_肠道_大脑相互作用语义数据整合语料库_V0_1
2026年1月15日 30 88 21
数据集概述 本数据集是HEREDITARY项目下的HEREDITermCorpus_en_V0.1,为肠道-大脑相互作用研究构建的多语言语料库英文版本,包含经筛选的微生物群-肠道-...
-
Multi_CAST_Nafsan_Based多语言口语文本标注语料库数据2311
2026年1月15日 30 47 41
数据集概述 本数据集为Multi-CAST多语言口语文本标注语料库的一部分,具体包含Nafsan语言的口语文本标注数据。该语料库由班贝格大学发布,属于Multi-CAST项目的2311版本,是多语言口语文本资源的重要组成部分。 文件详解 压缩文件 文件名称:mcnafsan-v2311.zip 文件格式:ZIP 字段映射介绍:压缩包内包含Multi-...
-
Multi_CAST_Based_Kalamang语言口语文本标注语料库数据_v2311
2026年1月13日 30 101 32
数据集概述 本数据集为Multi-CAST多语言口语文本标注语料库的一部分,包含Kalamang语言的标注口语文本数据。数据集由Eline Visser于2023年贡献,属于Multi-CAST语料库的2311版本,旨在为语言学研究提供标准化的多语言口语资源。 文件详解 文件名称:Multi-CAST/mckalamang-v2311.zip...
-
CONTRAST_IT_Corpus_French_News_Articles_2011_2012
2026年1月7日 30 167 5
数据集概述 本数据集是CONTRAST-IT多语言语料库的法语部分,包含2011-2012年来自法国《世界报》和《费加罗报》的520篇真实新闻文章,总计约30万字。文章覆盖经济、体育、国际新闻等多个主题,是构建对比语言学研究语料库的基础数据。 文件详解...
-
Multi_CAST_Source_Northern_Kurdish多语言语音文本标注数据2311
2026年1月7日 30 110 65
数据集概述 本数据集为Multi-CAST多语言语音文本标注语料库的一部分,包含Northern Kurdish语言的语音文本标注数据。该语料库由班贝格大学发布,是多语言口语文本标注资源的重要组成,可用于相关语言研究与自然语言处理应用。 文件详解 文件名称:Multi-CAST/mcnkurd-v2311.zip 文件格式:ZIP...
-
Multi_CAST_Source_Sanzhi_Dargwa多语言语音标注文本数据_2311版本
2026年1月6日 30 31 26
数据集概述 本数据集为Multi-CAST多语言标注语音文本语料库的一部分,包含Sanzhi Dargwa语言的标注语音文本数据,版本为2311。数据集由班贝格大学发布,是多语言语音语言学研究的结构化资源,仅包含一个压缩文件。 文件详解 文件名称:Multi-CAST/mcsanzhi-v2311.zip 文件格式:ZIP...
-
Multi_CAST_Based_Multi_CAST_Teop多语言医疗CT标注语音文本数据集_V1905
2025年12月29日 30 110 22
数据集概述 本数据集为Multi-CAST多语言标注语音文本语料库的一部分,聚焦医疗CT相关的语音文本标注内容。数据由班贝格大学发布,版本为1905,包含1个压缩文件,无训练测试或数据标签拆分,核心语义关键词为医疗CT,是研究多语言医疗语音文本标注的基础语料。 文件详解 压缩文件 文件名称:Multi-CAST/mcteop-v1905.zip...
-
HEREDITermCorpus_pt_V0_1_HEREDITARY项目_葡萄牙语微生物群_肠_脑轴文本语料库
2025年12月27日 30 111 80
数据集概述 本数据集是HEREDITARY项目下的葡萄牙语文本语料库,聚焦微生物群-肠-脑轴(MGBA)及其在神经退行性疾病中的作用,包含126篇文档、100,610个句子、约200万词汇和267万词元,为相关领域研究提供结构化文本资源。 文件详解 文件名称:HerediTermCorpus_pt.xlsx 文件格式:XLSX...
-
新冠演讲小型语料库2020
2025年12月19日 30 200 97
数据集概述 该数据集为新冠演讲小型语料库,包含伊曼纽尔·马克龙、佩德罗·桑切斯和安格拉·默克尔三位领导人的十五篇演讲,每位五篇。十四篇演讲时间为2020年3月至6月,每人均有一篇为同年10月或11月,内容和意图具有相似性。 文件详解 演讲文件(共15个): 文件格式:DOCX(.docx)...
-
学校文化素养学习的对话与论证多语言数据集
2025年12月11日 30 129 16
数据集概述 该数据集是DIALLS项目的多语言语料库,包含英国、葡萄牙等七个参与国家5至15岁学生的课堂互动转录文本,涵盖七种语言,部分转录有英文翻译,围绕学校儿童通过对话和论证培养文化素养的主题。 文件详解 文件名称:DIALLS_Multilingual_Corpus_description.V2.pdf 文件格式:PDF...
-
LangReg多语言情境下语内变异语料库2021_2022
2025年12月8日 30 101 24
数据集概述 该数据集是记录跨语言及不同情境功能语境下语内变异的多语言语料库,包含德语、波斯语、库尔德语、爪哇语四种语言,收集了2021至2022年的数据,涵盖六种情境下的语言产出,支持口语与书面语模式比较。 文件详解 综合压缩包: LangReg-complete.zip: 完整语料库压缩包,包含所有语言数据 单语言压缩包: German.zip:...
-
Open_Linguistics待发表文章补充材料与原始数据
2025年12月5日 30 108 1
数据集概述 本数据集包含发表于《Open Linguistics》的论文《COVID-19的语言影响:四种语言的语料库研究》的补充材料(A、B、C)及原始数据,涵盖病毒名称及相关词汇的多语言原始数据,为研究提供支撑。 文件详解 补充材料文件: Supplement A.pdf、Covid discourse Supplement...
-
欧洲右翼及极右翼政治移民推文语料库2011_2022
2025年12月4日 30 52 17
数据集概述 本数据集是多语言移民主题推文语料库,聚焦2011-2022年欧洲英、法两国右翼及极右翼政治人物与政党的移民相关言论,含法、英两个子语料库,共一万八千二百三十三条推文、五十三万三千一百九十八词,为研究数字移民话语提供支持。 文件详解 该数据集包含多个CSV和ZIP格式文件,具体说明如下: - 法国子语料库文件(FR-R-MIGR-...
-
罗马尼亚小说语料库2021年4月版
2025年12月4日 30 196 187
数据集概述 该数据集是2021年4月发布的罗马尼亚小说语料库(ELTeC-rom),包含95部按第一层级编码的小说,提供了小说元数据、说明文档及压缩文件包,为欧洲文学文本相关研究提供基础数据支持。 文件详解 文件名称: metadata.csv 文件格式: CSV 字段映射: 包含id(编号)、author-name(作者名)、book-...



