数据集 - 海数据

GRETIL_Based印度语言电子文本TEI数据集

2026年1月31日 30 88 82

数据集概述本数据集为GRETIL（哥廷根印度语言电子文本注册库）的TEI格式数据，包含一百零一份印度语言电子文本文件，均为XML格式，无目录层级划分，未进行训练测试、数据标签或原始处理数据的拆分，可用于印度语言文献的数字化研究与分析。文件详解数据文件文件名称：包含sa_bAdarAyaNa-...

ZIP

Bangla_REX_Based_孟加拉语关系抽取数据集_完整标注版

2026年1月23日 30 86 72

数据集概述本数据集是针对孟加拉语关系抽取任务构建的专用数据集，基于结构化知识库和标注语料的理论框架生成。包含63,256条条目组成的孟加拉语知识库（KB）、90,441条带命名实体识别（NER）和词性标注（POS）的文本语料，以及440个孟加拉语地点助记符，可直接用于关系抽取任务。文件详解 location_mnemonics.xlsx...

ZIP

Zenodo_Based_诺拉埃斯科拉庇俄斯圣所叙事数据集_旅游应用支持

2026年1月22日 30 64 19

数据集概述本数据集为诺拉（普拉，CA）埃斯蒙/埃斯科拉庇俄斯圣所的叙事数据，该圣所自腓尼基时代至罗马晚期均有使用。数据集为考古公园旅游应用开发而构建，包含圣所景点叙事文本、建筑元素叙事文本及对应的意大利语和英语专业录音。文件详解音频文件文件名称：SDE-audio_ITA_storytelling-wav.zip、SDE-...

ZIP

Multi_CAST_Nafsan_Based多语言口语文本标注语料库数据2311

2026年1月15日 30 6 5

数据集概述本数据集为Multi-CAST多语言口语文本标注语料库的一部分，具体包含Nafsan语言的口语文本标注数据。该语料库由班贝格大学发布，属于Multi-CAST项目的2311版本，是多语言口语文本资源的重要组成部分。文件详解压缩文件文件名称：mcnafsan-v2311.zip 文件格式：ZIP 字段映射介绍：压缩包内包含Multi-...

ZIP

Lienz_Kosaken_Based女性命运与哥萨克悲剧虚拟展览技术实现数据2020

2026年1月14日 30 99 24

数据集概述本数据集包含2020年上线的虚拟展览“Loro condividono il loro destino! Le donne e la tragedia cosacca di Lienz 1945”的全部背景数据，支持访问http://ausstellung.kosaken-...

ZIP

Objaverse_Al_Adziim_Based_壮丽至高阿拉伯语词汇多媒体完整数据

2025年12月22日 30 31 20

数据集概述该数据集包含与“Al Adziim（العَظِيمُ）”相关的文件，涉及阿拉伯语词汇及对应英文释义“The Magnificent, The Supreme”，以图片和三维模型文件形式呈现。文件详解文件名称及格式： 768d8098ac1642c3b68bec1b2c4e04be.glb：GLB格式三维模型文件...

ZIP

乌兹别克语文档数据集

2025年12月21日 30 172 156

数据集概述该数据集包含一份乌兹别克语的PDF文档，文档标题涉及智能未来及其对人类的影响，为相关主题的研究或资料查阅提供支持。文件详解文件名称: Oloviddinova Feruza Baxodir qizi.pdf 文件格式: PDF (.pdf) 文件内容: 文档标题为“SUNʼIY INTELLEKTNING KELAJAGI VA...

ZIP

欧洲文学文本集合2021年4月版

2025年12月18日 30 78 25

数据集概述本数据集为2021年4月发布的欧洲文学文本集合（ELTeC）1.1.0版本，包含十四种欧洲语言的小说集合，其中八种语言的小说数量达一百部，总计超过一千二百部小说，为欧洲文学远程阅读研究提供多语言文本资源支持。文件详解...

ZIP

LivingNER标准语料库_物种病原体食物命名实体识别与分类数据集

2025年12月15日 30 8 7

数据集概述该数据集为LivingNER标准语料库，包含训练、验证、测试及背景集，覆盖多医学专科的两千份临床病例报告，标注物种、病原体、人类及食物等实体，并提供多语言资源，用于命名实体识别、归一化及分类任务。文件详解核心压缩文件: livingner-...

ZIP

喜马拉雅凤仙花种子芬兰冬季后发芽数据集

2025年12月11日 30 113 21

数据集概述本数据集包含喜马拉雅凤仙花种子在芬兰冬季后发芽情况的研究数据、分析代码及多语言预印本文章。核心内容为探究该种子经过芬兰冬季后的发芽表现，提供结构化数据与可复现分析资源。文件详解 balsam_seeds.R: R语言代码文件，用于数据分析（英文注释） balsam_seeds.csv: CSV格式数据文件，包含字段： square:...

ZIP

跨语言共现数据库LOGOS数据集1_0

2025年12月5日 30 198 78

数据集概述该数据集为跨语言共现数据库（CLICS）的LOGOS数据版本1.0，由List等人于2014年发布，记录跨语言词汇共现现象，为语言比较研究提供基础数据支持。文件详解文件名称: lexibank/logos-v4.0.zip：压缩文件格式，包含跨语言共现数据库的LOGOS数据，具体字段需解压后查看，未提供预览内容。数据来源 List,...

ZIP

DisTEMIST西班牙语临床病例疾病提及检测与标准化数据集

2025年12月4日 30 125 41

数据集概述本数据集为DisTEMIST语料库，包含一千份西班牙语临床病例，病例中的疾病提及经人工标注并映射至SNOMED-CT概念。数据集分为训练集、测试集、背景集，同时提供多语言资源和跨术语映射文件，支持疾病实体检测与标准化相关研究。文件详解数据集以压缩包形式提供，核心内容包含以下目录与文件： - 主文件: -...

ZIP

句子间连接数据集

2025年4月21日 30 2 1

句子间连接数据集数据来源：互联网公开数据标签：跨语言连接,多语言资源,语言对齐,语料库,NLP研究数据概述：本数据集记录了不同语言之间的句子配对，主要来源于Tatoeba项目。数据集包含了多种语言的句子及其对应关系，为研究和开发多语言自然语言处理任务提供了宝贵的资源。数据用途概述：...

ZIP

找到13个数据集

注册成功！