数据集 - 海数据

Kleinewillinghöfer_Based_Bikwin_Jen语言比较词表CLDF数据集2015

2025年12月31日 30 62 15

数据集概述本数据集是基于Kleinewillinghöfer于2015年发布的《Bikwin-Jen Comparative Wordlist》构建的CLDF格式数据集，包含Bikwin-Jen语言组的词汇比较信息，为语言比较研究提供结构化数据支持。文件详解主文件...

ZIP

AUGUSTA语音转文本语言模型训练数据集

2025年12月22日 30 151 88

数据集概述该数据集包含用于微调AUGUSTA语音转文本模型的元数据和精选数据集，AUGUSTA是基于OpenAI Whisper定制的模型，可将南蒂罗尔方言语音转录为标准德语。文件详解文件名称: augusta_data-main.zip 文件格式: ZIP压缩包文件内容:...

ZIP

蛋白质与编码序列整合语言模型数据集

2025年12月22日 30 53 26

数据集概述本数据集围绕蛋白质与编码序列整合以增强语言模型的研究主题构建，包含训练数据、微调模型、多模态数据集及特征嵌入等多类文件，为相关领域的模型训练与分析提供数据支持。文件详解根目录文件: source_data.zip: ZIP压缩包，包含项目所有子目录及文件 TE_MRL目录: MRL_dataset.zip:...

ZIP

欧洲文学文本集合2021年4月版

2025年12月18日 30 7 0

数据集概述本数据集为2021年4月发布的欧洲文学文本集合（ELTeC）1.1.0版本，包含十四种欧洲语言的小说集合，其中八种语言的小说数量达一百部，总计超过一千二百部小说，为欧洲文学远程阅读研究提供多语言文本资源支持。文件详解...

ZIP

源代码语言模型共享与能源使用探索性文献研究复现包2023

2025年12月15日 30 179 163

数据集概述本数据集是论文《源代码语言模型共享与能源使用探索性文献研究》的复现包，包含论文预印本、研究数据表格及文献引用文件，为复现该研究提供完整资料。文件详解文件名称: Hort_et_al-Sharing-SCMs_accepted_ESEM2023.pdf 文件格式: PDF 内容说明:...

ZIP

PMo流程模型与文本描述数据集

2025年12月14日 30 209 164

数据集概述该数据集包含五十五个流程模型及其对应的文本描述，旨在支持流程建模领域的研究。每个模型提供九种不同表示形式，部分格式专为大语言模型（LLM）兼容性设计。数据集以压缩包形式存储，便于获取与使用。文件详解数据集包含一个压缩包文件，具体说明如下： - 文件名称: pmo-dataset.zip - 文件格式: ZIP (.zip) -...

ZIP

提格利尼亚语语言建模数据集TLMD_v1_0_0

2025年12月13日 30 161 34

数据集概述该数据集是为提格利尼亚语语言建模构建的单语种数据集，是同类数据中规模最大的提格利尼亚语数据集。数据经轻量清理，包含训练集（百分之九十八）和验证集（百分之二），支持自然语言处理研究。文件详解文件名称: tlmd_v1.0.0.zip 文件格式: ZIP压缩包数据结构:...

ZIP

图灵测试中语言模型作为评委的性能评估数据集

2025年12月12日 30 5 4

数据集概述本数据集围绕图灵测试展开，核心内容是评估语言模型作为评委的性能表现。通过相关实验设计，旨在探究语言模型在判断对话对象是否为人类时的能力，为人工智能评估领域提供数据支持。文件详解文件名称: conversas_teste_de_turing.pdf 文件格式: PDF (.pdf) 文件内容:...

ZIP

TableLabler_可扩展表格数据标注数据集

2025年12月11日 30 47 9

数据集概述该数据集是TableLabler项目的预发布版本，旨在通过语言模型实现表格数据的可扩展标注，支持表格数据集的创建。包含核心数据压缩包和补充材料文档，为研究表格数据标注的可扩展方法提供基础数据。文件详解 TableLabler dataset.zip：压缩包格式，可能包含TableLabler项目用于表格数据标注的核心数据集...

ZIP

比尔肯特土耳其语写作数据集2014_2025

2025年12月10日 30 48 10

数据集概述该数据集是比尔肯特大学2014-2025年土耳其语101和102课程的学生创意写作汇编，包含九千一百一十九篇原创文本，聚焦创造力、内容、语法等维度。2.0版本较初始版扩充约百分之三十三内容，是学术研究用公开土耳其语创意写作语料库之一。文件详解文本数据文件：...

ZIP

语言模型中蛋白质家族与功能的高关注位点分析数据集

2025年12月9日 30 90 17

数据集概述本数据集围绕语言模型中蛋白质家族与功能的高关注位点展开，包含热图、PFAM序列、相似性分析及多序列比对等相关压缩文件，为研究蛋白质家族与功能的关联提供数据支持。文件详解压缩文件: heatmap.zip: ZIP格式，可能包含蛋白质关注位点的热图数据 pfam_fasta.zip:...

ZIP

LLM温度分析程序合成数据集

2025年12月8日 30 97 58

数据集概述该数据集围绕大型语言模型（LLM）温度分析的程序合成主题构建，包含一个压缩文件，未提供具体内容预览，可支持相关技术分析与研究。文件详解文件名称：appendix.zip 文件格式：ZIP压缩包内容说明：数据集唯一文件，为压缩格式，未提供内部文件结构及字段信息适用场景 LLM温度参数对程序合成效果的影响研究...

ZIP

Skirgård_Grambank_Based_语言语法特征分析完整数据

2025年12月7日 30 105 3

数据集概述本数据集为Grambank v1.0版本，是一个与语言语法特征相关的数据库。相关研究论文将发表于《Science Advances》，旨在揭示谱系约束对语言多样性的重要性，并强调语言流失的影响。文件详解文件名称: grambank/grambank-v1.0.3.zip 文件格式: ZIP压缩包（.zip）内容说明:...

ZIP

乌拉尔语系基础词汇及同源词与借词信息数据集

2025年12月7日 30 176 74

数据集概述该数据集提供乌拉尔语系的基础词汇数据，包含同源词与借词相关信息，可用于分析语言间的词汇借用模式及结构特征，为语言学研究提供支持。文件详解文件名称: lexibank/uralex-v2.0.zip 文件格式: ZIP压缩包内容说明: 压缩包内包含乌拉尔语系基础词汇数据，具体字段及结构需解压后查看原始文件适用场景...

ZIP

希腊议会二战后会议记录分析与识别数据集1946_1947

2025年12月5日 30 187 83

数据集概述该数据集通过文本识别与自然语言处理技术，解锁1946-1947年希腊议会会议记录的历史语料。包含经Transkribus训练的文本识别模型处理的3156张扫描图像，以及通过语言模型优化、信息提取技术分析的演讲数据，首次量化了获得掌声的议题。文件详解文件名称: README.md，文件格式: Markdown，内容:...

ZIP

软件追踪系统缺陷报告数据集

2025年11月29日 30 73 40

数据集概述该数据集包含来自软件追踪系统的缺陷报告数据，适用于软件分析、机器学习、深度学习及大语言模型（LLM）应用场景。数据集由多个来源的JSON格式原始缺陷报告文件组成，为相关领域的研究和应用提供数据支持。文件详解文件名称: Novell_original.json：JSON格式文件，包含Novell系统的原始缺陷报告数据文件名称:...

ZIP

英语时态文本分类数据集

2025年11月29日 30 122 83

数据集概述该数据集是大规模英语文本分类数据集，包含按过去、现在、未来三种时态分类的英语句子。共收录一万三千三百一十六个标注句子，其中现在时态四千六百二十一句、过去时态三千八百五十一句、未来时态四千八百四十四句，为自然语言处理研究提供支持。文件详解文件名称: EnglishTenseUniqueDataset.xlsx 文件格式: XLSX...

ZIP

索拉尼库尔德语高质量自动命名实体识别数据集2024

2025年11月29日 30 201 82

数据集概述该数据集是针对低资源语言索拉尼库尔德语的自动标注命名实体识别（NER）资源，包含二零二四年发布的两千三百余篇新闻文章，覆盖政治、经济等六个领域，采用BIO标注方案，含六十五万余词元及十二类实体类型，用于支持库尔德语自然语言处理研究。文件详解主目录文件： Adyan_metadata.txt：TXT格式，可能包含数据集元信息...

ZIP

多目标优化结合知识图谱嵌入大语言模型的电池回收技术选择数据集

2025年11月28日 30 91 82

数据集概述本数据集围绕电池回收技术选择展开，包含基于知识图谱嵌入大语言模型的Battery-LLaMA模块、多目标优化框架相关数据，涵盖文献摘要、模型训练、优化结果等内容，为可持续电池回收技术研究提供支持。文件详解该数据集由多个目录和文件组成，具体说明如下： - 数据文件目录（Data Utilized/）： -...