数据集 - 海数据

LLM4Commit_Based_大语言模型提交信息生成研究复现包数据

2026年1月23日 30 132 24

数据集概述本数据集为论文“Using Large Language Models for Commit Message Generation: A Preliminary Study”的复现包，包含实验评估数据与脚本文件，支持对大语言模型（LLM）生成代码提交信息的研究复现与分析，总文件数为1个。文件详解文件名称：LLM4Commit.zip...

ZIP

ThoughtSource_Based_大语言模型推理数据中心代码快照

2026年1月23日 30 7 1

数据集概述本数据集是ThoughtSource的代码快照，ThoughtSource是面向大语言模型思维链推理的元数据集与软件库。数据集包含一个文件，无目录结构，未划分训练/测试、数据/标签或原始/处理数据，文件类型单一为压缩包。文件详解文件名称：ThoughtSource-main.zip 文件格式：ZIP...

ZIP

LLM_Based_健康委员会残疾评估报告生成与伤残百分比分配研究数据

2026年1月22日 30 109 55

数据集概述本数据集围绕大型语言模型（LLMs）在健康委员会残疾评估中的应用展开，研究ChatGPT-4o和Data Analyst两款模型生成残疾报告、分配伤残百分比的能力。通过9个真实患者场景，从与专家指南的一致性、完整性、准确性等维度评估模型表现，并对比模型与专家计算的伤残百分比，分析模型可靠性。数据集包含1个文档文件。文件详解...

ZIP

ARAFA_Generated_Based_阿拉伯语大规模事实核查数据集

2026年1月21日 30 103 6

数据集概述本数据集是面向阿拉伯语自然语言处理的大规模事实核查数据集ARAFA，通过大语言模型自动化框架构建，包含181,976条标注为支持、反驳或信息不足的主张-证据对，可用于阿拉伯语自动事实核查模型训练与评估。文件详解文件名称：ARAFA.json 文件格式：JSON...

ZIP

NL2Fix_Supplementary_LLM漏洞修复评估补充材料数据

2026年1月21日 30 163 160

数据集概述本数据集是论文“NL2Fix: Evaluating LLMs for Resolving Bugs From Natural Language Intent”的补充材料，包含两个压缩文件，涉及代码漏洞修复相关的嵌入数据和生成补丁数据，为LLM在自然语言意图驱动的漏洞修复任务中的评估提供支持。文件详解压缩文件包...

ZIP

Uncreativity_Engine_Based_LLM与创造力研究数据

2026年1月21日 30 108 52

数据集概述本数据集为小型研究项目“Uncreativity Engine”的相关文件，聚焦于大语言模型（LLMs）与创造力的研究。包含两个文件，分别为数据表格文件和用于分析的LLM文本块，总计文件数量为2。文件详解文件名称：GPT_Villains_Data_Text.docx 文件格式：DOCX...

ZIP

codex_reverse_Based_OpenAI模型逆向工程测试框架数据集

2026年1月19日 30 123 47

数据集概述本数据集包含用于评估OpenAI code-davinci-001（davinci-codex）模型逆向工程任务的测试框架源文件和脚本，保留了相关论文中的所有结果，支持额外实验或结果复现。文件详解文件名称：codex-reverse.zip 文件格式：ZIP...

ZIP

Spanish_Future_Tense_Based_LLM选择能力评估数据集

2026年1月19日 30 189 15

数据集概述本数据集包含用于评估大语言模型（LLM）处理西班牙语将来时态能力的测试问题，分为表义将来（100题）和认知将来（65题）两类场景，需模型在形态将来时和迂回将来时中选择正确选项。部分句子改编自西班牙皇家学院CREA语料库，同时提供17个不同公司模型的测试结果数据，共包含2个文件。文件详解文件名称：futures_dataset.xlsx...

ZIP

Replication_package_LLM辅助软件工程开发者实践研究复现数据

2026年1月19日 30 180 138

数据集概述本数据集是论文《From Requirements to Code: Understanding Developer Practices in LLM-Assisted Software Engineering》的复现数据包，包含2个文件，覆盖访谈与编码系统两类内容，用于支持该研究的结果复现与进一步分析。文件详解 Interview...

ZIP

LLM_Portuguese_Based_医疗领域葡萄牙语大语言模型系统综述分析数据

2026年1月18日 30 28 23

数据集概述本数据集源自系统综述“Large Language Models in Portuguese for Healthcare”，包含综述分析的文章列表、各阶段纳入排除标准及分析提取的数据，共2个文件，支持医疗领域葡萄牙语大语言模型相关研究的分析与整合。文件详解 SLR_data_extraction_LLM.xlsx 文件格式：XLSX...

ZIP

LLM_Based_伦敦国王学院AI驱动Python编译器测试增强数据集2024

2026年1月15日 30 184 48

数据集概述本数据集通过整合大语言模型（LLM）与AFL++模糊测试技术生成，用于增强CPython编译器测试。包含由Mistral 7B、Codellama 7B、Gemma 7B等LLM创建的原始Python测试脚本，覆盖多种编译器功能；经模糊测试得到丰富测试用例，可选AFL-...

ZIP

SentiMentality_Based_AI模型福利研究_LLM星期颜色联觉体验数据

2026年1月14日 30 35 26

数据集概述本数据集为AI模型福利研究的一部分，聚焦Claude 4 Sonnet和GPT-4o两款大语言模型（LLM）声称的联觉体验，核心记录其对星期几对应的颜色感知数据。包含8个文件，覆盖原始交互数据、颜色频率统计、平均颜色及摘要信息，支持分析LLM的类感知行为特征。文件详解交互数据文件...

ZIP

LLM_Evaluation_Heart_Failure_2025_医疗AI准确性评估数据

2026年1月13日 30 208 99

数据集概述本数据集记录了对6款主流大语言模型（LLMs）在心力衰竭与心肌病健康信息查询场景下的准确性评估实验结果。实验通过标准化API接口，针对疾病认知、诊断、治疗、预后及生活方式5类共50个问题测试模型表现，为评估LLMs在心血管健康领域的适用性提供数据支持。文件详解文件名称：app_data_prepared_upload.xlsx...

ZIP

Asteraceae_Based_澳大利亚菊科AI形态数据提取准确性与可重复性测试结果数据

2026年1月12日 30 196 112

数据集概述本数据集包含澳大利亚菊科植物分类描述的大语言模型（LLM）形态数据提取准确性与可重复性测试结果，基于109个随机选取的分类描述样本，用于验证LLM在植物形态学数据分析中的有效性与挑战性。文件详解文件名称：oo_1396814.xlsx 文件格式：XLSX...

ZIP

TEI_XML_SLUB_Dresden萨克森选帝侯约翰_格奥尔格二世1673年宫廷日记数字化数据

2026年1月7日 30 86 65

数据集概述本数据集为萨克森选帝侯约翰·格奥尔格二世1673年宫廷日记（SLUB Mscr.Dresd.K.117）的TEI:XML格式数字化版本，记录了1673年上半年德累斯顿宫廷的活动，重点包括节日及相关音乐演出。数据通过半自动化流程编辑，经人工核对，遵循DTABf-M标准，保留原始手写特征与语义准确性。文件详解文件名称：SLUB Mscr...

ZIP

Supplementary_Dataset_Based_语法引导LLM输出物联网数据平台评估数据集

2026年1月6日 30 156 42

数据集概述本数据集为语法引导大语言模型（LLM）输出物联网数据平台开放数据集成研究的补充数据，包含通过三种LLM（Qwen 2.5 Instruct、Llama 3.1 Instruct、Phi-4）处理六个开放数据源生成的720个符合OGC SensorThings...

ZIP

JailFact_Bench_LLM越狱攻击与幻觉分析基准数据集_SiMLA2025Workshop

2026年1月5日 30 23 12

数据集概述本数据集是用于分析大语言模型（LLMs）越狱攻击与幻觉模式的基准数据集，包含语义对齐的越狱及事实性提示词，以及毒性变化、相似度得分、标注策略等元数据，支持LLM安全与事实一致性的评估研究。文件详解文件名称：README.md 文件格式：Markdown 字段映射介绍：包含数据集概述、开发背景、使用说明等文档内容...

ZIP

ECTEL2025_Ubiquitous_Learning_POI识别_LLM与LOD性能对比研究数据

2026年1月2日 30 70 11

数据集概述本数据集围绕泛在学习（u-learning）中兴趣点（POI）识别问题，对比大型语言模型（LLMs）与链接开放数据（LOD）的性能。研究聚焦欧洲三座城市及周边地区的16世纪文化遗产地（教堂、大教堂、城堡、宫殿），通过Wikidata、ChatGPT和DeepSeek获取数据，从准确性、一致性等四维度分析，为u-...

ZIP

LLM逆向工程序列图泛化能力复现数据包

2025年12月13日 30 68 38

数据集概述本数据集是论文《On the Generalization Capabilities of LLMs for Reverse Engineering Sequence Diagrams》的复现数据包，包含实验所需的源代码、模型生成的序列图数据等，支持复现论文中的研究结果。文件详解 RE-LLMs-...

ZIP

软件工程研究中LLM使用态度的两阶段调查补充材料

2025年12月23日 30 99 34

数据集概述本数据集是《软件工程研究中LLM使用态度：两阶段调查研究结果》一文的补充材料，包含论文中描述的两阶段调查工具的详细说明，为理解调查设计与实施提供补充信息。文件详解文件名称：FSE2025 - Humanai4SE - Supplementary material.pdf 文件格式：PDF (.pdf)...

ZIP

找到69个数据集

注册成功！