-
AeroEngQA_Benchmark_航空工程飞机设计LLM评估基准数据集
2026年1月20日 30 74 57
数据集概述 本数据集是低体量、高质量的飞机设计问答(QA)基准数据集,用于支持大语言模型(LLMs)的定性评估。涵盖单跳可回答、单跳不可回答、多跳可回答、多跳不可回答四类问答场景,通过结构化文件提供航空工程领域的专业问答数据,为LLM在飞机设计任务中的性能评估提供标准基准。 文件详解 核心数据文件 文件名称:AeroEngQA_single-...
-
Cold_Email_Generation_Datasets_提示词评估数据集
2026年1月19日 30 110 64
数据集概述 本数据集包含两个.xlsx格式的文件,用于评估大型语言模型(LLMs)在个性化冷邮件生成任务中的表现。数据集基于招聘信息,分别使用详细提示词和基础提示词生成冷邮件,记录了招聘信息、生成邮件内容、个人化字段及提示词参考等信息。 文件详解 数据集1:all_model_evaluation_P1.xlsx 文件格式:.xlsx...
-
Paired_Human_and_LLM_free_text_survey_data
2026年1月18日 30 105 95
数据集概述 本数据集包含两组配对数据,模拟公众咨询场景。人类数据集涵盖约一千名英国居民对五个类公众咨询问题的自由文本回答,包含受访者自标主题标签及三名众包工作者的标注;LLM数据集基于人类回答生成,包含同一问题下的合成回复,由预设主题、角色设定及人类回答示例引导生成。 文件详解 人类调查数据文件...
-
基于本体与大语言模型的医疗数据对齐评估数据集
2025年12月25日 30 190 28
数据集概述 该数据集包含医疗数据对齐评估的相关文件,围绕ICD-10编码、患者结局与MONDO疾病本体、HPO表型本体的映射展开,支持LLM与传统映射方法的性能对比研究,为医疗联邦学习中的数据协同提供基础。 文件详解 该数据集以ZIP压缩包形式存储,内部包含以下目录和文件: - 输入数据文件(input目录): -...
-
数据4917个表型数据包与10语言提示词及LLM评估结果数据集
2025年12月16日 30 29 7
数据集概述 该数据集包含4917个GA4GH表型数据包,以及基于这些数据包生成的10种语言(英、中、捷克、荷兰、法、德、意、日、西、土耳其语)的提示词,同时收录了GPT-4o和Meditron3-70B模型的多语言能力评估结果,用于罕见遗传病诊断领域的大语言模型研究。 文件详解 文件名称: ppkts_4917set.txt,文件格式: TXT 内容:...
-
CADog_CAD网页查看器评估数据集
2025年12月14日 30 2 0
数据集概述 该数据集是CADog(CAD网页查看器)的评估数据集,包含多种格式的几何文件,分为网格、CAD零件、装配体及元数据四类,用于测试CAD查看器的功能与性能。 文件详解 该数据集包含一个ZIP压缩文件,内部文件存储于evaluation-files目录,具体说明如下: - 压缩包文件: - cadog-evaluation-data.zip:...
-
Android应用多模态GUI测试生成的LLM评估数据集
2025年12月13日 30 29 13
数据集概述 本数据集是围绕Android应用多模态GUI测试生成任务的大语言模型(LLM)评估相关数据,以压缩包形式存储,未提供具体内容预览。 文件详解 文件名称: dataset+results.zip 文件格式: ZIP (.zip) 内容说明:...
-
生态数据挖掘大语言模型评估与基准测试数据集
2025年12月12日 30 22 5
数据集概述 本数据集包含生态数据挖掘场景下大语言模型(LLM)评估的完整资源,涵盖500篇摘要数据、专家验证的标注及模型输出,辅以可复现评估流程的脚本,支持LLM性能验证、模型探索及跨领域适配。 文件详解 文件名称: CodesAndDatasets.zip 文件格式: ZIP压缩包 包含内容:...
-
系统评价标题摘要筛选大语言模型评估数据集
2025年12月5日 30 178 16
数据集概述 该数据集是用于评估大语言模型(LLMs)在系统评价标题-摘要筛选任务中表现的专用数据集(SESR-Eval),包含实验数据、LLM结果及相关文档,支持复现研究与基准测试。 文件详解 该数据集以压缩包形式组织,内部包含以下核心目录: - 数据目录(data):包含复制包选择、信度协议、处理后数据、LLM结果及SESR-...



