-
AeroEngQA_Benchmark_航空工程飞机设计LLM评估基准数据集
2026年1月20日 30 88 64
数据集概述 本数据集是低体量、高质量的飞机设计问答(QA)基准数据集,用于支持大语言模型(LLMs)的定性评估。涵盖单跳可回答、单跳不可回答、多跳可回答、多跳不可回答四类问答场景,通过结构化文件提供航空工程领域的专业问答数据,为LLM在飞机设计任务中的性能评估提供标准基准。 文件详解 核心数据文件 文件名称:AeroEngQA_single-...
-
AI_Assisted_国土安全威胁AI辅助比较风险排序实验数据_202502
2026年1月20日 30 101 83
数据集概述 本数据集记录AI在不同实验条件下对国土安全威胁的比较风险排序结果,包含10类威胁在10次排序会话中的排名数据,以及统计计算和与其他方法的对比内容。数据由ChatGPT-4o于2025年2月采集,共2个文件。 文件详解 文件名称:Codebook for AI Risk Ranking Data.docx 文件格式:DOCX...
-



