数据集

自然语言处理大型语言模型蜕变测试数据集2025

数据集概述

本数据集是ICSME 2025会议论文相关研究的配套数据，围绕自然语言处理（NLP）任务中大型语言模型（LLM）的蜕变测试展开，包含RQ1至RQ3及额外分析的实验结果、人工标注与汇总数据，所有文件以JSON格式存储，为LLM蜕变测试研究提供支撑。

文件详解

该数据集以ZIP压缩包形式组织，内部包含多个JSON文件和目录，具体说明如下： - 压缩包: mt4llm-data.zip，包含所有实验数据和汇总文件 - RQ1实验结果（rq1-failure-rate/results目录）: 存储LLM、任务、蜕变关系（MR）的测试原始数据，字段含llm_name、task_name、relation_name及数据实例的输入输出、关系满足情况等 - RQ2对比数据（rq2-ground-truth-comparison目录）: - source-inputs-with-labels: 含原始测试数据集及真值标签 - source-output-correctness: 记录LLM输出与真值的一致性（布尔值） - ground_truth_comparison_summary.json: 汇总各LLM-任务-MR元组的真值对比结果，含总数、MR违反数及真值匹配情况细分 - RQ3人工标注数据（rq3-manual-validation目录）: manually_labelled_violations.json，人工标注的蜕变违规类型数据，含source_file、违规类型等字段 - 额外分析数据（rqextra-flakiness目录）: 含重复运行的失败率结果、失败率分布汇总及人工标注与抖动性的对比文件 - 汇总数据（summary目录）: - data_summary_by_cid.json: 按LLM-任务-MR元组汇总的失败率、失败类型、真值对比等数据 - data_summary_by_category.json: 按LLM、任务、MR分别汇总的核心统计数据

适用场景

大型语言模型测试研究: 分析LLM在NLP任务中蜕变关系的满足情况与失败模式
蜕变测试方法验证: 验证蜕变测试在LLM质量评估中的有效性与可靠性
LLM错误类型分析: 基于人工标注数据探究LLM蜕变违规的具体类型与成因
模型抖动性研究: 分析LLM输出结果的抖动性及其与违规类型的关联
测试结果可解释性分析: 通过真值对比数据提升LLM测试结果的可解释性

数据与资源

16526643.zipZIP
126.67 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	126.67 MiB
最后更新	2025年12月19日
创建于	2025年12月19日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。