自然语言处理大型语言模型蜕变测试数据集2025

数据集概述

本数据集是ICSME 2025会议论文相关研究的配套数据,围绕自然语言处理(NLP)任务中大型语言模型(LLM)的蜕变测试展开,包含RQ1至RQ3及额外分析的实验结果、人工标注与汇总数据,所有文件以JSON格式存储,为LLM蜕变测试研究提供支撑。

文件详解

该数据集以ZIP压缩包形式组织,内部包含多个JSON文件和目录,具体说明如下: - 压缩包: mt4llm-data.zip,包含所有实验数据和汇总文件 - RQ1实验结果(rq1-failure-rate/results目录): 存储LLM、任务、蜕变关系(MR)的测试原始数据,字段含llm_name、task_name、relation_name及数据实例的输入输出、关系满足情况等 - RQ2对比数据(rq2-ground-truth-comparison目录): - source-inputs-with-labels: 含原始测试数据集及真值标签 - source-output-correctness: 记录LLM输出与真值的一致性(布尔值) - ground_truth_comparison_summary.json: 汇总各LLM-任务-MR元组的真值对比结果,含总数、MR违反数及真值匹配情况细分 - RQ3人工标注数据(rq3-manual-validation目录): manually_labelled_violations.json,人工标注的蜕变违规类型数据,含source_file、违规类型等字段 - 额外分析数据(rqextra-flakiness目录): 含重复运行的失败率结果、失败率分布汇总及人工标注与抖动性的对比文件 - 汇总数据(summary目录): - data_summary_by_cid.json: 按LLM-任务-MR元组汇总的失败率、失败类型、真值对比等数据 - data_summary_by_category.json: 按LLM、任务、MR分别汇总的核心统计数据

适用场景

  • 大型语言模型测试研究: 分析LLM在NLP任务中蜕变关系的满足情况与失败模式
  • 蜕变测试方法验证: 验证蜕变测试在LLM质量评估中的有效性与可靠性
  • LLM错误类型分析: 基于人工标注数据探究LLM蜕变违规的具体类型与成因
  • 模型抖动性研究: 分析LLM输出结果的抖动性及其与违规类型的关联
  • 测试结果可解释性分析: 通过真值对比数据提升LLM测试结果的可解释性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 126.67 MiB
最后更新 2025年12月19日
创建于 2025年12月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。