数据集概述
本数据集为移动应用常识违反类缺陷实证研究的数据成果,包含自动采集的33650条Android应用开源项目问题报告、5342条人工分析的缺陷报告、358条带分类体系的常识原则及202条错误消息分类样本,支持软件缺陷检测与常识违反类缺陷的研究分析。
文件详解
- 自动采集问题数据集
- 文件名称:collected_issues.json
- 文件格式:JSON
- 字段映射介绍:以条目列表形式组织,每条条目包含问题报告的URL、标题、正文及附加元数据,共33650条Android应用开源项目问题报告
- 人工分析缺陷报告数据集
- 文件名称:analyzed_issues.csv
- 文件格式:CSV
- 字段映射介绍:包含5342条人工分析的缺陷报告,字段有task_id(任务ID)、issue_url(问题URL)、label(标签:Invalid/无效、Negative/非常识违反、Positive/常识违反),前130条来自Andror2+数据集
- 常识原则数据集
- 文件名称:common-sense-principles.json
- 文件格式:JSON
- 字段映射介绍:包含358条常识原则,每条原则含一级分类、二级分类及对应违反缺陷的链接
- 错误消息分类数据集
- 文件名称:error_messages_dataset.csv
- 文件格式:CSV
- 字段映射介绍:包含202条文本样本,字段有message(错误消息)、label(标签),部分样本来自真实缺陷报告
- 说明文档
- 文件名称:README.md
- 文件格式:MD
- 内容介绍:数据集研究背景、数据描述等说明文档
数据来源
论文“An Empirical Study on Common Sense-Violating Bugs in Mobile Apps”(发表于ACM Transactions on Software Engineering and Methodology)
适用场景
- 移动应用常识违反类缺陷检测研究:基于人工标注的缺陷报告训练与验证常识违反类缺陷检测模型
- 软件缺陷分类体系构建:利用常识原则的分类体系完善移动应用缺陷分类框架
- 错误消息语义分析:通过错误消息分类数据研究移动应用错误提示的常识符合性
- 开源项目缺陷报告特征分析:基于自动采集的问题报告探索移动应用缺陷报告的元数据特征与分布规律
- 实证研究数据支撑:为软件工程领域常识违反类缺陷相关实证研究提供基础数据