数据集概述
本数据集为硕士论文分析所用原始数据,聚焦软件工程研究中外部有效性威胁(以实验参与者为重点)的报告方式。包含5个文件,涵盖论文基本信息、实验细节、分段文本数据等内容,支持对软件工程研究泛化性声明的系统性分析。
文件详解
- 核心CSV文件(共4个)
- 文件名称:segments_merged_python.csv
- 文件格式:CSV
- 字段映射介绍:包含"seq"(序列)、"ID"(编号)、"paper"(论文标识)、"rater"(评分者)、"text"(文本内容)、"code"(编码)、"notes"(备注)、"cites"(引用)等字段,记录分段文本及编码信息
- 文件名称:2_title_and_abstract.csv
- 文件格式:CSV
- 字段映射介绍:包含"ID"(编号)、"paper"(论文标识)、"journal"(期刊)、"year"(年份)等字段,记录论文标题与摘要相关基本信息
- 文件名称:segments_merged.csv
- 文件格式:CSV
- 字段映射介绍:推测为合并后的分段文本数据,结构与segments_merged_python.csv类似
- 文件名称:experiment_details_EA.csv
- 文件格式:CSV
- 字段映射介绍:推测包含软件工程实验的详细信息,支持外部有效性威胁分析
- JSON文件(共1个)
- 文件名称:segmented_data.json
- 文件格式:JSON
- 字段映射介绍:推测为结构化的分段数据,存储文本分段及相关元信息
数据来源
硕士论文"Generalization claims from software engineering research: How articles report threats to external validity with a focus on experimental participants"
适用场景
- 软件工程研究方法评估: 分析学术论文中外部有效性威胁的报告模式与完整性
- 实验参与者代表性研究: 聚焦实验参与者维度,探究软件工程实验结果的泛化性限制
- 学术论文元数据分析: 基于论文标题、摘要及实验细节,挖掘软件工程研究的趋势特征
- 研究质量评价指标构建: 为软件工程研究外部有效性评价提供数据支撑与分析依据