数据集概述
本数据集聚焦开源软件中开发者自承认的生成式人工智能(GenAI)使用情况,包含1292个明确提及GenAI工具使用的实例,覆盖156个GitHub仓库,涉及任务分类、内容类型、使用目的等维度,为研究AI辅助软件开发的实际应用与影响提供数据支持。
文件详解
- 文件名称:0_README.md
- 文件格式:Markdown(.md)
- 内容:研究工件说明文档,介绍数据集背景、包含的文件内容及研究问题对应的分析资源
- 文件名称:1_project-sampling.zip
- 文件格式:压缩包(.zip)
- 内容:项目抽样相关数据,可能包含GitHub仓库筛选标准、样本选取过程记录等
- 文件名称:2_genai-mention-identification.zip
- 文件格式:压缩包(.zip)
- 内容:GenAI提及识别相关数据,可能包含识别出的1292个自承认使用实例的原始记录、识别方法说明等
- 文件名称:3_qualitative-analysis.zip
- 文件格式:压缩包(.zip)
- 内容:定性分析相关数据,基于284个编码提及推导的32类任务、10类内容类型、11类使用目的的分类体系及编码过程记录
- 文件名称:4_quantitative-analysis.zip
- 文件格式:压缩包(.zip)
- 内容:定量分析相关数据,包含151个仓库代码变动(code churn)的纵向分析结果、统计方法说明等
- 文件名称:5_llm_policies-and-guidelines.zip
- 文件格式:压缩包(.zip)
- 内容:LLM政策与指南相关数据,包含13份GenAI工具使用政策文档、开发者调查问卷及伦理法律关切分析记录
适用场景
- 开源软件开发研究:分析GenAI工具在开源项目中的实际应用场景与任务分布
- AI辅助开发影响评估:探究GenAI使用对代码变动、开发效率等方面的纵向影响
- 软件伦理与政策研究:研究开源社区对GenAI工具的使用规范、伦理关切及政策制定逻辑
- 自然语言处理应用:基于自承认GenAI使用文本,开发AI工具使用提及的自动识别模型