开源软件中自承认生成式人工智能使用数据集

数据集概述

本数据集聚焦开源软件中开发者自承认的生成式人工智能(GenAI)使用情况,包含1292个明确提及GenAI工具使用的实例,覆盖156个GitHub仓库,涉及任务分类、内容类型、使用目的等维度,为研究AI辅助软件开发的实际应用与影响提供数据支持。

文件详解

  • 文件名称:0_README.md
  • 文件格式:Markdown(.md)
  • 内容:研究工件说明文档,介绍数据集背景、包含的文件内容及研究问题对应的分析资源
  • 文件名称:1_project-sampling.zip
  • 文件格式:压缩包(.zip)
  • 内容:项目抽样相关数据,可能包含GitHub仓库筛选标准、样本选取过程记录等
  • 文件名称:2_genai-mention-identification.zip
  • 文件格式:压缩包(.zip)
  • 内容:GenAI提及识别相关数据,可能包含识别出的1292个自承认使用实例的原始记录、识别方法说明等
  • 文件名称:3_qualitative-analysis.zip
  • 文件格式:压缩包(.zip)
  • 内容:定性分析相关数据,基于284个编码提及推导的32类任务、10类内容类型、11类使用目的的分类体系及编码过程记录
  • 文件名称:4_quantitative-analysis.zip
  • 文件格式:压缩包(.zip)
  • 内容:定量分析相关数据,包含151个仓库代码变动(code churn)的纵向分析结果、统计方法说明等
  • 文件名称:5_llm_policies-and-guidelines.zip
  • 文件格式:压缩包(.zip)
  • 内容:LLM政策与指南相关数据,包含13份GenAI工具使用政策文档、开发者调查问卷及伦理法律关切分析记录

适用场景

  • 开源软件开发研究:分析GenAI工具在开源项目中的实际应用场景与任务分布
  • AI辅助开发影响评估:探究GenAI使用对代码变动、开发效率等方面的纵向影响
  • 软件伦理与政策研究:研究开源社区对GenAI工具的使用规范、伦理关切及政策制定逻辑
  • 自然语言处理应用:基于自承认GenAI使用文本,开发AI工具使用提及的自动识别模型
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 429.53 MiB
最后更新 2025年12月8日
创建于 2025年12月8日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。