开源软件中自承认生成式人工智能使用数据集

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

开源软件中自承认生成式人工智能使用数据集

数据集概述

本数据集聚焦开源软件中开发者自承认的生成式人工智能（GenAI）使用情况，包含1292个明确提及GenAI工具使用的实例，覆盖156个GitHub仓库，涉及任务分类、内容类型、使用目的等维度，为研究AI辅助软件开发的实际应用与影响提供数据支持。

文件详解

文件名称：0_README.md
文件格式：Markdown（.md）
内容：研究工件说明文档，介绍数据集背景、包含的文件内容及研究问题对应的分析资源
文件名称：1_project-sampling.zip
文件格式：压缩包（.zip）
内容：项目抽样相关数据，可能包含GitHub仓库筛选标准、样本选取过程记录等
文件名称：2_genai-mention-identification.zip
文件格式：压缩包（.zip）
内容：GenAI提及识别相关数据，可能包含识别出的1292个自承认使用实例的原始记录、识别方法说明等
文件名称：3_qualitative-analysis.zip
文件格式：压缩包（.zip）
内容：定性分析相关数据，基于284个编码提及推导的32类任务、10类内容类型、11类使用目的的分类体系及编码过程记录
文件名称：4_quantitative-analysis.zip
文件格式：压缩包（.zip）
内容：定量分析相关数据，包含151个仓库代码变动（code churn）的纵向分析结果、统计方法说明等
文件名称：5_llm_policies-and-guidelines.zip
文件格式：压缩包（.zip）
内容：LLM政策与指南相关数据，包含13份GenAI工具使用政策文档、开发者调查问卷及伦理法律关切分析记录

适用场景

开源软件开发研究：分析GenAI工具在开源项目中的实际应用场景与任务分布
AI辅助开发影响评估：探究GenAI使用对代码变动、开发效率等方面的纵向影响
软件伦理与政策研究：研究开源社区对GenAI工具的使用规范、伦理关切及政策制定逻辑
自然语言处理应用：基于自承认GenAI使用文本，开发AI工具使用提及的自动识别模型

数据与资源

15871468.zipZIP
429.53 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	429.53 MiB
最后更新	2025年12月8日
创建于	2025年12月8日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？