数据集概述
本数据集支持题为"Advancing Research Software Engineering with AI: A Research Framework"的研究,聚焦人工智能在研究软件工程(AI4RSE)领域的应用。数据集包含对超过1500个开源研究软件仓库进行大规模实证分析的全部材料,涵盖仓库元数据、IEEE分类映射、相关文献和分析脚本。数据内容涉及AI使用情况、工程成熟度、FAIR4RS原则符合度评估等多个维度,总计包含3083个文件。
文件详解
- 仓库元数据与评分
- 文件名称: 各类JSON文件(如
8396871.json、10098366.json等)
- 文件格式: JSON
- 字段映射介绍: 包含1512个研究软件仓库的元数据,从GitHub提取并标注AI使用情况、工程成熟度和FAIR4RS符合度评分。
- 分析结果文件
- 文件名称: 各类CSV文件(如
AI-RSE - Analysis-Results.csv、AI-RSE - Dashboard-Ranking.csv等)
- 文件格式: CSV
- 字段映射介绍: 包含仓库分析结果,涵盖软件工程工作量、代码生成评估、AI-ML-Ops、公平性评估等维度数据。
- IEEE分类映射
- 文件名称:
ieee_taxonomy_clean.json、ieee_taxonomy_flat_L1_L2_filtered.txt等
- 文件格式: JSON/TXT
- 字段映射介绍: 包含IEEE Taxonomy 2025术语的过滤子集,用于仓库分类和领域特定分析。
- 分析脚本
- 文件名称: 各类Python脚本(如
citations.py、detect_ai_code.py等)
- 文件格式: PY
- 字段映射介绍: 用于数据收集、处理、评分和分类的Python及Jupyter脚本,包括静态和语义代码检查、GenAI使用检测、FAIR4RS检查等功能。
数据来源
研究论文"Advancing Research Software Engineering with AI: A Research Framework"
适用场景
- 研究软件工程AI应用评估: 分析开源研究软件中AI技术的使用模式、成熟度和影响。
- FAIR原则符合度研究: 评估研究软件对FAIR4RS原则的遵循程度和改进空间。
- 软件工程实践分析: 研究不同研究软件项目的工程化水平和最佳实践。
- 学术软件仓库分类研究: 基于IEEE分类体系对研究软件进行系统化分类和分析。
- 可重复性研究支持: 为AI在研究软件工程领域的可重复研究提供数据基础和分析工具。