AI4RSE研究软件工程人工智能实证分析完整数据集

数据集概述

本数据集支持题为"Advancing Research Software Engineering with AI: A Research Framework"的研究,聚焦人工智能在研究软件工程(AI4RSE)领域的应用。数据集包含对超过1500个开源研究软件仓库进行大规模实证分析的全部材料,涵盖仓库元数据、IEEE分类映射、相关文献和分析脚本。数据内容涉及AI使用情况、工程成熟度、FAIR4RS原则符合度评估等多个维度,总计包含3083个文件。

文件详解

  • 仓库元数据与评分
  • 文件名称: 各类JSON文件(如8396871.json10098366.json等)
  • 文件格式: JSON
  • 字段映射介绍: 包含1512个研究软件仓库的元数据,从GitHub提取并标注AI使用情况、工程成熟度和FAIR4RS符合度评分。
  • 分析结果文件
  • 文件名称: 各类CSV文件(如AI-RSE - Analysis-Results.csvAI-RSE - Dashboard-Ranking.csv等)
  • 文件格式: CSV
  • 字段映射介绍: 包含仓库分析结果,涵盖软件工程工作量、代码生成评估、AI-ML-Ops、公平性评估等维度数据。
  • IEEE分类映射
  • 文件名称: ieee_taxonomy_clean.jsonieee_taxonomy_flat_L1_L2_filtered.txt
  • 文件格式: JSON/TXT
  • 字段映射介绍: 包含IEEE Taxonomy 2025术语的过滤子集,用于仓库分类和领域特定分析。
  • 分析脚本
  • 文件名称: 各类Python脚本(如citations.pydetect_ai_code.py等)
  • 文件格式: PY
  • 字段映射介绍: 用于数据收集、处理、评分和分类的Python及Jupyter脚本,包括静态和语义代码检查、GenAI使用检测、FAIR4RS检查等功能。

数据来源

研究论文"Advancing Research Software Engineering with AI: A Research Framework"

适用场景

  • 研究软件工程AI应用评估: 分析开源研究软件中AI技术的使用模式、成熟度和影响。
  • FAIR原则符合度研究: 评估研究软件对FAIR4RS原则的遵循程度和改进空间。
  • 软件工程实践分析: 研究不同研究软件项目的工程化水平和最佳实践。
  • 学术软件仓库分类研究: 基于IEEE分类体系对研究软件进行系统化分类和分析。
  • 可重复性研究支持: 为AI在研究软件工程领域的可重复研究提供数据基础和分析工具。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 34.66 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。