基于证据的Python软件包选择支持数据集

数据集概述

本数据集为Python生态系统中数据驱动的软件包选择研究提供支持,包含近八十万Python脚本的大规模分析结果、数据采集与分析脚本、实验评估输出、知识库索引文件、文献研究及用户研究材料,用于PySelect系统的设计、开发与评估。

文件详解

  • 数据采集与分析脚本目录(Data Collection & Analysis Scripts/):
  • 包含Python脚本文件(如2-GitHub-repo-metadata-extractor.py、Indexing-process-ElasticSearch.py),用于提取元数据、解析导入语句及生成知识库。
  • 分析目录(Analysis/):
  • 以JSON格式为主(如aiozoneinfo.json、bioinfokit.json),包含PyPI和GitHub仓库的元数据分析结果,字段涉及id、name、description等仓库信息。
  • 实验结果目录(Experiment results/):
  • 包含CSV格式文件(如Experiments - PyPI.csv、Experiments - GitHub-analysis.csv),记录提取流程的正确性、性能评估指标(如Precision、Recall、F1 Score)。
  • 知识库索引目录(Knowledge Base Indices/):
  • 包含PyPI、仓库、评论相关的索引文件,构成推荐功能基础。
  • 文献研究目录(Literature Study/):
  • 提供研究期间整理的文献资料,概述软件复用、包推荐等领域的关键主题与相关工作。
  • 用户研究目录(User Study/):
  • 包含调查工具、匿名参与者响应及基于技术接受模型(TAM)的分析结果。

适用场景

  • Python生态系统研究:分析软件包使用频率、可用性及领域关键词分布。
  • 推荐系统开发:基于知识库索引构建Python软件包推荐工具。
  • 实证软件工程:评估软件包提取流程的正确性与性能。
  • 用户行为分析:通过用户研究数据探索开发者对工具的接受度与需求。
  • 学术复现与扩展:支持相关研究的结果验证及进一步探索。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 90.27 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。