数据集概述
本数据集为Python生态系统中数据驱动的软件包选择研究提供支持,包含近八十万Python脚本的大规模分析结果、数据采集与分析脚本、实验评估输出、知识库索引文件、文献研究及用户研究材料,用于PySelect系统的设计、开发与评估。
文件详解
- 数据采集与分析脚本目录(Data Collection & Analysis Scripts/):
- 包含Python脚本文件(如2-GitHub-repo-metadata-extractor.py、Indexing-process-ElasticSearch.py),用于提取元数据、解析导入语句及生成知识库。
- 分析目录(Analysis/):
- 以JSON格式为主(如aiozoneinfo.json、bioinfokit.json),包含PyPI和GitHub仓库的元数据分析结果,字段涉及id、name、description等仓库信息。
- 实验结果目录(Experiment results/):
- 包含CSV格式文件(如Experiments - PyPI.csv、Experiments - GitHub-analysis.csv),记录提取流程的正确性、性能评估指标(如Precision、Recall、F1 Score)。
- 知识库索引目录(Knowledge Base Indices/):
- 包含PyPI、仓库、评论相关的索引文件,构成推荐功能基础。
- 文献研究目录(Literature Study/):
- 提供研究期间整理的文献资料,概述软件复用、包推荐等领域的关键主题与相关工作。
- 用户研究目录(User Study/):
- 包含调查工具、匿名参与者响应及基于技术接受模型(TAM)的分析结果。
适用场景
- Python生态系统研究:分析软件包使用频率、可用性及领域关键词分布。
- 推荐系统开发:基于知识库索引构建Python软件包推荐工具。
- 实证软件工程:评估软件包提取流程的正确性与性能。
- 用户行为分析:通过用户研究数据探索开发者对工具的接受度与需求。
- 学术复现与扩展:支持相关研究的结果验证及进一步探索。