基于证据的Python软件包选择支持数据集

本数据集为Python生态系统中数据驱动的软件包选择研究提供支持，包含近八十万Python脚本的大规模分析结果、数据采集与分析脚本、实验评估输出、知识库索引文件、文献研究及用户研究材料，用于PySelect系统的设计、开发与评估。

数据采集与分析脚本目录（Data Collection & Analysis Scripts/）：
包含Python脚本文件（如2-GitHub-repo-metadata-extractor.py、Indexing-process-ElasticSearch.py），用于提取元数据、解析导入语句及生成知识库。
分析目录（Analysis/）：
以JSON格式为主（如aiozoneinfo.json、bioinfokit.json），包含PyPI和GitHub仓库的元数据分析结果，字段涉及id、name、description等仓库信息。
实验结果目录（Experiment results/）：
包含CSV格式文件（如Experiments - PyPI.csv、Experiments - GitHub-analysis.csv），记录提取流程的正确性、性能评估指标（如Precision、Recall、F1 Score）。
知识库索引目录（Knowledge Base Indices/）：
包含PyPI、仓库、评论相关的索引文件，构成推荐功能基础。
文献研究目录（Literature Study/）：
提供研究期间整理的文献资料，概述软件复用、包推荐等领域的关键主题与相关工作。
用户研究目录（User Study/）：
包含调查工具、匿名参与者响应及基于技术接受模型（TAM）的分析结果。

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	90.27 MiB
最后更新	2025年11月29日
创建于	2025年11月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。