数据集概述
本数据集包含pyDRMetrics工具包的源码、配套样本数据及案例研究报告,用于降维质量评估。源码提供核心及辅助模块,样本数据涵盖医学、手写数字、光谱等领域的多维度数据集,案例报告展示工具包应用流程与结果。
文件详解
- 源码文件(src/目录):
- src/pyDRMetrics.py:工具包主模块
- src/calculate_recon_error.py、src/coranking_matrix.py等:辅助功能模块(共8个.py文件)
- 样本数据(data/目录):
- data/ovarian-cancer-nci-pbsii-data-no-header.csv:SELDI-TOF-MS卵巢癌数据集,253个样本,每样本15154维度
- data/cancer.csv:卵巢癌数据集子集,含10个正常样本与10个癌症样本
- data/digits.csv:MNIST手写数字数据集的40个样本子集
- data/raman.csv:46个婴儿配方奶粉拉曼光谱数据集
- 其他.csv文件:如raman_z.csv、raman_xr.csv等辅助数据文件(共6个.csv文件)
- 文档文件:
- notebook.pdf:案例研究的代码与结果报告
- licence.txt:CC BY 4.0许可说明
- readme.txt:数据集说明文档
适用场景
- 降维算法研究:用于评估不同降维算法在多领域数据集上的效果
- 工具包开发:参考源码实现降维质量评估功能
- 案例分析:通过案例报告学习工具包的实际应用流程
- 多维度数据分析:利用样本数据开展降维相关的实证研究