数据集概述
本数据集包含模拟的SEND与EDX数据集及对应生成代码,还新增了SEND数据的VAE处理内容。核心内容涵盖模拟数据文件、数据生成与噪声添加代码、相位图文件、原子模型文件,以及VAE处理后的径向数据、模型权重、聚类结果等,支持SEND与EDX模拟数据的生成、分析及机器学习处理研究。
文件详解
- 代码文件
- SEND_ground_Truth_Segment_Model-AB.ipynb:Jupyter Notebook,概述端到端数据生成代码,部分SEND数据生成依赖gen_data.py和add_noise.py(因系统内存需求采用集群作业)
- gen_data.py:Python文件,用于创建中间模拟SEND数据集
- add_noise.py:Python文件,对中间SEND数据集采样生成伪实验数据
- phase_maps目录
- 包含jpg/npy文件对,展示并量化原子模型中每个像素位置各相位的比例
- data目录(基础数据)
- SEND.hspy:基于原子模型的模拟SEND数据集
- EDS.hspy:模拟EDS数据集
- EDS-varied-dose.zip:不同电子剂量下的EDS模拟数据压缩包
- atomic_model.xyz:模拟数据的ASE原子模型
- labelled_voxels.npy:用于生成原子模型的3D体素相位标签
- data目录(新增VAE处理)
- RadialData子目录
- data_radial.hspy:SEND数据集的径向变换版本,用于VAE测试
- data_radial_training_data.hspy:重新加权模式种群的径向变换训练数据
- navigation_axis_variance.npy:每个像素探针位置2D衍射信号的平均方差
- signal_axis_variance.npy:每个信号像素在2D衍射图案中的方差(按探针位置平均)
- RadialModel子目录
- best_model.hdf5:训练好的VAE权重文件
- PCA_comps_mse子目录
- N:用于估计聚类质心的PCA组件数量
- latspacedata.npy:模拟SEND数据在2D latent空间的坐标
- mapdata.npy:模拟SEND数据中每个图案的聚类标签
- Regions子目录
- i.jpg:每个聚类的区域及径向图案
- ML_clusters_mse子目录
- encode_data.npy:模拟SEND数据在2D latent空间的坐标
- enc_mask.npy:编码数据转换为基于密度的固定图像
- ml_cluster_map.npy:ML预测的质心位置
- ML_clusters子目录:与PCA_comps_mse的N子目录结构相同,包含聚类相关内容
- 压缩包文件
- VAE-Processing.zip:VAE处理相关内容压缩包
- EDS-varied-dose.zip:不同电子剂量EDS模拟数据压缩包
- SimulatedData.zip:模拟数据压缩包
适用场景
- 模拟数据生成方法研究:分析SEND与EDX模拟数据的生成逻辑及噪声添加对数据的影响
- 材料表征模拟分析:利用SEND和EDS模拟数据研究材料的结构与成分表征方法
- 机器学习模型训练:基于VAE处理后的SEND数据及聚类结果,开展材料数据的降维、聚类等机器学习研究
- 电子剂量影响分析:通过EDS-varied-dose.zip研究不同电子剂量对EDS模拟数据的作用
- 相位分布可视化研究:借助phase_maps中的文件分析原子模型中相位的空间分布特征