合成图分类基准数据集
数据来源:互联网公开数据
标签:图分类,合成网络,图神经网络,GNN,网络科学,基准数据,小世界网络,无标度网络,随机图
数据概述:
本数据集由两组合成网络构成,基于网络科学中的抽象生成模型生成,旨在为图神经网络(GNN)模型的训练和测试提供基准数据。数据集中的网络通过Erdős-Rényi(ER)、Watts-Strogatz(WS)和Barabási-Albert(BA)模型生成,参数设计旨在突出每种网络类型的独特特征,同时保持核心网络统计特性的一致性。关键特征包括平均路径长度、传递性(或聚类系数)以及度分布结构,以区分小世界特性、高传递性和无标度特性。
数据集共包含八种组合,基于上述三个特性(平均路径长度、传递性和度分布结构)的高低实例。为了平衡这些特性,引入了规则格子(Regular Lattices)来表示高平均路径长度的网络,确保每个节点具有相同数量的邻居,同时通过两种邻居解释方式引入不同的传递性值。
数据集分为“小规模图”和“中等规模图”两组:
1. 小规模图数据集:包含每种网络类型250个样本,总计2000个合成网络,网络规模随机选择在250至1024节点之间。
2. 中等规模图数据集:同样包含每种网络类型250个样本,总计2000个合成网络,但网络规模随机选择在1024至2048节点之间。
在训练过程中,小规模图数据集被均匀划分为训练集、验证集和测试集;中等规模图数据集作为额外的测试集,用于评估模型的泛化能力。每个网络类型在两组数据集中都经过精心选择的平均度参数控制。
数据用途概述:
该数据集适用于图神经网络(GNN)模型的训练和性能评估,特别是在处理复杂网络结构和不同规模图的场景中。具体用途包括:
1. 模型训练与测试:小规模图数据集可用于GNN模型的训练和验证,确保模型在训练集和验证集上的性能表现。
2. 泛化能力评估:中等规模图数据集作为独立的测试集,用于评估模型在未见过的网络规模和结构上的泛化能力。
3. 网络特征研究:数据集中的网络通过不同生成模型和参数设置,提供了丰富的网络特性(如小世界、高传递性和无标度特性),可用于研究这些特性对GNN模型表现的影响。
4. 基准对比:作为图分类任务的基准数据集,可用于比较不同GNN模型的性能,为研究和开发新型GNN算法提供参考。
5. 算法优化:数据集的多样性可帮助研究人员识别现有GNN模型的局限性,并针对性地进行算法优化。
通过提供多样且结构明确的合成网络,该数据集为图神经网络的研究和应用提供了重要的实验平台,有助于推动对GNN模型性能和泛化能力的深入理解。