合成图分类基准数据集

合成图分类基准数据集

数据来源:互联网公开数据

标签:图分类,合成网络,图神经网络,GNN,网络科学,基准数据,小世界网络,无标度网络,随机图

数据概述: 本数据集由两组合成网络构成,基于网络科学中的抽象生成模型生成,旨在为图神经网络(GNN)模型的训练和测试提供基准数据。数据集中的网络通过Erdős-Rényi(ER)、Watts-Strogatz(WS)和Barabási-Albert(BA)模型生成,参数设计旨在突出每种网络类型的独特特征,同时保持核心网络统计特性的一致性。关键特征包括平均路径长度、传递性(或聚类系数)以及度分布结构,以区分小世界特性、高传递性和无标度特性。

数据集共包含八种组合,基于上述三个特性(平均路径长度、传递性和度分布结构)的高低实例。为了平衡这些特性,引入了规则格子(Regular Lattices)来表示高平均路径长度的网络,确保每个节点具有相同数量的邻居,同时通过两种邻居解释方式引入不同的传递性值。

数据集分为“小规模图”和“中等规模图”两组: 1. 小规模图数据集:包含每种网络类型250个样本,总计2000个合成网络,网络规模随机选择在250至1024节点之间。 2. 中等规模图数据集:同样包含每种网络类型250个样本,总计2000个合成网络,但网络规模随机选择在1024至2048节点之间。

在训练过程中,小规模图数据集被均匀划分为训练集、验证集和测试集;中等规模图数据集作为额外的测试集,用于评估模型的泛化能力。每个网络类型在两组数据集中都经过精心选择的平均度参数控制。

数据用途概述: 该数据集适用于图神经网络(GNN)模型的训练和性能评估,特别是在处理复杂网络结构和不同规模图的场景中。具体用途包括: 1. 模型训练与测试:小规模图数据集可用于GNN模型的训练和验证,确保模型在训练集和验证集上的性能表现。 2. 泛化能力评估:中等规模图数据集作为独立的测试集,用于评估模型在未见过的网络规模和结构上的泛化能力。 3. 网络特征研究:数据集中的网络通过不同生成模型和参数设置,提供了丰富的网络特性(如小世界、高传递性和无标度特性),可用于研究这些特性对GNN模型表现的影响。 4. 基准对比:作为图分类任务的基准数据集,可用于比较不同GNN模型的性能,为研究和开发新型GNN算法提供参考。 5. 算法优化:数据集的多样性可帮助研究人员识别现有GNN模型的局限性,并针对性地进行算法优化。

通过提供多样且结构明确的合成网络,该数据集为图神经网络的研究和应用提供了重要的实验平台,有助于推动对GNN模型性能和泛化能力的深入理解。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 22.2 MiB
最后更新 2025年4月26日
创建于 2025年4月26日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。