同样,收集真实且具有代表性的大规模数据集也具有挑战性 。缺乏可以定义数据集质量或验证给定任务的统计代表性的理论工具,因此很难决定数据集 。此外,由于大多数流行的图学习框架都不能"非常有效地"迎合大型图,因此图的节点和边的特征以及图大小的比例需要任意选择 。
最近,开放图基准测试(OGB)进行了有效的努力,以收集有意义的中大型数据集,以指导图学习研究 。该计划是对该项目目标的补充 。
拟议的基准框架:我们为图神经网络提出了一个具有以下关键特征的基准框架:
1. 我们开发了模块化的编码基础架构,可用于加快新思想的开发
1. 我们的框架采用了严格而公正的实验协议
1. 我们提出了合适的中等规模的数据集,可以将其作为插件用于以后的研究 。²
1. 涵盖了图机器学习中的四个基本任务,即图分类,图回归,节点分类和边缘分类 。
a.编码基础架构我们的基准代码基础架构基于Pytorch / DGL 。
从总体来看,我们的框架为以下各项统一了独立的组件:i)数据通道,ii)GNN层和模型,iii)训练和测试功能,iv)网络和超参数配置以及v)单一执行脚本以实现可重复性 。

文章插图
图3:我们在GitHub上开源的模块化编码框架的快照
b.数据集:我们包括来自化学,数学建模,计算机视觉,组合优化和社交网络等不同领域的8个数据集 。

文章插图
图4:基准中包含的数据集的摘要统计
本节介绍了数据集准备步骤及其与基准图神经网络的相关性 。
值得一提的是,我们包括OGB的OGBL-COLLAB,这表明我们可以灵活地合并OGB计划中的任何当前和将来的数据集 。
c.实验协议:我们为基准图神经网络模型定义了严格而公平的实验协议 。
数据集拆分:鉴于文献中存在针对不同模型使用不同的训练验证测试拆分的问题,我们确保我们的数据管道为每个待比较的GNN模型提供相同的训练,验证和测试拆分 。对于一般的数据集,我们遵循标准拆分 。对于没有标准拆分的合成数据集,我们确保在拆分之间的类分布或合成属性相同 。请参阅论文以了解更多详细信息 。
训练:我们对所有实验使用相同的训练设置和报告格式 。我们使用Adam优化器以基于验证损失的学习速率衰减策略训练GNN 。我们针对每个未指定时期的实验进行训练,其中以最小学习率进行训练会导致模型没有明显的学习 。
重要的是,这种策略使用户可以轻松地选择要训练模型的时期 。
每个实验都在4种不同的种子上进行,最多需要12个小时的训练时间,并报告了4个实验的最后epoch得分的摘要统计信息 。
参数预算:我们决定使用两个可训练的参数预算:(i)每个任务的每个GNN的100k参数,以及(ii)我们研究将模型放大到更大的参数和更深层的GNN的500k参数 。相应选择隐藏层的数量和隐藏尺寸以匹配这些预算 。
我们选择具有相似参数的预算以进行公平比较,否则很难严格评估不同的模型 。在GNN文献中,经常看到将新模型与现有文献进行比较,而没有参数数量的任何细节,也没有试图使模型具有相同的大小 。话虽如此,我们的目标不是为每个模型都找到最佳的超参数集,这是一项计算量大的任务 。
d.图神经网络:我们对GNN的两大类进行了基准测试,它们代表了最新文献中见证的图神经网络体系结构的绝对进步 。我们将这两个类别命名为GCN(图卷积网络)和WL-GNN(魏斯菲勒-雷曼GNN) 。
GCN指的是利用稀疏张量计算的流行的基于消息传递的GNN,而WL-GNN是基于WL测试的理论表达GNN,用以区分需要在哪一层进行密集张量计算的非同构图 。
因此,我们的实验管线如图5所示为GCN,图6所示为WL-GNN 。

文章插图
图5:我们的GCN的标准实验管线,它们在稀疏的rank-2张量上运行 。

文章插图
图6:我们的用于WL-GNN的标准实验管线,它们在密集的rank-2张量上运行 。
我们将读者引向我们的论文和相应的作品,以获取有关GNN的数学公式的更多详细信息 。对于感兴趣的读者,我们还将在论文上包括每个基准的GNN的层更新的框图 。
为了在此阶段快速回顾,我们讨论了基准的需求,建立这样的框架所面临的挑战以及我们提议的基准框架的细节 。现在,我们深入研究实验 。
推荐阅读
- 云标签怎么使用 云标签是什么意思
- 那种淘宝免单是真的吗 淘宝免单活动可靠吗
- 淘宝卖家怎么查看每个月的销售额 如何查看淘宝销售总额
- 淘宝卖家分销的商品怎么发货 淘宝分销商怎么发货
- 淘宝开个人店铺需要什么 淘宝个人店铺开店的基本流程是哪些?
- 福鼎白茶鉴别,福鼎白茶的保留方式
- pion一个开源的流媒体框架
- 盖碗是什么何为盖碗,盖碗泡法的优势
- nginx反向代理导致session失效的问题处理
- 八款白嫖的开发安全测试工具
