Bengio参与、LeCun点赞：图神经网络权威评测工具Benchmark开源了！

点击上方“迈微电子研发社”，选择“星标”公众号

重磅干货，第一时间送达

来源：机器之心@微信公众号

前言

图神经网络发展到什么程度了？现在我们有了专用的 Benchmark 工具来进行评测。

近期的大量研究已经让我们看到了图神经网络模型（GNN）的强大潜力，很多研究团队都在不断改进和构建基础模块。但大多数研究使用的数据集都很小，如 Cora 和 TU。在这种情况下，即使是非图神经网络的性能也是可观的。如果进行进一步的比较，使用中等大小的数据集，图神经网络的优势才能显现出来。

在斯坦福图神经网络大牛 Jure 等人发布《Open Graph Benchmark》之后，又一个旨在构建「图神经网络的 ImageNet」的研究出现了。近日，来自南洋理工大学、洛约拉马利蒙特大学、蒙特利尔大学和 MILA 等机构的论文被提交到了论文预印版平台上，而且这一新的研究有深度学习先驱 Yoshua Bengio 的参与，也得到了 Yann LeCun 的关注。

Bengio参与、LeCun点赞：图神经网络权威评测工具Benchmark开源了！

论文链接：https://arxiv.org/abs/2003.00982

在该研究中，作者一次引入了六个中等大小的基准数据集（12k-70k 图，8-500 节点），并对一些有代表性的图神经网络进行了测试。除了只用节点特征的基准线模型之外，图神经网络分成带或不带对边对注意力两大类。GNN 研究社区一直在寻求一个共同的基准以对新模型的能力进行评测，这一工具或许可以让我们实现目标。

现在，如果你想测试一下自己的图神经网络模型，可以使用它的开源项目进行测试了。

项目地址：https://github.com/graphdeeplearning/benchmarking-gnns

Bengio参与、LeCun点赞：图神经网络权威评测工具Benchmark开源了！

不同任务上的测试脚本，每一个 Notebook 都会手把手教你如何测试不同的图神经网络。

该开放基准架构基于 DGL 库，DGL 由 AWS 上海 AI 研究院、纽约大学、上海纽约大学开放和维护，是业界领先的图神经网络训练平台，并无缝支持主流深度网络平台。Benchmarking gnn 建立在 DGL 的 PyTorch 版本之上。

AWS 上海 AI 研究院首任院长、上海纽约大学张峥教授评论说：「这篇论文来得很及时，也有意义。第一，说明现有的数据集太小、以致成为前进的障碍，已经成为学界的共识。值得赞扬的是这篇文章的作者并没有因为 OGB 的发布就搁下不弄了。在我看来，他们的数据集和 OGB 有很强的互补性，呈现了图神经网络更丰富的应用场景，比如把图像数据转换成图数据，虽然是从 MNIST 和 CIFAR 开始，也隐含了颠覆或改变基于卷积网络 CNN 的解决方案，再比如旅行推销员问题是一个经典的优化问题，等等。」

「另外，基于这一系列的数据得到的结论有比较高的可信度，比如数据多起来图神经网络更能发挥优势，比如带注意力的图神经网络虽然参数更多，但性能也更好。总之，这些结果对激励更多的模型研究和拓展应用场景非常有意义。」张教授说

图神经网络已成为分析和学习图形数据的标准工具，并已成功地应用在很多领域中，包括化学、物理、社会科学、知识图谱、推荐系统以及神经科学等。随着各领域的发展，确定架构类型以及关键的机制显得尤为重要，这些架构与机制可以在跨图形大小的情况下进行泛化，使得我们能够处理更多更大更复杂的数据集以及领域。

但是，在缺乏具有一致性的实验设置和大量数据集没有标准化基准的情况下，衡量新的 GNN 有效性以及对比模型变得越来越困难。在本论文中，作者提出了一个可复制化的 GNN 基准测试框架，可以让研究人员方便地添加新的数据集以及模型。从数学建模、计算机视觉、化学和组合问题等多方面将这一基准框架应用至最新的中尺度图形数据集里，以便于在设计有效的 GNN 时建立起关键的操作。更准确的来说，图卷积、各项异性扩散、残差连接、归一化层是开发鲁棒性以及可扩展性 GNN 的通用构件。

基准测试的数据集和建构图的方法

这项工作的目标之一是提供一个易于使用的中等规模数据集，在这些数据集上，面向过去几年中所提出的不同 GNN 架构在性能表现上有明显的差异。同时，这些差异从统计的角度上来说是具有相当的意义，该基准包含 6 个数据集，如表 1：

Bengio参与、LeCun点赞：图神经网络权威评测工具Benchmark开源了！

提议基准数据集的汇总统计信息。

对于这两个计算机视觉数据集，来自经典的 MNIST (LeCun et al., 1998) 以及 CIFAR10 (Krizhevsky et al., 2009) 数据集中的每个图像都使用了所谓的超像素转换成图。

而接下来的任务是将这些图形分类。在 PATTERN 和 CLUSTER 数据集中，图形是根据随机块模型生成的。这些任务包括识别特定的子图结构 (PATTERN 数据集) 或者识别集群 ( CLUSTER 数据集)。这些都属于是节点分类任务。

Tsp 数据集是基于销售人员旅行的问题 (假设给定一个城市列表，访问每个城市并返回原始城市的最短路径是什么?)

将随机欧氏图上的 TSP 问题作为一个边界分类或是连接预测的任务看待，其中 Concorde Solver 给出的 TSP 旅行中每一边界的真实情况值都属于是在现实世界中已存在的分子数据集。每个分子可被转换成一个图形: 其中每个原子可成为一个节点，每个键可成为一个边。

基准测试设置

GatedGCN-门控图卷积网络 (Bresson & Laurent，2017) 是考虑中的最后一个 GNN。如果在数据集中可用的情况下，其中 GatedGCN-e 表示使用边缘属性/特征的版本。另外，作者也实现了一个简单的不使用图结构的基线模型，它处于并行情况下对每个节点的特征向量使用一个 MLP，且独立于其他节点。

这是后续可选的一个门控机制，用以以获得门控 MLP 基线 (详情见补充材料)。作者对 MNIST，CIFAR10，ZINC 以及 TSP 在 Nvidia 1080Ti GPU 上进行实验，对 PATTERN 和 CLUSTER 在 Nvidia 2080Ti GPU 上进行实验。

图分类和超像素数据集

这一部分使用了计算机视觉领域里最流行的 MNIST 和 CIFAR10 图像分类数据集。超分辨率格式为 SLIC（Knyazev et al., 2019）。MNIST 拥有 55000 训练/5000 验证/10000 测试图，节点为 40-75 之间（即超像素的数量），CI-FAR10 有 45000 训练/5000 验证/10000 测试图，节点数为 85-150。

Bengio参与、LeCun点赞：图神经网络权威评测工具Benchmark开源了！