题目:图结构主题神经网络 Graph Structural-topic Neural Network
作者:龙晴晴*(北京大学),金逸伦*(香港科技大学),宋国杰(北京大学),李熠(北京大学),林伟(阿里巴巴)
会议:The 26th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2020)
Paper:https://arxiv.org/abs/2006.14278
实验室主页:https://www.gjsong-pku.cn/
开源代码:https://github.com/YimiAChack/GraphSTONE
图神经网络(Graph Neural Networks, GNN)由于可以高效地对节点邻域特征进行表达,在众多领域中取得了显著成果。虽然图神经网络可以聚合邻域内的节点特征,但对于邻域内的子结构特征(例如graphlets等高阶的结构模式),仍然无法高效提取和表征。而此类结构特征(structural patterns)在社交网络、生物网络、分子网络等信息网络中具有很强的预测能力。
由于现实网络中节点的复杂性,节点邻域会包含许多不同种类的节点,因而其中的高阶结构模式往往只能在其分布上体现差异(如图 1,对于一个经理和一个教授的社交网络,虽然他们都有职员(学生)、家庭和社交媒体关注者三种社会关系,但是经理一般会带领更大的团队,而教授在社交媒体上受关注多,导致了他们高阶结构模式的类型相同,但是分布不同)。
图1 现实网络中节点子结构分布示意图
据此,本文提出一种图结构主题神经网络模型(GraphSTONE)。本文所提出模型框图如图 2 所示,GraphSTONE 首先借鉴融合自然语言处理中的主题模型(Topic Models),来刻画此类高阶结构模式在分布上的差异。本文从理论上分析了在图网络学习子结构主题分布的合理性,并提出针对子结构分布自适应的图神经网络以高效利用此类结构信息。针对现实网络子结构的复杂性,我们设计了锚结构(Anchor)选择算法,以筛选网络中有代表性的结构特征,从而降低表征复杂度和噪声干扰。关于本文算法的细节,请参阅论文。
图2 模型框图
我们在现实数据和仿真网络中进行了实验。在仿真数据中,GraphSTONE 能够很好表征并区分不同的子结构模式(图 3),并学习到子结构的关键性分布(图 4)。在学术网络、蛋白质网络等现实数据上,GraphSTONE 相比传统方法,在无特征链接重构和节点分类任务下能够获得 10% 以上显著提升,在有特征情况下总体表现最佳。
图3 仿真网络及其节点embedding可视化
图4 仿真网络对应Graph Anchor LDA与传统LDA差异
表1 链接重构实验结果
表2 点分类实验结果
此外,GraphSTONE 运行效率高,所需时间与 GCN 相近(图5)。
图5 不同方法在多个数据集上运行时间示意图