Beyond Low-frequency Information in Graph Convolutional Networks

推荐指数: #paper/⭐⭐⭐ #paper/💡
发表于:AAAI21
简称:FAGCL

问题提出背景:

GCN常常使用低频信息,但是在现实中,不仅低频信息重要,高频信息页重要
请添加图片描述

如上图,随着类间链接的增加,低频信号的增强开始变弱,高频信号的增强开始增加.

作者贡献:

不仅低频信号重要,高频信号也重要
我们提出了FAGCN,不需要知道网络类型就可以自适应传播低频高频信号

模型

先验知识:

$L = I_n - D^{-1/2}AD^{-1/2},$
在这里, $\lambda_{l}\in[0,2]$ , $U\Lambda U^{T}$ , $\Lambda=diag([\lambda_1,\lambda_2,\cdots,\lambda_n])$
ChebNet的卷积核: $g_\theta=\sum_{k=0}^{K-1}\alpha_k\Lambda^k$ , $g_{\theta}=I-\Lambda$

高频滤波器和低频滤波器

如下,我们设计了高通滤波器 $F_{L}$ 和低通滤波器 $F_{H}$
$\begin{align} \mathcal{F}_L=\varepsilon I+D^{-1/2}AD^{-1/2}=(\varepsilon+1)I-L,\\\mathcal{F}_H=\varepsilon I-D^{-1/2}AD^{-1/2}=(\varepsilon-1)I+L \end{align}$
在这里, $\varepsilon$ 是超参,范围为[0,1]
如果我们使用 $F_{L}和F_{h}$ 替代卷积核f,我们可以得到如下:
$\begin{align} \mathcal{F}_L*_Gx=U[(\varepsilon+1)I-\Lambda]U^\top x=\mathcal{F}_L\cdot x,\\\mathcal{F}_H*_Gx=U[(\varepsilon-1)I+\Lambda]U^\top x=\mathcal{F}_H\cdot x. \end{align}$
请添加图片描述

由于一阶滤波器: $g_\theta(\lambda_i)=\varepsilon+1-\lambda_i$ (图2a)会存在负的幅度,我们为了摆脱这种情况,我们采用了图2b,图2d的二阶滤波器

低通高通分析

$\mathcal{F}_L=\varepsilon I+D^{-1/2}AD^{-1/2}$
$\mathcal{F}_H=\varepsilon I-D^{-1/2}AD^{-1/2}$ 如上, $F_{L}\cdot x$ 表示节点和邻居特征在光谱区域的和,高频信号 $F_{H}\cdot x$ 代表节点和邻居特征之间的不同
请添加图片描述

为了整合高频和低频信号,一个很自然的想法是利用注意力机制去学习高频和低频信号
$\tilde{\mathrm{h}}_i=\alpha_{ij}^L(\mathcal{F}_L\cdot\mathbf{H})_i+\alpha_{ij}^H(\mathcal{F}_H\cdot\mathbf{H})_i=\varepsilon\mathbf{h}_i+\sum_{j\in\mathcal{N}_i}\frac{\alpha_{ij}^L-\alpha_{ij}^H}{\sqrt{d_id_j}}\mathbf{h}_j,$
为了简化,我们令:
$\alpha_{ij}^{L}+\alpha_{ij}^{H}=1$
$\alpha_{ij}^{G}=\alpha_{ij}^{L}-\alpha_{ij}^{H}$

remark

理解1:当 $\alpha_{ij}^{G} > 0, i.e., \alpha_{ij}^{L} > \alpha_{ij}^{H}$ ,这表示低频信号是主要的信号.
理解2: $\alpha_{ij}^{G}>0$ 表示节点和邻居特征, $\mathrm{h}_i+\mathrm{h}_j$ . $\alpha_{ij}^G<0$ 表示节点之间的区别.
为了自适应的设置 $\alpha_{ij}^G$ ,我们考虑节点和它的邻居
$\alpha_{ij}^G=\tanh\left(\mathrm{g}^\top\left[\mathrm{h}_i\parallel\mathrm{h}_j\right]\right)$ $\mathbf{g}\in\mathbb{R}^{2F}$ 可以被视为一个共享的卷积核.tan函数限 $\alpha_{ij}^G$ 在[-1,1]内.初次之外,我们仅仅考虑节点和它的一阶邻居N的相关系数
计算 $\alpha_{ij}^G$ 之后,我们就可以聚合邻居的表征:
$\mathbf{h}_i^{^{\prime}}=\varepsilon\mathbf{h}_i+\sum_{j\in\mathcal{N}_i}\frac{\alpha_{ij}^G}{\sqrt{d_id_j}}\mathbf{h}_j,$

整个网络的结构

$\begin{aligned}&\mathbf{h}_i^{(0)}=\phi(\mathbf{W}_1\mathbf{h}_i)&&\in\mathbb{R}^{F^{\prime}\times1}\\&\mathbf{h}_i^{(l)}=\varepsilon\mathbf{h}_i^{(0)}+\sum_{j\in\mathcal{N}_i}\frac{\alpha_{ij}^G}{\sqrt{d_id_j}}\mathbf{h}_j^{(l-1)}&&\in\mathbb{R}^{F^{\prime}\times1}\\&\mathbf{h}_{out}=\mathbf{W}_2\mathbf{h}_i^{(L)}&&\in\mathbb{R}^{K\times1},\end{aligned}$
$\mathbf{W}_1\in\mathbb{R}^{F\times F^{\prime}},\mathbf{W}_2\in\mathbb{R}^{F^{\prime}\times K}$ 是权重矩阵.K代表类的个数
我们对FAGCN进行分析,当 $\alpha_{ij}=1$ ,整个网络就是GCN网络.当我们使用正则化的 $\alpha_{ij}$ 以及softmax函数,整个网络就是一个GAT网络.但是,GCN和GAT的 $\alpha_{ij}$ 都大于0, 更倾向于聚合低频信号.FAGCN可以更好的去聚合低频和高频信号.
除此之外,我们还可以推断出,低通过滤可以让表征更相似,低通可以让表征更加区分