Beyond Low-frequency Information in Graph Convolutional Networks

news/2024/7/7 22:13:52 标签: 算法, 机器学习, 深度学习

推荐指数: #paper/⭐⭐⭐ #paper/💡
发表于:AAAI21
简称:FAGCL

问题提出背景:

GCN常常使用低频信息,但是在现实中,不仅低频信息重要,高频信息页重要
请添加图片描述

如上图,随着类间链接的增加,低频信号的增强开始变弱,高频信号的增强开始增加.

作者贡献:
  • 不仅低频信号重要,高频信号也重要
  • 我们提出了FAGCN,不需要知道网络类型就可以自适应传播低频高频信号

模型

先验知识:

L = I n − D − 1 / 2 A D − 1 / 2 , L = I_n - D^{-1/2}AD^{-1/2}, L=InD1/2AD1/2,
在这里, λ l ∈ [ 0 , 2 ] \lambda_{l}\in[0,2] λl[0,2], L = U Λ U T L = U\Lambda U^{T} L=UΛUT, Λ = d i a g ( [ λ 1 , λ 2 , ⋯   , λ n ] ) \Lambda=diag([\lambda_1,\lambda_2,\cdots,\lambda_n]) Λ=diag([λ1,λ2,,λn])
ChebNet的卷积核: g θ = ∑ k = 0 K − 1 α k Λ k g_\theta=\sum_{k=0}^{K-1}\alpha_k\Lambda^k gθ=k=0K1αkΛk, g θ = I − Λ g_{\theta}=I-\Lambda gθ=IΛ

高频滤波器和低频滤波器

如下,我们设计了高通滤波器 F L F_{L} FL和低通滤波器 F H F_{H} FH
F L = ε I + D − 1 / 2 A D − 1 / 2 = ( ε + 1 ) I − L , F H = ε I − D − 1 / 2 A D − 1 / 2 = ( ε − 1 ) I + L \begin{align} \mathcal{F}_L=\varepsilon I+D^{-1/2}AD^{-1/2}=(\varepsilon+1)I-L,\\\mathcal{F}_H=\varepsilon I-D^{-1/2}AD^{-1/2}=(\varepsilon-1)I+L \end{align} FL=εI+D1/2AD1/2=(ε+1)IL,FH=εID1/2AD1/2=(ε1)I+L
在这里, ε \varepsilon ε是超参,范围为[0,1]
如果我们使用 F L 和 F h F_{L}和F_{h} FLFh替代卷积核f,我们可以得到如下:
F L ∗ G x = U [ ( ε + 1 ) I − Λ ] U ⊤ x = F L ⋅ x , F H ∗ G x = U [ ( ε − 1 ) I + Λ ] U ⊤ x = F H ⋅ x . \begin{align} \mathcal{F}_L*_Gx=U[(\varepsilon+1)I-\Lambda]U^\top x=\mathcal{F}_L\cdot x,\\\mathcal{F}_H*_Gx=U[(\varepsilon-1)I+\Lambda]U^\top x=\mathcal{F}_H\cdot x. \end{align} FLGx=U[(ε+1)IΛ]Ux=FLx,FHGx=U[(ε1)I+Λ]Ux=FHx.
请添加图片描述

由于一阶滤波器: g θ ( λ i ) = ε + 1 − λ i g_\theta(\lambda_i)=\varepsilon+1-\lambda_i gθ(λi)=ε+1λi(图2a)会存在负的幅度,我们为了摆脱这种情况,我们采用了图2b,图2d的二阶滤波器

低通高通分析

F L = ε I + D − 1 / 2 A D − 1 / 2 \mathcal{F}_L=\varepsilon I+D^{-1/2}AD^{-1/2} FL=εI+D1/2AD1/2
F H = ε I − D − 1 / 2 A D − 1 / 2 \mathcal{F}_H=\varepsilon I-D^{-1/2}AD^{-1/2} FH=εID1/2AD1/2如上, F L ⋅ x F_{L}\cdot x FLx表示节点和邻居特征在光谱区域的和,高频信号 F H ⋅ x F_{H}\cdot x FHx代表节点和邻居特征之间的不同
请添加图片描述

为了整合高频和低频信号,一个很自然的想法是利用注意力机制去学习高频和低频信号
h ~ i = α i j L ( F L ⋅ H ) i + α i j H ( F H ⋅ H ) i = ε h i + ∑ j ∈ N i α i j L − α i j H d i d j h j , \tilde{\mathrm{h}}_i=\alpha_{ij}^L(\mathcal{F}_L\cdot\mathbf{H})_i+\alpha_{ij}^H(\mathcal{F}_H\cdot\mathbf{H})_i=\varepsilon\mathbf{h}_i+\sum_{j\in\mathcal{N}_i}\frac{\alpha_{ij}^L-\alpha_{ij}^H}{\sqrt{d_id_j}}\mathbf{h}_j, h~i=αijL(FLH)i+αijH(FHH)i=εhi+jNididj αijLαijHhj,
为了简化,我们令:
α i j L + α i j H = 1 \alpha_{ij}^{L}+\alpha_{ij}^{H}=1 αijL+αijH=1
α i j G = α i j L − α i j H \alpha_{ij}^{G}=\alpha_{ij}^{L}-\alpha_{ij}^{H} αijG=αijLαijH

remark

理解1:当 α i j G > 0 , i . e . , α i j L > α i j H \alpha_{ij}^{G} > 0, i.e., \alpha_{ij}^{L} > \alpha_{ij}^{H} αijG>0,i.e.,αijL>αijH,这表示低频信号是主要的信号.
理解2: α i j G > 0 \alpha_{ij}^{G}>0 αijG>0表示节点和邻居特征, h i + h j \mathrm{h}_i+\mathrm{h}_j hi+hj. α i j G < 0 \alpha_{ij}^G<0 αijG<0表示节点之间的区别.
为了自适应的设置 α i j G \alpha_{ij}^G αijG,我们考虑节点和它的邻居
α i j G = tanh ⁡ ( g ⊤ [ h i ∥ h j ] ) \alpha_{ij}^G=\tanh\left(\mathrm{g}^\top\left[\mathrm{h}_i\parallel\mathrm{h}_j\right]\right) αijG=tanh(g[hihj]) g ∈ R 2 F \mathbf{g}\in\mathbb{R}^{2F} gR2F可以被视为一个共享的卷积核.tan函数限 α i j G \alpha_{ij}^G αijG在[-1,1]内.初次之外,我们仅仅考虑节点和它的一阶邻居N的相关系数
计算 α i j G \alpha_{ij}^G αijG之后,我们就可以聚合邻居的表征:
h i ′ = ε h i + ∑ j ∈ N i α i j G d i d j h j , \mathbf{h}_i^{^{\prime}}=\varepsilon\mathbf{h}_i+\sum_{j\in\mathcal{N}_i}\frac{\alpha_{ij}^G}{\sqrt{d_id_j}}\mathbf{h}_j, hi=εhi+jNididj αijGhj,

整个网络的结构

h i ( 0 ) = ϕ ( W 1 h i ) ∈ R F ′ × 1 h i ( l ) = ε h i ( 0 ) + ∑ j ∈ N i α i j G d i d j h j ( l − 1 ) ∈ R F ′ × 1 h o u t = W 2 h i ( L ) ∈ R K × 1 , \begin{aligned}&\mathbf{h}_i^{(0)}=\phi(\mathbf{W}_1\mathbf{h}_i)&&\in\mathbb{R}^{F^{\prime}\times1}\\&\mathbf{h}_i^{(l)}=\varepsilon\mathbf{h}_i^{(0)}+\sum_{j\in\mathcal{N}_i}\frac{\alpha_{ij}^G}{\sqrt{d_id_j}}\mathbf{h}_j^{(l-1)}&&\in\mathbb{R}^{F^{\prime}\times1}\\&\mathbf{h}_{out}=\mathbf{W}_2\mathbf{h}_i^{(L)}&&\in\mathbb{R}^{K\times1},\end{aligned} hi(0)=ϕ(W1hi)hi(l)=εhi(0)+jNididj αijGhj(l1)hout=W2hi(L)RF×1RF×1RK×1,
W 1 ∈ R F × F ′ , W 2 ∈ R F ′ × K \mathbf{W}_1\in\mathbb{R}^{F\times F^{\prime}},\mathbf{W}_2\in\mathbb{R}^{F^{\prime}\times K} W1RF×F,W2RF×K是权重矩阵.K代表类的个数
我们对FAGCN进行分析,当 α i j = 1 \alpha_{ij}=1 αij=1,整个网络就是GCN网络.当我们使用正则化的 α i j \alpha_{ij} αij以及softmax函数,整个网络就是一个GAT网络.但是,GCN和GAT的 α i j \alpha_{ij} αij都大于0, 更倾向于聚合低频信号.FAGCN可以更好的去聚合低频和高频信号.
除此之外,我们还可以推断出,低通过滤可以让表征更相似,低通可以让表征更加区分

可视化边相似度

请添加图片描述

如上图,我们可以得到如下结论:Cora,Citeseer,Pubmed节点所有的边都是正的权重.然而,根据6b,6c可以展示:大量的类内边是负权重,这表明当类内边和类间边区分不清时,高频信号发挥更重要的作用.而对于actor数据集,他是个异类,类间和类内边没有明显区分.

总结

写的真好.这篇提出了一个自适应系数,自适应的学习高通滤波器权重和低通滤波器权重,更好的聚合各种信息.


http://www.niftyadmin.cn/n/5535365.html

相关文章

Wing FTP Server

文章目录 1.Wing FTP Server简介1.1主要特点1.2使用教程 2.高级用法2.1Lua脚本,案例1 1.Wing FTP Server简介 Wing FTP Server&#xff0c;是一个专业的跨平台FTP服务器端&#xff0c;它拥有不错的速度、可靠性和一个友好的配置界面。它除了能提供FTP的基本服务功能以外&#…

关于软件本地化,您应该了解什么?

软件本地化是调整软件应用程序以满足目标市场的语言、文化和技术要求的过程。它不仅仅涉及翻译用户界面&#xff1b;它包含一系列活动&#xff0c;以确保软件在目标语言环境中可用且相关。以下是您应该了解的有关软件本地化的一些关键方面&#xff1a; 了解范围 软件本地化是…

Golang 依赖注入设计哲学|12.6K 的依赖注入库 wire

一、前言 线上项目往往依赖非常多的具备特定能力的资源&#xff0c;如&#xff1a;DB、MQ、各种中间件&#xff0c;以及随着项目业务的复杂化&#xff0c;单一项目内&#xff0c;业务模块也逐渐增多&#xff0c;如何高效、整洁管理各种资源十分重要。 本文从“术”层面&#…

【Linux进阶】文件和目录的默认权限与隐藏权限

1.文件默认权限&#xff1a;umask OK&#xff0c;那么现在我们知道如何建立或是改变一个目录或文件的属性了&#xff0c;不过&#xff0c;你知道当你建立一个新的文件或目录时&#xff0c;它的默认权限会是什么吗&#xff1f; 呵呵&#xff0c;那就与umask这个玩意儿有关了&…

精准畜牧业:多维传感监测及分析动物采食行为

全球畜牧业呈现出一个动态且复杂的挑战。近几十年来&#xff0c;它根据对动物产品需求的演变进行了适应&#xff0c;动物生产系统需要提高其效率和环境可持续性。在不同的畜牧系统中有效行动取决于科学技术的进步&#xff0c;这允许增加照顾动物健康和福祉的数量。精准畜牧业技…

Zookeeper笔记1

一、介绍 Zookeeper 是一个开源的分布式的&#xff0c;为分布式框架提供协调服务的 Apache 项目。是一个基于观察者模式设计的分布式服务管理框架&#xff0c;它负责存储和管理大家都关心的数据&#xff0c;然后接受观察者的注册&#xff0c;一旦这些数据的状态发生变化&#…

自动化代码规范检查--Sonarqube部署

参考文档 官方文档安装数据库 官方给出几种数据库: # 我们选用postgres, 拉取镜像 docker pull postgres:16.0# 创建存储卷 docker volume create postgresql-data# 运行容器 docker run -d --name sonarqube-postgres \-p 5432:5432 \-e POSTGRES_DB=sonar_DB \-e POSTGRE…

十五、【源码】给代理对象设置属性

源码地址&#xff1a;https://github.com/spring-projects/spring-framework 仓库地址&#xff1a;https://gitcode.net/qq_42665745/spring/-/tree/15-proxy-set-property 给代理对象设置属性 之前的代码是创建Bean进行判断&#xff0c;要不要进行代理&#xff0c;如果代理…