[图神经网络]图卷积神经网络--GCN
迪丽瓦拉
2025-06-01 05:16:38
0

一、消息传递

        由于图具有“变换不变性”(即图的空间结构改变不会影响图的性状),故不能直接将其输入卷积神经网络。一般采用消息传递(Message pass)的方式来处理。

        消息传递机制通过局部邻域构建计算图实现,即某个节点的属性由其邻居节点来决定。汇聚这些邻居节点信息的工作由神经网络完成,不用人为干预。其形式如下例:

        每个节点都可构建属于自己的计算图,计算图可以表征一个其结构功能角色。 在计算过程中,每个计算图即为一个单独样本。

        需要注意的是,图神经网络的层数并不是神经网络的层数,而是计算图的层数。图神经网络的层数=计算图的层数=图中目标节点的邻居阶数。每一层的节点共享一套计算权重。

                        

         图神经网络的层数 k 可以视为卷积神经网络中的感受野。若 k 过大可能导致过平滑(所有节点输出同一张图)

二、图卷积神经网络

        1.计算单元

                图卷积神经网络基于消息传递方式,一般的计算方法是将邻居节点的属性特征逐元素求平均(与顺序无关,也可以是求最大值/求和),再将这个向量输入到神经元中

        2.数学表示

                k+1层 v 的嵌入是第k层v节点的邻域u计算(邻域u中的节点求和除以节点v连接数),其公式可以写作:

                        h^{(k+1)}_v=\sigma(\omega _k\sum \frac{h^k _u}{N(v)})       式中 \sigma为激活函数,\omega_k为权重

                其中,节点v的第0阶属性特征就是其本身:h_v^{(0)}=x_v

                神经网络输出的嵌入向量为z_v = h_v^K,K为网络的层数

        3.矩阵表示

                ①将k层所有节点的嵌入都记为H^{(k)}H^{(k)}=[h_1^{(k)}...h_{|v|}^{(k)}]^T,即下图中矩阵中的一行

                ②将此矩阵左乘一个邻接矩阵A_v : \sum_{u \in N_v}h_u^{(k)}=A_vH^{(k)} 可挑选出节点v的邻域节点(对应上式中的求和过程)

                ③找到一个矩阵D_v=Deg(v)=|N(v)|,该矩阵为一个由节点连接数构成的对角矩阵,表现为:

                         其逆矩阵即为连接数的倒数:D_v^{-1}=\frac{1}{|N(v)|}

                经过上述步骤,式\sum \frac{h^k _u}{N(v)}即可表示为D^{-1}AH^{(k)}

                但是这样计算的话,由于D^{-1}造成节点v仅会考虑自己的连接数而忽视对方的连接数(不考虑连接的质量,对全部渠道来得信息强行求平均), 可以将式子改进D^{-1}A --> D^{-1}AD^{-1},这样得到的结果是一个对称矩阵,既考虑了自身的连接数也考虑了对方的连接数。

                可改进后的向量幅值会减小,其特征值值域为(-1,1)。对于这种现象,可以继续对式子进行改进D^{-1}AD^{-1} --> D^{-\frac{1}{2}}AD^{-\frac{1}{2}},这样处理后最大特征值等于1。

                最后将此矩阵记为:\tilde{A}=D^{-\frac{1}{2}}AD^{-\frac{1}{2}},在此矩阵中,若两个节点i,j存在连接,则其在矩阵中为\tilde{A}=\frac{1}{\sqrt{d_i}\sqrt{d_j}},可以表示其连接权重(其中d_id_j是节点i和节点j的连接数)

                         矩阵\tilde{A}还可以用来计算拉普拉斯矩阵\xi = 1 - \tilde{A}

                则式子可以列为:h^{(k+1)}_v=\sigma(\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}H^{(l)}W^{(l)}),该式即可表示一层GCN;其中可学习参数为权重w^{(l)}

        4.计算图的改进

                上述方式(通过相邻节点描述本节点无法反映节点自身的情况),改进方法为:为每个节点加上指向自己的连接

                 这样改进后,邻接矩阵\tilde{A}即变为\tilde{A}=A+I(原矩阵加上单位阵,对角线全部为1)

                最终神经网络表达式H^{(k+1)}_v=\sigma(\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}H^{(l)}W^{(l)})可以写作:

                        H^K_i=\sigma(\sum \frac{\tilde{A_{ij}}}{\sqrt{\tilde{D_{ii}}}\tilde{D_{jj}} }H_j^{k-1}W^k)(一个式子包含了原权重矩阵和单位阵)

                也可拆分写作:

                        H^k_i=\sigma(\sum\frac{A_{ij}}{\sqrt{\tilde{D_{ii}}}\tilde{D_{jj}} }H^{k-1}_jW^k+\frac{1}{\tilde{D_i}}H^{k-1}_iW^k)(前面是对原权重矩阵的变换,后面是对单位矩阵的变换)

                进一步改进则可使用两套权重(汇聚节点信息一套,自循环节点信息一套),写作:

                        H^{(k+1)}_v=\sigma(W_k\sum\frac{h_u^{(k)}}{|N(v)|}+B_kh_v^{(k)})

                        且当B_k=1时,后式变为恒等映射,即为残差连接。

        !!!最终的矩阵简化形式为:H^{(k+1)}=\sigma(\tilde{A}H^{(k)}W_k^T+H^{(k)}B_k^T);其中\tilde{A}=D^{-\frac{1}{2}}AD^{-\frac{1}{2}}

三、GCN的训练

        1.监督学习

                损失函数:min\, l(y,f(z_v)),其中f为分类/回归预测头,y为节点标注信息

                交叉熵损失函数:l=\sum y_vlog(\sigma(z_v^T\theta ))+(1-y_v))log(1-\sigma(z_v^T\theta))

                GCN的输入是图结构,输出也是图结构,但输出的图中的节点嵌入了语义信息;输出结构具备:低维、连续、稠密的特点。

                 嵌入向量可以输入分类头进行分类,将其映射在二维空间上即可发现不同类别的节点在迭代中被分得越来越开

---->​​​​​​​

        2.无监督/自检断学习

                类似于Deepwalk/Node2vec,利用图自身的连接结构,迭代目的是让图中相连的两个结点嵌入的向量尽可能接近

                损失函数:l=\sum CE(y_{u,v},DEC(z_u,z_v)),当y_{u,v}=1时表示两个结点uv相似。

                一般采用“编码器--解码器”架构,由编码器将图嵌入到向量,再由解码器计算两个向量的相似度。

四、GCN的优势

        相较于传统的基于随机游走的机器学习而言

                ①GCN所有计算图共享权重参数量更小

                ②GCN为归纳式学习,拥有较强的泛化能力(可以泛化到新节点乃至新图--迁移学习)

                ③利用了节点的属性特征、结构功能角色和标注信息

                ④拟合学习能力强,得到的嵌入向量质量较高

五、对比CNN、Transformer

        1.与CNN对比

                CNN可以视为一个2层的GCN,卷积汇总了9个邻居节点和目标节点的信息,其数学式亦可被写成:h^{(l+1)}=\sigma(\sum W_l^uh_u^P(l)+B_lh_v^{(l)}),CNN可以被视为一个固定邻域、固定顺序的GCN。

                 但两者之间有以下不同

                        ①CNN不具备变换不变性,打乱像素点的顺序会影响网络的输出。

                        ②GCN的卷积核权重由\tilde{A}预定义,不需要学习。而CNN的权重需要学习得来

        2.与Transformer对比

                Transformer本身是自注意力机制,其训练的目的是让一个序列中的元素之间互相影响。

                 Transformer可以被视为一个全连接词图上的GCN。

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...