主要观点总结
文章介绍了中科院与华为诺亚方舟实验室等团队提出的全新骨干网络,该网络把图片表示成图结构数据,让GNN也能完成经典CV三大任务。文章还提到了该论文引起GNN学者的广泛关注,以及新方法的实验和对比结果。
关键观点总结
关键观点1: 研究背景与现状
目前针对图像数据的处理通常采用CNN或Transformer方法,而直接利用图神经网络(GNN)处理图像数据的相对较少。因此,该研究团队提出了一种新的方法,将图像表示为图结构数据,以便使用GNN进行处理。
关键观点2: 新方法介绍
研究团队将图像分成多个小块(patch),每个patch被视为图结构中的一个节点。同时,对于每个节点,会搜索其距离最近的节点构成边。网络架构分为两部分:图卷积网络(GCN)和前馈神经网络(FFN)。其中,GCN负责处理图数据、聚合相邻节点中的特征,而FFN则负责特征的转换。
关键观点3: 解决GCN过度平滑问题的方法
传统GCN会出现过度平滑现象,为解决这一问题,研究团队在图卷积层前后各增加一个线性层,并在图卷积层后增加一个激活函数。
关键观点4: 实验与对比结果
研究团队设计了同质结构和金字塔结构两种ViG网络,并进行了一系列实验。实验表明,新方法在图像分类、目标检测和实例分割等任务上的性能均表现良好。
关键观点5: 研究团队的期望
研究团队希望这项工作能作为GNN在通用视觉任务上的基础架构,并计划开源相关代码。这对于推动GNN在图像处理领域的应用具有重要意义。
文章预览
点击下方 卡片 ,关注“ 新机器视觉 ”公众号 重磅干货,第一时间送达 用图神经网络(GNN)做CV的研究有不少,但通常是围绕点云数据做文章,少有直接处理图像数据的。其实与CNN把一张图片看成一个网格、Transformer把图片拉直成一个序列相比,图方法更适合学习不规则和复杂物体的特征。 近期中科院与华为诺亚方舟实验室等提出一种全新的骨干网络,把图片表示成图结构数据,让GNN也能完成经典CV三大任务。 该论文引起GNN学者广泛关注。有人认为GNN领域积累多年的技巧都将涌入这一新方向,带来一波研究热潮。 在研究团队看来,图结构是一种更通用的数据结构。甚至网格和序列可以当作图结构的特例,用图结构来做视觉感知会更加灵活。图数据由节点和边组成,如果把每个像素都看作节点计算难度过于大了,因此研究团队采用了切块(patch)方法。
………………………………