在新选项卡中打开链接
  1. 神经网络也能像人类利用外围视觉一样观察图像 ...

    • 人类视觉拥有一种特殊类型的视觉处理系统,称为外围视觉(peripheral vision)。根据到凝视中心的距离将整个视野划分为多个轮廓区域,外围视觉为人类提供了感知不同区域的各种视觉特征的能力。… 展开

    2. Motivation

    在过去的十年中,卷积一直是视觉识别神经网络中的主要特征转换,因为它在图像空间配置建模方面具有优势。尽管在学习视觉模式方面很有效,但卷积核的局部和静止特性限制了灵活处理 … 展开

    知乎专栏
    3. 方法

    具有N_{h}个头的多头自注意力 (MHSA)通过聚合N_{h}个自注意力输出来执行基于注意力的特征转换:
    其中\mathbf{X} \in \mathbb{R}^{H W \times D_{\mathrm{cmb… 展开

    知乎专栏
    3.1 Peripheral Vision Transformer

    基于 MHSA 的公式,作者将多头外围注意 (MPA) 定义为:
    其中\mathbf{R} \in \mathbb{R}^{H W \times H W \times D_{\mathrm{r}}}是具有D_{\mathrm{r}} … 展开

    知乎专栏
    3.2 Overall Architecture

    基于提出的外围投影和初始化,作者开发了称为外围视觉Transformer的图像分类模型,如上图所示。原始的 patchify stem由于其粗粒度的早期视觉处理而表现出不合标准的可优化性,因此 … 展开

    知乎专栏
    4.实验

    上图展示了\Phi_{\mathrm{p} \mathbf{q}:}^{(l, h)} \in \mathbb{R}^{H W}学习到的注意力图,可以观察到注意力被学习到处于不同形状的外围区域中。
    上图的饼图描述 … 展开

    知乎专栏