vision transformer的计算复杂度

Vision transformer

在这里插入图片描述

假设每个图像有 $h * w$ 个patch，维度是 $C$

输入的图像 $X$ ( 大小为 $h w * C$ )，和三个系数矩阵相乘 ( 大小为 $C * C$ )，得到 $q k v$ 三个向量 ( $h w * C$ )，复杂度为：
$3hwC^2$

$q$ ( $h w * C$ ) 和 $k^T$ ( $C * h w$ ) 相乘得到矩阵 $A$ ( $h w * h w$ )，复杂度为： $hw)^2C$

$A$ ( $h w * h w$ ) 和 $v$ ( $h w * C$ )相乘，得到多头注意力的结果 ( $h w * C$ )，复杂度为： $hw)^2C$

经过MLP投影层 ( $C * C$ )，得到 ( $h w * C$ )，复杂度为：
$hwC^2$

所以复杂度之和为： $4hwC^2 + 2(hw)^2C$

在这里插入图片描述
基于滑动窗口的多头注意力，是在每个窗口内计算注意力

假设每个窗口有 $M \times M$ 个patch

在一个窗口内的复杂度为：

$4M^2*C+2M^4C$

共有 $hw /M^2$ 个窗口，所以复杂度之和为：

$4hwC+2M^2hwC$

使用 $s \times s$ 卷积进行卷积投影，有 $h w$ 个patch，通道维度为 $C$

输入的图像 $X$ ( 大小为 $h w * C$ )，使用三个标准卷积进行投影 ( 大小为 $s * s * C$ )，得到 $q k v$ 三个向量 ( $h w * C$ )，投影的复杂度为：

$3hws^2C^2$

使用深度可分离卷积，投影的复杂度为：

$3hws^2C$

使用步长大于1的卷积进行多头注意力的投影，减小后面注意力的计算花销。

key和value的步长为2，query的步长为1，key和value的token数量减小了4倍，所以后续的多头注意力计算花销也减小了4倍。

在这里插入图片描述

交叉注意力包括IPSA和CPSA，IPSA在单个patch内使用卷积进行投影，CPSA在单个通道计算patch间的注意力

IPSA的复杂度：

patch大小为 $N$ ，通道数为 $C$

输入的图像 $X$ ( 大小为 $N^2* C$ )，使用卷积进行投影 ( 大小为 $1 * 1 * C$ )，得到 $q k v$ 三个向量 ( $N^2*C$ )，复杂度为：
$3N^2C^2$

$q$ ( $N^2*C$ ) 和 $k$ ( $C*N^2$ ) 相乘得到矩阵 $A$ ( $N^2*N^2$ )，复杂度为： $N^4C^2$

$A$ ( $N^2*N^2$ ) 和 $v$ ( $N^2*C$ )相乘，得到多头注意力的结果 ( $N^2*C$ )，复杂度为： $N^4C^2$

经过MLP投影层 ( $C * C$ )，得到 ( $N^2*C$ )，复杂度为：
$N^2C^2$

单个patch内的复杂度为：

$4N^2C^2+2N^4C^2$

共有 $HW/N^2$ 个patch，所以IPSA总复杂度为：
$4HWC^2+2N^2HWC^2$

CPSA的复杂度：

patch数目为 $HW/N^2$ ，patch大小为 $N^2$

输入的图像 $X$ ( 大小为 $HW/N^2*N^2$ )，和三个系数矩阵相乘 ( 大小为 $N^2*N^2$ )，得到 $q k v$ 三个向量 ( $HW/N^2*N^2$ )，复杂度为：
$3HWN^2$

$q$ ( $HW/N^2*N^2$ ) 和 $k$ ( $N^2*HW/N^2$ ) 相乘得到矩阵 $A$ ( $HW/N^2*HW/N^2$ )，复杂度为： $HW)^2/N^2$

$A$ ( $HW/N^2*HW/N^2$ ) 和 $v$ ( $HW/N^2*N^2$ )相乘，得到多头注意力的结果 ( $HW/N^2*N^2$ )，复杂度为： $HW)^2/N^2$

经过MLP投影层 ( $N^2*N^2$ )，得到 ( $HW/N^2*N^2$ )，复杂度为：
$HWN^2$

单个通道内的复杂度为：

$4N^2HW+2(HW/N)^2$

共有 $C$ 个通道，所以CPSA总复杂度为：
$4N^2HWC+2(HW/N)^2C$