“魔改”网络的本质是增加归纳偏置

三年 8000 篇 CVPR,怎么读才不迷路?

首先什么是归纳偏置(inductive bias)?归纳偏置本质上是机器学习算法对数据的pattern做出的假设,每个模型都内置这个东西。以常见的机器学习算法为例

比如 线性回归linear regression,假设的就是输入特征和输出之间存在线性关系。而Ridge Regression加了权重的L2正则化项,算是一种“偏好于更简单模型”的偏置,从bias-variance的角度来说,进一步增加了bias降低variance

另外决策树的归纳偏置呢?一个同样是偏好简单模型的偏置,另一个是结构性偏置,每个节点针对单一特征进行if-then判断,期望特征有清晰的层级化关系,并且不需要数据经过standardization

支持向量机SVM的归纳偏置则是假设数据可以通过一个超平面分开,并且还要两边的数据点尽可能远(maximum margin)

kNN假设特征空间中的数据点,如果彼此相距更近,那么它们的标签也更可能相同

到深度学习领域,CNN也有强大的归纳偏置来帮助快速学习数据特征,一个是局部性Locality,它假设图像中相邻的像素之间关联更强;另一个是平移不变性,假设图像中的一个物体(比如一只猫),无论出现在左上角还是右下角,它仍然是一只猫,这是通过在整个图像上共享卷积核的权重来实现的

Transformer 相比CNN缺乏这两种归纳偏置,自注意力机制会计算序列中所有token的关联度,它并不假设近就更重要,所以它很强大,潜力无限,但是它需要更多的数据去学习数据本身的pattern

而引入的位置编码 (Positional Encoding) 相当于注入了顺序偏置,注意力机制中的Mask相当于引入了Causal偏置,预测当前token时候不能看到未来的信息。

近来常用的Relative Positional Encoding相对位置编码相当于一定程度上引入了平移不变性,只要token之间的相对位置关系不变(比如ViT架构处理一张猫的图像),不管出现在整体的什么位置,都是同一个pattern(同一个猫)

这样的例子还很多,绝大多数网络架构层面的魔改本质上都是根据assumption引入一个inductive bias。不同模型之所以适合不同任务,本质上是它们内置的归纳偏置是否符合任务数据的结构。

🔧可使用ArxivSub查找更多论文

📬ArxivSub: arxivsub.comfyai.app(内测)

📬LLM全英文教程: comfyai.app(限免)

#arxiv#大语言模型#每日论文#医学影像#多模态#agent#医学图像#LLM#智能体#benchmark