“魔改”网络的本质是增加归纳偏置

三年 8000 篇 CVPR，怎么读才不迷路？

首先什么是归纳偏置（inductive bias）？归纳偏置本质上是机器学习算法对数据的pattern做出的假设，每个模型都内置这个东西。以常见的机器学习算法为例

比如线性回归linear regression，假设的就是输入特征和输出之间存在线性关系。而Ridge Regression加了权重的L2正则化项，算是一种“偏好于更简单模型”的偏置，从bias-variance的角度来说，进一步增加了bias降低variance

另外决策树的归纳偏置呢？一个同样是偏好简单模型的偏置，另一个是结构性偏置，每个节点针对单一特征进行if-then判断，期望特征有清晰的层级化关系，并且不需要数据经过standardization

支持向量机SVM的归纳偏置则是假设数据可以通过一个超平面分开，并且还要两边的数据点尽可能远（maximum margin）

kNN假设特征空间中的数据点，如果彼此相距更近，那么它们的标签也更可能相同

到深度学习领域，CNN也有强大的归纳偏置来帮助快速学习数据特征，一个是局部性Locality，它假设图像中相邻的像素之间关联更强；另一个是平移不变性，假设图像中的一个物体（比如一只猫），无论出现在左上角还是右下角，它仍然是一只猫，这是通过在整个图像上共享卷积核的权重来实现的

Transformer 相比CNN缺乏这两种归纳偏置，自注意力机制会计算序列中所有token的关联度，它并不假设近就更重要，所以它很强大，潜力无限，但是它需要更多的数据去学习数据本身的pattern

而引入的位置编码 (Positional Encoding) 相当于注入了顺序偏置，注意力机制中的Mask相当于引入了Causal偏置，预测当前token时候不能看到未来的信息。

近来常用的Relative Positional Encoding相对位置编码相当于一定程度上引入了平移不变性，只要token之间的相对位置关系不变（比如ViT架构处理一张猫的图像），不管出现在整体的什么位置，都是同一个pattern（同一个猫）

这样的例子还很多，绝大多数网络架构层面的魔改本质上都是根据assumption引入一个inductive bias。不同模型之所以适合不同任务，本质上是它们内置的归纳偏置是否符合任务数据的结构。

🔧可使用ArxivSub查找更多论文

📬ArxivSub: arxivsub.comfyai.app（内测）

📬LLM全英文教程: comfyai.app（限免）

#arxiv#大语言模型#每日论文#医学影像#多模态#agent#医学图像#LLM#智能体#benchmark