“模型”揭秘Transformer基于上下文学习的能力：看它如何学到正确的线性模型？

2023-07-29 15:05:06来源：机器之心Pro

今天，很高兴为大家分享来自机器之心Pro的揭秘Transformer基于上下文学习的能力：看它如何学到正确的线性模型？，如果您对揭秘Transformer基于上下文学习的能力：看它如何学到正确的线性模型？感兴趣，请往下看。

本文由加州大学伯克利分校统计系和谷歌 DeepMind 的团队联合发表，研究了预训练后的 Transformer 的基于上下文学习 (In-Context Learning) 的能力。他们用简洁的数学理论证明了：Transformer 可以基于上下文学习到一种类似最小二乘的算法，这种学到的算法在新的数据集上能学到正确的线性模型。

论文地址：https://arxiv.org/pdf/2306.09927.pdf

Transformer 基于上下文学习的能力

基于上下文学习 (ICL,In-Context Learning) 是大语言模型的特殊能力。它通常指的是：一个经过预训练的语言模型，当你输入一些具体的任务指示和少数几个范例 (demonstration) 之后，再输入一个新问题 (query input)，该模型可以依据提供的范例给出正确的解答或者标注 (label)。

注意，在进行基于上下文的学习的时候，原先经过预训练的模型是不需要经过任何微调 (fine-tuning) 的。也就是说，原模型的参数完全不会变化。这大大节省了微调所需要的数据。

举个例子，假设你需要 GPT 做翻译任务，你提供了一些范例：狗 ——dog；猫 ——cat。然后你想知道「人」怎么翻译。这个时候你不需要对模型进行任何微调（尽管训练的时候并没有使用翻译的数据集），你只需要输入：

请将中文翻译成英文。例如：狗 ——dog；猫 ——cat；人 ——？

GPT 可以给出你正确的回答（不信你可以自己试试）。

在 GPT3 及此后的许多大模型中，人们都观察到了 ICL 的现象 [1]。如何理解这种现象，目前学术界并没有给出统一的答案。一种观点认为，GPT 可以从提供的范例中学到某些算法，然后再将这些算法用到新的问题中。例如，从「狗 ——dog；猫 ——cat」中，GPT 也许学到了一种「可以用于文本翻译」的算法，然后在将这种算法用在新的问题「人 ——？」中。

至于学到了什么算法，不同机构通过实验得出了一些结论 [2,3,4]。下表中，我们使用约等号，表示并没有严格的理论说明 GPT（或者类似结构）严格学到了这个算法，但是它和该算法在任务上的表现几乎一致。

本文首次从理论上证明，经过预训练的 Transformer 在线性回归模型上学到了与最小二乘十分类似的算法，它们都能基于上下文学到正确的线性模型。

一个简单的线性 Transformer 模型

本文考虑的是一个简化的线性 Transformer 模型，所有的数据来源于无噪音的线性模型。我们考虑这样一个序列到序列 (sequence-to-sequence) 的函数：我们用一系列的数据和标签 (x_i,y_i), i=1,2,...,N, 来模拟一个任务中的范例。想象所有的 x_i 就是中文词语，对应的 y_i 是对应的英文翻译。我们还有一个需要给出预测的输入 x_query（想象我们有一个中文单词需要翻译），对这个输入，它对应的输出是 y_query，我们希望模型准确的预测它。

我们把这些范例和问题堆起来变成一个矩阵：

这里我们没有将 y_query 放进去，是因为这个矩阵会被输入给 Transformer，而我们希望得到的预测是 y_query。我们将这个数据编码矩阵 (embedding matrix) 输入到如下的单层线性 Transformer 中：

是的你没有看错，这就是一个（一层的、线性的）Transformer。这里的输入和输出是同样大小的矩阵，第一个加数 E 表示经典的残差连接，后面的 W_1 表示 value 矩阵，而 W_2 则是把 key 和 query 矩阵的乘积直接当成了一个矩阵。

之所以称其为「线性的」Transformer，是因为我们去掉了经典 Transformer 中的归一化（除以某个系数后加上 softmax）和非线性激活函数，将其替代为直接除以 token 矩阵 E 的大小（乘以 1/N）。我们将输出矩阵的右下角元素记为ŷ_query，它是模型对 y_query 的预测。

我们假设所有的数据来自于一个随机的线性模型，即对于 i=1,2,...,N，有 y_i = w・x_i 以及 y_query = w・x_query。我们假设 w 服从标准高斯分布，而 x_i 独立同分布地服从一个均值为 0，方差为

返回科技金融网首页 >>

版权及免责声明：凡本网所属版权作品，转载时须获得授权并注明来源“科技金融网”，违者本网将保留追究其相关法律责任的权力。凡转载文章，不代表本网观点和立场，如有侵权，请联系我们删除。