Learning without training; The implicit dynamics of in-context learning

새로 제안한 개념들.
contextual layer.
context에 관한 처리를 하는 레이어. transformer의 self-attention layer 역할 등을 일반화하여 생각

$A (\cdot)$ : 기본적으로 single vector $x$ 를 input으로 받는 함수, 선택적으로 추가적인 context $C$ 를 받을 수도 있다.(sequence of tokens, image etc). so, output - $A ([C, x])$ 간단하게 $A (C, x)$

이때, $A (C, x)$ 는 self-attention layer(transformer의 경우)의 output을 통해서, $A (C)$ 와 같은 vector space를 점유하므로, 다음과 같이 contextual vector를 정의할 수 있다.

Δ A (C) : = A (C, x) - A (x)

contextual block.
$T_{W} = M_{W} \circ A$
contextual block $T_{W}$ 는 contextual layer $A$ 와 neural network $M_{W}$ 의 합성함수이다.
추가로, $M_{W} (z) = f_{θ} (W z + b)$ 이다. 논의에서 layer 개수 안 중요하다는 것. 모든 dense-layer 포함하는 개념

Theorem 2.2
contexual block $T_{W}$ 는 weight matrix $W$ 를 포함하는 fully connected layer $M_{W}$ 와 contexual layer $A$ 로 구성되어있다. 주어진 context $C$ 와 input $x$ 에 대해, $Y \subset C$ 인 $Y$ 가 $T_{W}$ 에 미치는 효과는 $M_{W}$ 의 첫번째 레이어에 대한 rank 1 업데이트 $W + Δ W (Y)$ 에 암묵적으로 대응된다.
수식적으로는 다음과 같다.

T_{W} (C, x) = T_{W + Δ W (Y)} (C ∖ Y, x) where Δ W (Y) = \frac{(W Δ A (Y)) A (C ∖ Y, x)^{T}}{∥ A (C ∖ Y, x) ∥^{2}}

이때, $Δ A (Y) = A (C, x) - A (C ∖ Y, x)$ 는 $Y$ 에 대응하는 context vector이다. 또한, $Δ W (Y)$ 의 rank는 1이다.
$C ∖ Y$ 는 Y에 속하지 않는 모든 C의 원소 집합이다.

T_{W} (D U Y, X) = T_{W + Δ W (Y)} (D, x)

논문에 증명이 함께 써있는데, 간단하니 재료만 써 두면,
2.2의 $Δ W (Y)$ 와 $Δ A (Y)$ 의 정의를 통해 구할 수 있다.

\begin{matrix}  \end{matrix}

다시 말하자면,
어떤 contextual layer라도, prompt로 부터 첫번째 신경망 층의 implicit weight transfer를 만들어 냄이라고 해석할 수 있다. contextual layer는 self-attention, RNN, local attention을 활용하는 recurrent layer 등이 있다. Y=C면 다음과 같이 쓸 수 있다.

T_{W} (C, x) = T_{W + Δ W (C)} (x), with Δ W (C) = \frac{(W Δ A) A (x)^{T}}{∥ A (x) ∥^{2}},

where, context vector $Δ A = A (C, x) - A (x)$ , $Δ W$ 는 rank 1이다.

Appendix A에는 skip-connection 일반화한 거 있는데 이거는 정리를 추가로 해보자.
$T (C, x) = x + A (C, x) + W^{'} g_{θ} (W A (C, x) + b) + b^{'}$
$g_{θ}$ 는 any differential model.
$W (Y) = W + Δ W (Y)$
$b^{'} (Y) = b^{'} + Δ b^{'} (Y)$

$T_{W, b^{'}} (C, x) = T_{W (Y), b^{'} (Y)} (C ∖ Y, x)$
$Δ b^{'} (Y) = Δ A (Y)$
$Δ W (Y) = \frac{(W Δ A (Y)) A (C ∖ Y, x)^{T}}{∥ A (C ∖ Y, x) ∥^{2}}$
이 식들을 가지고 아까보다는 귀찮지만, 풀면 풀린다.
$T_{W (Y), b^{'} (Y)} (C ∖ Y, x) = x + A (C ∖ Y, x) + Δ A (Y) + W^{'} g_{θ} (W (A (C ∖ Y, x) + Δ A (Y)) + b) + b^{'} = T_{W, b^{'}} (C, x)$
이러면, 최근 세 논문에서 제안된 몇가지 개념과 $Δ b^{'} (Y)$ 이 연결된다고 하는데... 인용된 논문의 개념들은 이 논문의 Appendix A 말미의 인용을 참고하시길 바란다.
또한 pre-LN 트랜스포머 블록, 로컬 어텐션을 이용하는 Griffin recurrent model 등에도 적용이 가능해지는 것이다.

The implicit learning dynamics of ICL

sequence of tokens $C = [c_{1}, . . ., c_{n}]$

위의 표기를 반복 적용하면, implicit dynamics가 드러나게 된다.
초기 가중치 $W_{0}$ , NN의 첫 dense layer $M_{W}$

\begin{aligned} T_{W_{0}} (c_{1}, x) & = T_{W_{0} + Δ W_{0} (c_{1})} (x) \\ T_{W_{0}} (c_{1}, c_{2}, x) & = T_{W_{0} + Δ W_{0} (c_{1}, c_{2})} (x) \\ ⋮ \\ T_{W_{0}} (c_{1}, \dots, c_{n}, x) & = T_{W_{0} + Δ W_{0} (c_{1}, \dots, c_{n})} (x) \end{aligned}

이때, $C$ 에 대해 수렴하는 weight를 다음과 같이 표기하면,

\begin{aligned} W_{1} & = W_{0} + Δ W_{0} (c_{1}) \\ W_{2} & = W_{0} + Δ W_{0} (c_{1}, c_{2}) \\ ⋮ \\ W_{n} & = W_{0} + Δ W_{0} (c_{1}, \dots, c_{n}) \end{aligned}

아래와 같아진다.

T_{W_{n}} (x) = T_{W_{0}} (c_{1}, \dots, c_{n})

이걸 online gradient descent 학습 역학과 비교하여 Proposition 3.1을 얻는다.
토큰을 데이터 포인트로 고려하는 것이다.
proposition 3.1

W_{i} = W_{i - 1} - h \nabla_{W} L_{i} (W_{i - 1})

learning rate $h = 1 / ∥ A (x) ∥^{2}$ 이고, step $i$ 에서의 loss는 $L_{i} (W) = trace (Δ_{i}^{T} W)$ 이다.
where, $Δ_{i} = W_{0} (A (c_{1}, \dots, c_{i}, x) - A (c_{1}, \dots, c_{i + 1}, x)) A (x)^{T}$

$W_{i + 1} - W_{i}$ 를 정리한 식을 정리하면, 쉽게 아래 식을 유도가능하다.

W_{i + 1} = W_{i} - h Δ_{i} = W_{i} - h Δ_{W} trace (Δ_{i}^{T} W)

이때, $\nabla_{W} trace (A^{T} W) = A$ 이다.

직관적으로 $Δ_{i}$ 는 $i + 1$ 번째의 컨텍스트 토큰이 추가되는 효과를 측정하는 것이다.

Appendix B에서는 각 단계마다 변화하지 않는 다른 형태인 dynamics를 기술하는데, 이건 분해 공식을 통해 얻는다.
$T_{W_{0}} (c_{1}, \dots, c_{n}, x) = T_{W_{0} + Δ W_{0} (c_{1})} (c 2, \dots, c_{n}, x)$
$W_{1} = W_{0} + \frac{(W_{0} Δ A (c_{1})) A (c_{2}, \dots, c_{n}, x)^{T}}{∥ A (c_{2}, \dots, c_{n}, x) ∥^{2}}$
iteration 가능하니...
$W_{i} = W_{i - 1} + h_{i} W_{i - 2} A_{i} = W_{i - 1} (1 + h_{i} A_{i})$
$A_{i} : = Δ A (c_{i}) A (c_{i + 1}, \dots, c_{n}, x)^{T}$
$h_{i} : = \frac{1}{∥ A (c_{i + 1}, \dots, c_{n}, x) ∥^{2}}$
따라서 context C가 x에 미치는 영향은
$W_{n} = W_{0} (1 + h_{1} A_{1}) (1 + h_{2} A_{2}) \dots (1 + h_{n} A_{n})$

실험

기존 ICL 관련 이론을 살펴보지 않았지만, 본 논문에 제안된 이론을 통해 더 적은 제약 조건으로 contextual layer와 NN 조합으로 만들어지는 Context block의 dynamics를 기술할 수 있다는 것을 알았다.

그 방식은 context 토큰을 데이터 포인트로 보고, 첫 번째 context block의 학습으로서 표현하는 것이다.

정리 2.2에 관하여, 프롬프트가 주어졌을 때 예측 $T_{W} (C, x)$ 이, 프롬프트 없이도 rank 1이었던 $Δ W$ 를 MLP에 적용한 예측 $T_{W + Δ W} (x)$ 와 사실상 동일함을 보이는 것이 목적이다.
이때, $Δ W$ 는 context token을 순차로 학습하면서 정의되는데, 이것이 소멸하는지.(수렴하는지)를 측정하여, 이러한 Dynamics가 동작하는 지 확인하는 것이다.

프롬프트는 $(x_{1}, h (x_{1})), \dots, (x_{N}, h (x_{N})), x_{q u e r y}$ 이고, $h (x) = ⟨ w, x ⟩$ 이때, $w, x_{i}, x_{q u e r y} \sim N (0, I_{d})$
모델은 하나의 트랜스포머 블록에, MLP skip connection 제거.
예측은 query토큰 출력의 마지막 성분.
결과적으로 i가 커질수록, $∥ (Δ W)_{i + 1} - (Δ W)_{i} ∥_{2}$ 가 감소하고 소멸하였다. 이러한 수렴성은 경사하강법의 Dynamics와 유사하게 나타났다. (batch loss가 $({\hat{y}}_{q u e r y}) - ⟨ w, x_{q u e r y} ⟩)^{2}$ )
Pasted image 20250729181039.png
pretrain 후 새롭게 만든 세트에서 앞 $i$ 개의 예시만으로 SGD 파인튜닝을 수행하여, test loss를 계산한 결과와, $Δ W$ 를 계산하여 얻은 test loss와 비교해도, 100회 평균 서로 유사하게 loss를 줄여나갔음.
Pasted image 20250729181559.png

한계:

단일 블록, 마지막 입력토큰의 출력과 첫 생성 토큰에 한정된 등가성.
제한적인 실험 세팅.