Background

MuZero

OptionZero

Option이란?

일련의 primitive action sequence.
{a1,a2,a3,a4} for s0. 단순하게 생각하면, 이후 모든 [st,st+L] 에서 Option의 확률을 계산해야겠지만, 이건 너무 비싸다. 실용적 관점에서 대부분의 옵션들이 낮은 확률을 가지므로
dominant option에만 관심이 있다.

Training

dominant option o1={a1,a2,...,al}
s.t

Πi=1lP(ai)>0.5Πi=1l+1P(ai)0.5

option network. 위에 해당하는 dominant option을 찾아 내는 것을 목표로한다.
Ω,p,v=fθ(s)
Ω : additional option output
maximum option length L is given,
Ω={ω1,ω2,...,ωL}, 이때, ωi(ai)=Πj=1iP(aj) 선택된 action sequence의 확률곱
o1={a1,a2,...,al}
ai=argmaxaωi(a)
ω(stop)=1ω(a)

이때, dominant option은
주어진 최대 option 길이 L에 대하여,
Ω로 부터 i=L이거나 ai가 stop일 때 까지, ai=argmaxaωi(a)인 dominant option을 얻어낸다.

MCTS 에서 Dominant option으로 planning하기

Ωk,pk,vk=fθ(sk)

sk: hidden state, Ωk: option distribution, pk: policy distribution, vk: value at state sk

Ωk로부터 ok를 얻고

dynamics network
sk+l,rk+1,k+1=gθ(sk,Ak+1) , sk+1은 다음 hidden state, rk+1,k+1 accumulated discounted reward
rk+1,k+1=Σi=1lγi1rk+i,k+i 이다. 여기서 ri,i는 상태 si1 에서 ai를 수행해 얻는 single immediate reward이다.
ak+1,ok+1Ak+1

기본적인 구조는 MCTS와 같으나, 옵션을 이용하므로, 여러 노드를 한 번에 건너뛸 수 있는 옵션 엣지(Edge)를 추가하여, action과 함께 option을 통합할 수 있다.
트리의 각 엣지는 다음 통계를 가진다.{N(s,A),Q(s,A),P(s,A),R(s,A)}
각각 방문 횟수(N), 추정 Q값, 사전확률(P), 보상(R)이다.
primitive edge의 통계는 option edge의 통계를 포함한다.(Muzero와 동일)
Pasted image 20250723123234.png
Selection
Expansion
Backup

실험 결과

GridWorld