토큰 분포 편차로 LLM 추론 능력 향상
본 논문은 RLVR 과정에서 발생하는 entropy collapse와 entropy explosion 문제를 해결하기 위해 Independent Combinatorial Tokens (ICT) 프레임워크를 제안합니다. ICT는 scalar uncertainty 대신 token logits의 distributional properties를 분석하여 Jensen-Shannon (JS) divergence를 기반으로 핵심적인 branching points를 식별합니다. Shannon entropy와 second-order Rényi entropy를 모두 고려한 선택적 업데이트를 통해 policy concentration을 조절함으로써 학습의 안정성을 확보합니다.
uniform token updates로 인한 최적화 불안정성을 극복하여, 적은 양의 데이터 업데이트만으로도 LLM의 reasoning 능력을 효과적으로 향상시킬 수 있는 새로운 학습 패러다임을 제시합니다.
arXiv 원문 →