TPU, LLM 추론 3배 가속의 비밀
·

LLM 추론 속도, 3배 끌어올린 혁신? 현재 대규모 언어 모델(LLM) 추론 가속 분야는 순차적인 ‘자가회귀적 추측 디코딩’ 방식이 주를 이루고 있습니다. 경량화된 ‘드래프터’ 모델이 토큰을 예측하고, 이를 메인 모델이 검증하는 방식입니다. 하지만 이 방식은 K개의 후보 토큰을 생성하기 위해 K번의 순차적인 연산이 필요하다는 근본적인 병목 현상을 안고 있습니다. 즉, 각 토큰 예측이 완료되어야 다음 단계로 넘어갈 수 있어 추측 단계에서의 속도 향상 잠재력을 제한하는 요인이 됩니다. 이러한 한계를 극복하기 위해 연구자들은 기존의 토큰 단위 예측 방식을 넘어, ‘블록 확산(block diffusion)’이라는…