2026년 LLM 평가: 성능 최적화 전략

대규모 언어 모델(LLM)을 활용하는 애플리케이션의 성능을 효과적으로 측정하는 것은 AI 기술의 조직 내 도입에 있어 매우 중요합니다.

Red Hat 팀의 Legare Kerrison과 Cedric Clyburn은 최근 Arc of AI 2026 컨퍼런스에서 LLM 추론을 평가하고 최적화하기 위한 실질적인 방법에 대해 발표했습니다.

이들은 Retrieval Augmented Generation(RAG) 및 Agentic AI와 같은 AI 애플리케이션의 다양한 워크로드에 따른 리소스 요구 사항과 비용 영향을 논의했습니다.

LLM 시대의 진화와 평가의 필요성

Kerrison과 Clyburn은 2023년을 LLM의 해, 2024년을 RAG의 해, 2025년을 모델 파인튜닝 및 AI 에이전트의 해로 규정하며, 2026년에는 LLM 평가가 핵심이 될 것이라고 예측했습니다.

AI 배포 및 LLM 모델 평가 및 성능에 있어 당면 과제는 기존의 리더보드가 종종 일반적이라는 점입니다.

일부 웹사이트는 하드 프롬프트, 코딩, 수학, 창의적 글쓰기 등의 기준을 사용하지만, 이는 개별 비즈니스 문제와 데이터를 제대로 반영하지 못하므로 한계를 인지하고 사용해야 합니다.

실제 프로젝트에서 LLM 배포 시 겪는 일반적인 어려움 중 하나는 모델 품질(정확도), 응답성(지연 시간), 그리고 전반적인 비용 사이의 ‘트레이드오프 삼각형’을 헤쳐나가는 것이었습니다.

이 세 가지 요소 중 두 가지를 최적화하면 나머지 하나에 영향을 미치게 됩니다.

예를 들어, 높은 정확도와 낮은 지연 시간에 초점을 맞추면 배포 비용이 상승합니다.

낮은 비용과 높은 정확성에 중점을 둔 애플리케이션은 높은 지연 시간을 수반하는 경향이 있습니다.

또한, 낮은 비용과 낮은 지연 시간에 지나치게 집중하면 모델의 정확도가 떨어질 수 있습니다.

이들은 LLM 애플리케이션 성능 평가에 있어 Requests Per Second(RPS), Time to First Token(TTFT), Inter-Token Latency(ITL)과 같은 지표의 중요성을 강조했습니다.

RPS (Requests Per Second): 시스템이 초당 처리할 수 있는 추론 요청 수를 측정하여 전반적인 처리량과 부하 상태에서의 확장성을 평가합니다.
TTFT (Time to First Token): 요청을 보내고 첫 번째 토큰을 받는 데 걸리는 시간으로, 사용자가 체감하는 초기 응답 속도를 나타냅니다.
ITL (Inter-Token Latency): 첫 번째 토큰 이후 각 후속 토큰 간의 시간으로, 스트리밍 출력의 체감 속도와 디코더 효율성을 보여줍니다.

사용 사례와 벤치마킹 지표에 따라 다양한 워크로드에 대한 서비스 수준 목표(SLO)를 명확하게 정의하는 것이 중요합니다.

예를 들어, 전자상거래 챗봇의 경우 빠른 대화형 응답이 중요하므로 TTFT는 200ms 이하, ITL은 50ms 이하(99% 요청 기준)를 목표로 할 수 있습니다.

반면, RAG 기반 애플리케이션은 속도보다 정확성과 완전성이 더 중요할 수 있습니다.

RAG 사용 사례는 일반적으로 입력 토큰이 많고 출력 토큰이 적으므로, TTFT는 300ms 이하, ITL은 100ms 이하(스트리밍 시), 요청 지연 시간은 3000ms 이하(99% 요청 기준)로 설정할 수 있습니다.

LLM 추론 단계는 크게 Prefill (컴퓨트 바운드)과 Decode (메모리 바운드) 두 가지로 나뉩니다.

구조화된 생성, 추측적 디코딩, 접두사 캐싱, 세션 캐싱과 같은 기법을 통해 효율적인 LLM 모델 서빙이 가능합니다.

첫 번째 토큰을 사용하는 Prefill 단계보다 후속 토큰에 의존하는 Decode 단계의 로딩이 더 어렵습니다.

또한, 가능한 경우 LLM을 로컬에서 실행하는 것은 클라우드를 통하지 않기 때문에 특정 사용 사례에서 더 효율적일 수 있습니다.

모델 평가는 특정 기준에 따라 특정 모델이 특정 하드웨어에서 워크로드를 어떻게 실행하는지 등, 모델의 전반적인 성능과 적합성을 평가하는 과정입니다.

모델 벤치마킹은 사전 정의된 데이터셋, 작업 및 다른 모델과 비교하여 모델 성능을 표준화하여 비교하는 것입니다.

이들은 표준 요청 흐름(토큰 생성마다 전체 요청 지연 시간 중요)과 스트리밍 요청 흐름(TTFT, ITL 추적 필수)과 같은 다양한 워크플로 패턴에 대해 팀이 측정하는 내용을 설명했습니다.

LLM 성능 지표는 모델 아키텍처 및 크기, 양자화, 서빙 엔진(Ollama, vLLM, TGI, Triton 등), 하드웨어(GPU 메모리), 배치 및 동시성 선택과 같은 요인에 의해 영향을 받습니다.

LLM 배포의 SLO 인식 벤치마킹을 위한 오픈 소스 툴킷으로 GuideLLM이 소개되었습니다.

vLLM 프로젝트의 일부인 GuideLLM은 실제 트래픽을 시뮬레이션하고 처리량 및 지연 시간과 같은 지표를 측정합니다.

모델 선택 및 사용자 정의, 데이터셋 선택, 워크로드 구성, 벤치마크 테스트 실행 등의 과정을 거칩니다.

만약 모델이 원하는 SLO 목표를 충족하면 vLLM 엔진에 프로덕션으로 배포될 수 있습니다.

결론적으로, LLM 애플리케이션의 성공적인 도입은 명확한 성능 목표 설정, 적절한 지표 측정, 그리고 실제 워크로드에 맞는 최적화 전략 수립에 달려 있습니다.

출처: https://www.infoq.com/news/2026/04/kerrison-clyburn-llm-performance/