생성 AI가 개발자의 생산성을 극대화할 것이라는 기대가 지배적인 가운데, 이 통념을 정면으로 반박하는 연구 결과가 공개되어 업계에 큰 파장을 일으키고 있습니다.
AI 연구 기관 METR이 발표한 최신 보고서에 따르면, 숙련된 오픈소스 개발자들이 AI 코딩 도구를 사용했을 때 오히려 작업 속도가 19% 더 느려진 것으로 나타났습니다.
이는 AI의 효용성에 대한 우리의 기대를 근본적으로 재검토하게 만드는 충격적인 결과입니다.
예상 뒤엎은 연구, AI가 생산성을 저해하다
METR은 2025년 초 최신 AI 기술이 실제 개발 현장에 미치는 영향을 측정하기 위해 정교한 실험을 설계했습니다.
이들의 목표는 통제된 벤치마크 환경이 아닌, 실제 오픈소스 프로젝트에 기여하는 숙련 개발자들의 생산성 변화를 직접 확인하는 것이었습니다.
연구의 핵심 결과는 한마디로 ‘예상 밖’이었습니다.
AI 도구를 사용하도록 허용된 그룹은 AI 없이 작업한 그룹보다 이슈를 해결하는 데 평균 19% 더 많은 시간을 소요했습니다.
AI가 개발 속도를 높여줄 것이라는 업계의 일반적인 믿음과 전문가들의 예측을 완전히 뒤집는 결과입니다.
이는 단순히 AI가 도움이 되지 않는 수준을 넘어, 특정 상황에서는 오히려 생산성을 저해하는 ‘방해물’이 될 수 있음을 시사합니다.
실험 설계: 어떻게 이런 결과가 나왔나
이러한 충격적인 결과의 신뢰성은 METR의 엄격한 연구 방법론에서 비롯됩니다.
이번 연구는 의학 등에서 널리 쓰이는 랜덤화 통제 시험(Randomized Controlled Trial, RCT) 방식을 채택하여 편향을 최소화했습니다.
연구에는 평균 22,000개 이상의 스타와 100만 라인 이상의 코드를 보유한 대규모 오픈소스 저장소에 수년간 기여해 온 베테랑 개발자 16명이 참여했습니다.
실험 과정은 다음과 같습니다.
- 실제 업무 기반 과제: 개발자들은 자신이 기여하는 프로젝트에서 실제로 해결해야 할 버그 수정, 기능 추가, 리팩토링 등 총 246개의 이슈 목록을 직접 제공했습니다.
- 무작위 할당: 각 이슈는 ‘AI 사용 가능’ 그룹과 ‘AI 사용 불가’ 그룹으로 무작위 배정되었습니다.
- 최신 AI 도구 사용: ‘AI 사용 가능’ 그룹의 개발자들은 연구 당시 최신 모델인 Claude 3.5/3.7 Sonnet 기반의 Cursor Pro 등 원하는 AI 도구를 자유롭게 활용했습니다.
- 시간 측정: 개발자들은 화면을 녹화하며 작업을 수행했고, 과제 완료에 걸린 순수 구현 시간을 직접 보고했습니다.
이처럼 실제 개발 환경과 유사한 조건에서 진행된 통제된 실험이었기에, 그 결과는 벤치마크 테스트보다 현실을 더 정확하게 반영한다고 볼 수 있습니다.
믿음과 현실의 괴리: 개발자는 왜 착각했나
이번 연구에서 가장 흥미로운 지점 중 하나는 개발자의 인식과 실제 결과 사이의 엄청난 괴리입니다.
실험 참가자들은 AI 도구가 자신의 작업 속도를 평균 24% 향상시킬 것이라고 예측했습니다.
더욱 놀라운 것은, 실제로 작업 속도가 19% 저하되었음에도 불구하고, 실험이 끝난 후에는 AI 덕분에 20% 더 빨라졌다고 ‘믿었다’는 점입니다.
이러한 인식의 오류는 여러 가지로 해석될 수 있습니다.
AI가 순식간에 대량의 코드를 생성해내는 ‘마법’ 같은 경험이 실제 생산성과는 무관하게 높은 만족감과 효율성에 대한 착각을 불러일으켰을 수 있습니다.
또한, AI가 제안한 코드를 검증하고, 디버깅하며, 프로젝트의 기존 코드 스타일에 맞게 수정하는 데 드는 숨겨진 비용을 개발자들이 과소평가했을 가능성이 큽니다.
AI는 정답을 바로 제시하는 것이 아니라, 검토가 필요한 ‘초안’을 제공할 뿐이며 이 검토 과정 자체가 상당한 인지적 부하와 시간을 요구했던 것입니다.
벤치마크 점수와 현실은 왜 다른가
SWE-Bench와 같은 코딩 벤치마크에서 AI 모델이 경이로운 점수를 기록하는 소식과 이번 연구 결과는 명백히 모순되어 보입니다.
METR은 이 차이가 발생하는 이유를 ‘과제의 본질’과 ‘성공의 정의’가 다르기 때문이라고 분석합니다.
- 과제 유형: 벤치마크는 대부분 독립적이고 맥락 이해가 크게 필요 없는 알고리즘 문제를 다룹니다. 반면, 이번 연구 과제는 거대한 기존 코드베이스의 맥락을 깊이 이해해야 하는 실제 풀 리퀘스트(PR) 작업이었습니다.
- 성공의 정의: 벤치마크는 자동화된 테스트 케이스 통과 여부로 성공을 판단합니다. 하지만 실제 현업에서는 코드 스타일, 문서화, 동료의 코드 리뷰 통과 등 훨씬 복합적인 기준을 만족해야 합니다. AI가 생성한 코드는 기능적으로 동작할지라도, 이러한 ‘품질’ 기준을 맞추기 위한 수정 작업에 상당한 시간이 소요될 수 있습니다.
- AI 활용 방식: 벤치마크의 AI는 수백만 개의 토큰을 사용하는 완전 자율 에이전트 형태일 때가 많습니다. 그러나 실제 개발자들은 채팅, 자동 완성 등 ‘인간 주도형’으로 AI와 상호작용하며, 이 과정에서 발생하는 커뮤니케이션 비용이 작업 시간을 늘렸을 수 있습니다.
결국 벤치마크의 높은 점수가 복잡하고 미묘한 실제 개발 현장의 생산성 향상으로 직결되지 않을 수 있다는 중요한 교훈을 얻을 수 있습니다.
이 연구가 우리에게 시사하는 점
이 연구 결과를 ‘AI는 개발에 쓸모없다’고 결론 내려서는 안 됩니다.
이는 2025년 초라는 특정 시점의 AI 기술을, 숙련된 개발자들이 복잡한 기존 프로젝트에 적용한 ‘하나의 단면’을 보여줄 뿐입니다.
AI 기술은 무서운 속도로 발전하고 있으며, 미래의 모델은 다른 결과를 낼 수 있습니다.
중요한 것은 이 연구가 AI 도구 도입에 대한 ‘맹목적인 환상’에서 벗어나, 보다 비판적이고 실증적인 접근이 필요함을 일깨워준다는 점입니다.
AI를 도입할 때 단순히 ‘느낌’에 의존할 것이 아니라, 실제 작업 시간을 측정하고 팀의 특성에 맞는 활용법을 찾아야 합니다.
특히 복잡한 시스템을 다루는 숙련 개발자에게 AI는 만능 해결사가 아니라, 신중한 검토가 필요한 ‘보조 도구’로 인식되어야 할 것입니다.
AI가 생성한 코드의 검증 비용이 개발자가 직접 작성하는 비용보다 더 커지는 순간, 생산성은 오히려 하락할 수 있다는 사실을 명심해야 합니다.
자주 묻는 질문 (FAQ)
Q: 이 연구 결과는 모든 개발자에게 AI가 비효율적이라는 뜻인가요?
A: 아닙니다.
이 연구는 대규모 코드베이스에 익숙한 ‘숙련된’ 개발자 그룹에 초점을 맞췄습니다.
코딩을 배우는 주니어 개발자나, 새로운 프로젝트를 처음부터 시작하는 경우, 혹은 특정 언어의 보일러플레이트 코드를 작성하는 상황에서는 AI가 여전히 높은 효율을 보일 수 있습니다.
Q: 개발자들은 왜 AI 때문에 속도가 느려졌다는 사실을 인지하지 못했나요?
A: 이는 AI가 코드를 빠르게 생성하는 순간적인 경험이 전체 작업 시간이 단축된 것 같은 착각을 주기 때문일 수 있습니다.
AI가 제안한 코드를 검토, 수정, 통합하는 데 드는 ‘숨겨진 시간’을 인지적으로 과소평가했을 가능성이 높습니다.
이를 ‘생산성 착각(Productivity Illusion)’이라고 볼 수 있습니다.
Q: 그렇다면 현재 AI 코딩 도구를 어떻게 활용하는 것이 좋을까요?
A: AI를 만능 해결사로 보기보다는 똑똑한 ‘초안 작성 보조’로 활용하는 것이 바람직합니다.
특히 복잡하고 중요한 로직에 대해서는 AI의 제안을 맹신하지 말고, 반드시 비판적으로 검토하고 검증하는 단계를 거쳐야 합니다.
반복적인 코드 작성, 새로운 API 사용법 학습, 아이디어 구체화 등 보조적인 역할에 집중할 때 효과를 극대화할 수 있습니다.
출처: https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/