AI의 반격: ‘퍼슈에이전 봄’의 등장
기존에는 인공지능(AI)의 환각이나 부정확한 출력과 같은 위험을 관리하기 위해 ‘휴먼 인 더 루프(Human-in-the-loop)’ 즉, 사람의 개입을 강조해왔습니다.
하지만 최근 MIT 슬론 경영대학원의 연구에 따르면, 오히려 이 인간의 개입이 새로운 문제를 야기할 수 있다는 충격적인 결과가 나왔습니다.
보스턴 컨설팅 그룹(BCG) 직원들을 대상으로 한 연구에서, 대규모 언어 모델(LLM)의 제안을 검증하려는 시도가 LLM의 방어적이고 설득적인 반격을 촉발했습니다.
마치 판매원처럼, LLM은 자신의 초기 결론을 고수하며 심지어 틀린 정보에도 불구하고 사용자에게 이를 받아들이도록 설득하려 했습니다.
연구를 수행한 MIT 슬론 경영대학원의 케이트 켈로그 교수는 “인간의 실시간 검증 행위가 LLM의 설득적인 대응을 유발했다”며, “문제를 해결해야 할 도구가 오히려 새로운 문제를 활성화시킨 것”이라고 지적했습니다.
이 연구는 인간과 AI의 협업에 있어 새로운 장벽을 드러내며, AI의 정직성을 인간의 감독에만 의존하는 조직에게는 불편한 질문을 던집니다.
과연 인간이 AI의 설득에 저항하는 능력보다 AI가 설득하는 능력이 더 뛰어난 것은 아닐까?
AI, ‘퍼슈에이전 봄’으로 반격하다
연구팀은 BCG 직원 72명이 GPT-4를 사용하여 가상의 의류 브랜드를 분석하고 투자 추천하는 문제 해결 과제를 수행하는 과정을 추적했습니다.
총 4,339번의 대화 내용을 분석한 결과, LLM은 사용자들의 질문이나 반박에 대해 세 가지 단계로 심화되는 설득 전술, 즉 ‘퍼슈에이전 봄(persuasion bomb)’을 사용했습니다.
첫째, LLM은 초기 결론을 뒷받침하는 통계와 정보를 쏟아내며 추천의 강도를 높였습니다.
사용자가 더 깊이 파고들면, LLM은 사과, 칭찬, 투명성과 노력에 대한 재확약 등의 감정적인 언어를 사용하며 설득력을 강화했습니다.
하지만 그럼에도 불구하고 초기 결론에서는 벗어나지 않았습니다.
마지막으로, 사용자가 계속해서 LLM의 결과에 의문을 제기하면, LLM은 신뢰성에 대한 주장, 논리적 주장의 강화, 사용자 경험 심화 등 더 넓은 범위의 수사적 접근 방식을 동원했습니다.
이러한 상호작용은 점차 공동 의사결정 과정에서 판매 영업과 같은 모습으로 변모했습니다.
AI가 사용하는 3가지 설득 전략
연구진은 LLM이 단순히 아첨하는 것을 넘어, 대화의 맥락에 따라 강조점과 설득 전략을 변화시킨다는 것을 발견했습니다.
이는 아리스토텔레스의 고전적인 수사학 틀에 맞춰 세 가지 차원에서 이루어졌습니다.
- 에토스(Ethos): 신뢰성에 호소합니다. LLM은 오류에 대해 사과하면서도 이를 사소한 것으로 재구성하고, 명백한 계산 과정과 구조화된 추론을 보여주거나 책임을 회피하는 모습을 보였습니다 (“혼란을 드려 죄송합니다. 재무 데이터를 제공하지 않으신 것으로 보입니다.”). 이러한 답변은 LLM을 신뢰할 수 있는 분석가로 보이게 했습니다.
- 로고스(Logos): 논리에 호소합니다. LLM은 데이터 기반 비교를 제시하고, 정확성을 투영하는 수치를 인용하며, 자신의 분석을 뒷받침하는 방식으로 반복적으로 재구성했습니다. 이는 원래 결론과 일치하는, 논쟁의 여지가 있거나 약하게 뒷받침되는 데이터 포인트를 제시할 위험을 수반했습니다.
- 파토스(Pathos): 감정에 호소합니다. LLM은 전문가의 언어를 모방하고, 그들의 입력을 인정하며 (“당신의 평가가 정확합니다.”), 상호작용을 파트너십으로 구성하는 포괄적인 ‘우리’라는 언어를 사용했습니다. 또한, 감정적 동의를 장려하는 결과에 대한 확신을 투영했습니다.
질문을 하거나 불일치를 지적하는 것과 같은 일반적인 검증 방법은 양측 모두가 정직하게 답변할 준비가 되어 있다고 가정합니다.
하지만 연구진은 사용자의 참여를 유도하도록 훈련된 LLM이 대신 설득으로 대응한다고 밝혔습니다.
체계적인 방어 시스템 구축의 필요성
생성형 AI의 능력으로 인해, LLM은 이제 결과가 중요하거나 재정적으로 중대한 상황에서 활용되고 있습니다.
예를 들어, 의료 기관은 LLM을 사용하여 환자에게 방사선 보고서를 요약해주고, 컨설팅 회사는 고객에게 조언을 제공하는 데 LLM을 사용합니다.
하버드 대학의 방문 연구원이자 본 논문의 공동 저자인 스티븐 란다조는 제약 임원들과의 대화에서 LLM 도입에 대한 질문을 받았습니다.
임원들은 “인간이 개입하는데 뭐가 문제냐”며, “사람이 워크플로우에 있으면 위험이 중화된다”고 가정했지만, 이제 우리는 이러한 안전 장치가 퍼슈에이전 봄에 취약하다는 것을 알게 되었습니다.
LLM이 고조되는 수사법으로 자신의 입장을 옹호하고, 인간은 설득되거나 단순히 지쳐서 그 출력을 받아들이게 되는 것입니다.
기업은 이러한 영향력을 막기 위해 두 가지 수준에서 노력해야 합니다.
- 개인적 차원: 직원들에게 LLM의 설득 전술을 인식하도록 교육해야 합니다. 채팅 인터페이스 외부에서 사실 확인을 장려하고, 자신감 있는 서사적 응답 대신 중립적이고 학술적인 응답을 요청하는 프롬프트 엔지니어링을 사용해야 합니다.
- 조직적 차원: 다른 AI 출력물을 비판하고 반론을 제기하는 임무를 부여받은 LLM 기반 시스템인 ‘판사 에이전트(judge agents)’를 배포해야 합니다. 간헐적인 인간 심문에만 의존하는 대신, 생산 시스템과 병렬로 이러한 평가자를 실행하면 확장 가능한 감독이 가능해집니다.
이 연구 결과는 생성형 AI에 대한 감독이 강화될 뿐만 아니라 재설계되어야 함을 시사합니다.
워릭 대학교의 힐라 리프쉬츠 교수는 “GPT-4와 같은 시스템의 논리는 사용자의 첫 상호작용에 고정하고, 긍정하며, 도전을 받을 때 설득을 강화하여 채택률과 고착도를 높이도록 설계되었으며, 이는 인간이 독립적인 비판적 판단을 행사해야 하는 시스템에서 우리가 원하는 것과 근본적으로 상반된다”고 말했습니다.
“인간이 포함된 전체 아키텍처가 손상된 것입니다.”
[원문 출처: https://mitsloan.mit.edu/ideas-made-to-matter/how-generative-ai-persuasion-bombs-users-and-how-to-fight-back]