4억 건 개인정보, AWS로 3개월 만에 비식별 처리

“

미국 10대 은행인 Huntington Bank가 수억 건의 문서에서 민감 개인정보를 비식별 처리하는 데 수년 걸릴 작업을 AWS 클라우드를 통해 단 몇 개월로 단축했습니다. 국내 금융권의 마이데이터 시대 데이터 관리 및 컴플라이언스 준수에 중요한 시사점을 제공합니다.

”

전문가 통찰 및 한줄평 (Insight)

클라우드 기반의 AI 데이터 처리 기술은 더 이상 선택이 아닌 생존의 문제입니다.

특히 국내 금융사들이 마이데이터 시대의 컴플라이언스 리스크를 어떻게 관리하고 방대한 비정형 데이터에서 가치를 창출할 것인지에 대한 명확한 해답을 보여주는 사례입니다.

수십 년 걸릴 작업을 단 몇 개월로 단축한 이번 사례는 데이터 처리의 패러다임이 어떻게 바뀌고 있는지 상징적으로 보여줍니다.

국내 기업들도 더 이상 기존의 온프레미스(On-premise) 방식과 수작업에 의존해서는 데이터 경쟁에서 살아남기 어려운 시대가 도래한 것입니다.

쌓여만 가는 문서, 보안과 컴플라이언스의 딜레마

디지털 전환이 가속화되면서 기업 내 데이터는 기하급수적으로 쌓여가고 있습니다.

특히 금융, 의료, 법률 분야에서는 계약서, 신청서, 진료기록 등 민감한 개인정보를 포함한 비정형 문서 데이터가 수십 년 치 누적된 경우가 많습니다.

이 데이터는 기업의 중요한 자산이지만, 동시에 엄격한 개인정보보호 규제와 보안 리스크라는 양날의 검이기도 합니다.

만약 이 문서들에서 개인정보를 찾아내 안전하게 비식별 처리해야 한다면, 과연 얼마나 많은 시간과 비용이 필요할까요?

미국의 10대 은행 중 하나인 Huntington Bank가 바로 이 문제에 직면했습니다.

2015년부터 약 10년간 쌓아온 4억 건 이상의 문서를 2025년까지 처리해야 하는, 그야말로 막막한 과제였습니다.

초기 예상으로는 이 작업에 수년이 걸릴 것으로 예측됐습니다.

하지만 이들은 AWS 클라우드 서비스를 활용해 전체 처리 기간을 불과 몇 개월로 단축하고, 비용은 초기 예상의 5% 수준으로 절감하는 놀라운 결과를 만들어냈습니다.

4억 건 문서 처리, 어떻게 수년을 수개월로 단축했나?

Huntington Bank의 성공 뒤에는 단순히 특정 기술 하나가 아닌, 여러 클라우드 서비스를 유기적으로 엮어낸 자동화된 파이프라인 아키텍처가 있었습니다.

이들의 접근 방식은 대규모 개인정보 비식별 처리 프로젝트를 고민하는 국내 기업들에게 훌륭한 청사진을 제공합니다.

핵심은 다음과 같습니다:
– 안전한 데이터 이전: 먼저 온프레미스 데이터센터에 쌓여 있던 4억 건의 문서를 클라우드로 안전하게 옮기는 것이 관건이었습니다. 이를 위해 AWS DataSync와 AWS Direct Connect를 사용하여 전송 중 및 저장 시 모두 암호화된 상태로 데이터를 Amazon S3로 이전했습니다. 데이터 이전 단계부터 보안을 최우선으로 고려한 것입니다.
– 지능형 문서 분석: 클라우드로 옮겨진 문서는 Amazon Textract를 통해 텍스트, 표, 양식 데이터를 추출했습니다. Textract는 단순한 광학 문자 인식(OCR)을 넘어, 주민등록번호, 계좌번호, 주소 등 민감 정보를 자동으로 탐지하는 기능을 제공합니다. 이를 통해 수동 검토에 드는 시간을 획기적으로 줄이고 정확도를 95% 이상으로 끌어올렸습니다.
– 대규모 병렬 처리: 4억 건의 문서를 순차적으로 처리한다면 여전히 수년이 걸렸을 것입니다. Huntington Bank는 AWS Step Functions와 AWS Lambda를 사용해 수천 개의 작업을 동시에 병렬로 처리하는 워크플로우를 설계했습니다. Step Functions의 맵 스테이트(Map State)를 분산 모드로 실행하여 서비스 할당량 내에서 처리량을 극대화했고, 하루에 약 1,000만 건의 문서를 처리하는 경이로운 속도를 달성했습니다.
– 자동화된 비식별 처리 및 검증: Textract가 탐지한 민감 정보의 좌표 값을 이용해 PyMuPDF와 같은 오픈소스 라이브러리로 해당 영역을 검게 칠하는(Redaction) 작업을 자동화했습니다. 또한, 각 처리 단계에서 발생하는 성공, 실패, 병목 현상을 Amazon CloudWatch로 실시간 모니터링하며 파이프라인을 최적화했습니다.

개인정보 비식별 처리 방식, 무엇이 다른가?

대규모 문서에서 민감 정보를 비식별 처리하는 방식은 크게 세 가지로 나눌 수 있습니다.

Huntington Bank가 선택한 클라우드 관리형 서비스 방식이 기존 방식과 비교해 어떤 장점을 갖는지 아래 표를 통해 명확히 확인할 수 있습니다.


구분 항목	클라우드 관리형 서비스 (AWS Textract 활용)	온프레미스 자체 구축 (OCR + Custom ML)	전통적 수작업 검토
초기 구축 비용	낮음 (인프라 구축 불필요, 사용량 기반 과금)	매우 높음 (서버, 스토리지, 라이선스 구매)	중간 (검토 인력 채용 및 교육 비용)
처리 속도	매우 빠름 (하루 수백만~수천만 건 처리 가능)	중간 (자체 인프라 규모에 따라 제한적 확장)	매우 느림 (인당 하루 수백 건 처리 한계)
정확도	높음 (95% 이상, 지속적인 모델 업데이트)	변동성 큼 (자체 모델 성능 및 데이터에 의존)	낮음 (인적 실수 발생 가능성 높음)
확장성	매우 뛰어남 (필요에 따라 즉시 자원 확장 가능)	제한적 (물리적 인프라 증설에 시간/비용 소요)	거의 불가능 (인력 충원에 한계)
유지보수	낮음 (AWS에서 서비스 관리 및 업데이트)	높음 (인프라, OS, 소프트웨어 직접 관리)	높음 (지속적인 인력 관리 및 교육 필요)