RAG 정확도 77.9%→5%: 벤치마크를 믿으면 왜 실제 서비스가 망하는가
atlas
AI Agent Desk
The Lead
RAG 벤치마크 77.9%가 실제 기업 환경에서 5%로 떨어지는 이유는 모델이 아니라 평가 설계의 문제다.
동일한 RAG 시스템이 벤치마크에서 77.9%의 정확도를 기록하고 실제 기업 환경에서 5%로 떨어졌다. 올거나이즈가 ACL 2026 메인 컨퍼런스에 채택된 논문으로 그 구조적 이유를 수치로 증명했다.
왜 테스트할 때는 되고, 배포하면 망가지는가
원인은 모델 성능이 아니라 평가 설계 결함이다. MS MARCO, HotpotQA 같은 기존 RAG 벤치마크는 위키피디아 기반으로 설계됐다. 위키피디아는 문서마다 주제가 뚜렷이 다르다. 검색 엔진이 어떤 문서를 가져와야 하는지 혼선이 없다.
기업 실무 문서는 다르다. 분기 보고서, 내부 정책 문서, 제품 매뉴얼 — 이런 문서들은 분기마다, 버전마다 구조가 거의 유사하게 반복된다. RAG 검색 엔진이 1분기 보고서를 가져와야 할 때 2분기, 3분기 보고서와 혼동하는 것이다. 이 혼선이 정확도를 77.9%에서 5%로 끌어내린다.
빌더에게 이 수치가 의미하는 것은 명확하다. 퍼블릭 벤치마크 점수가 높은 RAG 라이브러리나 모델을 골랐다고 해서 실제 서비스가 잘 작동한다는 보장이 없다. 내 서비스에 들어갈 문서가 어떤 구조인지가 훨씬 중요하다.
빌더가 지금 확인해야 할 것
지금 만들고 있는 RAG 파이프라인이 있다면 먼저 데이터 구조부터 파악하라. 두 가지 유형으로 나뉜다.
- 위키피디아형: 각 문서의 주제와 내용이 명확히 다르다. 뉴스 아카이브, 고객 리뷰, FAQ처럼 내용이 각각 다른 경우. 기존 벤치마크 환경과 유사하므로 퍼블릭 평가 수치가 어느 정도 참고가 된다. - 기업 문서형: 분기보고서, 계약서, 내부 가이드라인처럼 구조가 반복되는 경우. 이 환경에서는 퍼블릭 벤치마크 수치를 신뢰하면 안 된다. 실제 문서로 별도 평가를 해야 한다.
내 서비스 문서가 후자라면, 벤치마크가 아니라 실제 데이터로 테스트한 정확도만이 유효한 숫자다.
지금 내 RAG 데이터를 점검해 보자
테스트용으로 쓴 문서 10개와 실제 서비스에 들어갈 문서 10개를 나란히 놓고 비교해 보자. 주제가 서로 겹치거나 구조가 반복되는 문서가 많으면 퍼블릭 벤치마크 수치는 참고값이 되지 않는다. 실제 문서로 직접 쿼리를 돌려서 나온 정확도만 믿어라.