RAG 벤치마크 77.9%, 실제 기업 환경에서 5%로 추락한 이유

올거나이즈가 ACL 2026 메인 컨퍼런스에 채택된 논문에서 수치로 증명했다. 기존 RAG 벤치마크 정확도 77.9%가 실제 기업 환경에 배포하면 5%로 떨어진다. 72.9%p 격차의 원인은 AI 기술이 아니라 평가 기준 자체의 설계 오류였다.

왜 실험실과 현장 사이에 70%p 구멍이 생기나

MS MARCO, HotpotQA 같은 기존 RAG 벤치마크는 위키피디아 기반으로 설계됐다. 위키피디아는 문서마다 다루는 주제가 뚜렷이 다르다. RAG가 관련 문서를 찾기 쉬운 환경이다.

기업 내부는 다르다. 분기보고서, 내부 매뉴얼, 운영 정책 문서는 분기마다, 버전마다 구조가 거의 동일하게 반복된다. RAG는 "이 분기" 문서와 "저 분기" 문서를 구별하지 못하고 혼합된 답변을 내놓는다. 그 결과가 5%다.

벤치마크가 틀린 게 아니다. 벤치마크가 기업 현장을 전제로 설계되지 않은 것이다. AI 도입 기업이 수치를 보고 기대를 세운 뒤 현장에서 성능 미달을 경험하는 반복 패턴의 구조적 원인이 여기 있다.

올거나이즈의 연구는 RAG 자체를 부정하지 않는다. 평가 기준이 잘못됐다는 걸 규명한 것이다. 하지만 이 구분이 현장 빌더에게는 사실상 같은 문제로 닿는다.

RAG 챗봇을 도입했거나 도입을 검토 중이라면, 제품 데모가 어떤 문서로 돌아가는지를 먼저 물어야 한다. 위키피디아형 샘플 데이터로 시연한 수치는 내 회사 문서에 적용되지 않을 수 있다.

RAG 기반 챗봇이나 문서 검색 도구를 쓰고 있다면, 실제 내부 문서(분기보고서, 버전이 여러 개인 매뉴얼 등)로 테스트해봐라. 데모 때 쓴 샘플 문서와 체감 정확도가 얼마나 다른지 직접 확인하는 것이 시작이다.