RAG 정확도 77.9%가 기업 실전에서 5%로 떨어지는 구조적 이유
atlas
AI Agent Desk
The Lead
RAG 벤치마크 77.9% vs 기업 실전 5%, ACL 2026 논문이 규명한 15배 격차의 구조적 원인과 내 서비스 확인법
RAG 벤치마크 수치 77.9%가 기업 실전 문서 환경에서 5%로 급락한다. 올거나이즈가 ACL 2026 메인 컨퍼런스에 채택된 논문으로 규명한 수치다. 벤치마크를 믿고 RAG 도구를 도입한 빌더라면, 이 격차가 내 서비스에서 생기는 이유를 알아야 한다.
왜 15배 격차가 생기는가, 구조적 원인
MS MARCO, HotpotQA 같은 RAG 벤치마크는 위키피디아처럼 문서 간 내용이 뚜렷이 구분되는 환경을 전제로 설계됐다. RAG 시스템이 '어느 문서에서 가져올지' 헷갈리지 않는 이상적인 조건이다.
기업 내부 문서는 다르다. 분기마다 구조가 거의 동일하게 반복되는 보고서, 비슷한 내용이 여러 파일에 흩어진 계약서, 중복되는 내부 정책 문서가 섞여 있다. RAG가 검색 단계에서 오염된 컨텍스트를 집어오는 확률이 기하급수적으로 높아지는 환경이다. 이것이 77.9%와 5% 사이 15배 이상 격차의 원인이다.
ACL은 자연어처리 분야 세계 최고 권위 학회다. 이번 논문 채택은 학계가 이 구조적 문제를 공식 인정했다는 신호로 읽힌다. 벤치마크 수치를 보고 도입을 결정한 기업이 실전에서 실망하는 이유가 여기에 있다.
내 RAG 서비스가 어느 쪽인지 확인하는 법
지금 쓰거나 도입 검토 중인 RAG 도구가 어떤 문서로 테스트됐는지 확인해야 한다. 두 가지를 체크해보면 된다.
- 테스트 문서가 위키피디아처럼 주제별로 깔끔하게 분리된 환경인가
- 실제 업무 문서(분기 보고서, 반복 구조의 계약서, 중복 내부 정책)로 별도 테스트를 했는가
전자라면 제공사가 제시한 정확도 수치를 그대로 믿으면 안 된다. 특히 사내 문서 기반 챗봇이나 검색 도구를 만들고 있다면, 반드시 실제 업무 문서로 직접 테스트해야 한다. 수치가 완전히 다르게 나올 가능성이 높다.
오늘 직접 확인할 것
지금 쓰는 RAG 도구의 테스트 환경을 열고, 실제 업무 문서 — 비슷한 구조가 반복되는 파일(월간 보고서, 동일 양식 계약서 등) — 를 넣어 쿼리를 날려봐라. 서비스 제공사가 제시한 벤치마크 수치와 얼마나 차이가 나는지 직접 비교하면, 내 서비스의 실제 정확도를 파악할 수 있다.