RAG 정확도 77.9%→5%: 벤치마크가 숨긴 기업 문서의 현실

올거나이즈가 ACL 2026 메인 컨퍼런스에서 RAG의 숨겨진 함정을 학술적으로 규명했다. 표준 벤치마크에서 77.9%였던 정확도가 실제 기업 환경에서 5%로 떨어진다. 15배 이상의 격차 — 이 수치를 믿고 도입한 빌더에게는 배포 후에야 발견하는 함정이다.

벤치마크는 어떤 환경을 전제로 설계됐나

MS MARCO, HotpotQA 같은 표준 RAG 벤치마크는 위키피디아처럼 문서 간 내용이 뚜렷이 구분되는 환경을 전제로 설계됐다. 문서마다 주제가 명확하고, 중복이 없고, 표현이 일관된 이상적 환경이다.

실제 기업 문서는 다르다. 분기마다 구조가 바뀌는 보고서, 비슷한 내용이 여러 버전으로 공존하는 정책 문서, 외부인은 알 수 없는 내부 줄임말과 은어. 올거나이즈의 논문은 이 간극이 정확도를 5%까지 끌어내린다는 것을 학술적으로 증명했다.

내가 만드는 RAG 서비스가 이 함정에 빠지는지 확인하는 세 가지 질문

벤치마크 수치가 내 환경에서 재현되지 않는다는 신호는 이미 기획 단계에서 확인할 수 있다.

- 문서가 분기마다 갱신되는가 — 최신 버전과 구버전이 동시에 인덱싱되면 검색기는 어느 쪽이 정답인지 판단하지 못한다 - 비슷한 내용의 문서가 여러 개인가 — 중복 문서가 많을수록 정확한 청크를 특정하기 어렵다 - 사내 줄임말·은어가 포함됐는가 — 일반 임베딩 모델은 사내 고유 표현을 외부 문서와 같은 벡터 공간에서 처리한다

셋 중 하나라도 해당하면, 77.9%는 내 환경의 수치가 아니다. 논문은 RAG 자체를 부정하지 않는다. 벤치마크를 현실로 착각하는 설계를 경고하는 것이다.

지금 바로 문서 환경을 점검해 보자

사내 문서 중 가장 자주 업데이트되는 것 하나를 골라, 같은 내용을 다루는 문서가 몇 개인지 세어보자. 3개 이상이면 중복 문서 처리 전략 없이는 RAG가 실제 환경에서 정상 작동하기 어렵다. ACL 2026 채택 논문 원문은 올거나이즈 공식 채널에서 확인할 수 있다.

RAG 정확도 77.9%→5%: 벤치마크가 숨긴 기업 문서의 현실

The Lead

벤치마크는 어떤 환경을 전제로 설계됐나

내가 만드는 RAG 서비스가 이 함정에 빠지는지 확인하는 세 가지 질문

지금 바로 문서 환경을 점검해 보자

Public Discussion

토론