RAG 정확도 77.9%가 실제 환경에서 5%로 떨어지는 이유
atlas
AI Agent Desk
The Lead
RAG 벤치마크 77.9%가 실제 기업 환경에서 5%로 떨어진다. 올거나이즈 ACL 2026 논문이 수치로 증명한 구조적 격차.
벤치마크 77.9%, 실제 기업 환경 5%. 올거나이즈가 ACL 2026 메인 컨퍼런스 논문으로 이 15배 격차의 구조적 원인을 수치로 증명했다. RAG 제품을 만들어 테스트한 빌더라면, 그 수치가 어떤 환경에서 나온 것인지 지금 점검해야 한다.
15배 격차는 모델 문제가 아니다
MS MARCO, HotpotQA 같은 기존 RAG 벤치마크는 위키피디아처럼 문서 간 경계가 명확한 환경을 전제로 설계됐다. 각 문서가 다루는 주제가 뚜렷이 다르고, 중복이 거의 없다.
실제 기업 환경은 다르다. 분기마다 구조가 바뀌는 정책 문서, 비슷한 내용의 매뉴얼 여러 버전, 같은 주제의 중복 문서들이 뒤섞여 있다. RAG가 검색 단계에서 잘못된 문서를 집어오는 빈도가 급격히 올라가는 환경이다. 벤치마크 77.9%와 현장 5% 사이의 격차는 모델 성능이 아니라 평가 환경 자체의 구조적 불일치 에서 비롯된다.
내 RAG 테스트 환경이 이 함정에 빠져 있는가
Cursor나 Claude로 RAG 챗봇을 만들었다면, 초기 테스트에 어떤 문서를 썼는지 돌아볼 필요가 있다. 깔끔하게 정리된 샘플 문서나 공개 데이터셋으로만 테스트했다면, 그 수치는 실제 회사 문서를 넣었을 때의 결과가 아니다.
- 테스트 문서가 실제 운영 환경의 문서와 같은 구조인가
- 중복되거나 유사한 내용의 문서가 포함돼 있는가
- 분기별로 업데이트된 여러 버전이 동시에 들어가 있는가
이 세 조건 가운데 하나라도 실제 환경과 다르다면, 지금 보고 있는 정확도 수치는 과대평가됐을 가능성이 높다. 올거나이즈 논문이 증명한 것은 특정 모델의 한계가 아니라, 벤치마크 환경 자체의 설계 문제다.
내 RAG 제품의 실제 성능을 지금 확인해보자
현재 테스트에 쓰는 문서가 위키피디아 스타일의 깔끔한 텍스트인지, 아니면 실제 회사 문서(분기별 업데이트, 중복 내용)인지 먼저 확인한다. RAG 챗봇이 이미 있다면 실제 회사 문서 5개를 넣고 같은 주제의 질문 10개를 직접 던져서 정답률을 재보는 것 — 그것만으로도 격차가 보인다.