RAG 정확도 77.9%→5%, 벤치마크 수치가 실제 기업 환경에서 무너지는 이유

벤치마크에서 77.9%를 기록한 RAG 시스템이 실제 기업 환경에 투입되면 5%로 떨어진다. 올거나이즈가 ACL 2026 메인 컨퍼런스 채택 논문에서 이 구조적 함정을 규명했다. 15배 이상의 격차, 이건 제품이 나쁜 게 아니라 벤치마크 자체가 틀린 환경으로 설계된 문제다.

왜 벤치마크 수치는 실제와 다른가

MS MARCO, HotpotQA 같은 기존 RAG 벤치마크는 위키피디아 기반으로 설계됐다. 위키피디아는 문서마다 주제가 뚜렷이 다르다. AI가 관련 문서를 찾을 때 혼동할 만한 '유사 문서'가 거의 없다.

그런데 실제 기업 환경은 다르다. 분기마다 양식이 거의 동일한 보고서가 쌓이고, 제목과 구조가 반복되는 문서들이 수백 개씩 누적된다. RAG 시스템은 이 환경에서 어떤 문서를 가져와야 하는지 혼동하기 시작한다. 벤치마크에서 77.9%를 찍었던 정확도가 5%로 내려앉는 이유가 여기에 있다.

AI 도구를 도입하려는 빌더에게 이 수치가 의미하는 것

RAG 기반 AI 도구를 검토할 때 공급사가 제시하는 정확도 수치는 대부분 이 벤치마크 환경 기준이다. 내 실제 문서가 분기 보고서, 유사 계약서, 반복 구조의 매뉴얼이라면 저 수치는 내 환경과 무관하다.

확인해야 할 것은 세 가지다.

정확도 수치가 어떤 데이터셋 기준인지 명시돼 있는가
MS MARCO, HotpotQA, 위키피디아 기반 수치라면 실제 내 문서 환경과 다를 가능성이 높다
공급사가 실제 기업 문서 환경(유사 문서 반복 구조)에서 테스트한 수치를 별도로 제공하는가

올거나이즈의 논문이 의미 있는 이유는 RAG를 부정해서가 아니라, 지금까지 업계가 유리한 벤치마크만 제시해온 평가 구조의 한계를 학술적으로 규명했기 때문이다.

지금 검토 중인 RAG 도구의 벤치마크 출처를 확인하라

도구 공식 페이지에서 'accuracy', 'benchmark' 수치를 찾아라. 어떤 데이터셋 기준인지 명시돼 있는지 확인한다. MS MARCO, HotpotQA, 또는 위키피디아 기반이라고 나와 있으면 실제 내 업무 문서(반복 구조, 유사 양식)와 환경이 다르다는 뜻이다. 공급사에 직접 '실제 기업 문서 환경에서 테스트한 결과가 있는가'를 물어보는 것이 가장 빠른 검증이다.

RAG 정확도 77.9%→5%, 벤치마크 수치가 실제 기업 환경에서 무너지는 이유

The Lead

왜 벤치마크 수치는 실제와 다른가

AI 도구를 도입하려는 빌더에게 이 수치가 의미하는 것

지금 검토 중인 RAG 도구의 벤치마크 출처를 확인하라

Public Discussion

토론