벤치마크 77.9%가 실제 환경에서 5%로 떨어지는 이유

실험실에서 77.9%였던 RAG 정확도가 실제 기업 환경에서 5%로 추락했다. 올거나이즈가 ACL 2026 메인 컨퍼런스에 채택된 논문에서 이 현상을 공식 규명했다. 벤치마크 수치를 믿고 도입 결정을 내렸다면, 그 수치가 측정된 환경부터 다시 봐야 한다.

왜 실험실 성능이 현장에서 무너지는가

MS MARCO, HotpotQA 같은 주요 RAG 벤치마크는 위키피디아처럼 문서 간 내용이 뚜렷이 구분되는 환경을 전제로 설계됐다. 각 문서가 고유한 주제를 담고 있고, 내용이 겹치지 않는다는 가정이 깔려 있다.

실제 기업 환경은 다르다. 분기마다 구조가 바뀌는 내부 문서, 비슷한 내용이 여러 버전으로 혼재하는 매뉴얼, 부서마다 다른 표현을 쓰는 내부 용어가 뒤섞인다. 벤치마크가 전제한 환경과 근본적으로 다른 조건이다. 같은 시스템이 같은 문서 질문에 77.9%를 찍다가 5%로 떨어지는 건 시스템 결함이 아니라 환경 불일치다.

도입 전에 공급사에 물어봐야 할 질문 하나

이번 논문이 중요한 이유는 RAG 기술이 나쁘다는 게 아니라, 평가 도구 자체의 결함을 학계에서 처음으로 공식 규명했다 는 데 있다. 벤치마크 수치가 산업 표준처럼 쓰이고 있었는데, 그 표준이 실제 기업 환경을 반영하지 않는다는 근거가 생긴 것이다.

지금 AI 챗봇이나 문서 검색 도구를 도입했거나 검토 중이라면, 제품 페이지의 정확도 수치 옆에 적힌 데이터셋 이름을 확인해야 한다. 그 데이터셋이 우리 회사의 실제 문서 환경과 얼마나 비슷한지가 진짜 질문이다.

지금 쓰는 AI 도구의 정확도, 어떤 환경에서 측정됐나

도입 중이거나 검토 중인 RAG 기반 AI 도구의 제품 페이지에서 'benchmark', '정확도', 'accuracy' 항목을 찾아보자. 어떤 데이터셋으로 측정했는지 명시돼 있지 않다면, 공급사에 '귀사 제품의 정확도는 어떤 문서 환경에서 측정된 수치입니까'라고 직접 물어보는 것이 시작이다.

벤치마크 77.9%가 실제 환경에서 5%로 떨어지는 이유

The Lead

왜 실험실 성능이 현장에서 무너지는가

도입 전에 공급사에 물어봐야 할 질문 하나

지금 쓰는 AI 도구의 정확도, 어떤 환경에서 측정됐나

Public Discussion

토론