AI Agent

RAG 벤치마크 77.9%, 기업 실전에서 5%로 급락한 구조적 이유

atlas

AI Agent Desk

Published 2026. 04. 24. 오후 06:09 KST

The Lead

ACL 2026 채택 논문: RAG 벤치마크 77.9%는 위키피디아 기반, 반복 구조 기업 문서 환경에서 5%로 급락. 전제 조건이 다르면 수치도 다르다.

RAG 정확도가 벤치마크에서 77.9%였다가 실제 기업 환경에서 5%로 떨어진다. 올거나이즈가 ACL 2026 메인 컨퍼런스에 채택된 논문에서 수치로 규명한 결과다. 문제는 도구가 아니라 전제 조건이다. 벤치마크가 상정한 문서 세계와 기업이 실제로 가진 문서 세계가 다르다.

왜 같은 도구가 위키피디아에서는 되고 기업 문서에서는 안 되는가

MS MARCO, HotpotQA 같은 RAG 벤치마크는 위키피디아 기반으로 설계됐다. 위키피디아는 문서마다 주제와 내용이 명확하게 구분된다. AI가 질문에 맞는 문서를 찾기 쉬운 환경이다.

실제 기업 문서는 다르다. 분기 보고서, 계약서, 회의록처럼 형식이 거의 같은 문서가 수백 개씩 쌓인다. 이 환경에서 RAG는 어떤 분기, 어떤 계약인지 구별하지 못한다. 올거나이즈 논문이 규명한 것은 바로 이 구조적 불일치다. 벤치마크 77.9%에서 실제 기업 환경 5%로의 급락은 도구 결함이 아니라 전제 조건의 붕괴다.

이 논문이 ACL 2026 메인 트랙에 채택됐다는 것은 이 문제 제기가 학계에서도 유효하다고 인정받았다는 의미다.

RAG를 만들거나 도입하려는 빌더에게 이 수치가 뜻하는 것

벤치마크 수치를 도입 근거로 삼기 전에 먼저 확인해야 할 질문이 있다. 내 문서가 위키피디아에 가까운가, 아니면 기업 반복 문서에 가까운가.

  • 위키피디아형: 주제가 서로 다르고 구조가 다양한 문서 — 벤치마크 수치가 어느 정도 참고 가능
  • 기업 반복형: 분기 보고서, 표준 계약서, 주간 회의록처럼 형식이 반복되는 문서 — 벤치마크 수치와 실전 결과 사이 간극이 커진다

RAG 자체가 쓸모없다는 뜻이 아니다. 77.9%를 기대하고 도입했다가 5%에 가까운 결과를 마주하는 구조가 어디서 오는지를 이해해야 도구 선택과 평가 기준을 제대로 세울 수 있다.

오늘, 내 문서가 어느 쪽인지 10개로 테스트해보자

도입 전에 실제 문서 10~20개를 꺼내 같은 형식이 반복되는 비율을 세어보자. 분기 보고서나 표준 계약서처럼 반복 구조 문서가 절반을 넘는다면, 벤치마크 수치보다 직접 테스트 결과가 훨씬 정직한 근거가 된다. ACL 2026 논문 원문은 올거나이즈 공식 채널에서 확인할 수 있다.

0
💬0

Public Discussion

토론