AI 에이전트가 틀리는 진짜 이유: 모델이 아니라 컨텍스트 공백

서비스나우가 850억 개 워크플로우·7조 건 데이터를 묶어 'AI 에이전트 의사결정 레이어'를 만들었다. 빌더들이 에이전트 오류의 원인을 모델에서 찾는 동안, 엔터프라이즈는 이미 컨텍스트 싸움으로 넘어갔다.

에이전트가 엉뚱한 답을 내놓는 건 모델 탓이 아니다

AI 에이전트를 만들어본 빌더라면 익숙한 상황이 있다. GPT-4o나 Claude에 질문을 던지는데, 답이 계속 엉뚱하다. 자연스럽게 모델을 의심한다. 더 똑똑한 모델로 바꾸면 나아질 것 같다.

서비스나우의 컨텍스트 엔진은 다른 진단을 제시한다. 문제는 모델 성능이 아니라 LLM이 기업 내부 규칙, 워크플로우, 데이터를 모른다는 것 이다. 범용 LLM은 인터넷 텍스트로 학습했다. 내 서비스의 결제 정책, 고객 등급 분류 기준, 예외 처리 로직은 아무것도 모른다. 컨텍스트가 없으니 틀린다.

서비스나우는 자사 플랫폼에 쌓인 850억 개 워크플로우와 7조 건의 데이터를(서비스나우 자체 주장) AI 에이전트의 의사결정 레이어로 전환했다. 모델을 더 좋게 만드는 대신, 모델이 판단할 수 있는 맥락을 구조화한 것이다.

빌더가 지금 점검해야 할 것: 내 에이전트에 컨텍스트가 있는가

서비스나우 수준의 데이터 자산을 가진 빌더는 없다. 하지만 구조는 그대로 적용된다. 에이전트를 만들 때 컨텍스트 레이어 없이 API만 붙이면, 규모와 상관없이 같은 문제가 생긴다.

컨텍스트 공백이 생기는 주요 지점은 세 가지다.

내부 규칙 미포함 : 환불 정책, 예외 케이스, 승인 기준 등 서비스 고유의 규칙이 프롬프트에 없다
워크플로우 순서 없음 : 어떤 단계를 거쳐 결정이 나는지 에이전트가 모른다
최신 데이터 단절 : LLM 학습 이후 바뀐 정책, 가격, 사용자 상태가 반영되지 않는다

RAG(검색 증강 생성)로 외부 문서를 붙이는 방법도 있지만, 서비스나우의 접근은 한 단계 더 나아간다. 단순 문서 검색이 아니라 의사결정에 필요한 맥락을 구조화 해서 에이전트에 제공한다. 독립적 성능 검증 수치는 현재 공개되지 않았지만, 방향성은 분명하다. 엔터프라이즈 AI 시장에서 에이전트 품질의 경쟁축이 '더 좋은 모델'에서 '더 많은 컨텍스트'로 이동하고 있다.

오늘 내 에이전트의 컨텍스트 레이어를 점검해 보자

지금 만들고 있는 에이전트(또는 만들려는 에이전트)를 열어라. 시스템 프롬프트나 설정 어딘가에 서비스 내부 규칙, 워크플로우 순서, 최신 데이터가 얼마나 들어가 있는지 확인해 보면 좋겠다. GPT-4o나 Claude에 질문만 던지고 있다면, 컨텍스트 레이어 없이 에이전트를 돌리고 있는 것이다. 모델을 바꾸기 전에, 먼저 '에이전트가 알아야 할 내용을 얼마나 줬는가'부터 확인해 보자.

AI 에이전트가 틀리는 진짜 이유: 모델이 아니라 컨텍스트 공백

The Lead

에이전트가 엉뚱한 답을 내놓는 건 모델 탓이 아니다

빌더가 지금 점검해야 할 것: 내 에이전트에 컨텍스트가 있는가

오늘 내 에이전트의 컨텍스트 레이어를 점검해 보자

Public Discussion

토론