에이전트 실패율을 잡은 건 더 좋은 모델이 아니었다

삼성전자·LG전자에 AI 에이전트를 납품한 한국 스타트업 인핸스의 결론은 단순했다. 에이전트가 멋대로 가격을 낮추거나 어쩔 때는 성공하고 어쩔 때는 실패하는 이유는 모델 성능이 아니라, 비즈니스 규칙이 없었기 때문이다.

프롬프트로는 '절대 하면 안 되는 것'을 막을 수 없다

인핸스 이승현 대표는 초기 에이전트 운영 경험을 이렇게 말했다. "처음에는 실패를 너무 많이 했어요. 어쩔 땐 성공하고 어쩔 땐 성공하지 않고." 가격 결정 에이전트가 전략과 무관하게 가격을 확 낮춰버리는 사고도 있었다.

원인은 모델이 확률 기반으로 동작한다는 데 있다. 같은 입력을 줘도 결과가 달라진다. 프롬프트로 "가격을 함부로 낮추지 마"라고 적어봤자, 모델은 그 지시를 상황에 따라 다르게 해석한다. 인핸스가 찾은 해법은 온톨로지 였다. 비즈니스 규칙을 모델 밖에 별도 레이어로 명시하는 방식이다.

예를 들어 세차 서비스 에이전트라면 "1분 거리여도 차를 직접 가져와야 한다"는 규칙을 온톨로지에 고정한다. 모델이 아무리 편의를 위해 예외를 만들려 해도, 이 레이어가 막는다. 프롬프트·RAG 방식이 확률적 동작에 의존한다면, 온톨로지 방식은 규칙을 검증 가능한 형태로 분리해둔다.

비용 문제도 같은 방식으로 풀었다

컴퓨터를 직접 조작하는 에이전트를 처음 만들었을 때, 인핸스는 또 다른 벽에 부딪혔다. 화면 스크린샷을 찍어 AI가 판단하는 VLM 기반 방식은 비용이 사람보다 높았다. B2B에서 사람을 대체하겠다는 제품이 사람보다 비싸면 팔 수 없다.

해법은 경로를 저장하는 것이었다. HTML DOM을 먼저 읽고 첫 번째 성공 경로를 캐싱해두면, 이후 실행에서는 변경이 감지될 때만 LLM을 다시 호출한다. 100번 중 1번만 화면이 바뀐다면 99번은 아주 낮은 비용으로 실행된다. 규칙 레이어와 같은 논리다. 매번 모델에 묻는 게 아니라, 이미 검증된 경로를 먼저 쓴다.

인핸스는 현재 이 구조로 삼성전자·필립스·LG전자를 고객사로 두고 있다. MS AI 스타트업 얼라이언스 파트너십 체결 후 1년 미만에 글로벌 엔터프라이즈 20곳 이상과 미팅, 3건 이상 실계약을 완료했다. LG전자에는 온톨로지 기반 에이전트 OS를 공급 중이다.

내 에이전트에 '절대 하면 안 되는 것' 목록이 있는가

지금 만들거나 쓰고 있는 에이전트에 비즈니스 규칙이 별도로 정의돼 있는지 확인해보자. 프롬프트 안에 섞여 있다면, 그 규칙은 언제든 모델이 무시할 수 있다. 인핸스 이승현 대표의 인터뷰 전체는 유튜브 "사람 대신 일하는 AI, 실제 현업에선 이렇게 씁니다"에서 볼 수 있다.

에이전트 실패율을 잡은 건 더 좋은 모델이 아니었다

The Lead

프롬프트로는 '절대 하면 안 되는 것'을 막을 수 없다

비용 문제도 같은 방식으로 풀었다

내 에이전트에 '절대 하면 안 되는 것' 목록이 있는가

Public Discussion

토론