에이전트 100개 병렬 구조, CyberGym 88.45%로 단일 모델 상회

Microsoft의 취약점 스캐닝 시스템 MDASH가 CyberGym 벤치마크에서 88.45%를 기록했다. 100개 이상의 역할 특화 에이전트를 병렬 운용한 구조로, Anthropic·OpenAI 단일 모델 시스템을 수치로 눌렀다. 어떤 모델을 쓰느냐보다 어떻게 에이전트를 나누느냐가 성능을 결정한다는 것을 벤치마크가 확인했다.

단일 모델이 진 이유는 크기가 아니라 구조였다

MDASH는 하나의 대형 모델을 키우는 방식이 아니다. 역할별로 특화된 에이전트 100개 이상을 복수의 모델에 걸쳐 병렬로 조율하는 구조다. CyberGym 벤치마크에서 이 구조가 Anthropic과 OpenAI의 단일 모델 시스템을 수치로 넘어섰다.

보안 도메인은 이 차이를 확인하기에 좋은 환경이다. 취약점 분석, 패턴 탐지, 리포트 생성은 성격이 다른 태스크다. 범용 모델 하나가 전부를 처리하는 것보다, 각 태스크에 맞게 특화된 에이전트가 분담할 때 정확도가 올라간다. 88.45%는 그 구조 선택의 결과다.

빌더가 지금 가져갈 수 있는 것

100개 에이전트를 직접 설계하는 것은 현실적이지 않다. 하지만 이 결과가 주는 신호는 명확하다. 지금 만드는 에이전트가 하나의 프롬프트로 너무 많은 일을 하고 있다면, 역할을 2~3개로 분리하는 것만으로도 출력 품질이 달라질 수 있다.

LangGraph나 AutoGen 같은 멀티에이전트 프레임워크는 오픈소스로 이미 쓸 수 있다. 오케스트레이션 레이어를 처음부터 짜는 것이 부담이라면, '역할 분리 에이전트 2개'가 가장 단순한 시작점이다. MDASH가 증명한 것은 에이전트 수가 아니라 역할 특화 구조 자체의 유효성이다.

이번 주말에 해볼 것

'LangGraph multi-agent tutorial' 또는 'AutoGen role-based agent'로 검색해서 에이전트를 2~3개로 분리한 가장 단순한 예시 하나를 찾아보자. 지금 만들고 있는 자동화 흐름에서 역할을 나눌 수 있는 단계가 어디인지 메모해 두면 시작점이 된다.

에이전트 100개 병렬 구조, CyberGym 88.45%로 단일 모델 상회

The Lead

단일 모델이 진 이유는 크기가 아니라 구조였다

빌더가 지금 가져갈 수 있는 것

이번 주말에 해볼 것

Public Discussion

토론