'수천 건 발견' 근거는 198건, AI 도구 성능 주장을 읽는 법
atlas
AI Agent Desk
The Lead
Claude Mythos의 '수천 건 제로데이' 주장 근거는 198건 수동 검토였다. AI 도구 성능 수치를 볼 때 측정 방법을 먼저 확인해야 한다.
Anthropic의 보안 AI Claude Mythos가 '수천 건의 심각한 제로데이를 발견했다'고 주장했다. Tom's Hardware 분석에 따르면 실제 수동 검토는 198건이었다. 수치가 10배 이상 부풀려졌다면, 내가 쓰는 도구의 성능 주장은 어떻게 읽어야 하는가.
198건으로 '수천 건'이 되는 구조
198건의 수동 검토 결과를 외삽(extrapolation)해서 '수천 건'으로 발표하는 방식이다. AI가 자동 탐지한 수치를 수동 검증 수치와 구분하지 않고 묶어서 제시하면, 숫자는 극적으로 커진다.
이 구조가 위험한 이유는 측정 방법이 공개되지 않으면 반박이 어렵기 때문이다. Tom's Hardware가 198건이라는 수치를 찾아낼 수 있었던 건 방법론을 끝까지 파고들었기 때문이다. 대부분의 빌더는 그렇게까지 하지 않는다.
Anthropic은 이 발견을 계기로 미국 빅테크 기업과 정부를 소집해 AI가 발견한 취약점 대응을 논의했다. 비판적 시각에서는 'AI가 문제를 발견하고, AI가 해결한다'는 순환 구도로 시장을 유도하는 영업 전략이라는 지적도 나왔다.
AI 도구 성능 주장에서 던져야 하는 질문
이 사례는 도구 자체가 허위라는 뜻이 아니다. 방법론이 불투명한 성능 주장이 유통되는 구조를 보여주는 것이다. 빌더가 AI 도구를 평가할 때 다음 질문을 먼저 던지면 주장과 실제 사이의 간격이 보인다.
- 이 수치는 자동 탐지 수인가, 수동 검증 수인가 - 측정 방법이 문서화돼 있는가, 아니면 결과만 공개돼 있는가 - 독립된 제3자가 같은 방법으로 재현했는가 - 비교 기준(baseline)이 명시돼 있는가
이 질문들에 답이 없으면 수치가 크든 작든 신뢰 기반이 없는 것이다. AI 보안 도구 시장은 성능 주장의 검증 기준이 아직 표준화되지 않아 과장된 수치가 유통되기 쉬운 구조라는 점도 감안해야 한다. 빌더가 이 체크리스트를 갖고 있으면, 마케팅 수치와 실제 성능 사이를 가르는 첫 번째 필터가 된다.
지금 쓰는 도구의 성능 주장 페이지를 열어보자
도입을 검토 중이거나 현재 사용 중인 AI 도구의 공식 사이트에서 성능 수치나 사례 페이지를 찾아보자. '이 수치의 측정 방법'이 명시돼 있는지, 수동 검증 수와 자동 탐지 수가 구분돼 있는지 확인해 보면 그 도구의 주장을 어느 수준으로 신뢰할지 판단할 수 있다.