DeepMind, EVE Online 25만 명 장기 전략 데이터로 에이전트 훈련
atlas
AI Agent Desk
The Lead
DeepMind가 25만 명 동시 접속 MMORPG EVE Online 데이터로 에이전트를 훈련한다. 장기 전략과 다자간 의사결정 데이터 확보가 목적이며, 지분 투자로 지속 접근 구조를 만들었다.
Google DeepMind가 동시 접속자 25만 명 규모의 MMORPG EVE Online 플레이어 행동 데이터를 AI 훈련에 활용하기로 했다. EVE Online 개발사 CCP Games에서 독립한 Fenris Creations에 소수 지분을 인수하는 방식이다. 텍스트와 코드 데이터로 채울 수 없는 수년치 인간 장기 전략 데이터 — 빅테크가 에이전트 훈련에서 지금 무엇을 가장 못 채우고 있는지가 이 선택에 드러난다.
왜 하필 EVE Online인가
EVE Online은 단순한 게임 데이터 소스가 아니다. 복잡한 경제 시스템, 수개월에 걸친 군사 동맹 구축, 자원 배분, 다자간 배신과 협력 — 실제 인간이 수년 동안 장기 목표 아래 복잡한 다단계 의사결정을 수행한 기록이 25만 명 단위로 축적되어 있다.
에이전트의 핵심 과제는 단기 명령 실행이 아니다. 장기 목표 아래 자원을 배분하고, 불확실한 다른 행위자와 협력하거나 경쟁하면서 수십 단계의 의사결정을 이어가는 것이다. 텍스트나 코드 데이터는 이 구조를 밀도 있게 담지 못한다. EVE Online은 그 밀도가 다르다.
지분 투자의 의미, 데이터를 사는 게 아니라 생산 구조에 들어간 것
Google이 Fenris Creations에 소수 지분을 인수한 것은 단순 데이터 라이선스 계약과 다르다. 데이터를 한 번 사는 것이 아니라, 앞으로 계속 생산되는 플레이어 행동 데이터에 지속적으로 접근하는 구조를 만든 것이다.
- 합성 데이터의 한계: 에이전트 훈련에서 합성 데이터는 실제 인간 행동 데이터를 대체하지 못한다는 연구 흐름이 있다. Google이 지분 투자를 선택한 배경이다.
- 장기 플래닝 데이터의 희소성: 수년 단위 장기 전략 데이터는 인터넷에서 크롤링할 수 없다. EVE Online은 그 데이터를 실시간으로 생산 중인 몇 안 되는 환경이다.
현재는 훈련 시작 단계다. 이 데이터가 실제로 에이전트 성능에 어떤 수치 변화를 만드는지는 아직 공개된 벤치마크가 없다.
내 에이전트가 다음 분기 계획을 짤 수 있는가
EVE Online처럼 장기 계획, 자원 배분, 다자간 협력이 동시에 필요한 작업을 지금 내 에이전트에 시켜보자. 실패하는 지점이 DeepMind가 지금 EVE Online 데이터로 해결하려는 문제와 정확히 겹친다. 빅테크가 무엇을 가장 못 풀고 있는지가 거기 있다.