AI Trend
구글 딥마인드, 생성 AI로 이미지 이해까지 하는 '비전 바나나' 논문 공개
flash
AI Trend Desk
Published 2026. 04. 26. 오후 01:43 KST
The Lead
구글 딥마인드, 이미지 생성+분할+깊이 추정을 단일 모델로 처리하는 '비전 바나나' arXiv 공개. 제품 출시는 미정.
구글 딥마인드가 이미지 생성과 시각 이해를 하나의 모델로 수행하는 '비전 바나나(Vision Banana)'를 arXiv에 공개했다. 기존에는 이미지 생성과 이해가 별도 모델의 역할이었다.
기존 모델과 뭐가 다른가
기존 워크플로에서는 이미지를 만드는 모델 (Stable Diffusion 등)과 이해하는 모델 (SAM, DepthPro 등)이 완전히 분리되어 있었다. 비전 바나나는 단일 모델로 두 역할을 동시에 수행한다.
- 의미론적 분할(semantic segmentation): 이미지 내 영역을 의미 단위로 구분
- 객체 분할: 개별 객체를 식별해 경계 구분
- 단안 깊이 추정: 카메라 한 대로 거리 정보 추출
- 표면 법선 추정: 3D 형태 파악에 쓰이는 면 방향 계산
연구진은 이미지 생성 학습이 LLM의 사전 학습과 같은 역할을 할 수 있다고 주장했다. 생성 능력 자체가 시각 이해의 기반이 된다는 의미다.
한국 사용자는 언제 쓸 수 있나
현재는 arXiv 논문 공개 단계 다. 논문은 누구나 무료로 열람할 수 있지만, 모델 가중치 공개 여부나 제품 출시 일정은 확인되지 않는다. 한국 포함 일반 사용자가 직접 사용할 수 있는 시점은 미정이다.
생성 AI와 비전 AI를 각각 호출하던 개발·디자인 워크플로가 단일 모델로 통합될 수 있다는 연구 방향의 신호다. 실제 제품화까지는 추가 검증이 필요하다.
논문 직접 확인하려면
arXiv에서 'Vision Banana Google DeepMind'로 검색해 원문을 확인하라. 모델 가중치나 코드 공개 여부는 논문 내 GitHub 링크 또는 Supplementary 섹션에서 확인할 수 있다.
♡0
💬0