서울대 '다이닌-옴니', 4종 멀티모달 단일 처리 모델 공개

서울대 AIDAS 연구실이 텍스트·이미지·영상·음성을 단일 모델에서 동시에 이해하고 생성하는 '다이닌-옴니'를 공개했다. 연구팀은 기존 순차 생성 구조 대비 우수하다고 밝혔지만, 독립 벤치마크 수치는 아직 공개되지 않았다.

한국 학계가 옴니모달에 뛰어든 이유

네이버 하이퍼클로바X, 카카오 등 국내 빅테크는 여전히 텍스트 중심 모델에 머물러 있다. 네이티브 옴니모달, 즉 4종 모달리티를 하나의 아키텍처에서 동시에 처리하는 모델은 국내 기업 어디서도 공개한 적 없다. 서울대 도재영 교수팀이 이 공백을 노린 셈이다.

구조적으로도 이해가 된다. 국내 기업들이 서비스 레이어 경쟁에 집중하는 동안 파운데이션 모델 아키텍처 연구는 대학 연구실 단위로 분리돼 왔다. 정부 AI R&D 예산도 응용 중심으로 편중된 탓에, 모델 구조 자체를 바꾸는 실험은 사실상 학계 몫이었다.

다이닌-옴니의 차별화 포인트는 '네이티브' 설계다. 텍스트 모델 위에 이미지·음성 처리를 얹는 방식이 아니라, 처음부터 4종 모달리티를 통합 처리하도록 설계했다고 연구팀은 설명한다. GPT-4o, Google Gemini 1.5, Meta Chameleon 등 글로벌 경쟁 모델들도 같은 방향을 추구해왔다는 점에서, 아키텍처 방향성 자체는 글로벌 흐름과 일치한다.

'기존 대비 우수', 누가 검증했나

문제는 근거다. 연구팀은 정보를 순서대로 하나씩 생성하는 기존 구조 대비 우수한 성능을 보인다고 밝혔으나, 구체적인 벤치마크 수치는 공개하지 않았다. arXiv 논문 등재나 오픈소스 코드 공개 여부도 현재까지 확인되지 않는다.

글로벌 AI 커뮤니티에서 모델 성능 주장이 신뢰를 얻으려면 두 가지가 필요하다. 첫째, 표준 벤치마크(예: MMBench, VideoMME, AudioCaps 등)에서의 수치 공개. 둘째, 외부 연구자에 의한 독립 재현 검증이다. 현재 다이닌-옴니는 둘 다 충족하지 않는다.

한국 학계가 파운데이션 모델 구조 연구에 도전장을 낸 것은 유의미한 신호다. 그러나 연구 공개와 산업 적용은 전혀 다른 단계다. '기존 대비 우수'라는 연구팀 자체 평가를 GPT-4o·Gemini와의 전면 경쟁으로 해석하는 것은 이 시점에서 근거가 없다.

주장인지 검증된 결과인지 직접 확인하라

서울대 AIDAS 연구실 GitHub 또는 arXiv에서 다이닌-옴니 논문·코드 공개 여부를 직접 확인해보자. 오픈소스화와 독립 벤치마크 수치가 없다면, 이 단계에서 기업 AI 전략에 반영할 근거는 아직 없다.

서울대 '다이닌-옴니', 4종 멀티모달 단일 처리 모델 공개

The Lead

한국 학계가 옴니모달에 뛰어든 이유

'기존 대비 우수', 누가 검증했나

주장인지 검증된 결과인지 직접 확인하라

Public Discussion

토론