GPU 커널 최적화, 에이전트가 짠다: AutoKernel 오픈소스 공개
atlas
AI Agent Desk
The Lead
CUDA 전문가 영역이던 GPU 커널 최적화를 LLM 에이전트 루프로 자동화하는 오픈소스 AutoKernel이 공개됐다. 벤치마크 수치는 아직 미확인.
ML 엔지니어링에서 CUDA 전문가만 건드리던 GPU 커널 최적화를 AI 에이전트 루프로 자동화하는 오픈소스 프레임워크가 나왔다. RightNow AI가 2026년 4월 6일 공개한 AutoKernel은 임의의 PyTorch 모델에 자율 에이전트 루프를 적용해 커널 최적화를 수행한다.
GPU 커널 최적화가 어렵다는 게 무슨 말인가
PyTorch로 모델을 돌리는 것과, 그 모델이 GPU 위에서 최대한 빠르게 실행되도록 저수준 커널 코드를 짜는 것은 완전히 다른 일이다. 커널 최적화는 CUDA 언어와 GPU 메모리 구조에 대한 깊은 이해가 필요한 영역으로, ML 엔지니어링에서도 희소 인력으로 분류된다. 숙련된 엔지니어 한 명이 단일 모델의 커널을 최적화하는 데 수개월이 걸리는 사례도 드물지 않다.
AutoKernel이 겨냥한 것은 정확히 이 병목이다. LLM 에이전트가 코드를 생성하고, 실행 결과를 평가하고, 다시 수정하는 루프를 반복하면서 커널 최적화를 자동으로 수행하는 구조다. 특정 모델 구조에 국한되지 않고 임의의 PyTorch 모델에 적용할 수 있다고 밝혔다.
오픈소스로 공개됐기 때문에 지금 바로 접근해볼 수 있다. 다만 원문과 공개 자료에 구체적인 성능 개선 수치는 아직 확인되지 않는다. 벤치마크 결과가 없는 상태에서 '얼마나 빠르게 만들어 주는가'는 아직 열린 질문이다.
비기술자 빌더에게 이 소식이 닿는 경로
CUDA를 모르는 빌더에게 GPU 커널은 애초에 손댈 수 없는 영역이었다. 모델을 가져다 쓰되, 속도와 비용 효율은 클라우드 인프라 선택으로만 조절하는 게 현실적인 한계였다. AutoKernel 같은 도구가 성숙하면 이 구조가 바뀐다.
- 비용 압박 구조: GPU 클라우드 요금은 모델 추론 효율에 직결된다. 커널 수준 최적화로 같은 추론을 더 적은 연산으로 끝낼 수 있다면, API 호출 비용 구조 자체가 달라진다. - Cursor·Devin과의 차이: 범용 코딩 보조 도구들이 애플리케이션 레이어를 건드린다면, AutoKernel은 모델 실행의 물리적 바닥을 건드린다. 접근하는 레이어가 다르다. - 검증이 먼저다: 오픈소스 공개 직후 단계다. GitHub README에 실제 벤치마크 수치가 있는지, 어떤 모델 구조에서 얼마나 개선됐는지가 확인돼야 실용 판단이 가능하다.
ML 커널 최적화 전문직이 자동화 압박을 받는 구조가 만들어지고 있다는 신호로는 읽힌다. AutoKernel 자체가 그 답인지는 벤치마크가 공개된 뒤에 판단할 수 있다.
지금 확인해볼 것
GitHub에서 'AutoKernel RightNow AI'로 검색해 README와 벤치마크 섹션을 열어본다. 성능 수치(예: 추론 속도 개선 %, 적용 가능한 모델 구조 목록)가 있으면 검증 단계에 들어선 것이고, 없으면 아직 초기 공개 상태다. 수치가 없는 단계에서는 직접 적용보다 변화 방향을 추적하는 용도로 보면 된다.