본문 바로가기

뉴스

독자 AI 모델 2차 평가, 멀티모달이 가른다

댓글0
SKT·LG·업스테이지 정예팀, 이미지·음성 경쟁 본격화
텍스트 넘어 음성 대화까지…개발 난이도 급상승
(서울=연합뉴스) 오지은 기자 = 정부의 독자 인공지능(AI) 파운데이션 개발 프로젝트 2차 평가부터는 멀티모달이 모델 경쟁의 승부처가 될 전망이다.

연합뉴스

SK텔레콤 부스
(서울=연합뉴스) 강민지 기자 = 30일 서울 강남구 코엑스에서 열린 '독자 AI 파운데이션 모델' 프로젝트 1차 발표회에서 참석자들이 SK텔레콤 부스를 체험하고 있다. 2025.12.30 mjkang@yna.co.kr


1차 평가에 통과한 SK텔레콤[017670], LG AI연구원, 업스테이지 모두 최종적으로 멀티모달 모델을 만들겠다고 밝혔기 때문이다.

25일 정보통신기술(ICT) 업계에 따르면 SK텔레콤 정예팀은 2단계 개발부터 AI 모델 A.X K1에 이미지나 음성 등 멀티모달 기능을 단계적으로 적용한다.

SKT 정예팀에서 멀티모달 연구를 진행 중인 김건희 서울대 컴퓨터공학부·첨단융합학부 교수는 지난 22일 SK텔레콤 뉴스룸에 이러한 내용의 기고문을 올렸다.

김 교수는 "초거대 언어모델은 텍스트, 사진, 동영상을 통합적으로 이해하는 멀티모달을 넘어 음성까지 이해하는 옴니모달 모델로 진화 중이다"라고 말했다.

김 교수는 특히 음성 대화를 AI 모델에서 구현하는 데는 기술적 도전 과제가 따른다고 강조했다.

그는 "기존 텍스트 기반 대화가 입력과 응답이 순차적으로 이어지는 턴(turn) 기반 단방향 소통 방식이라면, 음성 대화는 동시대적이고 양방향적인 특성을 가진다"라며 "상대방이 말하는 도중 개입하거나 짧은 백채널(피드백)을 주고받는 실시간 상호작용이 필요하다"라고 설명했다.

아울러 복잡한 표현 방식을 반영해야 하는 어려움도 지적됐다.

김 교수는 "초기에는 음성인식(STT)과 음성합성(TTS)을 결합하는 단계적 방식을 썼지만 응답 지연, 호흡, 감정 등 고유 정보 손실 문제가 있었다"라며 "강력한 사전학습된 언어모델을 핵심에 두고 음성을 포함한 다양한 데이터로 미세조정(파인튜닝)하는 방식이 옴니모달 개발의 핵심"이라고 덧붙였다.

SK텔레콤은 향후 옴니모달 모델을 에이닷 서비스에 적용해 통화 요약, 티맵, B tv 등에서 실시간 음성 대화를 지원하는 계획을 세웠다.

업스테이지는 앞서 3차 평가부터 언어와 이미지를 통합적으로 이해하는 멀티모달 기능을 확보한다고 밝힌 바 있다.

LG AI연구원은 구체적인 계획을 밝힌 바 없지만 궁극적으로 멀티모달 모델을 수립하는 것을 목표하고 있다고 전해졌다.

한편 정부가 독자 AI 프로젝트 1차 평가에서 네이버와 NC AI를 탈락시키며 1개 팀을 추가 공모하기로 발표하면서 재도전팀이 멀티모달 개발에 도전할지도 관심이 쏠리고 있다.

현재 스타트업인 모티프테크놀로지스와 트릴리온랩스가 재도전 의사를 밝혔는데 김 교수가 지적했듯이 멀티모달은 대형언어모델(LLM)에 비해 개발 난이도가 높기 때문이다.

먼저 모티프테크놀로지스는 "고성능 LLM과 대형멀티모달모델을 모두 파운데이션 모델로 개발한 경험을 갖춘 국내 유일의 스타트업"이라며 멀티모달 개발을 목표로 한다는 의사를 밝힌 바 있다.

built@yna.co.kr

▶제보는 카카오톡 okjebo
▶연합뉴스 앱 지금 바로 다운받기~
▶네이버 연합뉴스 채널 구독하기
<저작권자(c) 연합뉴스, 무단 전재-재배포, AI 학습 및 활용 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

연합뉴스 주요뉴스

해당 언론사로 연결

지금 봐야할 뉴스

  • 이투데이美 민주당, 미니애폴리스 총격에 “ICE 예산 집행 중단하고 장관 탄핵해야”⋯연방정부 셧다운 가능성
  • 문화뉴스곽윤기, 올림픽 해설에 재능 없나...'톡파원 25시' 전현무 과외 현장
  • 뉴스핌연일 계속되는 북극한파에 얼어버린 한강
  • 서울신문“돈 자랑이 부른 참사”…SNS 현금 과시하다 여장 절도범에 털렸다

쇼핑 핫아이템

AD