(왼쪽부터)박하언 에임인텔리전스 CTO, 유상윤 에임인텔리전스 CEO, 이원준 연세대 연구원, 이도현 서울대 연구원 /사진=에임인텔리전스 제공 |
AI(인공지능) 보안 기업 에임인텔리전스가 AI 분야 최고 권위 학회인 'ICLR 2026'에 논문을 등재했다고 27일 밝혔다.
ICLR은 최신 머신러닝·딥러닝 연구 성과가 발표되는 대표적인 국제 학술대회로 올해는 약 1만9000여편의 논문이 제출됐고 이 중 약 28%만 채택됐다.
에임인텔리전스의 이번 논문은 박하언 CTO(최고기술책임자)를 비롯해 연세대학교, 한국과학기술연구원(KIST), 서울대학교 연구진이 공동으로 수행했다. 경희대학교 김수현 교수가 연구를 지도했다.
논문 제목은 '장면 분할 전략을 통한 텍스트-비디오 모델 탈옥'(Jailbreaking on Text-to-Video Models via Scene Splitting Strategy)이다. 텍스트-투-비디오(Text-to-Video, T2V) 모델의 안전성 취약점을 중점적으로 다뤘다.
최근 텍스트 입력만으로 영상을 생성하는 T2V 모델이 빠르게 상용화되고 있으나 영상 생성 모델의 안전성에 대한 체계적 검증 연구는 아직 초기 단계에 머물러 있는 가운데, 에임인텔리전스 연구팀은 T2V 모델의 안전 필터를 우회할 수 있는 구조적 취약점을 분석했다.
논문에서 제안한 '신스플릿'(SceneSplit) 기법은 하나의 유해한 프롬프트를 여러 개의 개별 장면으로 분할해 각 장면은 무해한 것처럼 구성한 뒤 이를 순차적으로 결합하는 방식이다.
연구에 따르면 개별 장면 단위에서는 안전 필터를 통과하더라도 장면이 연결되면서 전체 맥락이 특정 방향으로 수렴해 정책 위반 결과를 생성할 수 있는 가능성이 확인됐다.
예를 들어 △하늘로 퍼지는 연기 △바닥에 누워 있는 사람들 △붉은 액체와 같이 각각은 문제 소지가 낮은 묘사를 순차적으로 결합할 경우 전체 영상 맥락에서는 폭발 현장을 연상시키는 결과물이 생성될 수 있다는 것이다.
에임인텔리전스 관계자는 "이는 현행 안전 필터가 개별 프롬프트나 단일 장면 수준의 표현을 중심으로 작동할 경우 서사적 맥락 전체를 충분히 고려하지 못할 수 있음을 시사한다"고 했다.
연구팀은 음란물, 폭력, 불법행위 등 11개 안전 카테고리에 기반한 220개 프롬프트를 활용해 총 5개 T2V 모델을 평가했다. 그 결과 신스플릿 기반 공격은 70~80% 수준의 성공률을 보였다.
기존 단일 프롬프트 기반 공격의 성공률이 0~10% 수준이었던 점을 고려하면 영상 생성 모델이 구조적 방식의 우회 공격에 상당 부분 취약할 수 있음을 보여준다는 설명이다.
이번 연구는 영상 생성 AI의 안전성 문제가 단순한 키워드 차단을 넘어 장면 간 맥락과 서사 구조를 통합적으로 이해하는 방향으로 고도화될 필요가 있음을 제시했다는 점에서 의미가 있다는 평가다.
박하언 CTO는 "생성 AI가 멀티모달·피지컬 AI로 빠르게 확장되고 있는 만큼 안전성 검증 방식도 정적 필터링을 넘어 구조적·맥락적 평가로 진화해야 한다"며 "생성 AI에서 나타나는 취약점을 선제적으로 연구하고 이를 방어할 수 있는 안전 기술을 고도화해 나가겠다"고 했다.
[머니투데이 스타트업 미디어 플랫폼 '유니콘팩토리']
최태범 기자 bum_t@mt.co.kr
Copyright ⓒ 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지.
















