MS, '시스템 프롬프트'를 매개변수에 내재화하는 프레임워크 공개

AI타임스

입력: 2026-03-02 11:59

[박찬 기자]

기업들이 대형언어모델(LLM)을 실제 서비스에 적용하는 과정에서 가장 큰 부담 중 하나는 '길고 복잡한 시스템 프롬프트'다. 사내 정책, 안전 규칙, 전문 지식 등을 매번 입력해야 하다 보니 응답 지연과 비용이 급증하는 문제가 발생한다.

마이크로소프트(MS) 연구진은 26일(현지시간) 시스템 프롬프트 반복에 따른 성능 저하를 방지하는 새로운 학습 프레임워크 '온-폴리시 컨텍스트 증류(OPCD·On-Policy Context Distillation)'를 온라인 아카이브를 통해 공개했다.

기업들은 도메인 지식과 고객 정책, 유해 콘텐츠 필터링 규칙 등 다양한 정보를 LLM의 시스템 프롬프트에 포함해 동작을 조정한다. 그러나 이런 프롬프트는 수천~수만 토큰에 달할 수 있어 추론 지연을 늘리고, 쿼리당 비용을 크게 높인다.

OPCD는 매번 길게 입력하던 지침이나 정보를 모델 매개변수 안에 아예 저장해 두는 방법이다.

방식은 '교사-학생' 구조로 이루어진다. 먼저 많은 설명과 자료를 받은 교사 모델이 모범 답안을 만든다. 그러면 학생 모델은 그 답을 학습해, 나중에는 긴 설명을 다시 입력하지 않아도 비슷한 방식으로 스스로 답할 수 있게 된다.

기존의 컨텍스트 증류(context distillation)도 목표는 같았지만, 이미 만들어진 고정 데이터만으로 학습하는 '오프-폴리시(off-policy)' 방식을 사용했다. 이 방법에서는 학생 모델이 스스로 답을 만드는 연습을 충분히 하지 못한다. 그래서 실제 서비스에 투입되면 작은 실수에도 쉽게 흔들리는 '노출 편향(exposure bias)' 문제가 생길 수 있다.

또 '정방향 KL 발산(forward KL divergence)'을 최소화하는 방식은 학생이 교사의 답을 최대한 똑같이 흉내 내도록 만든다. 하지만 학생 모델은 더 작고 정보도 적기 때문에, 교사의 복잡한 추론을 완벽히 따라 하기 어렵다. 그 결과, 잘 모르는 부분까지 그럴듯하게 지어내는 '환각' 현상이나 상황에 맞지 않게 지나치게 넓게 해석하는 문제가 나타날 수 있다.

OPCD의 가장 큰 특징은 학생 모델이 미리 준비된 정답 데이터가 아니라, 자기가 직접 만들어 본 답변 과정을 바탕으로 배운다는 점이다.

학생 모델은 긴 설명이나 방대한 프롬프트 없이 스스로 문제를 풀어본다. 그러면 교사 모델이 모든 정보를 가진 상태에서 그 과정을 실시간으로 살펴보고, 어디가 맞고 어디가 부족한지 평가해 준다.

이 과정에서 OPCD는 '역방향 KL 발산(reverse KL divergence)'을 줄이는 방식을 사용한다. 학생 모델이 자신이 가장 그럴듯하다고 생각하는 답에 더 집중하도록 만드는 방식이다.

이 방식은 확률이 높은 답변 쪽으로 무게를 싣는 '모드 탐색(mode-seeking)' 특성을 가진다. 그래서 학생 모델이 스스로 가능성이 낮다고 판단한 단어나 표현은 덜 사용하게 된다.

그 결과, 괜히 여러 가능성을 넓게 펼치다가 엉뚱한 내용을 지어내는 일을 줄일 수 있다. 즉, 불필요하게 복잡한 추론을 줄이고, 환각을 완화하며, 실제 서비스 환경에서 더 안정적으로 작동하게 된다.

연구진은 OPCD를 두가지 중요한 상황에서 시험했다. 첫 번째는 '경험 지식 증류'다. 이는 모델이 과거에 문제를 풀면서 얻은 노하우나 규칙을 정리한 뒤, 그 내용을 모델 안에 직접 저장하는 방식이다. 예전에 성공했던 풀이 방법에서 공통 규칙을 뽑아내고, 이를 OPCD로 학습해 모델의 기본 능력처럼 만들었다는 설명이다. 이렇게 하면 같은 내용을 매번 다시 알려주지 않아도, 모델이 스스로 그 경험을 활용할 수 있게 된다.

그 결과 80억(8B) 매개변수 모델은 복잡한 수학 문제에서 정확도가 75.0%에서 80.9%로 상승했다. '프로즌 레이크(Frozen Lake)' 내비게이션 게임에서는 17억(1.7B) 매개변수 소형 모델의 성공률이 6.3%에서 38.3%로 급등했다.

두번째 실험은 길고 복잡한 시스템 프롬프트를 모델 안에 직접 저장하는 방식이었다. 30억(3B) 매개변수 규모의 '라마' 모델은 처음에는 안전·유해성 분류 작업에서 정확도가 30.7%에 불과했다. 하지만 OPCD를 활용해 안전 관련 지침을 모델 내부에 학습시킨 뒤에는 정확도가 83.1%까지 크게 올랐다.

의료 질의응답에서도 성능이 눈에 띄게 좋아졌다. 기존 59.4%였던 정확도가 76.3%로 상승했다. 즉, 길게 입력하던 지침을 모델 안에 내재화하자 성능이 크게 개선된 것이다.

연구진은 미세조정에서 자주 나타나는 '파괴적 망각(catastrophic forgetting)' 문제도 확인했다. 이는 한가지 작업에만 집중해 학습하다가, 기존에 잘하던 다른 능력을 잃어버리는 현상을 말한다. 이를 확인하기 위해 모델에 엄격한 안전 규칙을 먼저 학습한 뒤, 전혀 다른 분야인 의료 질문에 대한 답변 성능을 테스트했다.

그 결과, OPCD를 적용한 모델은 기존 오프-폴리시 방식보다 약 4%포인트 더 높은 범용 성능을 유지했다. 특정 분야에 특화되면서도 기본적인 일반 능력을 크게 잃지 않는 균형 잡힌 성능을 보여준 것이다.

연구진은 OPCD가 모든 방식의 외부 지식 활용을 대신할 수 있는 것은 아니라고 설명했다. 예를 들어, 내용이 자주 바뀌는 대규모 데이터베이스를 다뤄야 할 때는 검색증강생성(RAG) 방식이 여전히 더 적합하다. 필요한 정보를 그때그때 찾아오는 구조이기 때문이다.

하지만 자주 바뀌지 않는 규칙, 전문 지식, 행동 지침처럼 비교적 고정된 내용이라면, 이를 모델 안에 직접 학습하는 OPCD가 매우 효과적인 대안이 될 수 있다.

도입도 비교적 쉽다. 이미 검증 가능한 보상 기반 강화 학습(RLVR) 방식으로 모델을 학습하고 있는 팀이라면, 전체 구조를 크게 바꾸지 않아도 OPCD를 추가로 적용할 수 있다.

하드웨어 요구 사항도 높지 않다. 약 8개의 A100 GPU 정도면 연구 결과를 재현할 수 있다. 또 경험 지식 증류의 경우, 약 30개 정도의 초기 예시만 있어도 눈에 띄는 성능 향상이 나타났다. 많은 데이터나 대규모 인프라 없이도 효과를 볼 수 있다는 의미다.

연구진은 OPCD가 장기적으로는 스스로 발전하는 '자가 개선(self-improving)' 모델로 이어질 수 있다고 보고 있다. 모델이 실제 서비스에 배포된 뒤 사용자와의 상호작용을 통해 경험을 쌓고, 이를 다시 학습해 자신의 매개변수에 반영하는 구조가 가능해진다는 설명이다.

박찬 기자 cpark@aitimes.com

<저작권자 copyright ⓒ ai타임스 무단전재 및 재배포 금지>

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

ZUM 뉴스

MS, '시스템 프롬프트'를 매개변수에 내재화하는 프레임워크 공개

지금 봐야할 뉴스

쇼핑 핫아이템

글자크기 조절

MS, '시스템 프롬프트'를 매개변수에 내재화하는 프레임워크 공개

지금 봐야할 뉴스

쇼핑 핫아이템

공유하기

글자크기 조절