“설명가능한 AI는 환상일까”…복잡성·블랙박스 문제 해답은 ‘요원’ [IT클로즈업]

디지털데일리

입력: 2026-03-14 22:15

[디지털데일리 오병훈기자] “AI 분야의 모든 사람들이 ‘블랙박스(Black Box)’라고 부르는 측면이 있습니다. 우리는 AI가 왜 그런 답변을 내놓았는지 완전히 이해하지 못하며 정확히 설명할 수도 없습니다.”

지난 2023년 순다르 피차이 구글 최고경영자(CEO)가 미국 CBS방송에 출연해 인공지능(AI) ‘블랙박스’ 문제를 언급한 순간이다. AI 산업이 성장하고 파운데이션 모델 규모가 거대해지면서 AI 내부 연산 과정을 인간의 인지 능력으로는 파악할 수 없는 블랙박스 현상은 AI 학계의 화두로 떠올랐다.

2년이 지난 지금 시점에도 피차이 CEO의 우려에 대한 해결책은 요원하다. AI가 내놓은 결과물이 어떤 원본 데이터로부터 도출됐는지 그 출처를 투명하게 역추적하고 작동 방식을 설명하는 ‘설명가능한 AI(Explainable AI)’의 구현 필요성도 커지고 있다.

대규모 모델은 수많은 파라미터(매개변수)가 얽히고 설킨 복잡성 문제로 인해 특정 데이터의 기여도를 정확히 발라내는 것이 사실상 불가능하다는 것이 학계 중론이다. 학계에서도 AI 답변을 역추적하는 ‘역산’ 시도가 없었던 것은 아니다. 그러나 그 과정에서 전문가들은 AI 모델의 역추적 한계와 ‘복잡성’이라는 거대한 벽을 확인했을 뿐이다.

◆AI 블랙박스, 정보 소실부터 수학적 불가능성까지

AI의 블랙박스 현상에 대한 지난 10년간의 연구 흐름을 살펴보면 연구가 거듭될수록 단순한 기술적 난항을 넘어 ‘역추적 불가론’이 굳건해지는 것을 확인할 수 있다.

지난 2015년 발표된 논문 ‘딥러닝과 정보 병목 원리(Deep Learning and the Information Bottleneck Principle)’에서는 AI 신경망의 학습 과정이 원본 데이터를 단순히 복제해 보관하는 메커니즘이 아님을 규명했다. 논문에 따르면 신경망 학습은 학습 데이터로부터 불필요한 세부 정보를 과감히 버리고 핵심적인 특징(feature)을 남기는 과정이다.

이 과정에서 필연적으로 원본 정보가 소실되며 결과적으로 AI 모델이 답변을 생성할 때 특정 데이터를 그대로 기억해서 내뱉는 것이 아니라 소실되고 남은 통계 흔적을 재조합할 뿐이라는 분석이다. 원본 데이터가 가졌던 고유성은 이미 파괴된 상태이므로 특정 답변이 특정 학습 데이터에서 기인했다고 단정 짓는 것은 정보이론적으로 성립하기 어렵다는 것이 핵심이다.

해당 논문 내용은 대형언어모델(LLM)이 본격적으로 등장한 이후 실제 AI 업계 현장에서 재확인 됐다. 지난 2022년 구글 리서치와 MIT 소속 연구진은 언어모델(LM)이 사실적 지식을 생성해냈을 때 그것이 과연 어떤 학습 데이터에서 기인했는지 확인하는 실험을 진행했다. 하지만 실험 결과 언어모델의 출력과 특정 학습 데이터를 연결하는 불가능에 가깝다는 결론에 도달했다.

이후 블랙박스 문제가 ‘수학적 불가능성’ 영역으로 판명되기에 이른다. 지난 2024년 국제학술지 ‘PNAS’에 게재된 ‘기여도 할당에 대한 불가능성 정리(Impossibility Theorems for Feature Attribution)’ 논문에서 연구진은 현대 딥러닝 신경망처럼 충분히 표현력이 높은 모델 안에서는 특정 조건을 만족하는 특성 기여도 추적 방법(feature attribution) 자체가 존재할 수 없음을 확인했다.

이는 신경망 모델의 극단적인 구조상 특정 입력이나 데이터가 AI 모델 답변에 얼마나 기여했는지 추적하는 일 자체가 수학적 모순에 빠진다는 근본적인 한계를 설명한 것이다.

◆역산 ‘근사치’ 해법 제시…문제는 비용

AI의 답변이 어떤 데이터에 근거해 어떤 과정을 거쳤는지를 규명하는 것이 불가능에 가깝다는 분석이 지배적이지만 학계에서는 여전히 그 문제를 해결하기 위한 시도가 이어졌다.

대표적인 접근법은 수학적 역산을 활용한 ‘영향력 함수(Influence Functions)’ 기법이다. AI의 특정 답변을 위해 어떤 학습 데이터가 얼마나 기여했는지 미적분학 관점에서 역으로 계산하는 방법론이다.

문제는 비용이다. 지난 2023년 앤트로픽 소속 연구진이 발표한 ‘영향력 함수를 활용한 거대 언어 모델 일반화 연구(Studying Large Language Model Generalization with Influence Functions)’ 논문에 따르면 파라미터가 70억개(7B)만 돼도 역산 비용이 모델을 처음부터 완전히 다시 학습시키는 비용을 초과하는 ‘복잡도의 역설’이 발생한다. 블랙박스 문제 해결에 대한 현실적 한계가 드러난 셈이다. 역산 결과도 ‘근사치’일 뿐 완전무결한 1대1 역추적이 아니라는 설명이다.

7B에서도 이같은 결과가 도출된 상황, 현재 시장을 주도하는 상용 거대 모델들은 통상 1조개(1000B) 이상 파라미터 규모다. 이 거대한 규모에서 근사치가 아닌 정확한 역행렬을 계산해 수십억건 데이터 기여도를 분석하는 것은 물리적으로나 수학적으로 불가능하다는 것을 다시 한번 확인한 셈이다.

결과적으로 설명가능한 AI를 구현하려던 시도는 무위로 돌아간 상태다. 초거대 AI의 작동 원리를 명확히 규명하려는 시도는 현재 이론적으로나 현실적으로 한계에 봉착해 있는 상황이다.

장기적으로는 현재의 대규모 파운데이션 모델 구조 자체를 보완하거나 탈피하려는 움직임도 관측된다. 딥러닝 신경망 태생적인 블랙박스 한계를 극복하기 위해 명확한 규칙과 기호 논리학을 결합해 추론 과정의 인과관계를 추적할 수 있는 ‘뉴로 심볼릭 AI’ 등 차세대 아키텍처 연구가 새로운 돌파구로 거론되고 있다.

설명 가능한 AI가 ‘환상’에 불과하다는 전문가 분석이 나오고 있는 상황, AI 답변을 안전하고 윤리적으로 통제하기 위한 다양한 방법 연구가 이어져야 한다는 업계 목소리가 커지고 있다.

- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

ZUM 뉴스

“설명가능한 AI는 환상일까”…복잡성·블랙박스 문제 해답은 ‘요원’ [IT클로즈업]

지금 봐야할 뉴스

쇼핑 핫아이템

글자크기 조절

“설명가능한 AI는 환상일까”…복잡성·블랙박스 문제 해답은 ‘요원’ [IT클로즈업]

지금 봐야할 뉴스

쇼핑 핫아이템

공유하기

글자크기 조절