본문 바로가기

뉴스

"엔비디아, AI 학습 위해 불법 복제물 의도적 접근...경영진 승인 받아"

댓글0
[박찬 기자]
AI타임스

(사진=셔터스톡)


엔비디아가 AI 모델 훈련을 위해 대표적인 불법 복제 자료 저장소와 직접 접촉했다는 주장이 등장했다. 이는 현재 진행 중인 소송 중 추가된 사실로, 파장을 키우고 있다.

저작권 전문 매체 토렌트프릭의 19일(현지시간) 보도에 따르면, 일부 작가들이 제기한 집단소송의 수정 소장에는 엔비디아 내부 이메일과 관련 문서가 새롭게 포함됐다.

여기에는 엔비디아가 세계 최대 규모의 불법 복제 자료 저장소로 알려진 '안나스 아카이브(Anna's Archive)'에 직접 접촉해 대용량 데이터를 빠르게 이용할 방안을 타진한 정황이 포함돼 있다.

이번 사안은 2024년 3월 제기된 저작권 침해 소송에서 비롯됐다. 당시 다수의 작가는 엔비디아가 불법 복제 사이트에서 유래한 '북3(Books3)' 데이터셋을 활용해 AI 모델을 학습했다며 소송을 제기했다. 이에 대해 엔비디아는 "AI 모델에서 책은 통계적 상관관계에 불과하며, 공정 사용(fair use)에 해당한다"라고 반박했다.

그러나 소송 과정에서 추가 증거가 공개되며 문제가 심각해졌다. 수정 소장에 따르면, 엔비디아 데이터 전략팀 직원은 안나스 아카이브에 접촉해 수백만권의 불법 서적을 대형언어모델(LLM) 사전 학습 데이터로 사용할 수 있는지를 문의했다. "책이 절실했던 엔비디아가 가장 크고 노골적인 불법 라이브러리에 접근했다"라는 말까지 등장했다.

안나스 아카이브는 자신들의 자료가 불법적으로 수집된 것이라고 경고했으며, 과거 다른 AI 기업도 문제가 있었던 점을 들어 엔비디아 경영진의 내부 승인 여부를 확인한 것으로 전해졌다.

원고의 주장에 따르면, 엔비디아 경영진은 경고를 받은 뒤 일주일 만에 '진행 승인'을 내렸고, 이후 안나스 아카이브는 약 500테라바이트(TB) 규모의 데이터 접근을 제안했다. 여기에는 책뿐만이 아니라, 학술 논문과 미디어 자료도 포함된 것으로 알려졌다.

논란은 여기서 그치지 않는다. 수정 소장에는 '리브젠(LibGen)'과 '사이허브(Sci-Hub)' 'Z-라이브러리(Z-Library)' 등 다른 불법 데이터의 다운로드 의혹이 추가됐다. 나아가 엔비디아가 자사 고객들에게 '더 파일(The Pile)' 데이터셋을 자동으로 내려받을 수 있는 스크립트와 도구를 배포, 불법 자료 이용을 조장했다는 주장도 담겼다.

이에 따라 원고는 엔비디아에 저작권 침해는 물론, 방조와 기여 침해 책임까지 물어야 한다고 주장했다.

이런 데이터 접근과 도구 제공을 통해 수익을 올렸다는 점에서 손해배상 책임도 요청했다. 보상 대상은 소송에 참여한 작가들에 그치지 않는다. 따라서 수백명의 저작권자가 앞으로 소송에 합류할 수 있다는 가능성도 제기됐다.

엔비디아는 GPU의 활용도를 높이기 위해 오픈 소스 모델을 제작하고 배포하고 있다. 이번 소송에서 언급된 모델은 '메가트론-LM'과 '레트로' 모델군 등이다.

박찬 기자 cpark@aitimes.com

<저작권자 copyright ⓒ ai타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

지금 봐야할 뉴스

  • 문화뉴스'고윤정 매니저' 최우성, 듬직한데 귀엽네...어디서 봤나 했더니?
  • 뉴스1안보 우려에도…영국, 런던 내 '세계 최대' 中대사관 건설 승인
  • 더팩트백대현 재판부 "계엄 선포는 내란의 실행 착수"…복선 깔았다
  • 동아일보임성근, 4차례 음주운전 적발…99년 집행유예 기간 중 무면허 음주 적발

쇼핑 핫아이템

AD