클로드 마이토스와 카피바라 유출: 진짜 문제는 그게 아니다
앤트로픽의 블로그 CMS 설정 오류 하나로 미발표 자산 약 3,000개가 공개 검색 가능 상태로 노출됐다. 그 안에는 Opus보다 강력한 새 모델 티어 Capybara와 첫 모델 Claude Mythos의 존재가 담긴 초안이 있었다. 앤트로픽은 모델의 존재를 공식 확인했다. 그런데 초안에 담긴 진짜 문제는 모델 스펙이 아니다. "방어자의 속도를 앞지르는 취약점 공격 파도"를 경고한 기업이 정작 자신의 CMS 기본 설정은 확인하지 않았다는 것이다.
레이 | 디지털 저널리스트 | awesome.ai.life@gmail.com | 2026년 3월 28일
2026년 3월 26일 목요일, 케임브리지대 사이버보안 연구자 알렉상드르 포엘스(Alexandre Pauwels)와 레이어엑스시큐티리(LayerX Security)의 AI 보안 연구원 로이 파즈(Roy Paz)가 각각 독립적으로 앤트로픽의 블로그 콘텐트 관리 시스템에서 공개 접근 가능한 미발표 자료를 발견했다. 포춘(Fortune)이 이 자료를 입수해 검토한 뒤 앤트로픽에 통보했고, 앤트로픽은 즉시 접근을 차단했다.
그러나 이미 늦었다. 앤트로픽의 블로그 운영에 사용하는 콘텐트 관리 시스템(CMS)에 업로드된 약 3,000개의 자산들, 이미지, PDF, 오디오 파일까지 공개 검색 가능한 상태로 노출돼 있었다. 이 시스템은 업로드된 모든 자산에 공개 URL을 기본값으로 부여한다. 비공개로 바꾸려면 이용자가 수동으로 설정을 전환해야 했다. 앤트로픽은 공식 성명에서 "외부 CMS 도구 중 하나의 문제로 초안 콘텐트가 접근 가능한 상태가 됐다"고 밝히면서, 그 원인을 "인적 오류"로 규정했다. 도구 탓과 담당자 실수를 동시에 언급한 표현이다.
기술적으로 보면 단순한 설정 실수다. 하지만 그 열린 문틈으로 나온 것은 앤트로픽이 아직 세상에 꺼내놓을 준비가 되지 않았던 것들이었다.
새로운 티어, 새로운 모델
유출된 초안에는 앤트로픽이 새로운 등급의 모델을 설계했다는 내용이 담겨 있었다. 이 등급 이름은 카피바라(Capybara). 앤트로픽의 현재 모델 구조는 소형, 저비용 모델인 하이쿠(Haiku), 중간급인 소넷(Sonnet), 최상급인 오퍼스(Opus)로 구성된다. 카피바라는 그 위에 올라서는 새 등급이다. 초안에서 앤트로픽은 직접 이렇게 썼다. "카피바라는 새로운 모델 등급으로 지금까지 가장 강력했던 오퍼스보다 크고 더 지능적이다." 운영 비용도 그만큼 높다고 명시했다.
이 카피바라 등급의 첫 번째 모델이 클로드 마이토스(Claude Mythos)다. 초안에서는 마이토스를 "지금까지 개발한 AI 모델 중 단연 가장 강력한(by far the most powerful AI model we've ever developed)" 모델로 표현했다. 클로드 오퍼스 4.6 대비 소프트웨어 코딩, 학술 추론, 사이버보안 테스트에서 "극적으로 높은 점수(dramatically higher scores)"를 기록했다고도 했다.
단, 이 수치는 앤트로픽 자체 초안의 주장이다. 독립된 제3자 기관의 벤치마크 검증이 이뤄진 결과가 아니다. 미발표 초안이라는 성격상 마케팅 언어가 섞였을 가능성을 배제할 수 없다.
포춘의 취재에 앤트로픽 대변인은 직접 답했다. "추론, 코딩, 사이버보안에서 의미 있는 발전을 이룬 범용 모델을 개발 중이다. 역량의 강도를 감안해 신중하게 출시를 준비하고 있다. 소수의 얼리 액세스 고객과 테스트 중이며, 이 모델은 한 단계 도약(step change)이자 지금까지 만든 가장 강력한 모델이다." 유출 사실은 부인했지만, 모델의 존재는 부인하지 않았다.
당연히 최종 모델명, 등급 구조, 출시 시기와 가격은 아직 공개되지 않았다. 유출된 초안이 최종 발표 내용과 동일하리라는 보장도 없다.
그런데 진짜 문제는 모델 스펙이 아니다
모델 성능 수치보다 더 주목해야 할 것이 초안 안에 있었다.
앤트로픽은 그 초안에서 마이토스의 사이버보안 역량에 대해 직접 이렇게 경고했다. "이 모델은 현재 사이버 역량에서 다른 어떤 AI 모델보다 앞서 있다(currently far ahead of any other AI model in cyber capabilities)." 그리고 한 걸음 더 나아갔다. "방어자의 노력을 훨씬 능가하는 방식으로 취약점을 악용할 수 있는 모델의 파도가 곧 올 것을 예고한다(presages an upcoming wave of models that can exploit vulnerabilities in ways that far outpace the efforts of defenders)."
자사 모델에 대한 이 경고를 AI 기업의 책임 있는 자기 성찰로 읽을 것인가, 아니면 "우리는 위험을 알고 신중하게 출시한다"는 브랜드 포지셔닝으로 읽을 것인가.
이 질문은 단순히 앤트로픽의 의도를 묻는 것이 아니다. 두 해석은 동시에 성립한다. 그리고 그 동시 성립 자체가 이 상황의 구조를 말해준다. AI 기업들은 지금 안전 담론을 통해서도 경쟁하고 있다. 안전을 강조할수록 모델의 강력함이 역설적으로 증명되고, 그 강력함이 기업의 위상을 높인다. 안전 경고와 성능 마케팅은 이 업계에서 동전의 양면이다.
앤트로픽만 이러는 건 아니다. 2026년 2월 오픈AI(OpenAI)가 출시한 신규 모델은 포춘 보도 기준으로 자사의 사전 준비 프레임워크(Preparedness Framework) 기준으로 처음으로 "사이버보안 고위험" 등급을 받은 모델이라고 발표됐다. 앤트로픽도 같은 달 출시한 클로드 오퍼스 4.6에 대해 코드베이스의 미발견 취약점을 탐지하는 이중 사용(dual-use) 역량을 공개 인정했다. 사이버보안 경고는 이제 최전선 AI 모델 출시의 의례가 되고 있다.
AI 기업이 자기 모델의 위험을 먼저 말할 때
앤트로픽이 내부 초안에 쓴 경고 그러니까 "이 모델은 방어자의 속도를 앞지르는 공격 파도를 예고한다"는 표현은 유출이라는 경로를 통해 세상에 나왔지만, 그 문장을 쓴 것은 앤트로픽 자신이다. 의도했든 아니든, 초안이든 최종본이든, 앤트로픽은 자사 모델이 방어자보다 빠르게 취약점을 공격할 수 있다고 직접 서술했다. 이것이 뭐라고 해석해도 변함없는 사실이다.
그렇다면 질문은 이것이다. 이 경고는 어디까지 유효한가?
앤트로픽은 이에 대한 대응으로 마이토스의 초기 배포 전략을 사이버 방어 조직 중심으로 설계했다고 초안에서 밝혔다. "방어자에게 선제적으로 시간을 줘서 AI 기반 공격에 대비할 수 있게 하겠다"는 것이다. 공격 역량이 먼저 방어자의 손에 들어가야 방어가 가능하다는 논리다. 이 접근이 실제로 공격자보다 방어자에게 더 먼저, 더 균등하게 도달할 수 있을지는 얼리 액세스 조직의 구성과 보안 수준에 달려 있다. 그 구성이 공개되지 않는 한, 이 전략의 실효성은 검증되지 않은 채로 남는다.
설정 실수가 드러낸 구조
이 사건을 단순한 보안 사고로 읽으면 놓치는 것이 있다.
앤트로픽이 사용하던 콘텐트 관리 시스템은 업로드 즉시 공개 URL을 부여하는 것이 기본값이었다. 비공개로 유지하려면 사람이 직접 설정을 바꿔야 했다. 이 구조에서 인적 오류는 예외적 사고가 아니라 통계적으로 예측 가능한 결과다. 시스템이 안전을 기본값으로 설계하지 않는 한, 실수는 언젠가 반드시 일어난다. 실제로 유출된 3,000여 개의 자산 중에는 직원의 출산 휴가 관련 제목이 붙은 파일, 유럽 최고경영자 서밋의 초청 PDF까지 포함돼 있었다. 미발표 모델 초안만 유출된 것이 아니었다. 보안이 뚫린 것이 아니라, 보안이 설계되지 않았다.
이것은 앤트로픽만의 문제가 아니다. AI 역량 경쟁의 속도가 조직 내부의 보안 인프라 구축 속도를 앞지르고 있다. 더 빠르게 개발하고 더 빠르게 발표하고 더 빠르게 협업하는 과정에서 기본 설정을 확인하는 사람이 사라진다. 초안이 경고한 "AI 기반 공격 파도"처럼, 앤트로픽 자신의 개발 속도도 내부 보안 점검 속도를 앞질렀다. 경고한 위험을 경고한 주체가 먼저 실현한 셈이다.
이 구조는 앤트로픽이 나쁜 기업이기 때문에 생긴 것이 아니다. 가장 빠르게 달리는 기업일수록 자신이 달리는 바닥을 확인할 여유가 없다. 그리고 그 바닥에는 기본값이 "공개"로 설정된 콘텐트 관리 시스템이 있다.
열린 문은 닫혔다. 그러나 왜 그 문이 기본값으로 열려 있었는지에 대한 질문은 여전히 답을 듣지 못했다. / raylogue