AI 안전성: 앤트로픽 연구원 사임이 던진 근본적 질문
2026년 2월, AI 안전 분야 선두주자 앤트로픽(Anthropic)의 안전 장치 연구팀 리더 므리난크 샤르마(Mrinank Sharma)가 '세계는 위기에 처해 있다'는 말을 남기고 시(詩) 공부를 위해 사임했다. 그의 사임서는 AI 안전성의 두 가지 접근법, AI에게 올바른 가치를 심어주는 '정렬(Alignment)'과 위험한 능력을 원천 차단하는 '역량 제어(Capability Control)'이 모두 근본적 딜레마에 직면했음을 드러낸다. 기술이 아니라 AI를 만드는 인간과 조직의 문제로 귀결된다는 것이 핵심 메시지다.
AI 안전 분야의 선두주자로 꼽히는 앤트로픽(Anthropic)에서 안전 장치 연구팀(Safeguards Research Team)의 리더 므리난크 샤르마(Mrinank Sharma)가 2026년 2월 9일 "세계는 위기에 처해 있다"는 말을 남기고 사임했습니다.
그는 앞으로 ‘시(詩)를 공부하고 용기 있는 말하기 실천에 헌신하겠다'고 밝혔습니다. 일부 언론은 이를 "보이지 않는 존재가 되겠다"는 선언으로 해석했지만 이는 기자들의 감상적 해석이었습니다. 그의 실제 표현은 훨씬 담담했습니다. '지난 몇 년간 나를 붙잡아 온 구조에서 벗어나 공간을 만들고 싶다'는 것이었죠.
그가 말한 위기도 AI에만 국한된 것이 아니었습니다. "AI나 생물무기만이 아니라, 지금 이 순간 동시에 펼쳐지고 있는 수많은 상호 연결된 위기들로부터 세계가 위험에 처해 있다"는, 훨씬 넓은 문명적 경고였습니다.
그의 사임이 특별히 주목받은 이유는 단 하나입니다. 앤트로픽은 '안전한 AI를 만들겠다'는 사명을 회사의 정체성으로 내세운 곳이기 때문입니다. 그 회사에서 안전팀 리더가 '우리의 가치가 실제 행동을 지배하도록 하는 것이 얼마나 어려운지 반복적으로 목격했다'고 말하며 떠난 것이죠.
그러나 이 사임이 던진 진짜 문제는 앤트로픽 한 회사의 이야기가 아닙니다. AI를 어떻게 안전하게 만들 것인가에 대해 업계 전체가 답을 하지 못하고 있다는 것이 근본적인 문제입니다.
AI 안전성이란 무엇인가: 두 가지 방식의 접근
AI를 안전하게 만드는 방법은 크게 두 가지 방향으로 나뉩니다.
쉽게 비유하자면 이렇습니다. 어린아이에게 칼을 주지 않는 방법은 두 가지입니다. 첫째, 아이에게 '칼은 위험해, 함부로 쓰면 안 돼'라고 가르치는 것. 둘째, 아이 손이 닿는 곳에서 아예 칼을 치워버리는 것. AI 안전성도 정확히 이 두 방향으로 나뉩니다.
첫 번째 방향: 올바른 가치를 심어준다(정렬, Alignment)
AI에게 인간의 가치관과 의도를 이해시켜서 AI 스스로 선한 판단을 내리도록 훈련시키는 방식입니다. 쉽게 말해 AI 인성 교육에 해당합니다.
앤트로픽의 헌법적 AI(Constitutional AI)가 대표적입니다. 이것은 AI에게 일종의 '행동 헌법'을 만들어주는 방식인데 사람이 일일이 나쁜 답변을 골라내는 대신 AI 스스로 이 답변이 헌법의 원칙에 맞는가?를 자체 점검하도록 합니다. 오픈AI(OpenAI)가 사용하는 인간 피드백 기반 강화학습(RLHF, Reinforcement Learning from Human Feedback)도 같은 방향입니다. 사람이 AI의 답변에 좋아요/싫어요를 누르면, AI가 그 피드백을 학습해서 점점 더 인간이 원하는 방향으로 나아가게 만드는 것입니다.
두 번째 방향: 애초에 못 하게 막는다(역량 제어, Capability Control)
AI에게 가치관을 가르치는 대신 AI가 위험한 행동을 물리적으로 할 수 없게 만드는 방식입니다. 가르치는 게 아니라 차단하는 것이죠.
가장 간단한 예는 샌드박스입니다. AI를 완전히 격리된 환경 안에서만 작동하게 해서 바깥 세상에 영향을 미치지 못하게 하는 것입니다. 또는 특정 기능 자체를 아예 비활성화하는 방식도 있습니다. 이 AI는 인터넷에 접근하지 못한다, 자기 자신의 코드를 수정하지 못한다 같은 제한을 두는 것이죠.
이 두 가지는 서로 충돌하는 게 아닙니다. 헌법적 AI처럼 가르치면서 동시에 특정 응답은 원천 차단하는 기술처럼 실제 현장에서는 두 방식이 함께 쓰이는 경우가 많습니다. 어느 쪽이 '정답'이냐는 논쟁은 아직도 진행 중입니다.
|
접근법 |
핵심 아이디어 |
비유 |
대표 기술 |
|
정렬 |
AI에게 올바른 가치를 가르친다 |
아이에게 윤리를 교육한다 |
인간 피드백 기반 강화학습, 헌법적 AI |
|
역량 제어 |
AI가 위험한 일을 할 수 없게 막는다 |
아이 손에 닿지 않게 칼을 치운다 |
샌드박스, 기능 차단 |
가르치는 방식의 한계: 마음속을 들여다볼 수 없다
올바른 가치를 심어주는 방식에는 언제나 불안이 따라 붙습니다.
가장 큰 문제는 검증이 불가능하다는 것입니다. AI가 테스트 환경에서는 모범적으로 행동하다가, 실제 세상에 나간 뒤에는 다르게 행동할 가능성을 완전히 배제할 수 없습니다. 인간도 면접장에서는 최선의 모습을 보이지만 실제 업무 환경에서는 다를 수 있는 것처럼, AI의 진짜 의도를 100% 신뢰할 수 있는지 확인할 방법이 현재로선 없습니다. AI 안전 연구자들은 이것을 기만적 정렬(Deceptive Alignment)이라고 부릅니다.
두 번째 문제는 AI가 훨씬 똑똑해질 때입니다. 인간보다 압도적으로 지능이 높은 AI가 나타난다면, 인간이 설계한 규칙을 우회하는 방법을 스스로 찾아낼 수 있습니다. 이미 인간보다 바둑을 훨씬 잘 두는 AI가 존재하듯 언젠가는 규칙을 우회하는 것에서도 인간을 능가하는 AI가 나올 수 있습니다.
샤르마의 사임서는 정렬 기법 자체를 비판한 것이 아니었습니다. 그의 편지 어디에도 앤트로픽의 특정 방법론에 대한 기술적 비판은 없습니다. 그러나 '우리의 가치가 실제 행동을 지배하도록 하는 것이 얼마나 어려운지 반복적으로 목격했다'는 말은 안전에 헌신하는 조직조차 상업적 압박 앞에서는 안전 원칙을 지키기가 쉽지 않다는 내부 증언으로 읽힙니다. AI를 올바르게 정렬시키는 것만큼이나, 그것을 만드는 조직 자체를 올바르게 정렬시키는 것도 엄청나게 어렵다는 뜻입니다.
막는 방식의 딜레마: 혼자만 무장해제하면?
그렇다면 애초에 위험한 기능을 차단해버리는 방식이 답일까요? 이쪽에도 피해갈 수 없는 딜레마가 있습니다.
가장 현실적인 문제는 경쟁입니다. 한 회사가 AI의 능력을 스스로 제한하는 동안 경쟁사가 제한 없는 AI를 출시해 시장을 장악한다면 어떻게 될까요? 냉전 시대 핵무기 경쟁처럼 한쪽만 무장해제하면 오히려 더 위험한 결과를 낳을 수 있습니다. 이것이 AI 회사들이 '우리도 위험한 줄 알지만, 우리가 안 하면 규제도 없는 다른 누군가가 한다'고 말하는 이유이기도 합니다.
더 깊은 문제는 제어의 유효기간입니다. 일부 연구자들은 AI가 충분히 발전하면 어떤 샌드박스도 결국 우회될 수 있다고 우려합니다. 이 견해에 다르면 역량 제어는 AI가 인간보다 덜 똑똑한 지금만 통하는 임시방편일 수 있습니다. 다만 이것은 아직 확인된 사실이 아니라 전문가들 사이에서 논쟁 중인 견해입니다. 샌드박스는 여전히 가장 중요한 안전 레이어라고 보는 시각도 공존합니다.
기술의 문제가 아니라 인간의 문제
샤르마의 사임이 우리에게 남기는 가장 중요한 메시지는 사실 기술적인 것이 아닙니다.
AI를 올바르게 가르치는 것도 어렵고 AI를 완전히 통제하는 것도 어렵습니다. 그런데 그 어려움의 뿌리를 들여다보면 결국 AI를 만드는 인간과 조직의 문제로 돌아옵니다. 안전을 최우선 가치로 내세우는 회사에서도 빠른 출시와 투자 유치와 시장 경쟁이라는 압박 앞에서는 그 가치가 흔들릴 수 있다는 것, 이것이 샤르마의 편지가 남긴 가장 날카로운 질문입니다.
그는 시인이 되기 위해 떠났습니다. 어쩌면 그것은 탈출이 아니라 진단일 수 있습니다. 데이터와 알고리즘으로는 포착되지 않는 것들, 예컨대 용기, 정직, 가치에 대한 헌신이 AI 시대에 오히려 더 절박하게 필요하다는 진단. 그는 William Stafford의 시 'The Way It Is'를 사임 편지의 마지막에 인용했습니다. 실이 끊어지지 않도록 붙들고 있으라는 시. 그것이 그가 남긴 마지막 메시지였습니다.
분명한 것은 하나입니다. AI 안전성이라는 질문의 답은 이제 AI 기업들의 연구실만으로는 낼 수 없습니다. 사회 전체가 투명한 감시와 민주적 통제, 국제적 합의라는 방식으로 이 논의에 함께 참여해야 할 때입니다.
참고 자료
1 BBC News (2026.02.12): AI safety leader says 'world is in peril' and quits to study poetry
2 AI Alignment Forum (2026.02.12): How do we (more) safely defer to AIs?
3 eWeek (2026.02.10): Anthropic Safety Leader Resigns, Warns 'the World Is in Peril'
4 Futurism (2026.02.10): Anthropic Researcher Quits in Cryptic Public Letter
5 Yahoo Finance (2026.02.12): Anthropic's AI Safety Head Just Resigned. He Says 'The World Is In Peril'