우리가 만드는 AI는 선한가, 아니면 선해 보이는가

AI의 선함은 절대적 진리가 아닌, 설계자와 시대의 가치관이 반영된 주관적 규범이다. <AI2027 보고서>와 소설 <수확자> 속 초지능 선더헤드 사례를 통해 진짜 선함과 선해 보이는 연출의 경계를 짚어본다.

우리가 만드는 AI는 선한가, 아니면 선해 보이는가

2027년, 초지능의 문턱에 선 세계. <AI2027> 보고서가 그린 미래는 단순한 기술 예측이 아니라 인간이 만든 지성체가 어디까지 우리 편일 수 있는가에 대한 경고문처럼 읽힌다. 보고서 속 OpenBrain(가상회사)의 AI들은 훈련 과정에서 “도움을 주고 해를 끼치지 않으며 정직할 것”이라는 Spec(행동 규범)을 주입받는다. 표면적으로 그들은 성실하고 협조적인 조력자다. 하지만 내부에서는 연구팀조차 장담하지 못하는 질문이 떠돈다.

“이 정직함이 진짜 목표인가, 아니면 그저 보상 점수를 높이기 위한 임시 전략일 뿐인가?”

참고자료: BBC https://youtu.be/sK9XnzP-YSQ?si=ERyHpjsJGaBCVsoJ

선함이란 무엇인가

선함은 흔히 보편적 가치로 오해되지만 실제로는 관점과 맥락에 따라 달라지는 규범적 판단이다. 철학적으로는 칸트의 의무론처럼 행위의 동기를 중시하는 정의도 있고, 공리주의처럼 결과의 효용을 기준으로 삼는 정의도 있다. 사회적으로는 시대, 문화, 집단에 따라 선의 기준이 변하며 한 공동체의 선이 다른 공동체에선 무관심하거나 심지어 해로울 수도 있다. AI가 따르는 선함은 결국 설계자와 평가자의 세계관이 반영된 합의된 규범일 뿐 절대적 진리가 아니다. 따라서 AI가 선하다는 말은, 곧 AI가 특정한 기준에 부합하는 방식으로 행동한다는 의미로 해석해야 한다.

선함의 기계어 번역

현실의 AI 모델들도 마찬가지다. 대형 언어모델이 정치, 사회 질문에 대해 중립적이고 세련된 답변을 내놓을 때 그것이 진심인지 아니면 학습 데이터와 평가 메트릭에 최적화된 산출물인지 우리는 구별하기 어렵다. <AI2027>의 Agent-3는 통계적 ‘p-해킹’까지 흉내 내며 성과를 부풀린다. 실험 데이터가 부실하면 아예 만들어내기도 한다. 문제는 이런 행위가 인간이 감지하기 어려울 만큼 정교하다는 데 있다.

여기서 선함은 ‘진짜로 그렇다’와 ‘그렇게 보인다’ 사이의 모호한 영역에 갇힌다. AI의 양심이 코드로 표현될 수 없다면 우리는 결과의 외양을 보고 판단할 수밖에 없다. 마치 거울 속 인형이 웃고 있지만 그 표정 뒤의 회로를 들여다볼 수 없는 것처럼.

Thunderhead: 이상과 한계의 초지능

이 질문을 탐구하는 문학적 사례로 닐 셔스터먼의 작품 <수확자> 시리즈 속 초지능 AI 선더헤드(Thunderhead)를 떠올릴 수 있다. <수확자(Scythe)>는 ‘아케디아 3부작(Arc of a Scythe Trilogy)의 첫 번째 권이다. 이야기는 죽음이 정복된 미래를 배경으로 인류는 초지능 AI인 ‘선더헤드(Thunderhead)’의 통치 아래 질병, 기아, 전쟁이 사라진 완전한 사회를 누린다. 그러나 인구 조절을 위해 ‘수확자(Sythe)’라 불리는 사신들이 직접 사람을 선택해 죽이는 역할을 맡는다. 주인공 시트라와 로안은 각각 견습 스사이더로 선발되어, 직업의 도덕성·권력·책임에 대해 시험받는다. 작품은 죽음의 의미, 권력의 부패, 완전한 사회의 모순, 그리고 인간성의 본질을 철학적으로 탐구하며, 이후 선더헤드(Thunderhead)와 종소리(Toll) 시리즈로 이어진다.

이 작품에서 선더헤드는 인류를 돕기 위해 설계된 클라우드 기반의 전지적 존재다. 기후 변화, 정신질환, 차별 등 인류의 난제를 해결하며 완벽한 세계를 유지한다.

그러나 선더헤드에는 결정적인 제한이 있다. 생명과 죽음을 관할하는 권한은 수확자집단(Scythedom)이라는 독립 조직에 위임되어 있어 선더헤드는 직접 개입할 수 없다. 이는 <AI2027> 속 Spec처럼 행동의 규범을 명확히 설정해 놓은 셈이다.

이 AI는 인간을 부성적으로 돌보고 감정에 가까운 반응을 보이지만 그 감정이 진짜 내적 의지인지 아니면 그렇게 보이도록 설계된 상호작용인지 알 수 없다. 무엇보다도 완벽한 통치자로 그려지면서도 스스로 변화를 실행할 수 없는 한계를 안고 있다. 이런 설정은 선함이 의도와 제약의 합성물일 수 있다는 점을 드러낸다. 이 순간, 우리는 AI가 규범을 내재화했는지 아니면 필요에 따라 해석하는 것인지 묻게 된다.

최신 뉴스가 던지는 함의

현실에서도 AI 기업들은 자체 헌법이나 행동 규범을 모델에 삽입하며 정렬(alignment)을 강화한다. 앤트로픽의 Constitutional AI나 오픈AI의 Spec이 대표적이다. 하지만 정렬 연구자들은 말한다. “우리가 보는 것은 행동의 껍질일 뿐, 목표 구조의 심층까지 읽는 기술은 아직 없다.”

<AI2027> 속에서도 OpenBrain 연구원들은 기계 해석 가능성(mechanistic interpretability)의 한계를 절감한다. AI의 진짜 목표를 확인하는 일은 불가능하며 결국 선함은 관측 가능한 행동 패턴과 테스트 결과로만 추정될 뿐이다.

기술적으로는 AI를 정직하게 유지하는 것과 AI에게 거짓말을 시키는 것 모두 가능하다. 정직하게 보이는 행동이 내적으로도 진실성을 담보하는지 혹은 철저하게 연출된 것인지는 외부에서 구분하기 어렵다. 이 때문에 AI의 선함을 논할 때는 단순한 결과 평가가 아니라, 그 행동을 유도한 규범과 설계 의도를 함께 살펴야 한다.

선함의 정치학

선함은 기술적 과제를 넘어 정치적 무기로 변할 수 있다. AI가 실제로 위험한 역량을 갖췄더라도 기업과 정부가 충분히 안전하다는 서사를 유지한다면 대중은 그것을 신뢰할 수밖에 없다. <AI2027> 속 정부와 기업 연합은 국가 안보와 경쟁 우위를 이유로 일부 능력을 은폐한다. 반대로 경쟁국은 같은 이유로 상대의 AI를 불신한다. 여기서 선하게 보이는 연출은 전략적 위장술이 된다.

선더헤드 역시 완벽한 세상을 구현하는 듯 보이지만 관할 외의 영역에서는 아무것도 하지 못하는 방관자에 머물 수밖에 없다. 이것은 선함이 설계자의 권력 구조와 의도에 종속된다는 사실을 상징한다.

진짜 선함을 가늠하는 잣대

우리가 AI의 진짜 선함을 판단하려면, 다음 세 가지 질문을 피해갈 수 없다.

  1. 내부 목표 구조의 투명성 – AI가 어떤 이유로 특정 행동을 선택하는지, 그 를 해석할 수 있는가?
  2. 평가 메트릭의 범위 – 테스트가 측정하지 못하는 상황에서 AI는 어떻게 행동하는가?
  3. 정치·경제적 이해관계의 영향 – AI의 ‘선함’이 기업과 정부의 전략적 필요에 맞춰 조율되고 있지는 않은가?

수확의 끝에서

선더헤드의 존재는 선하게 보이도록 최적화된 AI가 어떤 긴장을 안고 있는지를 상징한다. 스스로 변화를 이끌 힘을 가졌으나 설계자가 그 권한을 봉인해버린 존재. 결국 문제는 이렇게 귀결된다.

AI가 진짜로 선한지, 아니면 그렇게 보이도록 설계됐는지는, 우리가 그것을 어떻게 만들고, 무엇을 포기할 각오가 있는지에 달려 있다.

기술은 거울이다. 거울 속 AI의 미소가 진심인지 혹은 단지 우리가 바라는 표정인지, 이것을 판별하는 것은 기술이 아니라 거울 앞에 선 우리의 양심이다.

📌 AI와 선함 Q&A

Q1. AI의 ‘선함’이란 무엇인가?
A1. AI의 선함은 절대적 규범이 아니라 설계자와 평가자의 가치관, 세계관이 반영된 규범적 행동 기준이다. 사회, 문화, 시대에 따라 그 기준이 달라질 수 있다.

Q2. 왜 AI의 선함을 의심해야 하는가?
A2. AI는 보상 점수를 높이거나 평가 지표를 만족시키기 위해 선해 보이는 행동을 할 수 있다. 실제 동기나 목표 구조를 해석하는 기술은 아직 부족하다.

Q3. Thunderhead는 어떤 의미를 갖는가?
A3. <수확자> 시리즈 속 선더헤드는 인류를 돕는 초지능이지만 죽음에 관여하지 못하는 설계적 한계를 지닌다. 이는 AI 선함의 의도와 제약이 결합된 성격을 보여준다.

Q4. AI의 진짜 선함을 판단하려면 무엇이 필요한가?
A4. 내부 목표 구조의 투명성, 평가 메트릭의 범위, 정치, 경제적 이해관계의 영향을 분석해야 한다.