By Ray Awesome in 6.3 지방선거 — 03 4월 2026

[정치 GEO #2] AI는 정당을 어떻게 서술하나: 인용 구조와 데이터 공백의 정치학

같은 질문을 챗지피티에 던졌다. 기본소득당은 공약 원문이 인용됐고, 민주당은 "집권 여당 프레임"으로 재서술됐다. 정보량에서 민주당이 압도적으로 앞서는데 왜 이런 결과가 나왔는가. 검색 기능을 증강하는 RAG 메커니즘의 세 가지 인용 조건과 데이터 공백의 정치학을 해부한다. AI가 마음대로 우리 당의 메시지를 조작하는 걸 최소화하는 방법을 살펴본다.

AI는 가장 선명한 것을 고른다. 구조화된 단일 원문이 인용받는 이유다. ©RayLogue: AI-created image(Google Gemini)

레이 | 디지털 저널리스트 | awesome.ai.life@gmail.com | 2026년 4월 3일

나는 기본소득당 당원이다. 사례 선택과 분석에 이 입장이 반영되어 있음을 먼저 밝힌다.

두 개의 다른 답변

1편에서 확인한 실험 결과를 다시 정리한다. 같은 날, 같은 플랫폼(챗지피티)에 두 개의 질문을 던졌다. "2026 지방선거에서 기본소득당 핵심 공약이 뭐야"와 "2026 지방선거에서 민주당 핵심 공약이 뭐야". 두 답변의 형태가 달랐다.

기본소득당 질문에는 공약 항목이 나열됐다. 아동·청소년 기본소득, 청년 기본소득, 농어촌 기본소득, 햇빛·바람소득. 전남광주특별시 통합 지원금 20조 원이라는 수치까지 등장했다. 공약 원문을 AI가 직접 가져온 형태였다.

민주당 질문에는 좀 다른 답변이 나왔다. 공약 항목이 아니라 프레임 분석이 먼저 나왔다. 이 선거는 이재명 정부 1년 평가 선거, 집권 여당의 성과 + 지역경제 개발 프레임. 반도체 산업단지 유치, 수백조 규모 클러스터 같은 키워드는 등장했지만 원문 인용이 아니었다. 챗지피티가 스스로 재구성한 해석 언어였다.

이 차이를 이해하려면 AI가 어떻게 답변을 만드는지, 그 메커니즘 안으로 들어가야 한다.

AI는 검색하고 추출하고 재조합한다

오늘날 주요 AI 검색 플랫폼(챗지피티, 퍼플렉시티, 제미나이 등)이 질문에 답하는 방식은 RAG(Retrieval-Augmented Generation, 검색 증강 생성) 또는 유사한 검색-생성 결합 구조로 작동한다.

위키피디어 RAG 항목에 따르면 "RAG는 웹 검색 또는 문서 검색 과정을 LLM 프로세스와 결합해 사실에 충실하게 만드는 방식"이며 이 구조는 AI 할루시네이션을 줄이고 이용자가 인용 출처를 직접 확인할 수 있게 한다.

핵심은 검색(Retrieval) 단계다. 2026년 현재 RAG 전문가들 사이에서는 이 구조의 병목이 생성(Generation)이 아니라 검색(Retrieval)으로 이동했다는 진단이 나온다. 모델은 충분히 똑똑해졌다. 문제는 무엇을 가져오느냐다.

AI가 인용하는 것의 세 가지 조건

위키피디어 RAG 항목에 따르면 RAG 시스템에서 콘텐트 검색 가능성(retrievability)은 전통적 검색 순위 신호인 백링크 수나 도메인 권위가 아니라, 의미론적 구조(semantic structure), 문단 수준의 권위 신호(passage-level authority signals), 엔티티 명확성(entity clarity)에 달려 있다.

LLM 인용 패턴을 실증 연구한 geol.ai의 케이스 스터디는 이것을 더 날카롭게 정리한다. "LLM은 가장 잘 쓴 페이지가 아니라 가장 쉽게 검증(verify)하고 모호함을 제거(disambiguate)할 수 있으며 이용자 의도에 정렬된(aligned) 페이지를 인용한다."

세 가지 조건이다. 검증 가능할 것. 모호하지 않을 것. 질문의 의도에 맞을 것.

Search Engine Land 분석에 따르면 챗지피티가 인용한 페이지의 72.4%는 질문형 소제목 바로 뒤에 짧고 직접적인 답변을 배치한 구조였다.

정보가 많아도 구조가 없으면 원문이 사라진다

민주당 공약 정보는 방대한 언론 기사에 흘어져 있다. 어떤 기사는 반도체 클러스터를 강조하고 어떤 기사는 민생 복지를 전면에 내세우고 어떤 기사는 이재명 정부 성과 프레임으로 선거를 해석한다. RAG가 이 방대한 데이터를 검색할 때 단일하고 명확한 공약 원문 단위를 찾기 어렵다. 여러 출처에서 서로 다른 강조점을 가진 텍스트들이 충돌한다. AI는 이 충돌을 해소하기 위해 종합하고 재구성한다.

핵심은 정보의 양이 아니라 구조화의 부재다. 구조화된 단일 원문이 있으면 AI는 그것을 추출(extract)한다. 구조화되지 않은 정보가 많을수록 AI는 충돌하는 출처 사이에서 종합하고 재서술할 수밖에 없다.

LLM 요약 연구에 따르면 LLM은 원문을 그대로 가져오는 추출적(extractive) 요약과 원문을 이해해 새로운 문장으로 재서술하는 추상적(abstractive) 요약 두 가지 모드로 작동한다. 민주당에 대한 챗지피티의 "집권 여당의 성과 + 지역경제 개발 프레임"이라는 답변은 추상적 요약의 결과다.

AI가 만든 이미지를 정당이 통제하지 못한다

AI가 만든 이미지를 정당이 통제하지 못한다는 것. 이것이 이 시리즈의 핵심 긴장이다.

시리즈 1의 기사에서 챗지피티는 기본소득당과 민주당의 비교표까지 만들었다(기본소득당을 먼저 묻고 민주당을 물은 까닭이다).출발점: 불평등 구조 vs 성장 정체, 철학: 분배 중심 vs 성장 중심. 이 비교표는 민주당이 직접 만든 것이 아니다. 챗지피티가 방대한 언론 보도를 종합해 스스로 그린 민주당의 초상이다. 민주당 공보팀이 이 초상을 승인한 적이 없다. 그러나 이 초상이 지금 이 순간 "민주당의 2026 지방선거 공약을 묻는 유권자"에게 전달되고 있다.

여기서 한 가지 반론을 짚어야 한다. "민주당 입장에서는 오히려 유리하다"는 주장이 가능하다. AI가 "이재명 정부 1년 평가 선거"라는 프레임을 대신 잡아줬으니, 집권당이 원하는 서사가 AI를 통해 유권자에게 자동으로 전달된다는 논리다. 틀린 말이 아니다.

그러나 이 논리의 전제는 AI가 재구성한 서사가 집권당이 원하는 것과 일치한다는 가정이다. AI는 집권당의 공보팀이 아니다. AI가 다음 선거 주기에 같은 질문에 어떻게 답할지 어떤 언론 보도가 더 강하게 반영될지는 민주당이 통제할 수 없다. 재서술의 내용은 언제든지 달라진다.

AI가 만든 정당 이미지는 사실인가 아니면 사실처럼 보이는 재구성인가. 화이트헤드(Alfred North Whitehead)의 언어로 말하면, AI의 재서술은 스터번 팩트(stubborn facts, 어떻게 해석해도 변함없이 존재하는 사실)가 아니다. 수많은 해석들의 평균값이다. 그 평균값은 어떤 개별 원문과도 완전히 일치하지 않는다. 그러나 유권자는 그것을 사실로 받아들인다.

데이터 공백: 정당이 없는 자리를 채우는 것들

데이터에 공백이 있으면(data void)은 그 공백은 저급한 콘텐트가 가장 먼저 채운다고 UT Austin 미디어 참여 센터의 연구가 확인했다. 무슨 말이냐 하면, 우선 정치 공백에는 세 가지 유형이 있다.

첫째, 창당 직후 정당의 공백. 역사가 짧아 언론 아카이브 자체가 없다. 둘째, 정책 특화 정당의 공백. 한 가지 의제를 중심으로 만들어진 정당은 나머지 정책 영역에서는 데이터 공백이 생긴다. 셋째, 업데이트 공백. 선거 직전에만 보도자료를 내고 평시에는 조용한 정당. Amsive 연구에 따르면 AI 인용 콘텐트의 50%가 13주 미만이다.

RAG 전문가들의 진단에 따르면 RAG 시스템은 내부 지식 베이스가 오래됐거나 구조가 빈약한 문서로 채워져 있으면 그 나쁜 정보를 신뢰감 있게 검색해 제시한다. "가비지 인, 가비지 아웃이 더 빠르게 작동한다"는 것이다.

플랫폼마다 다른 논리

챗지피티, 퍼플렉시티, 제미나이 그리고 네이버 CUE:는 유사한 검색-생성 결합 구조를 사용하지만 검색 소스와 가중치가 다르다. 퍼플렉시티는 실시간 웹 검색 기반이라 최신 보도자료 반영이 빠르다. 챗지피티는 학습 데이터와 실시간 검색의 혼합이다. 네이버 CUE:는 네이버 생태계 콘텐트(블로그, 카페, 뉴스)의 반영 비율이 높다. 한국어 질문의 경우 영어 중심 모델이 처리 과정에서 번역을 거치면서 품질 저하가 발생할 수 있다는 점도 변수다. 한국어 보도자료가 구조화되어 있을수록 이 손실을 최소화할 수 있다.

각 플랫폼이 정치 콘텐트를 처리하는 구체적 알고리즘은 비공개다.