GEO의 역설: AI 시대 기업 뉴스룸, 열어야 하나 닫아야 하나

챗지피티, 클로드, 제미나이 등 생성형 AI가 기업 정보의 원천이 된 시대, 기업 뉴스룸 운영자는 역설적 딜레마에 빠졌다. AI에게 데이터를 열어야 정확하게 인용되지만 열면 방문자가 사라지고 닫으면 확산이 안된다. AI는 기업 보도자료를 고작 1%만 인용하고, robots.txt는 미국 법원 판결로 법적 효력이 없음이 확인됐으며, 한국엔 AI 학습 관련 저작권 기준조차 없다. 전면 개방도 전면 차단도 아닌, 콘텐트 유형에 따른 '선택적 개방' 전략과 AI 인용 우회 경로는 무엇일까.

열린 금고에서 데이터가 AI로 흘러나가고, 닫힌 금고 옆에 자물쇠가 걸린 이중 구도의 디지털 일러스트레이션
AI는 기업의 콘텐트를 가져가지만 방문자는 돌려보내지 않는다. 열어야 보이고, 닫아야 지킨다. 2026년 기업 홍보의 딜레마. ©RayLogue: AI-created image(Midjourney)

레이 | 디지털 저널리스트 | awesome.ai.life@gmail.com | 2026년 3월 12일

AI 시대 기업 뉴스룸 생존 전략 시리즈 1편

2025년 7월, 클라우드플레어(Cloudflare)는 전 세계 웹 트래픽의 약 20%를 관리하는 자사 인프라에서 AI 크롤러를 기본 차단하는 정책을 시행했다. 같은 달, 30년간 기업 콘텐트 업계에서 일을 한 나는 정반대의 고민을 하고 있었다. "챗GPT가 클라이언트 이름을 언급할 때 정확한 정보를 말하게 하려면 오히려 데이터를 더 열어야 하는 거 아닌가?" 닫는 자와 여는 자. 2026년 봄, 기업 뉴스룸 운영자들은 이 모순의 한가운데에 서 있다.

'데이터를 더 열어야 한다'는 것은 구체적으로 무엇인가?

생성형 AI가 "이 기업의 AI 서비스는?"이라는 질문에 정확한 최신 정보를 답하려면 학습 데이터에 해당 기업의 공식 콘텐트가 포함되어 있어야 한다. 학습 데이터에 없으면 AI는 오래된 정보를 답하거나, 다른 출처의 부정확한 정보를 조합한다. 둘 다 기업에게는 재앙이다. 그래서 '데이터를 연다'는 것은 다음 네 가지 액션을 가리킨다.

① 크롤링 허용: robots.txt에서 GPTBot·ClaudeBot을 차단하지 않고, 뉴스룸의 주요 페이지를 AI 봇이 읽을 수 있도록 허용한다. ② 콘텐트 구조 정비: AI가 학습하기 좋은 형태로 콘텐트를 재구성한다. 페이지 상단에 핵심 팩트를 명확한 정의문으로 배치하고, 메타데이터(schema markup, JSON-LD)에 기업명, 제품명, 날짜, 수치를 명시하고, FAQ 구조로 공식 답변을 마련한다. ③ API를 통한 정제 데이터 제공: HTML을 봇이 긁어가게 방치하지 않고, 기업이 직접 정제한 데이터를 API로 제공하며, 응답에 브랜드 출처(citation metadata)를 강제 삽입한다.

GEO(생성형 검색 엔진 최적화, Generative Engine Optimization)는 AI 검색 엔진이 콘텐트를 인용하도록 구조를 설계하는 기법이다. 프린스턴대학교, 조지아텍, IIT델리, 앨런AI연구소 공동 연구팀이 2024년 KDD 학회에서 발표한 GEO 논문에 따르면 출처 인용(citation), 통계 삽입, 전문가 인용문 포함 등의 최적화 기법을 적용하면 생성형 엔진에서 콘텐트 가시성이 최대 40%까지 상승한다. 이 수치 하나가 마케팅 업계를 뒤흔들었다. 2026년 현재, GEO는 기업 디지털 마케팅의 최우선 화두가 되었다.

그런데 여기에 묘한 긴장이 있다. GEO가 작동하려면 AI가 우리 콘텐트에 접근할 수 있어야 한다. 크롤러가 읽을 수 있어야 학습하고, 학습해야 인용한다. 문을 열어야 보인다. 그러나 동시에 2025년 8월 발효된 EU AI법(EU AI Act) 제53조는 범용 AI(GPAI) 모델 제공자에게 저작권법 준수 의무를 부과했고, 2026년 8월부터는 위반 시 연 매출의 3% 또는 1,500만 유로 중 큰 금액을 과징금으로 집행할 수 있게 된다. 문을 닫아야 지킨다. 열림과 닫힘의 명령이 동시에 울리고 있다.

이것이 내가 'GEO의 역설'이라고 부르는 상황이다.

비대칭의 풍경: 가져가는 자와 내어주는 자

이 역설의 규모를 체감하려면 숫자를 봐야 한다. 클라우드플레어(Cloudflare)가 자사 네트워크(전 세계 웹 트래픽의 약 20%)를 분석한 2025년 보고서에 따르면 AI 봇의 크롤링 대 레퍼럴(유입 트래픽) 비율은 극단적 비대칭을 보인다. 구글은 14:1이다. 14번 긁어가면 1번 유입을 돌려준다는 뜻이다. 오픈AI(OpenAI)는 1,700:1. 앤스로픽(Anthropic)은 2024년 기준 73,000:1에 달했으며, 2025년에도 수만:1 수준의 비대칭이 지속되고 있다.

이 숫자가 의미하는 바는 단순하다. 전통적 검색 엔진은 가져가고 돌려주는 생태계를 유지했다. 구글이 콘텐트를 색인하면, 검색 결과 클릭을 통해 트래픽이라는 대가를 지불했다. 불완전하지만 교환은 존재했다. 생성형 AI는 이 교환 구조를 파괴했다. 가져가기만 하고 돌려주지 않는다. 클릭비전(Click Vision)의 2025년 통계에 의하면 AI 오버뷰(AI Overview)가 포함된 검색에서 제로 클릭 비율은 83%에 달한다. 이용자가 원문을 방문할 이유 자체가 사라지고 있다.

기업 뉴스룸 운영자에게 이 현실은 이중의 곤경이다. 뉴스룸의 존재 이유는 브랜드 메시지를 확산하는 것이다. AI가 우리 브랜드를 정확하게 언급해주면 최고의 홍보 효과를 거둘 수 있다. 그런데 그 효과를 얻으려면 AI에게 데이터를 제공해야 하고, 데이터를 제공하면 이용자가 뉴스룸에 방문할 필요가 없어진다. 확산은 되지만 방문은 소멸한다. 이 역설은 단순한 마케팅 전술의 문제가 아니라, 기업 콘텐트의 존재론적 질문이다.

그렇다면 AI가 기업 뉴스룸을 실제로 인용하는 비율은 얼마나 될까?

2025년 12월, 글로벌PR 분석 플랫폼 머크랙(Muck Rack)과 글로브뉴스와이어(GlobeNewswire)가 발표한 AI 인용 분석 보고서에 따르면 생성형 AI 인용의 94%가 비유료(non-paid) 소스에서 발생하며, 그중 82%가 언론 보도(Earned Media)다. 기업이 직접 발행하는 보도자료의 AI 인용 비율은 약 1%에 불과하고 그마저도 61%가 글로브뉴스와이어, 27%가 PR뉴스와이어 같은 상업 뉴스와이어를 경유한 것이다. 기업 자체 뉴스룸에서 직접 인용되는 비율은 사실상 미미하다.

이 데이터는 불편한 진실을 드러낸다. 기업 뉴스룸이 아무리 GEO를 최적화해도 AI가 주로 인용하는 것은 언론 보도다. 언론이 기업의 보도자료를 그대로 베껴도 기업의 직접 발화(owned media)가 아니라 언론이라는 매개를 거친 간접 발화(earned media)가 AI 시대에도 여전히 지배적이다. GEO 최적화에 올인하는 것만으로는 이 구조를 바꿀 수 없다.

robots.txt의 좌절: 예의는 법이 아니다

그렇다면 닫는 쪽은 어떤가. 문을 닫아 데이터를 지키려는 시도의 현주소를 들여다보자.

2025년 12월, 뉴욕 남부 연방지방법원의 시드니 스타인(Sidney H. Stein) 판사는 Ziff Davis v. OpenAI 사건에서 robots.txt 파일이 디지털밀레니엄저작권법(DMCA)상 '기술적 보호 조치(technological protection measure)'에 해당하지 않는다고 판결했다. 판사의 비유는 명쾌했다. robots.txt는 "잔디밭에 올라가지 마세요"라는 표지판과 같다. 접근을 요청할 뿐 차단하지는 않는다.

이 판결이 기업 뉴스룸에 던지는 함의는 심대하다. 대부분의 기업 뉴스룸이 AI 크롤링에 대응하는 첫 번째(그리고 종종 유일한) 조치가 robots.txt 수정이기 때문이다. 2025년 하반기 기준, 클로드봇(ClaudeBot)을 차단하는 사이트는 580만 개, GPT봇(GPTBot)을 차단하는 사이트는 560만 개로, 전년 대비 336% 증가했다. 그러나 동시에 AI 봇의 13.26%가 robots.txt를 아예 무시한다. 법적으로도 강제력이 없고 기술적으로도 우회당하는 방어선. 이것이 2026년 현재 닫는 전략의 실상이다.

robots.txt가 법적 보호 장치가 아니라는 사실, AI 봇의 상당수가 이를 무시한다는 사실, 이것들은 기업 뉴스룸 운영자가 얼마나 원하지 않더라도 직면해야 할 사실이다. 이 사실은 한국의 기업 뉴스룸에서도 동일하게 작동한다. 왜냐하면 한국 저작권법에는 아직 텍스트, 데이터마이닝(TDM, Text and Data Mining) 면책 조항 자체가 도입되지 않았고 따라서 AI 학습에 대한 저작권 침해 여부를 판단할 법적 기준 자체가 부재하기 때문이다. 한국 국회에 발의된 저작권법 TDM 개정안은 아직 통과되지 못한 상태이며, 문화체육관광부의 'AI-저작권 제도개선 협의체'는 운영 중이지만 입법 성과는 미지수다.

닫으려 해도 닫을 수 없고, 닫아도 법이 지켜주지 않는다. 이것이 '닫힘'의 현실이다.

열림도 닫힘도 아닌 제3의 경로: 조건부 개방의 설계

열면 착취당하고, 닫으면 보이지 않는다. 이 이항대립을 넘어서는 길이 있는가? 나는 선택적 개방(Selective Openness)이라는 프레임을 제안한다. 이것은 전면 개방도 전면 차단도 아닌, 콘텐트의 유형과 전략적 가치에 따라 개방의 수준을 차등 적용하는 접근이다.

그 첫 번째 축은 기술적 인프라다. 클라우드플레어가 2025년 7월 발표하고 2026년 상반기 공개 출시를 앞둔 페이-퍼-크롤(Pay-per-Crawl)은 사이트 운영자에게 AI 크롤러별로 허용(Allow), 과금(Charge), 차단(Block) 세 가지 선택지를 준다. 이것은 robots.txt의 '예의 기반 요청'을 넘어, 경제적 교환이 내장된 기술적 게이트웨이다. IAB 테크랩(IAB Tech Lab) 역시 AI 시대 퍼블리셔 수익화를 위한 CoMP(Content Monetization Protocols) 표준 개발에 착수했다. 콘텐트를 무상으로 긁어가는 시대에서, 콘텐트 접근에 가격표를 붙이는 시대로의 전환이 기술적으로 현실화되고 있다.

두 번째 축은 콘텐트 아키텍처의 재설계다. 모든 콘텐트를 동일하게 취급할 이유는 없다. 기업 뉴스룸의 콘텐트를 두 층위로 나눠야 한다. 첫째, 확산층(Distribution Layer)이다. 이것은 팩트 기반 보도자료, 제품 사양, 공식 입장문 등 AI가 정확하게 인용해주길 원하는 콘텐트를 가리킨다. 이 층위는 GEO 최적화를 극대화하고 크롤링을 적극 허용한다. AI의 입을 통해 브랜드 메시지가 정확하게 전달되는 것 자체가 이 콘텐트의 목적이다. 둘째는 심층층(Depth Layer)이다. CEO 에세이, 개발 비화, 현장 르포, 데이터 분석 리포트 등 인격적 고유성과 분석적 깊이가 담긴 콘텐트. 이 층위는 크롤링을 제한하고, 뉴스룸 직접 방문을 유도하는 설계를 한다.

이 2층 구조의 핵심은 "무엇을 열고 무엇을 닫을 것인가"에 대한 전략적 판단이다. 팩트는 열고, 해석은 닫는다. 정보는 확산시키고, 관점은 보호한다. AI가 가져갈 수 있는 것과 사람만이 경험할 수 있는 것을 구분하는 것이다.

세 번째 축은 출처 인증 인프라다. 콘텐트 출처 인증 국제 표준인 C2PA(Coalition for Content Provenance and Authenticity)는 2026년 들어 주류화 단계에 진입했다. C2PA 2.2 표준이 2025년 5월 발표되었고 ISO 패스트트랙이 진행 중이며 구글이 운영위원회에 합류하여 검색, 광고, 렌즈 서비스에 콘텐트 크리덴셜(Content Credentials)을 통합하고 있다. 기업 뉴스룸 관점에서 C2PA의 진짜 가치는 딥페이크 대응이 아니라, 자사 콘텐트가 AI에 의해 학습, 인용, 재가공되는 경로를 추적할 수 있는 메타데이터 인프라를 확보하는 것이다.

기업 뉴스룸이라는 특수한 존재

여기서 한 걸음 더 들어가야 할 질문이 있다. 기업 뉴스룸은 언론사와 같은 전략을 쓸 수 있는가?

대부분의 AI 저작권 담론은 언론사-AI 기업 구도로 전개된다. 뉴욕타임스가 오픈AI를 고소하고, 레딧이 앤스로픽을 고소하고, Ziff Davis가 오픈AI를 고소한다. 2025년 말 기준 AI 저작권 소송은 70건을 돌파했지만, 원고 목록에 기업 뉴스룸은 단 한 곳도 없다. 삼성 뉴스룸도, SKT 뉴스룸도, 어떤 기업 브랜드 미디어도 AI 학습에 대한 저작권 소송을 제기하지 않았다.

이유는 구조적이다. 기업 뉴스룸은 본질적으로 홍보 채널이다. 콘텐트의 목적이 확산인 매체가 확산의 도구(AI)를 상대로 "우리 콘텐츠를 가져가지 마라"고 소송하는 것은 자기모순에 가깝다. 그래서 기업 뉴스룸은 언론사의 닫힘 전략을 그대로 복제할 수 없다. 그렇다고 GEO 최적화에만 올인하는 전면 개방도 위험하다. AI 인용의 82%가 언론 보도를 경유한다는 데이터가 보여주듯, 기업 자체 뉴스룸의 직접 인용 비율은 미미하기 때문이다. GEO를 아무리 갈고닦아도, AI는 기업의 직접 발화보다 언론의 간접 발화를 더 신뢰한다.

이것을 기술의 문제로만 보면 본질을 놓친다.

AI가 언론 보도를 더 많이 인용하는 이유는 기술적 편향이 아니라 신뢰의 위계 때문이다. 생성형 AI의 학습 데이터와 인용 알고리즘은 제3자 검증을 거친 정보에 더 높은 가중치를 부여한다. 기업 뉴스룸의 콘텐트는 아무리 정확해도 '자기 이야기를 자기가 하는 것'이다. 언론 보도는 제3자가 검증하고 재구성한 것이다. 이 신뢰의 격차를 기술적 최적화만으로 메울 수는 없다.

그래서 기업 뉴스룸의 진짜 GEO 전략은 자체 콘텐트의 최적화가 아니라, 자사 뉴스룸이 언론 보도의 '1차 출처(primary source)'가 되도록 설계하는 것이다. 기자들이 우리 뉴스룸의 팩트를 인용하여 기사를 쓰고, 그 기사를 AI가 인용하는 삼각 구조. 이 우회 전략은 82%의 Earned Media 인용 데이터와 논리적으로 정합하지만, 이 경로가 실제로 기업 뉴스룸의 AI 인용률을 높였다는 실증 데이터는 아직 축적되지 않았다. 그럼에도 이 우회로가 기업 뉴스룸에게 가장 현실적인 AI 인용 전략이라고 판단하는 이유는, 현재의 AI 인용 구조가 제3자 검증 기반의 신뢰 위계 위에 작동하기 때문이다. 그리고 이 우회로가 작동하려면, 기업 뉴스룸은 홍보 문구가 아니라 언론이 인용할 만한 팩트 그러니까 독자적 데이터, 1차 조사 결과, 전문가 분석 등을 생산해야 한다.

구조의 문제: 누가 이 역설의 비용을 지불하는가

GEO의 역설은 기업 뉴스룸 운영자 개인의 전략적 딜레마처럼 보이지만, 그 배후에는 더 큰 구조적 비대칭이 작동하고 있다.

AI 기업은 콘텐트를 가져가서 수익을 창출한다. 오픈AI의 기업 가치는 2024년 10월 1,570억 달러에서 출발하여 2025년 10월에는 5,000억 달러에 도달했다. 그 가치의 상당 부분은 웹에서 수집한 학습 데이터의 품질에 기반한다. 그러나 그 데이터를 생산한 퍼블리셔들 예컨대 언론사든, 기업 뉴스룸이든, 개인 블로거든 그 가치 창출에 대한 보상을 거의 받지 못하고 있다. 차트비트(Chartbeat) 데이터에 따르면 2,500개 뉴스 사이트의 구글 검색 유입이 2025년에 33% 감소했다. 일부 퍼블리셔는 트래픽의 90%를 잃었다.

페이-퍼-크롤이나 라이선싱 딜은 이 비대칭을 일부 교정하려는 시도다. 2025년에 메타, 오픈AI, 구글은 AP, 가디언, 워싱턴포스트 등 주요 언론사와 콘텐트 라이선싱 계약을 체결했고, 뉴스코프(News Corp)와 메타의 딜은 업계 보도에 따르면 연간 5천만 달러 규모로 추산되나, 계약 조건은 비공개(NDA)다. 그러나 이 계약의 혜택은 협상력을 가진 대형 퍼블리셔에게 집중되어 있다. 한국의 기업 뉴스룸이 오픈AI와 라이선싱 협상 테이블에 앉을 수 있을까? 현실적으로 불가능에 가깝다.

여기서 기술 중립주의의 함정을 경계해야 한다. "AI가 콘텐트 확산을 가능하게 한다"는 서술은 중립적으로 보이지만 그 확산의 수혜자와 비용 부담자가 극단적으로 분리되어 있다는 사실을 은폐한다. GEO라는 프레임 자체가 콘텐트 생산자에게 "AI에 맞춰 최적화하라"는 요구를 자연스러운 것으로 만든다. 마치 검색 엔진 시대에 SEO가 퍼블리셔의 당연한 의무가 되었듯이. 그러나 SEO 시대에는 적어도 트래픽이라는 대가가 있었다. GEO 시대에는 그 대가조차 사라지고 있다.

AI 기업이 설계한 게임의 규칙에 맞추어 콘텐트를 최적화하면서, 동시에 그 게임의 불공정성에 항의하는 것. 이것이 2026년 기업 뉴스룸 운영자가 처한 이중 구속(double bind)이다.

역설과 함께 사는 법

이 역설에 깔끔한 해법은 없다. 열면 착취당하고 닫으면 보이지 않고 robots.txt는 법이 아니고 GEO를 해도 AI는 언론 보도를 더 신뢰하고 라이선싱 딜은 대형 퍼블리셔의 전유물이고 한국 저작권법에는 TDM 기준조차 없다. 이 모든 완고한 사실들이 동시에 존재한다.

그래서 나는 기업 뉴스룸 운영자에게 해법이 아니라 자세를 제안한다. 역설을 해소하려 하지 말고 역설을 관리하라.

첫째, 콘텐트를 두 층위로 분리하라. 확산할 것과 보호할 것을 구분하는 전략적 판단이 먼저다. 둘째, AI 인용의 실제 경로를 추적하라. 자사 뉴스룸이 직접 인용되는 비율과 언론 경유 인용 비율을 측정하고 후자를 강화하는 쪽으로 자원을 배치하라. 셋째, 기술적 인프라를 갖추라. 페이-퍼-크롤이든 C2PA든, 데이터 접근과 출처 추적에 대한 통제 수단을 확보하라. 넷째, 법적 변화를 주시하라. EU AI법의 집행, 한국 TDM 입법의 진행, AI 저작권 소송의 판례 축적 등. 이 세 축의 변화가 기업 뉴스룸의 전략적 선택지를 근본적으로 바꿀 수 있다.

그리고 하나 더. 이 모든 전략의 전제가 되는 질문을 잊지 마라. 기업 뉴스룸은 왜 존재하는가? 단순히 브랜드를 노출하기 위해서인가, 아니면 독자적인 지식과 관점을 가진 미디어로서인가? 전자라면 GEO 최적화에 올인하면 된다. 후자라면, AI가 복제할 수 없는 깊이 이를테면 인간만이 제공할 수 있는 맥락, 판단, 관점에 투자해야 한다.

GEO의 역설은 결국 기업 뉴스룸 정체성의 질문으로 수렴한다. 우리는 AI의 학습 데이터인가, 아니면 AI가 대체할 수 없는 목소리인가. 이 질문에 대한 답이 열림과 닫힘의 비율을 결정할 것이다.