기업 뉴스룸 콘텐트를 보호하고 싶으면 어떻게 할까
뉴욕 남부연방지방법원은 2025년, robots.txt는 저작권법상 '기술적 보호 조치'가 아니라고 판결했다. 기업 커뮤니케이션 팀이 AI 대응의 첫 번째 도구로 꺼내는 그 파일에 법적 효력이 없다는 선고다. DMCA 경로는 이미 막혔고, 계약법(ToS) 경로는 레딧 대 앤트로픽의 결과를 기다리는 중이며, EU AI Act는 새로운 길을 직접 설계하고 있다. 한국 기업은 TDM 면책조차 없는 이중의 공백 위에 서 있다. 표지판 대신 진짜 문을 설계해야 할 때, 3중 방어 체계의 출발점을 제시한다.
레이 | 디지털 저널리스트 | awesome.ai.life@gmail.com | 2026년 3월 12일
AI 시대 기업 뉴스룸 생존 전략 시리즈 3편
2025년, 뉴욕 남부연방지방법원(SDNY)은 지프 데이비스(Ziff Davis: IGN, PCMag, Mashable을 운영하는 디지털 미디어 그룹) 가 OpenAI를 상대로 제기한 저작권 소송에서 robots.txt가 저작권법상 '기술적 보호 조치(Technological Protection Measure)'에 해당하지 않는다고 판결했습니다. 담당 판사 시드니 스타인(Sidney H. Stein)은 robots.txt를 "잔디밭에 들어오지 마시오(keep off the grass)" 표지판에 비유했습니다.
이게 무슨 말인가 하면(좀 설명이 길겠습니다) 미국 저작권법 DMCA 제1201조는 '기술적 보호 조치(Technological Protection Measure, TPM)'를 우회하는 행위를 금지합니다. 여기서 기술적 보호 조치란 DVD의 암호화, 스트리밍 서비스의 DRM처럼 콘텐트에 대한 접근 자체를 물리적, 기술적으로 차단하는 장치입니다. 자물쇠를 따는 행위를 법이 막는 것입니다.
지프 데이비스의 소송 논리는 이랬습니다. "우리는 robots.txt에 ClaudeBot, GPTBot을 Disallow로 명시해뒀다. 오픈AI가 이걸 무시하고 크롤링했으니 기술적 보호 조치를 우회한 것이고, 따라서 DMCA 제1201조 위반이다."
법원은 이 논리를 거부했습니다. 이유는 단순합니다. robots.txt는 접근 자체를 기술적으로 차단하지 않습니다. 파일 안에 "오지 마세요"라고 텍스트로 써놓은 것뿐입니다. 암호화된 잠금장치가 아니라 안내문입니다. 스타인 판사의 "잔디밭에 들어오지 마시오" 표지판 비유가 정확히 이 지점을 찌릅니다. 표지판은 규범을 선언하지만 물리적으로 막지는 않습니다. 지키는 것은 보는 사람의 선택입니다.
이 판결이 갖는 실질적 함의는 세 가지입니다. 첫째, DMCA라는 강력한 법적 무기를 AI 크롤링에 쓸 수 없게 됐습니다. DMCA 제1201조 위반은 민사뿐 아니라 형사 처벌도 가능한 강력한 조항인데, robots.txt로는 그 요건을 충족할 수 없다는 것이 확인됐습니다.
둘째, 이 판결이 선례로 굳어지면 AI 기업 입장에서 robots.txt 무시의 법적 리스크가 사실상 사라집니다. 물론 다른 법리(계약법, 불법행위법)로 다툴 여지는 남아 있지만 DMCA 경로는 막힌 것입니다.
셋째, 기업 뉴스룸이 "우리는 robots.txt로 막아뒀으니 법적으로 보호받는다"는 전제 위에서 AI 정책을 운영하고 있다면 그 전제가 법원에서 부정된 것입니다. 즉 robots.txt로는 AI 크롤링을 막을 방법이 없습니다. 서문이 길었습니다만 시리즈 3은 기업 뉴스룸이 콘텐트를 보호하고 싶을 때 사용하는 방법입니다. 보호하기 보다는 어떻게든 배포하는게 목적이겠지만 그래도 만일의 경우라는 게 있으니까요.
지난 2편에서 저는 기업 뉴스룸이 직면한 딜레마를 다뤘습니다. AI에게 인용되고 싶지만 AI가 콘텐트를 엉뚱하게 재조합해 브랜드를 훼손할 수 있다는 위험이 있다고 말이지요. 그 결론은 단순했습니다. GEO에만 맡겨두는 것은 위험하다, 레이어를 쌓아야 한다.
그렇다면 기업 뉴스룸의 담당자는 다음 날 무엇을 할까요? IT팀이나 SEO팀에게 묻습니다. 그 팀들이 꺼내는 첫 번째 도구가 robots.txt입니다. 이미 관리하고 있고, 기술적으로 간단해 보이며, 30년간 검색 엔진과의 규칙으로 통해왔습니다. 기업 커뮤니케이션 부서가 AI 대응 정책 문건을 만들 때 가장 먼저 등장하는 항목도 robots.txt입니다.
신사협정에서 AI 전쟁의 최전선으로
robots.txt의 역사는 1994년으로 거슬러 올라갑니다. 웹 개발자 마르틴 코스터(Martijn Koster)가 초기 검색 엔진 크롤러의 무분별한 접근을 막기 위해 고안한 이 규약은 처음부터 법적 강제력이 아닌 자발적 준수를 전제로 설계되었습니다. 구글이나 빙 같은 예의 바른 봇들이 자발적으로 따르는 규칙이지, 법원이 뭐라할 수 있는 조항은 아니었습니다.
그런데 30년 뒤, 이 비공식 프로토콜은 수십억 달러 규모의 AI 산업을 제어하는 최전선이 되었습니다. BuzzStream의 2025년 연구에 따르면 미국, 영국 주요 뉴스 사이트의 79%가 AI 학습 봇 중 최소 하나를 차단하고 있습니다. ClaudeBot은 69%, GPTBot은 62%의 사이트가 차단 중이며, 구글의 제미나이 학습 봇(Google-Extended)은 46%로 가장 관대한 대우를 받고 있습니다. 기업과 퍼블리셔들은 AI로부터 콘텐트를 보호하기 위해 robots.txt를 핵심 도구로 삼고 있습니다.
그러나 AI 봇 트래픽 분석 업체 Tollbit의 2025년 2분기 보고서는 이 방어선에 균열이 있다고 주장합니다. AI 봇의 13.26%는 robots.txt를 아예 무시한다는 것입니다. BuzzStream 연구에 직접 인터뷰이로 참여한 영국 유력지 더 텔레그래프(The Telegraph)의 SEO 디렉터는 같은 맥락에서 "robots.txt는 지시(directive)일 뿐, CDN 레벨에서 차단하지 않으면 사실상 비효율적"이라고 단언했습니다.
신사협정이 더 이상 작동하지 않는다는 증거입니다. 그렇다면 기업 뉴스룸은 어떤 법적 무기를 써야 할까요? 이 질문에 답하기 전에, 현재 진행 중인 세 갈래의 법적 경로를 살펴봐야 합니다.
세 갈래 경로, 세 가지 현실
첫 번째: DMCA 경로는 이미 막혔습니다.
이 건은 앞에서 이미 설명했으니 그냥 넘어가겠습니다. 지프 데이비스의 건 말입니다.
두 번째: 계약법(ToS) 경로는 아직 열려 있습니다.
ToS는 Terms of Service의 약자로, 한국어로는 이용약관입니다. 처음에 가입할 때 Yes를 누르는 그것 말입니다.
Reddit은 2025년 6월 4일 앤트로픽을 상대로 이용약관 위반, 부당이득, 불공정 경쟁 등을 청구 원인으로 하는 소송을 제기했습니다. 이 경로의 논리는 DMCA와 다릅니다. "우리 사이트의 이용약관은 AI 학습 목적의 크롤링을 명시적으로 금지하고 있다. 이를 위반했으므로 계약 위반이다." 저작권법이 아닌 계약법의 영역입니다.
이 사건의 맥락은 레딧의 전략을 명확하게 보여줍니다. 레딧은 Google(2024년 2월, 연간 약 6,000만 달러 규모), OpenAI(2024년 5월)와는 정식 데이터 라이선싱 계약을 맺었습니다. 무단 크롤링을 주장한 인트로픽에게는 소송을 선택했습니다. "라이선스를 체결하면 쓸 수 있고, 무단으로 가져가면 법정에서 만난다"는 논리입니다. 2025년 8월 1일 조정(mediation)이 진행되었으나 합의에 이르지 못했으며, 재판은 2028년 2월로 예정되어 있습니다.
계약법 경로가 유효하려면 전제 조건이 있습니다. 이용약관이 AI 크롤링 금지를 구체적으로 명시하고 있어야 하며, 이용자 또는 봇이 이를 인지하고 동의한 구조여야 합니다. 현재 대부분의 기업 뉴스룸 이용약관에는 이런 조항이 없습니다. 레딧 대 앤트로픽의 결과가 어떻게 나오든, 명시적 ToS 조항의 존재 여부는 향후 소송이나 협상에서 결정적 변수가 될 가능성이 높습니다.
세 번째: EU 규제 경로는 아직 진행 중입니다.
2025년 8월, EU AI Act에 따른 GPAI 모델 제공자의 저작권 준수 의무가 발효되었습니다. 2026년 8월부터는 매출의 3% 또는 1,500만 유로 과징금 집행이 가능합니다. EU는 DSM 지침(Directive on Copyright in the Digital Single Market) 제4조 3항에 따라 '기계판독 가능한 옵트아웃 프로토콜' 표준화 작업을 진행 중입니다. robots.txt의 한계를 인식하고, 법적으로 유효한 새로운 옵트아웃 메커니즘을 직접 설계하겠다는 것입니다.
세 경로를 놓고 보면, 첫 번째는 막혔고, 두 번째는 아직 판가름이 나지 않았으며, 세 번째는 EU에서 만들고 있는 새로운 길입니다. 그렇다면 EU도, 미국도 아닌 한국 기업의 현실은 어떨까요.
한국 기업의 법적 공백
이것이 이 글에서 가장 불편한 부분입니다.
한국 저작권법에는 TDM(텍스트-데이터마이닝, Text and Data Mining) 면책 조항이 없습니다. 법률신문에 따르면 문화체육관광부가 2025년 AI-저작권 제도개선 협의체를 출범시켰지만, 입법 성과는 아직 불투명합니다.
EU는 'AI 기업이 콘텐트를 학습에 사용하려면 적법한 절차를 거쳐야 한다'는 명확한 규범을 가지고 있습니다. 미국은 공정이용(Fair Use) 판례 축적 과정에서 AI 학습 데이터 사용의 경계가 서서히 그어지고 있습니다. 그런데 한국은 TDM 면책 자체가 없어서 "AI가 내 콘텐트를 학습했으면 저작권 침해"라는 논리도 성립할 수 있는 동시에, 공정이용 판례가 없으니 실제 소송에서 어떻게 판단될지 예측이 어려운 이중의 불확실성 위에 서 있습니다.
이것은 한국 기업이 법적으로 가장 불리한 위치에 놓여 있다는 뜻이기도 합니다. 규범이 없다는 것은 보호도 없다는 뜻이고, 그 공백 속에서 피해를 입는 쪽은 대체로 협상력이 약한 쪽입니다. 그렇다고 아무것도 할 수 없는 것은 아닙니다. 법이 미완성인 상황에서도 기업이 스스로 설계할 수 있는 방어 체계가 있습니다.
3중 방어 체계: 기술 + 법적 선언 + 계약적 구속
robots.txt 하나에 의존하는 것이 모래 위에 집을 짓는 일이라면, 지금 기업 뉴스룸이 구축해야 할 것은 세 겹의 방어선입니다.
첫째는 기술적 차단입니다. robots.txt는 예의 바른 AI 봇에게 여전히 유효합니다. 포기하지 않되 AI 봇별로 구분된 차단 정책을 정교하게 운영해야 합니다. 특정 AI 크롤러에 대한 IP 차단, 속도 제한, 허용 경로 구분을 병행하는 것이 현실적입니다. 기술적 차단은 완벽하지 않지만 없는 것과는 다릅니다.
둘째는 법적 선언입니다. 이용약관과 저작권 고지에 AI 학습 목적의 크롤링 금지 조항을 명시적으로 삽입해야 합니다. 지금 당장 법적 강제력이 불분명하더라도 조항을 명시하는 행위 자체가 향후 분쟁에서 기업의 의사를 입증하는 증거가 됩니다.
셋째는 계약적 구속입니다. EU의 기계판독 가능 옵트아웃 프로토콜이 국제 표준으로 자리잡는 흐름에 선제적으로 대응해야 합니다. 이는 robots.txt를 대체하는 구조화된 메타데이터 태그를 통해 "이 콘텐트는 AI 학습에 사용할 수 없습니다"를 기계가 읽을 수 있는 형태로 선언하는 방식입니다. 표준이 확정되는 시점에 이미 체계를 갖춘 기업과 그렇지 않은 기업 사이에는 대응 속도에서 의미 있는 격차가 생길 것입니다.
그러나 이것은 기술의 문제가 아닙니다
기업 뉴스룸이 robots.txt에 의존해온 것은 게으름의 결과가 아닙니다. 법이 기술을 따라오지 못하는 구조적 공백의 산물입니다.
1994년에 설계된 비공식 프로토콜이 2026년 수십억 달러 규모의 AI 산업을 통제하는 도구로 쓰이고 있다는 사실 자체가 이 영역의 법적 인프라가 얼마나 낙후되어 있는지를 보여줍니다. robots.txt는 웹 크롤링이 주로 대학 연구자들의 실험이던 시절에 만들어진 신사협정입니다. 그 협정을 2026년의 AI 기업에게 적용한다는 발상 자체가 처음부터 무리였습니다.
이 구조에서 이익을 얻는 주체는 명확합니다. 법적 불확실성이 지속되는 동안 AI 기업들은 계속해서 콘텐트를 수집하고 모델을 학습시킵니다. 불확실성은 강자에게 유리합니다. 법적 분쟁을 감당할 역량이 있는 조직만이 이 게임에서 버틸 수 있기 때문입니다. 한국 저작권법의 TDM 공백은 한국 기업의 협상력을 더욱 약화시키는 구조적 요인입니다.