스마트 스피커 르네상스 될까: 알렉사+가 이끄는 음성 AI의 시대
애물단지 취급을 받던 스마트 스피커가 알렉사+(Alexa Plus)의 등장으로 제2의 전성기를 준비하고 있다. 알렉사+가 가져올 스마트홈과 인간과 AI 상호작용의 미래를 전망한다.

한때 애물단지 취급을 받던 스마트 스피커가 아마존의 알렉사+(Alexa Plus) 등장을 기점으로 전환기를 맞고 있다. 물론 이미 많은 AI 모델이 음성 대화를 지원하고 있어서 이를 스피커로 옮겼다는 것 외에 특별한 기술적 향상이 있다고 보기는 어렵다. 그러나 스마트홈 분야에서 스마트 스피커의 실력과 편리함에 한 번 익숙해지면 쉽게 벗어나기 어렵다. 알렉사+는 가정 내 인공지능 허브로서 스마트 스피커의 존재 가치를 근본적으로 재정의하며 우리 일상에 새로운 변화를 예고한다. 나는 이 기술적 변화가 단순한 기능 업그레이드를 넘어 인간과 AI의 상호작용 방식을 어떻게 변화시킬지 주목하고 있다.
2018년부터 2022년까지 스마트 스피커의 흥망성쇠
미국 편: 기대와 실망의 롤러코스터
2018년, 아마존 에코와 구글 홈이 이끄는 스마트 스피커 혁명은 미국 가정에 급속히 퍼졌다. 카날리스(Canalys) 조사에 따르면 2018년 전 세계 스마트 스피커 출하량은 7,820만 대를 기록하며 전년 대비 125% 성장했다. 아마존이 전체 시장의 31.2%를 차지하며 선두를 달렸고, 구글이 29.8%로 바짝 추격했다. 집 안에 인공지능이 상주하면서 음악을 틀고 조명을 제어하며 날씨와 일정을 확인하거나 요리할 때 타이머를 맞춰주는 풍경이 일상화된 것이다.
실제로 “Alexa, turn on the lights”라는 한 마디에 집 전체의 조명을 제어하는 모습은 마치 영화 속 미래가 도래한 듯했다. 초기 이용자들은 스마트 스피커가 가져올 혁신적인 변화에 큰 기대를 품었고, 언론들도 음성 AI 시대의 개막을 대대적으로 보도했다. 구글 역시 진화된 검색 이라고 음성 검색을 강조했다. 하지만 2022년이 되자 시장의 분위기가 싸늘하게 식었다. 스트래티지 애널리틱스(Strategy Analytics)의 보고서에 따르면 스마트 스피커 시장 성장률은 2019년 70%에서 2021년 9.1%로 급락했다. 아마존 알렉사 사업부는 한 해에만 수십억 달러의 적자를 냈고, 구글 역시 스마트 스피커 사업의 성장세가 둔화했다.
이용자들이 실제로 활용하는 기능은 음악 재생(85%), 날씨 확인(65%), 타이머 설정(60%) 정도에 그쳤고, 기대했던 ‘스마트홈 허브’ 역할은 제대로 수행하지 못했다. ‘음성 AI’가 우리 일상을 바꿀 거라는 기대는 일종의 허상처럼 흩어졌다. 많은 이용자들이 스마트 스피커를 시계 정도로 방치하기 시작했다.
한국 편: 더 가혹했던 현실
한국의 상황은 미국보다 더욱 가혹했다. 2016년 9월 SKT가 누구(NUGU)를 출시하며 국내 스마트 스피커 시장의 문을 열었고, 이어 네이버 클로바(2017년), 카카오의 헤이카카오(2018년), 구글 홈(2018년) 등이 연이어 등장하며 치열한 경쟁을 벌였다. 각 기업들은 자사의 생태계와 연동된 차별화된 서비스를 내세워 시장 선점을 위해 노력했지만, 결과적으로는 모두 기대에 미치지 못하는 성과를 거두었다. 한국 시장 특유의 언어적, 문화적 특성이 스마트 스피커의 성공을 가로막는 주요 장벽으로 작용했다.
시장을 가장 많이 차지했던 SKT 누구는 스피커 가격을 낮추고 적극적인 마케팅을 펼쳐 상당한 주목을 받았다. 특히 티맵과 연결된 아리아가 자동차는 물론 집 안에서도 음악과 라디오를 틀고 가전 제품을 제어하며 어린이 영어 교사까지 제공하면서, 2018년 말 기준 누구 시리즈 누적 판매량이 100만 대를 돌파했다. 그러나 제한된 명령어를 사용해야 하고 콘텐트가 추가로 늘지 않으면서 성장이 정체되었다. 특히 다양한 방언과 발음 변화, 높임법 등 한국어의 복잡성을 나름대로 해결했음에도 불구하고 이용자의 불만은 쌓여갔다.
네이버 클로바는 네이버의 풍부한 콘텐트 생태계를 바탕으로 차별화를 시도했다. 네이버 뉴스, 웹툰, 음악 등의 서비스와 연동되었지만, 역시 제한된 대화형 인터페이스의 한계를 극복하지 못했다. 이용자들은 복잡한 정보 검색이나 상호작용이 필요할 때 여전히 스마트폰을 사용하는 것을 선호했고, 결국 클로바 스피커는 사라졌다.
헤이카카오는 택시를 잡아 주는 등 카카오의 모바일 생태계와의 연동을 강조했지만, 출시 초기부터 음성 인식 정확도 문제와 서비스 안정성 이슈로 어려움을 겪었다. 비록 헤이카카오 음성 비서 서비스 자체는 카카오톡, 카카오내비 등 카카오의 여러 제품에 계속 탑재되어 있지만, 전용 스마트 스피커 카카오미니 하드웨어는 기대만큼의 성공을 거두지 못했다. 구글 홈은 글로벌 서비스의 장점을 살려 상당한 기능을 제공했지만 한국어 지원의 한계와 국내 서비스와의 연동 부족으로 대중화에 실패했다.
스마트 스피커는 왜 안되었나
한국 뿐 아니라 미국에서도 스마트 스피커가 실패한 이유는 사용하는 언어 명령에 한계가 많았기 때문이다. LLM처럼 콩떡 같이 말해도 찰떡같이 알아들어야 하는데 이미 정해진 문장 만을 이해하기 때문에 오히려 이용자가 스마트 스피커에서 먹히는 언어를 익혀야 했다. 예컨대 ‘밥 먹자’라는 뜻이 담기 한국어 문장은 ‘밥 먹자, 뭐 좀 먹을래?, 배 안 고파? 밥부터 먹자, 밥이나 먹자, 출출하지, 식사하자, 밥 먹을 시간이네, 점심 같이 해…’ 등등을 비롯해 100 여개를 훌쩍 넘긴다. 스마트 스피커에는 이 문장을 다 일일이 넣어줘야 인식했다. 억양이나 사투리는 또 다른 문제였다. 그러니 이 방식으로 진정한 스마트 스피커를 만들 수는 없었다.
생태계 역시 빈약했다. 스마트홈이라는 개념 자체가 아직 대중화되지 않은 문화적 한계, 그리고 기기 호환성 부족이 결정적이었다. 스마트 스피커를 사도 연결할 기기가 별로 없었다는 말이다. 콘텐트의 한계와 이용자 습관의 문제도 무시할 수 없었다. 그러다 보니 음악, 날씨, 뉴스 등 한정된 콘텐트 소비 패턴에 머물렀고, 이용자들은 여전히 스마트폰을 통한 텍스트 기반 상호작용에 익숙했다. 특히 가족이 함께 있는 공간에서 음성 명령을 내리는 것을 부담스러워하는 경우가 많았다. 어쨌든 2022년 이후 국내 스마트 스피커 시장은 사실상 정체 혹은 축소 국면에 들어섰다.
알렉사+는 무엇인가: 게임 체인저의 등장
이런 분위기에서, 2024년 아마존이 베타 테스트를 시작한 알렉사+(Alexa Plus)는 기존 스마트 스피커의 한계를 뛰어넘는 제품으로 등장했다. 와이어드(Wired)는 https://www.wired.com/story/amazon-daniel-rausch-alexa-plus/ 에서 단순한 업그레이드가 아닌 완전히 새로운 차원의 AI 비서라고 강조했다. 알렉사+의 핵심은 대규모 언어 모델(LLM) 기반의 자연스러운 대화 능력이다. 기존 알렉사가 "Weather in Seoul"과 같은 단순한 명령어만 이해했다면, 알렉사+는 "I'm planning a trip to Seoul next week. What should I pack considering the weather and local customs?"와 같은 복잡한 질문도 이해하고 종합적인 답변을 제공한다.
아니, 그게 뭐. 이미 AI에서는 다 되는 거잖아? 맞다. LLM 기반 대화 능력을 스피커에 집어 넣었다. 기존 알렉사는 단순 명령어 기반의 제한적 상호작용만 가능했지만, 알렉사+는 ChatGPT처럼 자연스럽게 대화를 이어간다. "Alexa, I'm having friends over tonight. Any wine recommendations?"라고 물으면, 단순히 와인을 추천하는 것에 그치지 않고 음식 페어링, 스케줄 관리, 분위기 조성까지 대화가 자연스럽게 이어진다. 기존 스마트 스피커가 가진 가장 큰 한계였던 단발성 상호작용을 완전히 극복한 것이다.
맥락을 이해하는 대화도 가능하다. 이전 대화 내용을 기억하고 참조하여 연속적으로 대화할 수 있다. "Alexa, what's the weather tomorrow?" 다음에 "What about the day after?"라고 물으면, 자동으로 날씨에 대한 질문임을 이해하고 적절한 답변을 제공한다. 복합 명령 처리 능력도 크게 향상되어 여러 단계의 명령을 한 번에 처리할 수 있다. "Turn off all the lights, set the thermostat to 68 degrees, and remind me to call my mom at 7 PM"과 같은 복합적인 요청을 자연스럽게 수행한다.
창의적 기능의 추가는 알렉사+가 단순한 명령 수행 도구를 넘어선다는 것을 보여준다. 시나리오 작성, 이메일 초안 작성, 아이디어 브레인스토밍 등 LLM의 창의적 기능을 활용할 수 있게 되었다. 알렉사+는 유료 구독제 도입이 유력하며, 베타 버전에서 다양한 프리미엄 기능이 테스트 중입니다. 그런데 가격이 웃기다. 14.99 달러 아마존 프라임 가입자는 무료인데 알렉사+만 쓰려면 19.99 달러를 내야 한다. 이게 무슨? 나도 좀 어안이 벙벙하다.
생성AI 대화 기능과 무엇이 다른가
ChatGPT, Claude, Gemini 등 생성AI 서비스들이 음성 대화 기능을 지원하기 시작하면서, 많은 사람이 "이제 스마트 스피커가 필요 없는 것 아닌가?"라는 질문을 던지고 있다. 실제로 ChatGPT의 음성 모드는 놀라울 정도로 자연스러운 대화를 지원하며, 스마트폰만 있으면 언제 어디서나 된다. 스피커 모드로 쓰면 스피커 같기도 하다. 그러나 이 둘은 서로 애당초 용도가 다르다.
스마트 스피커의 진정한 가치는 앰비언트 컴퓨팅(Ambient Computing)에 있다. 컴퓨팅 기술이 환경에 자연스럽게 녹아들어 이용자가 의식하지 않아도 필요한 순간에 도움을 제공한다는 뜻이다. 항상 대기 상태라는 특성이 핵심적인 차별점이다. 스마트 스피커는 항상 켜져 있고 즉시 반응할 수 있다. 요리하면서 손이 더러워진 상태에서도 "Alexa, set a timer for 10 minutes"이라고 말하면 된다. 스마트폰이라면 주머니에서 꺼내고, 잠금을 해제하고, 앱을 실행하는 과정이 필요하다. 물론 시리 선생을 찾아도 된다. 하지만 아직도 시리는 애플의 주가를 올리지 못하고 있다.
통합 제어 허브 역할은 스마트 스피커만의 독특한 장점이다. 알렉사+는 집 전체의 IoT 기기들과 연결되어 통합 제어 허브 역할을 한다. "I'm leaving for work"라고 말하면 자동으로 조명을 끄고, 온도를 조절하고, 보안 시스템을 활성화하며, 차고 문을 열어준다. 공유 경험도 중요한 차별점이다. 거실에 있는 스마트 스피커는 가족 모든 구성원이 사용할 수 있고, 각자의 음성을 인식해서 개인화된 서비스를 제공한다. "Play my music"이라고 하면 말하는 사람의 취향에 맞는 음악이 재생된다. 즉, 목소리로 사람을 인식한다는 말이다. .
스마트폰 앱은 개인용: 개인 중심의 AI
반면 스마트폰의 생성AI는 개인적이고 이동성이 뛰어나다는 특징이 있다. 개인화된 작업에 특화되어 있어, 이메일 작성, 일정 관리, 개인적인 정보 검색, 모바일 결제 등 개인의 생산성과 연결된 작업을 효과적으로 처리할 수 있다. 복잡한 업무 문서를 검토하거나 개인적인 고민에 대해 상담받는 등의 깊이 있는 상호작용은 스마트폰이 더 적합하다.
이동성은 스마트폰만의 고유한 장점이다. 집 밖에서도 언제든 개인 비서를 활용할 수 있다는 강점이 있다. 출퇴근길에 복잡한 업무 문제에 대해 상담받거나, 개인적인 고민을 털어놓는 데는 스마트폰이 더 좋다. 시각적 인터페이스의 장점도 무시할 수 없다. 스마트폰은 화면을 통해 정보를 시각적으로 제공하고, 복잡한 작업을 터치와 음성을 결합하여 수행할 수 있다. (아, 물론 화면 달린 알렉사 스피커에서는 가능하다)
결국 두 기술은 경쟁 관계가 아니라 상호 보완적 관계다. 집에서는 스마트 스피커로 환경을 제어하고 가족과 공유하는 기능을 사용하고, 개인적인 시간에는 스마트폰으로 깊이 있는 대화와 창의적 작업을 하는 식으로 역할이 구분될 것이다.
앞으로 알렉사+의 전망
아마존은 알렉사+를 통해 시장을 놓치지 않겠다는 의지를 보여준다. 이미 전 세계적으로 수억 대의 알렉사 기기가 설치되어 있고, 이들 기기의 상당수가 소프트웨어 업데이트를 통해 알렉사+ 기능을 지원할 예정이니 유료, 라는 부담이 있지만 자연스럽게 전환할 수 있는 계기가 될 것이다.
예전에도 그랬지만 아마존의 전략은 단순히 스마트 스피커를 파는 것이 아니다. Amazon Prime, AWS, Kindle, Fire TV 등과 연계된 거대한 생태계의 중심에 알렉사+를 갖다 놓으려는 것이다. "Alexa, order my usual groceries"라고 말하면 Amazon Fresh에서 자동 주문이 되고, "Alexa, what should I read next?"라고 하면 Kindle 구매 이력을 바탕으로 추천해주는 식이다. B2B 시장 확장도 적극 추진한다. 호텔, 사무실, 병원 등에서 알렉사+를 활용한 음성 기반 서비스를 제공해 새로운 수익 기반을 만들 것이다.
경쟁의 미래: 애플의 시리는 어떻게 될까
애플은 2024년 WWDC에서 발표한 Apple Intelligence를 통해 시리의 대대적인 업그레이드를 예고했다. 애플의 전략은 온디바이스 AI 처리에 중점을 두어 이용자 데이터가 외부 서버로 전송되지 않도록 하는 것이 핵심이다. "Privacy is a fundamental human right"라는 애플의 철학을 반영하여, 개인정보 보호를 최우선으로 하는 AI 비서를 만들겠다는 것이다. HomePod과 시리의 통합도 강화된다. iPhone, iPad, Mac, Apple Watch, HomePod이 하나의 생태계로 연결되어, 한 기기에서 시작한 작업을 다른 기기에서 이어서 할 수 있는 Continuity 기능이 향상될 것 전망이다.
문제는 애플이 개인정보에 최우선을 둔 정책을 세웠다고 해도 AI 시장에서는 인재를 빼앗기고 개발은 늦춰지고 있다. 애플의 시리와 홈팟은 어떤 형태로 변화할지 불분명하다. 게다가 애플의 주가도 계속 하락 중이다. 소비자들이 기대할 만한 어떤 성과를 애플이 내지 못한다는 뜻이다. 스마트홈의 한 축을 쥐고 있던 애플이었는데 순식간에 밀릴 줄은 아무도 예상하지 못한 결과다.
구글은 제미나이와 구글홈 통합
구글의 전략은 Gemini AI를 Google Home과 완전 통합하는 것이다. 구글의 최대 강점인 검색 기술과 방대한 데이터를 활용하여 가장 정확하고 유용한 정보를 제공하는 AI 비서를 만들겠다는 계획이다. "Hey Google, what's the best route to avoid traffic to downtown?"라고 물으면 실시간 교통 정보, Google Maps 데이터, 과거 패턴 분석을 종합하여 가장 잘 정리된 답변을 제공하겠단다.
구글의 차별점은 실시간 정보다. 뉴스, 날씨, 교통, 주식, 스포츠 경기 결과 등 시시각각 변하는 정보에 대해 정확하고 빠르게 전달할 수 있다. 이는 훈련 데이터의 시점이 제한적인 다른 AI 모델들에 비해 큰 장점이다. 또한 YouTube Music, Google Photos, Gmail 등 구글의 다양한 서비스와 통합된, 개인화 경험을 제공할 수 있다. 나는 이미 구글이 구글홈에 제미나이를 내장할 계획이라는 글을 썼다.
스마트 스피커의 가까운 미래 예상
알렉사+로 시작된 스마트 스피커의 부활은 단순한 기술적 업그레이드를 넘어서, 우리의 일상과 AI의 관계를 근본적으로 바꿀 것으로 예상된다. 첫째, 진정한 앰비언트 AI 허브의 등장이다.
스마트 스피커는 더 이상 단순한 음성 인터페이스가 아니라, 집안의 모든 스마트 기기들을 유기적으로 연결하고 제어하는 지능형 허브가 될 것이다. 이용자의 행동 패턴을 학습하고 심지어 감정 상태까지 파악하여 선제적으로 도움을 제공할 전망이다. 가까운 미래에 "Alexa, I'm feeling stressed about work. Can you help me plan a relaxing evening?"와 같은 복잡하고 감정적인 요청도 자연스럽게 처리할 수 있을 것이다. 지금도 그런 것처럼 AI는 대화의 상대자가 될 것이다.
둘째, 멀티모달 상호작용이 널리 보급된다. 음성뿐만 아니라 시각(디스플레이), 제스처, 촉각 등 다양한 감각을 통해 AI와 상호작용하게 된다. 에코 쇼(Echo Show)와 같은 디스플레이 탑재 스피커는 음성 대화와 함께 시각적인 정보를 제공하면서 더 다양한 경험을 제공할 것이다. 요리 레시피를 물어보면 음성 설명과 함께 단계별 사진이나 동영상을 보여주고, 음악을 재생할 때는 가사나 아티스트 정보를 시각적으로 표시하는 것도 포함된다.
셋째, 초개인화된 비서 서비스를 제공한다. 가족 구성원 각자에게 필요한 정보를 정확히 파악해 개인 별로 맞춤 제공할 것이다. 개인별 맞춤 뉴스, 하루 일정, 기분에 맞는 음악을 추천하거나 휴식 환경을 조성할 수 있다.
넷째, 새로운 비즈니스 모델이 된다. 단순한 하드웨어 판매에서 구독 기반 서비스로 빠르게 전환될 것이다. 기본 기능은 무료로 제공하되, 고급 AI 기능, 개인화 서비스, 프리미엄 콘텐트 등은 유료 구독으로 제공하는 프리미엄 모델이 정착될 가능성도 있다. 이는 기업들에게는 지속적인 수익원을 제공하고, 이용자들에게는 더 나은 서비스 품질을 보장하는 윈윈 구조를 만들어 낸다.
한편 이러한 발전과 함께 프라이버시, 데이터 보안, AI의 편향성 등 윤리적 문제에 대해서 더 심각하게 고민해야 할 것이다.
스마트 스피커의 진정한 시작
2018년부터 2022년까지의 첫 번째 스마트 스피커 시대는 사실상 베타 테스트였다. 많은 기대를 받았음에도 기술적으로 한계가 있어 소비자의 기대를 충족하지 못했지만 그 과정에서 쌓인 데이터와 경험은 현재의 혁신을 가능하게 한 소중한 자산이 되었다. 당시의 '실패'는 실제로는 필연적인 학습 과정이었으며, 진정한 스마트 스피커 시대를 위한 토대를 마련하는 시간이었으리라.
알렉사+로 시작된 두 번째 스마트 스피커 시대는 이전과는 완전히 다른 차원의 경험, 다시 말해 단순한 명령 수행 도구에서 진정한 대화 상대이자 생활 파트너로 진화하는 것이다. 생성AI의 도움을 얻어 단순한 ioT 기기에서 지능형 비서로 탈바꿈할 것이다. 그리고 우리 삶도 많이 달라질 것이다.
거실 한 켠에서 먼지를 쌓고 있던 스마트 스피커들이 다시 우리의 주목을 받고 있다. 이번에는 정말로 우리 삶을 바꿀 수 있을까? 알렉사+가 던진 돌멩이가 만들어낸 파문이 어디까지 퍼져나갈지, 그 결과를 지켜보는 것은 매우 흥미로운 일이 될 것이다. 어쩌면, 스마트 스피커의 진정한 시대는 지금 막 시작되는 중일테니까 말이다.