일레븐랩스 5억달러 투자 유치: 목소리 AI가 ‘콘텐츠’에서 ‘비즈니스 인프라’로 바뀌는 이유

“목소리”가 콘텐츠에서 ‘인프라’가 되는 순간

목소리 생성 인공지능이 처음 대중의 눈에 띄었을 때, 많은 사람들은 이를 “재미있는 기술” 정도로 받아들였습니다. 유명인의 목소리를 흉내 내는 영상이 퍼지고, 누군가의 음성을 비슷하게 만드는 장난이 화제가 되는 식이었습니다. 하지만 이 분야가 본격적인 산업이 되려면, 기술의 완성도보다 더 어려운 과제를 넘어야 했습니다. 

누가 어떤 목소리를, 어떤 조건으로, 어디까지 쓸 수 있는가라는 신뢰의 문제입니다. 일레븐랩스(ElevenLabs)는 바로 그 지점에서 “논란의 중심”에서 “업계의 파트너”로 포지션을 바꾸며, 대규모 투자와 높은 기업가치를 끌어냈습니다.

일레븐랩스가 5억달러 투자로 110억달러 평가를 받았습니다. 라이선스·기업용 음성 에이전트로 ‘목소리 인프라’가 되는 흐름을 정리합니다.

할리우드가 등을 돌렸던 이유: ‘기술’이 아니라 ‘무단 사용’의 공포

일레븐랩스는 2022년 음성 생성 소프트웨어를 내놓은 뒤 빠르게 주목받았지만, 동시에 강한 반발도 맞았습니다. 목소리로 먹고사는 성우들이 소송을 제기했고, 온라인 커뮤니티에서 배우 엠마 왓슨(Emma Watson), 팟캐스터 조 로건(Joe Rogan) 등을 사칭하는 데 기술이 악용되며 비난이 커졌습니다. 회사는 이후 해당 소송을 합의로 마무리했습니다.

사진 편집 앱이 아무리 좋아도, 누군가 내 사진을 몰래 가져가 가짜 신분증을 만든다면 사람들은 그 앱 자체를 경계하게 됩니다. 음성 AI는 그보다 더 민감합니다. 목소리는 단순한 파일이 아니라, 사람의 정체성과 신뢰(“저 사람 맞다”)를 붙잡는 열쇠이기 때문입니다. 그래서 음성 AI가 커지려면 “누구나 만들 수 있다”보다 “허락받은 것만 쓴다”가 먼저 자리를 잡아야 합니다.


‘창작자를 적으로’에서 ‘창작자와 계약’으로: 라이선스 모델의 전환

일레븐랩스가 분위기를 바꾼 핵심은, 유명인의 목소리를 ‘복제할 수 있다’가 아니라 ‘정식으로 라이선스해 쓸 수 있다’ 쪽으로 무게중심을 옮긴 점입니다. 회사는 배우 마이클 케인(Michael Caine)의 목소리를 라이선스해 복제·활용하는 파트너십을 맺었고, 가수 라이자 미넬리(Liza Minnelli) 같은 전설적 인물들의 목소리를 브랜드가 정식으로 쓸 수 있도록 하는 마켓플레이스도 내놓았습니다. 배우 매슈 매코너헤이(Matthew McConaughey)는 자신의 뉴스레터를 스페인어로 전달하기 위해, 본인 목소리를 스페인어로 ‘번역된 목소리’로 구현하는 데 이 기술을 활용하고 있습니다.

여기에는 매우 현실적인 산업 논리가 있습니다. 영화나 광고, 오디오북, 게임, 유튜브 채널 같은 곳에서 “목소리”는 제작비와 일정에 직접 영향을 줍니다. 다국어 버전을 만들 때는 번역뿐 아니라 더빙·녹음·디렉팅이 필요하고, 그 과정에서 시간과 비용이 빠르게 늘어납니다.

만약 본인이 허락한 범위 안에서, “내 목소리로 여러 언어를 자연스럽게 확장”할 수 있다면 창작자에게도 새로운 수익 모델이 열립니다. 즉, 기술이 창작자를 대체하는 그림만 있는 것이 아니라, 창작자의 브랜드를 다른 시장으로 넓히는 도구가 될 수 있습니다.


5억달러 투자와 110억달러 가치평가: ‘프로덕트’에서 ‘플랫폼’으로 가는 비용

이 전환이 숫자로 확인된 것이 이번 자금조달입니다. 일레븐랩스는 시리즈 D에서 5억달러를 유치했고, 기업가치는 110억달러로 평가됐습니다. 투자는 세쿼이아 캐피털(Sequoia Capital)이 주도했고, 앤드리슨 호로위츠(Andreessen Horowitz)와 아이코닉(Iconiq)도 참여했습니다. 이 투자로 회사의 누적 투자금은 약 8억달러에 근접했다고 알려졌습니다.

이 수치가 시사하는 바는 단순히 “돈을 많이 모았다”가 아닙니다. 음성 AI는 텍스트 AI보다도 실제 서비스 운영에서 고려할 것이 많습니다. 음성 품질, 지연시간(말이 끊기지 않는 속도), 각 언어의 억양과 감정 표현, 그리고 무엇보다 악용을 막는 장치까지 함께 갖춰야 합니다. 

한두 기능이 뛰어난 제품에서 끝내지 않고, 여러 산업이 가져다 쓰는 대화형 AI 플랫폼으로 가려면 이런 비용이 반복적으로 들어갑니다. 회사가 “대화형 AI로 영역을 넓히겠다”고 말하는 이유도 여기에 있습니다.


‘할리우드’만이 아니다: 콜센터·영업·교육으로 번지는 목소리 인프라

일레븐랩스의 성장 방향은 엔터테인먼트에만 머물지 않습니다. 회사는 기업 고객이 고객 서비스, 영업, 마케팅에서 AI 음성을 활용하도록 도구를 판매하고 있으며, 실제 고객 사례도 제시됩니다. 

도이치 텔레콤(Deutsche Telekom)은 고객 서비스에 음성 에이전트를 사용하고, 배달 서비스 딜리버루(Deliveroo)는 배달원 온보딩 과정을 더 효율적으로 만드는 데 이 기술을 활용하고 있습니다. 우크라이나 정부도 교육을 포함한 여러 프로젝트에서 소프트웨어를 사용하고 있다고 합니다.

이 부분이 중요한 이유는, 음성 AI의 ‘진짜 시장’이 종종 콘텐츠가 아니라 업무 현장에서 열리기 때문입니다. 예를 들어 고객센터를 떠올려 보시면, 사람을 더 뽑는 것만으로는 해결되지 않는 문제가 있습니다. 24시간 대응, 여러 언어, 특정 업무 지식, 계절적 폭증(연말·세일 기간) 같은 변수입니다. 

음성 에이전트는 이때 “상담원 한 명을 완전히 대체”하는 방식이 아니라, 반복 질문을 처리하고 상담원이 더 어려운 문제에 집중하도록 돕는 형태로 먼저 자리 잡기 쉽습니다. 결국 목소리 생성 기술은 엔터테인먼트의 특수 도구에서, 기업 운영의 생산성을 좌우하는 인프라로 이동하고 있습니다.


숫자로 보는 ‘진짜 속도’: 3억3천만달러 ARR와 “올해 두 배” 목표

회사는 작년 연간 반복 매출(ARR)이 3억3천만달러였고, 올해 이를 두 배로 키우고 싶다는 목표를 제시했습니다. ARR은 매달 혹은 매년 반복적으로 들어오는 구독형 매출의 흐름을 뜻하는데, 투자자들은 이 지표를 통해 “유행이 아니라 습관처럼 쓰이는 서비스인지”를 가늠합니다. 즉, 한 번 바이럴이 터져 매출이 찍히는 사업보다, 기업 고객이 업무에 붙여 놓고 계속 비용을 지불하는 구조가 더 높은 평가를 받습니다.

또 하나의 포인트는, 일레븐랩스가 음성뿐 아니라 음악으로도 영역을 넓히고 있다는 점입니다. 회사는 8월에 AI 음악 생성기를 내놓았고, 1월에는 뮤지션들과 협업해 “The Eleven Album”이라는 음반을 공개하며 도구의 가능성을 보여줬습니다. 이런 움직임은 단순한 ‘새 기능 추가’가 아니라, 오디오 전반(목소리+음악+사운드)을 묶는 플랫폼이 되려는 신호로 읽힙니다.


“함께하되, 바꾸겠다”: 업계가 받아들이는 방식 자체가 달라졌습니다

공동창업자이자 최고경영자인 마티 스타니셰프스키(Mati Staniszewski)는 “일부 일을 바꾸고(디스럽트) 싶지만, 업계와 함께 하겠다”는 취지로 말하며, 할리우드에서 인공지능을 바라보는 태도가 변화하고 있다고 언급했습니다. 

세쿼이아 캐피털의 파트너 앤드루 리드(Andrew Reed)도 이 기술이 1~2년 전만 해도 공상과학처럼 보였을 고객 경험을 만들고 있다고 평가하며, 이번 투자와 함께 이사회에 합류합니다.

결국 현재의 전환은 “AI가 창작자를 이기느냐”의 구도가 아니라, “창작자와 산업이 AI를 어떤 규칙으로 길들이느냐”의 문제에 가깝습니다. 일레븐랩스가 ‘문제아’ 이미지에서 벗어나려면, 기술 성능을 과시하는 것만으로는 부족합니다. 

누구의 목소리가 어떤 범위에서 쓰이는지 투명하게 관리하고, 악용을 줄이는 장치와 계약 관행을 쌓아가며, 업계가 안심하고 사용할 수 있는 표준을 만들어야 합니다. 이 표준이 자리 잡는다면, 목소리는 더 이상 특정 콘텐츠의 한 요소가 아니라, 여러 산업의 생산성과 신뢰를 동시에 움직이는 인프라가 될 가능성이 큽니다.


참고자료 및 출처:

Exclusive | Voice AI Startup ElevenLabs Raises $500 Million - WSJ