홈으로

Special
Issue 3

데이터가 A.I.를 만나
영상콘텐츠로

‘웨인힐스브라이언트A.I’
이수민 대표 인터뷰

글. 조영신(Ph.D)
사진. 김성재(싸우나스튜디오)

‘쿨’보다는 ‘힙’이다. 스냅백(snapback) 스타일의 모자를 쓰고 있었다. 헐렁한 상의와 하의, 최근 매입해 인테리어를 했다는 사무실은 부분 부분을 원색으로 도색했다. 건들거림과 단단함 그 중간에 있을 법한 사람과 공간이다. 거기서 웨인힐스브라이언트A.I의 이수민 ‘캡틴(Captain)’을 만났다.

‘영상물이 되고 싶은 텍스트’에서 기회를 보다

4명으로 시작했던 회사는 이제 40여 명 규모로 성장했고, 맨땅에 헤딩했던 매출액도 2022년 기준 대략 170억 원 규모가 되었다. 카메라 세팅을 하는 도중에 왜 대표가 아니라 ‘캡틴’이냐고 물었더니, 소통이 되는 수평적 회사였으면 하는 마음으로 선택했다고 했다. 스타트업다운 대답이다.

회사명 웨인힐스브라이언트(WayneHillsBryant)도 그렇다. ‘웨인힐스(WayneHills)’는 이수민 캡틴이 다녔던 고등학교 이름이고, ‘브라이언트(Bryant)’는 캡틴이 가장 존경하는 농구선수 코비 브라이언트의 이름에서 따왔다. 창업 초기에는 웨인힐스VC란 이름을 사용했으나, 사람들이 VC를 벤처캐피탈(Venture Capital)로 자주 오해해서 웨인힐스(WayneHills)로 변경했다가, 코비 브라이언트의 사고사 이후 지금의 이름으로 변경했다고 했다. 이 역시 스타트업답다. 삼성 사내 벤처 C랩 인사이드에서 시작하려고 했으나, 내부의 승인을 받지 못해 회사를 박차고 나와 사업을 시작했다는 점도 스타트업답다. 최근 인터뷰한 곳 중에선 가장 스타트업다웠다.

“저희는 서비스에 대한 확신이 있었어요.”

확신 없이 시작했다는 스타트업은 들어보지 못했다. 다만 직감이 아니라 숫자로 증명해야 하고, 그 숫자를 가능케 해주는 무엇을 가지고 있어야만 한다. 그 무엇이 이들에게는 트렌드와 트렌드를 현실화할 수 있는 기술력이었다. 텍스트를 읽지 않는 세대의 등장과, 이들로 인해 만들어지는 새로운 독법의 세상. 텍스트 기반의 구글이나 네이버 검색을 이용하기보다는 유튜브를 통해 지식을 발견하는 것이 일반화되기 시작했다고 판단했다. 이때 그들이 발견한 건 영상물이 되고 싶은 수많은 텍스트였다. 여전히 세상의 지식과 정보는 텍스트로 생산되지만 소비되지 못하고 있다는 냉정한 현실. 텍스트를 영상으로 만들기 위해 노력해 보지만 거기에 들어가야 할 역량이 부족한 냉정한 현실을 도와줄 수 있다면 새로운 시장과 사업이 가능하다고 봤다. 트렌드 속에서 시장을 보고 사업의 기회를 본 것이다.

그러나 상상이 현실로 이어지진 않았다. 캡틴이 상상했던 기회는 이미 공개되고 알려진 미래였다. 수많은 사람들이 캡틴과 같은 미래를 보았다. 2015년을 전후로 A.I.를 활용해 텍스트를 영상으로 변환할 수 있다는 스타트업들이 여기저기서 등장했다. 기술적 가능성이 주목받으면서 대부분의 TTV(Text To Video) 사업자들이 투자 유치를 받기도 했다. 그러나 규모 있는 매출로 이어진 사업자들은 많지 않았다. 웨인힐스브라이언트A.I는 매출 규모의 성장이 남다른 기업이었다. 이들은 고객들로부터 외면받는 텍스트 자료는 많지만 비용 등의 이유로 영상 전환을 하지 못하는 곳을 조준했다. 관성에서 벗어나고 싶지만, 벗어날 방법을 모르는 기업들이었다.

“영상콘텐츠를 많이 만들어야 하는 곳이 있어요. 예를 들어 삼성전자의 무선 모바일 사업부에서는 휴대전화 사용설명서, 가전제품 사용 설명서 등을 만드는데, 대부분 텍스트 기반이잖아요. 글을 읽지 않고 영상을 보는 사람들이 많아지는 상황에서 애써 만든 텍스트의 효용성이 떨어지죠. 그렇다고 영상만을 만들기에는 텍스트가 가지고 있는 힘을 무시할 수도 없잖아요.”

미디어가 아니라 고객 서비스 관점에서 접근했다. 그래서 현재 웨인힐스브라이언트A.I의 고객들은 삼성, LG, 신한금융, 하나금융 등이다. 이 맥락에서 보면 영상을 필요로 하는 곳이 지천이다. 은행의 적금 상품 설명서부터 시작해서 보험약관, 펀드 상품 설명서들, 분명히 고객들에게 제대로 고지되어야 하는 것들이고 고객들이 제대로 알기만하면 불필요한 서비스 비용을 줄일 수 있는 것들이다. 영상 제작 비용을 1/10 혹은 1/20로 줄일 수 있다면 읽지 않는 텍스트보다 보는 영상으로 정보 손실을 줄일 수 있다는 계산이 나온다. TTV의 핵심 고객을 B2B(Business to Business)에서 시작한 것은 탁월한 판단이었던 셈이다. 얼마 전부터는 해외의 리서치 기업들도 이들의 솔루션을 채택했고, 언론사들도 가능성을 보고 업무 협의를 하고 있다고 했다.

“영상은 다 돈이에요. 이미지와 영상을 일일이 찾아서 노동 집약적으로 쪼개 붙이고 렌더링까지 하는 일련의 과정 그 자체가 시간과 비용을 엄청나게 요구하죠. 사람을 채용해서 진행하기에는 무리가 있을 수밖에 없어요. 인공지능을 활용해서 최소 비용으로 작업하는 것이 필요하죠. 그게 기업들이 필요로 하는 거예요.”

캡틴은 “한 사람이 일주일 동안 만들 수 있는 영상물이 3~5개 정도라고 가정할 때, 웨인힐스브라이언트A.I의 솔루션을 이용하면 270~410개를 만들어 낼 수 있다”고 주장한다. 이 말대로 행해지기만 한다면 시간과 비용뿐 아니라 생산성까지 확보한 셈이다. 제공되는 언어의 숫자도 늘려가고 있다. 현재는 7개국 언어로 서비스되고 있다. 이를 감안하면 비용은 더 절감되는 셈이다. 텍스트 설명서를 7개국 언어 영상으로 변환하고, 거기에 자막까지 붙일 수 있는 것이다.

텍스트를 영상콘텐츠로 변환하는 과정

출처: 웨인힐스브라이언트A.I 유튜브 채널

최적의 이미지 찾기, 윈윈 전략으로 해결하다

TTV 솔루션을 필요로 하는 곳을 정확히 찾았다면, 다음은 그들이 원하는 상품을 제공할 수 있느냐의 문제로 이어진다. 텍스트를 영상으로 바꾸는 프로세스는 대동소이하다. 텍스트를 읽고 맥락에 맞는 이미지와 영상을 찾아 넣고 적절한 내레이션을 얹어 낱개의 파일을 병합하면 된다. 간단해 보이는 이 프로세스가 쓸만한 상품이 되기 위해서는 맥락을 읽어내는 인공지능의 기술적 완성도 못지 않게, 합법적으로 쓸 수 있는 이미지나 영상이 많아야 한다. 텍스트만 다루던 회사가 갑작스럽게 이미지나 영상을 자체 제작해야 한다면 시간과 비용 문제를 해결할 수 없기 때문이다. 섣불리 인터넷에 나도는 이미지 등을 찾아서 넣었다가 저작권 문제라도 발생하면 안 하느니만 못한 상황이 발생할 수도 있다.

“게티이미지(Getty Images)나 셔터스톡(shutterstock) 같은 이미지 업체와 라이선스 계약을 체결했어요. 전체 매출의 60%가량이 이미지와 같은 저작권을 확보하는 데 들어갑니다.”

쓸 수 있는 이미지가 많다는 것은 충분조건이지 필요조건은 아니다. 사람이 일일이 관련 이미지를 찾아서 넣어주는 것이 아니라, 인공지능이 알아서 최적의 이미지를 찾아주어야 하고 그러기 위해서는 이미지별 정보(tagging)가 입력되어 있어야 한다. 영상 시장에서 개인 맞춤형 서비스를 가장 잘한다는 넷플릭스는, 영화 한 편에 10만 개가 넘는 정보값이 들어가 있다고 한다. 10만 개라면 모든 것을 망라한 것처럼 보이지만, 그조차도 완성형이 아니라는 평가가 많다. 그만큼 정보값이 세세하게 들어가 있어야 최적의 이미지를 찾아낼 가능성이 높아진다.

“라이선스 계약을 맺을 때 정보의 입력 작업까지 해당 업체에 요구했어요. 우리가 그걸 하고 있을 수도 없을뿐더러, 한다고 하더라도 잘한다는 보장이 없으니까요. 다행히도 제공사업자가 이를 수용했어요. 덕분에 이제는 41억 개의 고정값과 변수가 들어가 있는 이미지를 우리가 사용할 수 있게 되었죠. 제공사업자도 검색 고도화가 가능해져서 서비스 품질이 좋아졌으니 윈-윈(win-win)이라고 할 수 있죠. 최근에는 그쪽에서 우리 상품을 다른 이들에게 홍보해 주고 있을 정도로 관계가 매우 좋아요.”

이런 관계는 계약을 갱신할 때 우호적인 조건으로 작동한다. 웨인힐스브라이언트A.I의 고객이 늘어나고, 매출액이 늘면 자연스럽게 이미지 이용량도 많아진다. 이용 데이터들이 쌓이면 게티이미지의 서비스 품질도 개선된다. 덕분에 초기 단기 계약 종료 후 장기 계약 체결 때에 전 계약 대비 25~40% 낮은 가격으로 계약을 체결할 수 있었다. 비용 면에서 경쟁력을 확보한 것이다.

완전 자동화보다 개성을 살릴 수 있도록

많은 업체가 이용하고 있으니, 어느 정도 완성도가 높은 상품일 것이라는 짐작은 가능하다. 그럼에도 구체적으로 솔루션의 수준을 가늠해 보고 싶었다. 이 대목에서 캡틴은 완성도란 표현 대신에 만족도란 표현을 사용했다. 수준이 어느 정도인지를 되물었지만, 돌아오는 대답은 ‘고객’의 만족도였다. 나중에서야 완성도와 만족도를 동일한 개념으로 사용한다는 답이 돌아왔다. 이번에는 “웨인힐스브라이언트A.I의 솔루션을 써서 텍스트를 영상으로 만들었을 때 추가로 들어가야 할 품이 얼마나 되느냐”고 물었다. 그제야 숫자가 나왔다. 일반적인 수준의 영상이라고 한다면 대략 80%의 완성도를 보이고 있고, 20% 정도는 사람이 손을 보면 시중에 내놓을 정도의 영상이 된다는 대답이 돌아왔다. 초기에는 사전 완성도가 20~30%에 불과했지만, 데이터가 쌓이면서 작년과 올해는 완성도가 급격히 높아졌다는 대답이 이어졌다.

다만 완성도의 목표가 100%는 아니다. 70%까지는 자동화하고 나머지 30%는 개별 주문 작업을 할 수 있도록 편집 툴을 만들고 있다고 했다. 대량의 데이터베이스가 있지만, 개별 사업자나 개인마다 가지고 있는 특수한 이미지가 있기 때문에 이 부분을 열어 두어야 한다는 게 대표의 생각이었다.

“가족들과 찍은 사진은 온전히 고객의 것이죠. 시중에 있는 데이터가 아무리 좋다고 하더라도 자기들의 역사가 들어가야 제대로 된 영상이지 않을까 하는 생각이 들더라고요. 그래서 텍스트를 넣으면 완성품이 ‘짜잔’하고 나오는것보다는 고객 스스로 편집할 수 있도록 해 주는 것이 좋다고 생각했어요. 자동화를 선택할 수도 있겠지만, 개성을 존중하는 거죠. 그래야 각 영상의 차별성도 생길 테고요.”

시행착오도 있었다고 했다. 처음에는 모든 것이 자동화되면 좋을 거라고 생각했지만, 결국 이 영역도 창조의 영역이고, 그래서 자동화가 궁극의 답이 될 수 없다는 결론에 도달했다는 것이다.

“솔루션 가격이 계좌당 7,500만 원입니다.”

B2B라고 하기에 당연히 어느 정도는 비쌀 것이라고 생각했지만 7,500만 원이라고 하니 입이 벌어졌다. 그러나 캡틴은 영상을 만들기 위해 새로운 사람을 채용해야 하는 것을 감안하면 비싸지 않다고 강변한다.

“촬영하는 사람, 스크립트 쓰는 사람, 예술 감독, 디자이너도 있어야 하니 아무리 작은 팀이라도 대략 3~5명은 필요해요. 1인당 연봉을 감안하면 대략 2억 원 언저리가 되지 않을까요? 이걸 우리 솔루션을 사용하고 한 사람이 한다고 생각하면 충분히 경쟁력 있지 않아요?”

매출이 170억 원이라고 하니 기업 하나가 1개의 계좌를 구입한다고 치면 B2B 고객이 대략 20여 개 된다는 소리다. 입소문을 타고 B2B 고객 수가 내년에도 더 늘 것이라고 보고 있다. 최근에는 온라인 교육 기업이나 출판사에서도 문의를 해온다고 한다.

텍스트 넘어 음성과 생각도 영상콘텐츠로

시장에서 검증받았고, 제품의 수준도 충분히 올라왔다고 자평하고 있다. 데이터가 쌓이면서 TTV 시장에서 우위를 점했다고 스스로 평가했다. 그렇다면 그다음을 상상하고 있을 법하다.

“하나는 TTV를 B2B에서 B2C(Business to Consumer)로 확장하는 것이고, 또 하나는 TTV를 넘어서 STV(Speech To Video)로 서비스를 한 단계 레벨업하고 싶어요. 종국에는 뇌파나 뉴런을 활용해서 생각만 하면 영상으로 만들어지는 단계까지 가고 싶기도 하고요.”

B2C는 비즈니스 모델의 난이도가 높고, STV는 기술 난이도가 높다. 둘 다 쉽지 않은 길이지만, 굴러가지 않으면 넘어지는 외발자전거를 탄 듯 앞으로 계속 내디딘다. B2C 솔루션은 이미 개발 완성 단계다. 2023년도 1분기에는 상품으로 내놓을 계획인데, 현재는 내부적으로 논의 중이라고 했다. B2B 솔루션을 거의 그대로 활용하되, 만들 수 있는 영상의 숫자를 제한해서 월 8,000원에서 8만 원까지 다양한 구독 상품을 제공할 계획이다. 이 말대로 된다면 나와 같은 ‘영알못(영상을 알지 못하는 사람)’도 영상을 제작할 수 있게 된다. 텍스트만 읽고 쓸 수 있으면 모든 이가 영상 제작자가 될 수 있는 길이 열리는 셈이다.

STV는 난이도가 상당하다. 그러나 초거대 A.I.가 등장했고, SNS에서는 OpenAI사가 개발한 인공 일반 지능 모델 ‘GPT-3.5’의 위용에 놀라움을 표하고 있을 정도로 발전 속도가 경이로운 지경이다. 캡틴은 조만간 상업화가 될 것이라고 단언한다. STV는 ‘Speech’를 얼마나 자연스럽고 속도감 있게 텍스트화하느냐가 서비스의 품질을 결정한다. 일단 발음을 정확하게 녹음할 수 있어야 하는데, 이 부분은 기기가 좋아져서 상당 부분 해소되었다고 한다. 스마트폰 밖 2~3m 안에서만 작업을 하면 발음의 고저, 강약, 숨소리 등을 정확하게 입력할 수 있다는 이야기다.

그다음은 녹음된 음성을 텍스트로 변환해야 한다. 이 대목이 내겐 의문투성이다. 현재까지 웨인힐스브라이언트A.I가 다루었던 텍스트들은 정돈되고 정제된 것들이었다. 주술 구조가 명료하고 문법적으로도 오류가 적은 데이터들이다. 그러나 사람의 말은 주술 구조가 꼬이는 맥락형 정보다. 말을 다 끝맺기 전에 다른 이야기를 하기도 하고, 주술을 무시한 채 이야기가 진행되기도 한다. 이를 영상 변환이 가능한 텍스트로 정리해야 하는 작업은 기존의 난이도와는 성격이 다르다. 어투 하나가 문장의 느낌을 좌우한다. 이를 텍스트로 옮기는 것이 쉬울까?

최근 A.I.를 보면 사투리 정도는 가볍게 식별하고 있다. 한국어 방언 말뭉치(언어 연구를 위한 자료 모음)가 개방되었고, 일부 기관에서는 사투리를 인식하는 서비스를 제공하는 수준에 이르렀다. 그렇다고 당장 상업화할 수준은 아닌 모양이다. 캡틴도 현재 영어의 완성도 수준은 대략 70%지만 한국어는 40% 수준이라서 여지가 있다고 했다. 그러나 이건 극복해야 하고 극복할 수 있는 일이라고 단언했다. 여기까지 이야기를 나누니 1시간 반이 훌쩍 지났다. 더 물어보고 싶었지만, 허락되지 않은 시간일 뿐이다. 아쉬움을 두고 일어섰다.

  • 필자 소개_ 조영신

    SK경영경제연구소에서 수년 동안 미디어 시장의 변화와 갈 길 길을 연구하다가, 2019년부터는 SK브로드밴드에서 미디어 사업의 실행을 고민하고 있다.