영상콘텐츠와 AI의 만남
글. 오정수 (편집부)
첫째도 AI(인공지능, Artificial Intelligence), 둘째도 AI, 셋째도 AI. 최근 내한한 소프트뱅크 손정의 회장은 연설에서 이렇게 역설했다. 각 산업 분야에서 인공지능을 활용하기 위한 움직임이 활발하다. 현재 콘텐츠산업에서는 AI 스피커를 비롯, 기술 자체로 콘텐츠 소비자에게 편리함을 제공하고 있다. 이에 그치지 않고 인공지능을 활용한 다양한 전략이 필요한 상황. 영상콘텐츠 산업계의 발전을 위해 인공지능의 큰 그림과 콘텐츠 산업에서 이를 활용한 여러 사례들을 들여다본다.
기가지니, 누구, 아리. 듣기만 해도 이 귀여운 이름들은 우리 일상에 많이 보급된 ‘인공지능(AI, Artificial Intelligence)’이다. 인공지능은 인간의 학습 능력, 추론 능력, 지각 능력, 이해력 등을 컴퓨터 프로그램으로 실현한 기술이다.
인공지능 기술이 발전하게 된 데는 여러 배경이 있다. 첫 번째는 데이터의 폭발이다. 인공지능은 사용자의 데이터를 모아 알고리즘을 분석해 나간다. 사용자의 도움 없이 ‘스스로 학습’이 가능한 것이다. 따라서 데이터 축적이 많이 필요한산업일수록 더 빠르게 인공지능의 영향을 받을 것이다.
두 번째는 컴퓨팅 능력의 향상이다. 2018년 출시된 GPU는 5년 전 출시된 고성능 GPU보다 40~80배 더 빠르다. 이로 인해 인공지능 알고리즘이 대용량의 데이터를 학습하고 해석하는 능력이 향상됐다. 덕분에 클라우드 컴퓨팅과 데이터 저장 기술, 사물인터넷(IoT) 기술이 결합되는 양상이 보인다. 다양한 기술이 상호보완적으로 발전하면서 AI 기술의 시너지 효과가 더욱 커졌다.
마지막은 알고리즘의 발전이다. 인공지능 머신은 데이터를 통해 배우고 성장하는데, 최근 ‘딥러닝’ 알고리즘의 발전으로 예측의 정확성이 비약적으로 향상됐다.
인공지능이 광의 개념이라면 머신러닝, 딥러닝은 그 안의 하위 기술이다. 머신러닝은 ‘기계(Machine)’와 ‘학습(Learning)’의 합성어로 기계가 특정 논리에 맞춰 방대한 데이터를 학습한 뒤, 이를 기반으로 알고리즘을 찾아내 변화를 예측한다. 즉, 사람이 생각하는 방식을 컴퓨터에 그대로 옮겨놓았다고 보면 된다.
딥러닝(Deep Learning)은 머신러닝을 구현하는 기술 중 하나로 가장 큰 특징은 인간이 사물을 구분하듯 데이터 속에서 패턴을 발견하고 분류해 예측하는 것이다. 머신러닝보다 정교한 분석이 가능한 것은 딥러닝이 인공신경망(Artificial Neural Network)을 기반으로 하기 때문이다. 기존에는 전문가들이 데이터 내에서 특징을 추출해 머신러닝을 통해 판단하는 식이었다면, 딥러닝에서는 데이터만 넣어주면 스스로 데이터의 특징을 찾아낸 후 분류나 판단까지 수행한다.
영상콘텐츠 산업에서도 이러한 딥러닝 기술을 바탕으로 데이터를 수집·분석해 사용자에게 꼭 맞는 콘텐츠를 제공한다. 영상콘텐츠 산업에서는 인공지능을 어떻게 활용할까?
먼저 우리 일상 속에서 쉽게 접할 수 있는 AI이자 영상콘텐츠 관련 인공지능은 ‘AI 스피커’다. AI 스피커는 2014년 아마존이 자사 AI 비서 알렉사를 기반으로 출시한 ‘에코’가 그 시초다. 이후 세계적으로 AI 스피커 시장이 가파르게 성장했고, 우리나라는 2016년부터 AI 스피커 시장에 뛰어들었다.
국내에서는 SK텔레콤·KT·LG유플러스 등 통신사 3곳, 네이버·카카오 등 포털사 2곳, 삼성전자·LG전자 등 전자제품 제조사 2곳 등이 AI 스피커를 출시했다. 이중 LG유플러스와 LG전자를 제외하고 모두 자체 개발한 AI 플랫폼을 스피커에 장착했다.
비록 세계시장에서 후발 주자로 나섰지만 세계 최초 ‘5G 기술 상용화’, ‘AI 콘텐츠’ 확보로 무서운 성장세를 보이고 있다. 단순히 음성으로만 전달하는데 그치지 않고, AI 스피커에 화면을 탑재한 ‘보는’ AI 스피커도 대세로 자리잡고 있다. 이 때문에 AI 스피커 콘텐츠의 폭이 좀 더 넓어졌음을 알 수 있다. AI 스피커는 검색, 음악 감상, 홈 IoT(사물인터넷), IPTV, 일기예보 등 각종 비서 역할을 해낼 수도 있고, AI 스피커만의 콘텐츠를 제공하기도 한다. AI 스피커의 킬러 콘텐츠라면 애니메이션 영상, 음성을 활용한 ‘키즈 콘텐츠’를 꼽을 수 있다. 이렇게 영상콘텐츠와 깊숙하게 얽혀있는 AI 스피커 각각의 관전 포인트를 짚어본다.
SKT는 2016년 9월 국내 최초로 AI 스피커 ‘누구(NUGU)’를 선보였고, 지난 6월에는 최초로 디스플레이를 탑재한 AI 스피커 ‘누구 네모(NUGU nemo)’를 출시했다. 이로써 SKT는 최초의 수식어를 모두 가져갔다.
누구 네모에는 디스플레이뿐 아니라 실감 음향을 구현하는 JBL스테레오 스피커가 탑재 되어있다. JBL스테레오 스피커는 전 음역을 표현할 수 있는 2개의 10W 풀레인지 드라이버가 적용돼 콤팩트한 사이즈에서도 최대 20W 출력으로 최고의 음질을 선보인다. 또 저음을 증강시키는 4개의 ‘패시브 래디에이터(Passive Ra-diator)’와 ‘저왜곡 스피커 유닛’ 을 넣어 부드러우면서도 강력한 저음으로 콘텐츠의 몰입감을 극대화시킨다.
SKT NUGU nemo
출처 : SKT NUGU 웹사이트AI 스피커의 킬러 콘텐츠인 키즈 콘텐츠도 누구 네모에서 소비할 수 있는데, 인기 애니메이션 핑크퐁, 코코몽을 이용한 ‘놀이학습 콘텐츠’가 준비되어있다. 인기 방송 애니메이션 콘텐츠와 학습 콘텐츠의 결합으로 콘텐츠시장의 폭을 넓히고 있는 사례임을 알 수 있다. 더불어 SKT OTT 옥수수(oksusu)의 키즈 VOD 콘텐츠도 무료로 제공한다.
KT 기가지니는 SKT 누구에 이어 탄생했다. 셋톱박스에 AI 스피커를 처음 접목한 사례로 KT 유선인터넷과 IPTV 가입자를 기반으로 AI 스피커 시장을 공략했다. 이는 TV, PC 화면과 연동이 가능해 교육, 커머스 등 서비스의 폭을 넓힐 수 있었다. 다양한 서비스를 제공할 수 있었던 결과 올해 5월 기준, 기가지니는 가입자 170만 명을 기록했다.
KT 기가지니의 차별화된 AI 콘텐츠는 개인화 ‘음성합성(P-TTS) 기술’을 이용한 ‘내 목소리 동화’다. 내 목소리 동화는 총 300문장을 녹음하면 P-TTS 기술을 통해 세상에 하나뿐인 오디오 동화책을 만들 수 있다. 한번 녹음하면 추가로 녹음할 필요가 없어 새로운 동화도 나만의 목소리로 들려줄 수 있다. 부모가 없어도 동화책을 읽어줄 수 있다는 점에서 매력적인 키즈 콘텐츠임을 알 수 있다.
추후 방송, 영상콘텐츠에도 음성녹음이 불가피한 상황에서 이 기술을 콘텐츠 제작에 활용하는 날이 오지 않을까?
KT 기가지니
출처 : KT 공식웹사이트U+AI 어벤져스
출처 : LG uplus shopLGU+는 지난 6월 어른들이 좋아하는 ‘어벤져스’와 1020을 모두 아우를 수 있는 아이돌 콘텐츠로 디스플레이형 AI 스피커 ‘U+AI 어벤져스 스피커’를 내세웠다. AI 플랫폼은 네이버의 클로바가 탑재되었다.
U+AI 어벤져스 스피커는 어벤져스 캐릭터를 3D로 잘 보여줄 수 있도록 세로의 원통 형태를 갖췄다. 좋아하는 어벤져스 캐릭터를 AI 스피커 디스플레이 대기화면에 나타나도록 설정하면 3D로 캐릭터가 등장한다. 스피커 화면에서 내가 좋아하는 히어로의 액션을 감상할 수 있다. 영상콘텐츠의 캐릭터를 AI 스피커에서 접목시켜 키덜트의 마음을 사로잡았다.
LGU+가 5G 시장을 선점하기 위한 전략으로 ‘아이돌 콘텐츠’를 강화하는 가운데 U+아이돌Live 기능을 이용할 수 있도록 했다. 단순히 음악 검색 및 감상 기능뿐만 아니라 인기 아이돌 공연 영상 5,300여 편을 음성 지시만으로도 볼 수 있다. 아이돌의 공연 영상을 그룹별, 멤버별, 노래별로 검색해 시청할 수 있고, 3D를 잘보여주는 몰입형 디스플레이로 아이돌 공연 무대를 눈앞에서 보는 것처럼 생생하게 느낄 수 있다.
AI 스피커가 영상콘텐츠와 알게 모르게 연결되어있다면, 사용자에게 좀 더 직접적으로 도움을 주는 인공지능 기술이 있다. 바로 ‘알고리즘’을 이용해 사용자의 데이터를 분석해 내가 선호하는 콘텐츠를 빠르고 편리하게 제공한다는 것이다.
유튜브의 ‘관련 동영상’을 떠올려보자. 뷰티 콘텐츠를 꾸준히 시청했다면 관련 동영상에 다른 뷰티 크리에이터가 만든 콘텐츠들이 리스트업된다. 관련 동영상뿐 아니라 홈 화면에도 내가 선호하는 콘텐츠의 데이터를 모아 분석해 볼만한 영상들을 추천해준다.
OTT 거대 기업 넷플릭스도 마찬가지다. 사용자가 선호하는 콘텐츠를 파악한 후 이를 바탕으로 가장 흥미를 가질만한 콘텐츠를 소개한다. 검은 바탕의 메인화면이 내가 원하는 콘텐츠들로 꽉 찬다.
구글 ‘나우’는 음성인식을 기반으로 사용자가 어떤 콘텐츠를 원할지 미리 예상하고 보여주는 서비스를 제공한다. 평소 구글에서 좋아하는 아이돌 방탄소년단을 검색을 했다면, 그 패턴을 보고 내가 방탄소년단 팬이라는 것을 인지한다. 그래서 방탄소년단 관련 사항이나 영상을 카드 형태로 알려준다.
저명인사와 괄목할 만한 업적을 이룬 사람들의 강연을 다룬 ‘테드(TED)’는 어떻게 하면 사람들이 필요로 하는 영상을 쉽게 찾을 수 있을지 고민했다. 테드는 이 문제를 IBM의 인공지능 ‘왓슨’을 통해 해결했다. 예를 들어 돈과 행복의 관계를 알고 싶다면 TED에 입력하면 AI 왓슨은 영상 정보, 영상에 담긴 강사들의 강연 내용 및 자막 정보 등을 분석해 가장 적합한 콘텐츠를 적중률 순서대로 보여준다. 단순히 영상을 나열하는데 그치지 않고 전체 영상 중에서도 내 질문에 적합한 영역만을 재생시킨다.
위에서 언급한 사례들을 통해 알 수 있는 것은 인공지능 알고리즘 시스템이 사용자의 ‘맞춤형 콘텐츠’를 제공한다는 점이다. 내가 원하는 정보와 콘텐츠를 쉽고 빠르고 정확하게 받을 수 있다는 것은 확실하다.
인공지능은 우리가 모르는 사이에 일상 깊숙이 들어와 있고, 영상콘텐츠와도 연계되어 있다. 인공지능 기술은 계속해서 진화하고, 빠른 속도로 성장 중이다. 영상콘텐츠 산업에서 인공지능을 활용한 다양한 전략이 펼쳐지길 기대해본다.
* 참고문헌
ㆍ정두희, 《3년 후 AI 초격차 시대가 온다》
ㆍ뉴시스, <[AI스피커 전쟁] 특집 기사>