추천 알고리즘의 개념과 적용, 그리고 발전의 양상
글. 김대원(언론학 박사, 미디어 전략·정책 전공)
유튜브나 넷플릭스의 추천 알고리즘은 우리가 보고 싶어할 것 같은 콘텐츠를 골라 제안하는 식으로 이용자들의 눈길을 사로잡고 있다. 이러한 추천 알고리즘의 역사와 주된 작동 원리, 적용 예시를 소개한다.
‘인공지능(Artificial Intelligence, AI)이란 무엇인가?’라는 질문을 불쑥 해보고자 한다. ‘AI’란 개념은 역사적으로 백가쟁명(百家爭鳴)이 벌어진 격전장이었다. 연구자들이 AI를 바로 본 견해만 정리해도 하나의 책이 될 정도이다. 반복된 논의를 통해 인공지능이란 개념은 ‘인간처럼’, 그리고 ‘이성적으로 보이는’ 체계로 수렴된다.
알파고(AlphaGo)와 이세돌 9단의 대국 덕에, AI는 우리 사회 내 보편적 용어로 자리 잡았고, 미래에 살아남기 위해 알아야 할 조건이 됐으며, 코딩(coding)이란 새로운 항목이 사교육의 영역 안으로 진입했다. 그래서 일각에서는 AI의 시대가 왔다고들 한다. 그러면서, 적어도 시류에 합류해야 한다는 생각에 조바심을 내고, AI와 관련된 상징성 용어에 집착한다. 코딩, 기계학습(machine learning), 그리고 미디어 산업에서는 넷플릭스(Netflix)가 그러한 예로 볼 수 있을 것이다.
“우리도 ‘넷플릭스처럼’ 해야 하는 거 아니야?”
방송을 대표한 전통(legacy) 기업의 혁신 전략 회의에서 ‘상사’들의 레퍼토리(repertory) 핵심인 ‘넷플릭스처럼’이 담고 있는 의미 중 하나는 추천 알고리즘(recommendation algorithm)의 적용일 것이다. 이번 글에서는 바로 이 추천 알고리즘의 역사와 주된 작동 원리, 그리고 적용 예시를 소개하고자 한다.
추천 알고리즘의 목표는 고객관계관리(Customer Relationship Management, CRM)의 극대화다. CRM은 고객이 누구인지를 파악해서, 고객이 ‘원할 것 같은(정확하게는 소비할 것 같은)’ 상품이나 서비스를 제안하는 마케팅 활동이다. 조금 과장하면, 추천 알고리즘을 고도화하는 과정이 CRM 활동이라고 말할 수 있다. 추천 알고리즘의 전제에는 ‘고객을 알아야 물건을 팔 수 있다’는 마케팅의 기본 원리가 담겨 있다.
역사에 대한 논의에 앞서, 추천 알고리즘의 큰 뼈대에 대해 이야기하고자 한다. 추천 알고리즘은 크게 추천할 학습 기반 데이터에 따라 콘텐츠 기반 필터링(content based filtering)과 협업 필터링(collaborative filtering)으로 분류될 수 있다. 콘텐츠 기반 필터링은 추천의 기준이 콘텐츠다. 이용자가 소비한 콘텐츠의 특성을 기준으로 그 사람의 취향과 선호를 파악한 뒤 그에 부합하는 콘텐츠를 제공하여 구매 의도를 높이는 것이 콘텐츠 기반 필터링이다. 이용자가 ‘이미 소비한’ 콘텐츠를 기준으로 유사한 특성을 가진 콘텐츠를 추천하는 것이다. 콘텐츠 기반 필터링의 기반이 된 학습 데이터를 콘텐츠 제공 기업은 최대한 잘게 쪼갠다. 이 과정을 특성(feature) 추출이라고 한다. 이 특성을 묶어서, 분석 대상 콘텐츠는 각자의 특성 프로파일(item profile)을 갖게 된다. 음원을 예로 들어보자. 각각의 음원은 가수, 장르, 작사가, 작곡가 등을 기준으로 재정리한 특성 프로파일에 따라 추천 알고리즘에 분류된다. ‘이 곡과 유사한 노래’가 특성 프로파일에 기초를 둔 추천인 것이다.
반면, 협업 필터링은 콘텐츠가 아닌 이용자를 분석 대상의 기초로 삼는다. 소비자와 유사한 성향이나 선호를 가질 것으로 추정되는 이용자를 유사 이용자군으로 상정하고, 이들의 소비 결과를 토대로 목표 소비자(targeted customer)에게 콘텐츠를 추천한다. 성별, 연령별로 이뤄지는 추천이 바로 협업 필터링의 대표적인 결과물이다. 페이스북이나 링크드인에서 이용자가 친구를 맺은 이들이 본 콘텐츠, 혹은 친구들이 가입한 그룹에 대한 추천이 협업 필터링에 기반을 둔 것이다.
협업 필터링은 유사 이용자군까지의 데이터 확보라는 전제 조건 때문에, 데이터 확보가 어려운 기술적 환경 하에서는 시도가 어려운 영역이다. 이 같은 한계로 인해, 1980년대 추천 알고리즘의 주류는 콘텐츠 기반 필터링이었다. 협업 필터링은 1990년대 이후에서야 추천 알고리즘의 중심으로 부상했다. AI 기반의 디지털 기업이 적극 활용하면서, 추천 알고리즘이 일종의 첨단 기법으로 사회적 위상을 갖게 됐지만, 사실 추천 알고리즘의 역사는 사반세기가 넘는 셈이다.
세월의 흐름과 더불어 알고리즘이 발달을 거듭했는데, 그 방향은 콘텐츠 기반 알고리즘과 협업 필터링의 장점을 섞기 위해, 두 알고리즘을 비롯한 여타의 알고리즘을 융합한 앙상블(ensemble) 체계의 형성이었다. 기실, 이용자의 소비 이력에 근거하기에, 콘텐츠 기반 필터링은 이용자의 소비라인을 보다 깊게 만들 수 있다. 그러나 콘텐츠 기반 필터링으로는 이용자의 과거 소비 틀에서 벗어난 상품이나 서비스의 추천이 어렵다. 반면, 협업 필터링은 이용자가 포함된 집단의 소비 결과를 토대로 추천이 이뤄지기에, 이용자의 기존 소비 틀에서 벗어난 새로운 분야의 상품이나 서비스의 추천도 가능하다. 기업 입장에서는 고객의 소비라인 폭을 확장시키는 효과의 창출을 꾀할 수 있다.
여러 분야에 다양하게 적용되어 왔지만, 추천 알고리즘이 가장 광범위하게 활용된 콘텐츠는 영화다. 영화를 위한 추천 시스템은 1997년 무비렌즈(Movielens)가 선보였고, 2006년에 100만 달러의 상금을 걸고 추천 알고리즘 경진 대회를 연 넷플릭스에 의해 일반화됐다. 추천 알고리즘 경진 대회는 SK텔레콤과 SK브로드밴드가 2018년 ‘T&B 코드 챌린지’ 란 이름으로 국내에서 진행하기도 했다. 경연 주제는 영화나 드라마 등 미디어 콘텐츠의 추천 정확도였다. 영상 콘텐츠에 대한 추천 알고리즘 도입은 KT도 SK통신 진영 못지않게 빨랐다. KT는 2014년 올레 TV의 데이터를 초 단위 미만으로 잘게 잘라 분석한 뒤 소비자에게 맞춤형 콘텐츠를 제공하기도 했으며, 2016년에는 쇼핑 큐레이션 서비스인 ‘쇼닥’을 출시했다가 1년 뒤 내린 바 있다. 쇼닥은 쇼핑(shopping)과 닥터(doctor)의 앞 글자를 따서 만든 말이었다.넷플릭스가 추천 알고리즘의 경쟁력에 집중했던 까닭은 당시에 DVD 업체였던 사업 구조상의 체계적(systematic) 문제를 돌파하기 위함이었다. DVD는 신작 효과가 떨어지면, 대여 빈도가 대폭으로 떨어지게 된다. DVD가 소비되는 기간을 늘리고 재고 자산을 활용할 방안을 찾지 못하면, 비용만 늘고 매출 증가는 더디게 되는 구조적 체계에서 허우적댈 수밖에 없다. 신작 효과가 떨어진 콘텐츠의 유통 기간을 늘리는 것은 모든 콘텐츠 기업의 숙원이라 해도 과언은 아닐 것이다. 이러한 실질적 필요성 때문인지 영화, 책, 논문 등 콘텐츠를 쌓아 두고 이를 매개하는 서비스 업체들 중심으로 추천 알고리즘은 발달해 왔다.
아울러, ‘발견(finding)’이 소비의 결정적 순간으로 작용하는 분야에서도 추천 알고리즘은 적극 채택되어 왔는데, 관련된 대표 산업이 온라인 쇼핑, 즉 e-커머스(e-commerce)다. 제한된 쇼핑 시간 동안에 이용자의 소비 행동을 극대화하기 위해 선택될 가능성이 높은 품목을 선별해서 전달하는 능력은 동서고금을 막론하고 커머스 산업의 승패를 가르는 요인이다. 디지털 환경에서는 양극단의 규모가 사람이 일일이 관리하기에는 벅차다. 공급되는 상품도, 관리해야 할 고객 규모도 너무 많기 때문이다. 추천 알고리즘은 이러한 물리적 한계를 극복하는데 기여할 뿐만 아니라, 본래 취지에 맞게 ‘적합한 추천’을 제공함에 따라 활용 폭이 확대되고 있다. 이로 인해 커머스 외 뉴스, 유튜브와 같이 영상 콘텐츠를 매개하는 미디어 플랫폼도 뉴스 배열 및 전달의 역할을 ‘인간 에디터’가 아닌 ‘알고리즘’에 맡기고 있는 것이다.
스마트 기기의 보편화와 여러 기기에서 인터넷을 자유로이 활용하여 끊김 없이 콘텐츠를 소비할 수 있는 N-스크린(N-screen)의 시대가 도래하면서, 이용자의 미디어 콘텐츠 활용 시간을 두고 경쟁이 첨예화되고 있다. 경쟁의 국면을 톺아보면, 콘텐츠의 형질이 만들었던 벽은 무의미해졌다. 이제 콘텐츠 시장은 언론사, 방송사, 통신사, 인터넷업체 간 만인에 대한, 만인의 투쟁의 무대가 됐고, 제한된 시간 속 고객의 이목을 잡을 수 있는 순간의 경쟁력을 제고하는 추천 알고리즘의 중요성은 날로 높아지고 있다.
추천 알고리즘이 고객을 알아가는 1차 단계는 관련 자료의 수집이다. 현재도 소비자의 데이터는 기업에서 긴요하게 쓰인다. 데이터 경쟁력이 더욱 중요해지는 AI 시대가 본격화될수록, 소비자 데이터의 중요성은 더욱 커진다. 이러한 맥락에서, 추천 알고리즘의 시발점이자 그것의 경쟁력 결정 요인이 되는 데이터 수집에 대한 국내외 기업 간의 차이가 발생하고 있다. 국내 기업은 우리 사회 제도의 틀을 준수해야 하기에, 서비스 별로 소비자 동의를 받아야 한다. 반면, 해외 기업은 가입 시, 자사의 정책 동의를 근거로 포괄적인 데이터 수집이 가능하다.
확보할 수 있는 이용자 정보량은 알고리즘의 경쟁을 좌우한다. 전투에 나갈 때 상대를 얼마나 알고 나가느냐에 따라 승률이 영향을 받는 것과 같은 이치다. OTT 중심의 콘텐츠 유통 경쟁 본격화는 곧 데이터 경쟁력에 기반한 추천 알고리즘 능력 격차 심화로 이어질 것이며, 이는 유치원생과 대학생 간 경주(競走)로 빗대어 설명할 수 있다. 콘텐츠 시장이 ‘글로벌한 공간’이 된 상황임을 감안할 때, 이는 AI 경쟁력 강화 및 확보를 위해 챙겨야 할 이슈이다.