New wave 1

콘텐츠를 통하게 하는
데이터의 중요성

‘플리토’ 이정수 대표 인터뷰

글 조영신(Ph.D)
사진 김성재(싸우나스튜디오)

플리토는 집단지성 방식을 통해 정확도를 높인 번역 데이터를 제공하는 기업이다. 양질의 번역 데이터는 콘텐츠 내용의 이해를 돕고, 사람의 손길이 필요한 제작 과정을 인공지능을 활용해 효율적으로 처리하도록 도울 수 있다. 플리토의 이정수 대표를 만나 이야기를 나눴다.

집단지성 번역 시스템의 탄생

작은 회의실에 촬영용 카메라 여러 대를 설치했더니 꽉 찬다. 테이블을 마주 보고 가까이 앉아 이야기를 나누려고 했더니, 앵글에 잡힌단다. 의자를 뒤로 물리고, 허리를 뒤로 제쳤다. 제법 큰 규모의 상장 회사치고는 회의실이 아담했다. 편안한 차림의 이정수 대표가 자리에 앉았다.

플리토의 사업을 한마디로 정의해 달라고 했다. 인공지능은 포괄적인 단어다. 한정사나 수식어가 붙지 않으면 제대로 이해하는 것이 쉽지 않다. 인공지능 아닌 게 없는 세상이지 않은가?

“예전에는 사람들을 이해시키는 것이 쉽지 않았어요. 다행히 지금은 챗GPT 등 언어 관련 인공지능이 많이 나와서 상대적으로 쉽게 이해 하시더라고요. 쉽게 말해 인공지능을 뇌라고 본다면 저희는 학원 선생님이라고 보시면 될것 같아요. 인공지능을 가르쳐주는 역할을 하고 있는 거죠.”

선뜻 이해가 되지 않았다. 문과 출신인 탓인가 싶어 재차 물었다.

“학원 가면 좋은 교재가 있고, 좋은 선생님이 있잖아요. 우리는 인공지능이 학습할 수 있는 교재를 만들어 준다는 의미로 말씀드린 거예요. 기술적인 용어로 하면 좋은 데이터를 공급하는 사업자인 거죠.”

플리토는 2012년 창업했다. 인공지능이란 말이 낯설 때다. 인공지능 스피커가 출시된 것이 2014년도이고, 이세돌과 알파고의 격전이 벌어진 해가 2016년이다. 2012년이라면 ‘인공지능’이란 단어는 연구소 같은 곳에서나 쓰였던 기술 용어였을 때다. 그런 상황에서 인공지능의 지능을 높이기 위해 필요한 양질의 데이터를 제공해 주는 사업이란 말이 얼마나 추상적으로 들렸을지 짐작하고도 남는다. 그럼에도 플리토는 소수의 전문가가 아니라 ‘집단지성’에 의존해 데이터를 수집하는 방식때문에 주목을 받았다.

“모든 서비스의 시작이 그렇듯 플리토도 이용자가 전무한 상황에서 서비스를 시작할 수밖에 없었어요. 지인들에게 권유도 하긴 했지만 거의 사용하지 않았고, 주변에 사정이 비슷한 창업자들만 서비스를 이용해주는 상황이었죠.”

집단지성에 대한 아이디어는 고육지책 끝에 나왔다. 2012년 가수 싸이 열풍이 나비 효과가 되었다. 싸이의 한마디에 전 세계 팬들이 주목할 때다. 한편 글로벌 팬들이 싸이의 한글 트위터 게시글 내용을 이해하지 못하는 경우가 빈번해졌다. 플리토는 싸이가 트위터에 글을 올리면 팬들이 모여서 여러 언어로 번역하는 시스템을 만들었다. 팬들은 자기가 사랑하는 스타의 트윗을 자발적으로 번역하기 시작했다. 사람이 사람을 불러 모았다. ‘집단지성을 활용한 인공지능 번역 업체’라는 별호가 생겼다.

이때부터가 진짜 승부다. 작은 구멍가게가 큰 가게로 성장하느냐 아니냐는 바로 이때의 선택에 좌우된다. 단기간에 트위터 때문에 온 이용자들이 플리토에 남아 있을 수 있는 구조를 만들어야 하고, 그들이 만든 번역이 양질의 데이터가 될 수 있는 조건을 만들어야 한다. 이 대목에서 플리토는 자신들의 역량을 선보였다.

보상체계를 갖추기에는 돈이 없는 스타트업이다. 그래서 기획사를 찾아갔다. 팬들이 이렇게 자발적으로 번역 작업을 하고 있고, 이를 통해 스타의 글로벌 저변이 확대되고 있다는 것을 공유했다. 그리곤 그 팬들에게 나눠줄 공식 MD나 선물을 얻어왔다. 이를 팬들에게 선별적으로 나눠주기 시작했다. YG, SM 등에 있는 아티스트들이 자기 트위터에 플리토의 링크를 올리기 시작했다. 1년 만에 수백만 명의 이용자가 몰렸다. 기념품으로 시작했던 것이 포인트 제도로 확대되었고, 포인트를 모아서 각종 선물이나 상품권 등을 구매할 수 있는 시스템으로 진화했다. 지금 당장은 아니지만 보상 차원에서 NFT나 블록체인에 대해서도 고민하고 있다.

초기, 팬들이 올리는 번역이 모두 양질은 아니었다. 그래서 정확도를 판별할 방법이 필요했다. 팬들은 자기가 사랑하는 스타의 발언이 혹시라도 의도와 다르게 소비되어 오해받는 것을 싫어한다. 번역 글 중에 다른 유저들이 ‘엄지척’을 누른 숫자가 높은 순으로 노출되게 했다. 팬의 입장에서는 오염되지 않은 정보를 스스로 선별한 셈이다. 이용자가 늘었고, 양질의 번역이 생겼다. 그러나 여전히 언어 기반의 인공지능 데이터라고 하기에는 그 범위가 제한적이다. 팬과 스타의 소통 내용은 한정되어 있다. 전문 지식이 필요한 범위로의 확장이 필요했다.

“영역별로 등급을 나누기 시작했어요. 예를 들어 트위터 문장 10개를 번역해야 기념품 하나를 받을 수 있다면, 전문학술 서적은 문장 하나만 번역해도 기념품을 받게 하는 것이죠.”

팬들뿐 아니라 포인트를 받기 위해서 모여든 이용자들도 하나둘씩 늘어나기 시작했다. 제대로 된 언어 데이터가 쌓일 수 있는 물리적 기반이 갖춰진 셈이다.

데이터의 양만큼이나 중요한 정확도

번역 데이터가 쌓였고 사람들도 모였다. 그런데 사는 사람이 없었다. 기업들은 기술만 찾을 뿐 데이터를 찾지는 않았다. 인터넷에 넘치는 것이 데이터라고 생각했던 탓이다. 2016년에 변곡점이 생겼다. 알파고와 이세돌의 격돌은 인공지능에 대한 두려움과 동시에 갈망을 품게 만들었다. 인공지능에 대한 관심이 폭증하면서 반대로 데이터 이용 문제가 불거졌다. 이전까지는 인터넷에 있는 자료를 크롤링(crawling, 정보를 자동화된 방법으로 수집·저장하는 것)해서 사용하는 것이 일반적이었으나, 법적인 문제가 생길 소지가 컸다.

당시 한국전자통신연구원(ETRI, Electronics and Telecommunications Research Institute)은 자동 통역 기술 지니톡(GenieTalk)을 개발하고 있던 와중에 법적 문제가 없는 데이터를 찾기 시작했고, 플리토의 데이터를 구매하게 된다. 이 구매는 단순히 매출 그 이상의 의미를 지니고 있다.

“왜 우리 데이터를 구매했는지를 물어봤죠. 너무 신기했거든요. 근데 돌아온 대답이 흥미로웠어요. 인터넷 자료를 크롤링한 데이터는 감수가 되어 있지 않아 정확성이 70% 밑이라는 거예요.”

공공기관이 구매한 제품에 대해서는 사후 감사가 진행된다. 감사를 위해서 플리토의 데이터 샘플을 분석했는데, 그 과정에서 정확성이 98%라는 값이 나온 것이다. 사람과 사람이 대화를 할 때도 불가피하게 못 알아듣는 말이 생기는 법인데, 기계가 학습할 번역 데이터가 98%의 정확성을 가지고 있다는 것은 이 데이터의 가치를 보여준다. 이 점수는 나중에 플리토가 코스닥에 상장할 때 매우 중요한 역할을 한다.

이어 일본의 무선통신 회사 NTT도코모도 연락을 해왔다. 첫 억대 매출도 이루어졌다. 그러나 동시에 회사가 그간 데이터를 수집하는 데 집중되어 있었을 뿐 영업은 소홀히 하고 있었다는 것이 드러났다.

이 두 번의 경험 덕분에 사업적으로 성숙해졌다. 네이버와 데이터 제공 협약을 맺었고, 바이두(Baidu)나 텐센트(Tencent)와도 거래가 이루어졌다. 그러나 여전히 규모는 작았다. AI 콘퍼런스 같은 곳을 찾아가기 시작했다. 의외로 그들도 데이터에 대한 갈증이 있었다. 다만 어디서 어떻게 데이터를 모아야 하는지를 모르니, 전문 번역 회사를 통해서 데이터를 수집하고 있었다. 플리토가 데이터를 보여주니 관심을 보이기 시작했다.

인공지능 관련 데이터를 제공해 준다는 사업자는 여럿이지만 정제된 데이터를 가지고 있는 경우도 드물었고, 매출을 보여주는 기업도 드물었다. 플리토는 규모는 크지 않지만 매출이 발생한 기업이다. 데이터의 가치 때문에 글로벌 시장에서도 주목하고 있다는 징표는 이 회사의 미래 가능성이 높다는 것으로 해석되었다. 덕분에 사업모델 특례상장 1호 기업으로 2019년 상장하게 되었다.

빅테크에 맞서 자기만의 영역을 찾다

다시 맨 처음으로 돌아가 보자. 인공지능은 대형 사업자들이 거대 자본을 투자하는 곳이다. 빅테크 기업들은 다 인공지능에 발을 걸쳐놓은 상황이다. 알파고 이후 인공지능 시장을 또다시 흔들어 놓은 챗GPT에 마이크로소프트는 110억 달러(약 14조 3,000억 원)를 투자했다. 플리토 같은 업체가 이들과 직접 경쟁하는 것은 불가능하다.

“프론트 시장은 빅테크 기업을 포함해서 대기업이 다 들어와 있는 상황인지라 우리 같은 작은 기업이 지속적으로 성장하긴 힘들어요 구글에 인수된 딥마인드(DeepMind)처럼 빅테크 누군가에서 인수되는 것만이 길인데, 그것도 쉽지 않죠. 그래서 이 대기업들이 공통으로 필요는 하지만 직접 진입하지 않은 영역이 뭘까를 고민했고, 답으로 나온 것이 바로 데이터였어요.”

실제로 오픈AI가 등장하고 나서 프론트 서비스들은 대부분 오픈AI에 종속되거나 사라질 것이라는 예측이 나온다. 번역 서비스도 그중 하나다. 그러나 오픈AI를 교육시킬 데이터는 여전히 필요하다. 저작권 문제가 강화되면서 필요한 데이터를 구매해야 하는 상황이 되어 버렸다는 점에서도 긍정적이다. 그러나 이를 몇몇 대기업이 과점하게 되면 데이터 구매처가 제한적이어서 수익도 한계적이다. 데이터의 가치를 높일 수 있어야 한다는 대전제 하에서 데이터 판매 외의 수익도 확보해야 한다는 새로운 과제가 또 생겼다.

그래서 새롭게 시작한 서비스 중 하나가 식당 메뉴 번역이다. 메뉴판에 있는 QR코드를 찍으면 해당 식당의 메뉴판이 자국 언어로 번역되어 나온다. 시장이 너무 작아서 대기업들이 이 시장에 들어오는 것도 쉽지 않다. 그렇다고 해당 서비스 사업을 시작하기에는 축적된 데이터 등 기술적 역량이 필요해서 아무나 진입하기도 쉽지 않다. 자영업자는 메뉴가 번역되면 좋긴 하지만, 그렇다고 돈을 주고 해당 서비스를 구매해서 사용하기에는 용처가 제한적이다. 여행을 다니는 고객은 필요로 하는 서비스다. 결국 외국인을 유치해야 하는 지자체 등 공공기관이 서비스 대금을 지불하고 공동체에 사용하도록 해야 하는 특성을 지니고 있다.

“그게 뭐 대단하냐고 다들 처음에는 말씀하세요. 포털 등에서 제공하는 번역 서비스가 많잖아요. 사진 찍으면 한국어로 번역되어 나오는 것들 말이죠. 근데 식당 메뉴라는 게 생각보다 난이도가 높아요. 한번 이들 서비스로 메뉴를 찍어 보세요. 10개 중에 한두 개 제대로 번역될까 말까 해요. 근데 우리가 제공하는 서비스는 정확도가 100%입니다. 한 번 우리 서비스를 쓴 사람들은 다른 서비스 못 써요. 해외에서도 조금씩 이 서비스를 이용하기 시작했어요.”

트위터 번역처럼 식당이나 이용자들이 메뉴 사진을 찍어서 올리면 플리토의 이용자들이 이를 번역하는 프로세스다.

최근에는 콘텐츠 영역으로 확대했다. 바로 웹툰이다. 영상이 아닌 웹툰에 주목한 것도 획득 가능한 데이터의 규모와, 대기업이 참여하기 어려운 시장이라는 점 때문이다. 특히 웹툰은 창작의 영역이라는 특성상 여전히 사람 손이 많이 필요한 영역이라 규모의 경제를 지향하는 대기업이 참여할 수 없다는 특성이 있다.

“언어 관련 인공지능이 많이 발전했다고 하더라도 완벽한 번역은 거의 불가능해요. 두 언어가 서로 완벽하게 매칭되는 구조를 가지고 있지 않거든요. 언어는 살아있는 생명체에 가깝고 매번 상황에 맞추어 새로운 단어가 생성되고 소멸하는 현상이 반복되잖아요. 국내에서 유행한 ‘어쩔 TV’ 같은 단어는 다른 언어권에서 찾아보기 힘들죠.”

10대를 겨냥한 한국 웹툰을 인도네시아에서 출시한다고 하면 그 나라 10대의 언어로 재가공해야 하는데, 이를 인공지능이 완벽하게 대체해 주지 못한다. 다만 초벌 작업 정도를 기계가 도와주어 생산성을 높일 수 있겠다고 본 것이다. 이 경우 생산성을 높이기 위해서는 지속적인 데이터의 공급이 불가피하다는 점이 기회로 보였다.

데이터의 관점에서 보면 웹툰은 영상물 대비 장점을 가지고 있다. 일단 축적할 수 있는 데이터 양이 많다. 2022년 기준 국내 드라마 제작 편수는 130여 편인 반면, 웹툰은 2,000편이 넘는다. 웹툰은 작가별로 비교적 스타일이 유사한 반면에 영상은 같은 배우여도 작품마다 연기 톤이 전부 달라 일반성을 확보하기가 쉽지 않다. 이 때문에 상대적으로 웹툰은 인공지능이 개입될 여지가 높다.

플리토는 여전히 인공지능 데이터 제공사업자다. 다만 데이터 수집과 확보를 위해서 서비스 사업의 영역을 개척해 나가고 있다. 최근에 플리토는 또 다른 번역이란 키워드로 새로운 상상을 하고 있다. 전 세계 SNS를 언어 장벽 없이 이용할 수 있는 서비스를 기획하고 있는데, 아직은 비공개라고 한다. 한참 이 이야기를 듣고 난 후에 대박날 것 같다고 추임새를 넣었더니, 이정수 대표는 너무도 행복해하며 환하게 웃었다.

청년 셋이 의기투합해서 회사를 설립했다. 우여곡절 끝에 시장의 주목을 받고 그 어렵다는 상장을 하고, 7월 24일 기준 시가총액 2,000억 원 규모의 회사로 성장했다. 이제는 중년이 된 청년 셋은 여전히 플리토에서 일하고 있다. 이익 실현을 할 법한데 왜 아직도 남아 있느냐는 질문을 던졌더니 아직은 더 성장할 수 있는 회사라고 스스로 믿고 있기 때문이라는 대답이 돌아왔다. 아직은 연간 단위로 영업이익을 거두지 못하고 있는 회사지만 2022년 분기 단위로 영업이익을 거두는 쾌거를 이루었고, 앞으로도 성장할 것이라는 믿음이 있기 때문일 거다. 그 믿음이 현실이 되길 기원한다.

  • 조영신

    SK경영경제연구소에서 수년 동안 미디어 시장의 변화와 갈 길을 연구하다가, 2019년부터는 SK브로드밴드에서 미디어 사업의 실행을 고민하고 있다.