K-콘텐츠산업의 ‘굿 파트너’ 생성형 AI Vol. 32
‘멀티모달’은 마치 각국의 다양한 부품을 모아 컴퓨터를 조립하듯 AI를 더 유용하게 쓸 수 있도록 여러 유형의 데이터를 조합하는 방식을 말한다. 콘텐츠 제작의 효율을 높여 콘텐츠 제작·소비 문화에 변화를 가져오고 있는 멀티모달 AI를 자세히 알아보자.
©Shutterstock
새로운 기술이 보편화되려면 그 쓰임이 분명해야 한다. 컴퓨터의 모든 기능을 집약한 스마트폰이나 번거로운 가사를 도와주는 세탁기나 냉장고, 청소기 등의 생활 가전이 없는 생활을 이제는 상상하기 어려운 것처럼 콘텐츠산업에서 AI도 그 쓰임이 점점 분명해지고 있다.
우리가 기억하는 AI의 첫 등장은 2016년 알파고와 이세돌 9단의 역사적인 대국이다. 이때만 해도 AI는 먼 나라 얘기 같았다. 하지만 사람과 필담을 나누듯 컴퓨터 언어가 아닌 인간의 언어로 질문을 하면 이에 대한 답을 ‘생성’할 수 있는 AI가 등장했고, 그 쓰임은 이제 그림, 음성, 음악, 영상 등의 다양한 포맷을 아우르는 멀티모달(Multi Modal)의 형태로 진화했다.
멀티모달이란 ‘AI를 더욱 유용하게 사용할 수 있도록 여러 유형의 데이터를 조합하는 것’을 뜻한다. 예를 들어 챗GPT 모바일 앱을 사용할 때 유저가 “이 사진을 보고 어떤 장면인지 설명해줘”라고 말하는 것을 음성과 이미지로 인식하고, 또 사람이 대답하듯 음성으로 답변을 출력해 주는 등의 방식이다. 멀티모달의 조합을 통해 비로소 AI는 ‘사람처럼’ 보고, 듣고, 생각하고, 답변할 수 있는 다양한 쓰임을 갖게 된다. 그리고 이렇게 여러 형태의 입출력이 가능한 AI 모델들을 ‘멀티모달’로 모아 산업군별로 그 쓰임을 최적화하면 개인과 기업의 생산성을 획기적으로 높일 수 있다.
출처 | 루이스(LEWIS) 홈페이지
창작 AI ‘루이스’를 보자. 클릭 몇 번 만으로 단숨에 새로운 영화나 드라마의 시놉시스를 완성하고, 그 시놉시스를 바탕으로 독창적인 세계관과 캐릭터까지 만들어낸다. 또한 캐릭터들과 대화하거나 배경음악을 가미해 다양한 영상 콘텐츠까지 제작할 수 있다. 만약 챗 GPT를 사용해 이런 작업을 한다면 시놉시스를 완성하기 위해 어떤 명령문을 입력할지, 내 의도에 맞게 수정하려면 무슨 정보를 입력해야 할지, 이걸 이미지로 만들려면 또 어떻게 변형해야 할지 수십, 수백 번의 고민을 거쳐할 것이다.
루이스는 텍스트, 이미지, 음악 등 여러 AI 모델을 모아 멀티모달 플랫폼으로 확장하고, 개발사인 키토크 AI의 자체 기술력으로 스토리 창작에 최적화된 프롬프트를 내재화했다. 이를 통해 작가의 생산성을 높이고 ‘창작’ 분야에 대한 진입장벽도 낮췄다.
구글 딥마인드의 멀티모달 AI, 제미니
©Shutterstock
실제로 지난 7월 16일, 루이스가 서울시와 함께 ‘테크놀 서울’ AI 스토리 창작 공모전을 오픈한 첫날에 무려 1백여 명이 넘는 참가자가 2백 개가 넘는 스토리를 생성했다. 약 일주일 정도 지난 시점에서는 1천여 개의 스토리가 생성되고, 그중 3백 개가 넘는 스토리가 정식 출품되었다. 공모전에 참여한 대부분의 사람이 창작 경험이 없는 일반인이며, 그중에는 아주 어린 학생들도 있다. 무척 고무적인 결과다.
STEP 1.
루이스는 대화하듯 진행되지만 명령문을 입력하는 대신 창작 과정마다 유용한 키토크 프롬프트를 보며 선택할 수 있어 빠른 진행이 가능하다.
STEP 2.
스토리 아이디어를 선택하면 자동으로 등장인물들을 생성해준다. 키토크 프롬프트 선택을 통해 각 인물의 설정을 쉽게 변경 및 재생성할 수 있다.
STEP 3.
앞서 설정한 스토리 아이디어와 캐릭터를 바탕으로 줄거리가 생성된다. 키토크 프롬프트로 줄거리 및 엔딩을 쉽게 변경 및 재생성할 수 있다.
STEP 4.
스토리의 시대적, 문화적, 기술적 배경에 대한 상세 설정을 생성할 수 있다. 등장인물들이 활동하는 주요 로케이션을 생성하고, 각 로케이션별로 테마 음악과 기획에 참고할 수 있는 유사한 실제 장소까지 추천받을 수 있다.
STEP 5.
스토리의 아이디어, 등장인물, 줄거리, 세계관을 바탕으로 다양한 장면들을 생성할 수 있다. 언제 어디서 누가 무엇을 하는지 각 장면별 상세 설정과 함께 짧은 대본까지 만들어 볼 수 있다.
이미지 제공 | 키토크AI
키토크 AI는 왜 번거롭게 굳이 루이스를 멀티모달로 만들었을까? 글을 쓰고, 그림을 그리고, 음악을 만드는 일은 재능이 있는 사람 누구나 숙달되면 비교적 짧은 시간 내에 가능하지만 이 모든 작업을 혼자서 빨리 해내는 것은 불가능에 가깝기 때문이다. 멀티모달의 조합으로 AI는 창작자에게 이전에는 도달할 수 없었던 수준의 생산성을 선사할 수 있게 되었고, 이는 다양한 취향을 가진 사람들이 저마다 각양각색의 콘텐츠를 제작하는 새로운 콘텐츠 문화를 만들어내고 있다. 마치 각국의 다양한 부품을 모아 세계 최고의 컴퓨터를 조립하는 것처럼, AI 기술을 모아 새로운 콘텐츠를 만드는 일. 이 멀티모달 방식은 당장 새로운 기술을 만들기는 힘든 K-콘텐츠산업의 새로운 도약을 위한 대안이 될 수 있다.
지금까지는 한 편의 뮤직비디오를 만들기 위해 수개월 동안 창작의 고통을 겪으면서 누군가는 멜로디를 만들고, 누군가는 가사를 쓰고, 누군가는 가창하고, 누군가는 이를 영상으로 담아내는 길고 복잡한 프로세스를 거쳐야만 했다. 하지만 이제는 이 모든 작업을 혼자서 단 몇십 분 만에 다 해낼 수 있다. 루이스의 파워 유저들은 하루에도 몇십 개의 스토리와 장면들을 생성하고, 이를 바탕으로 다양한 콘텐츠를 발행한다. 물론 개인의 경험과 역량에 따라 콘텐츠의 질은 달라지겠지만, 독창적인 아이디어만 있다면 이를 다양한 형태의 콘텐츠로 만들어내는 과정과 그 결과물의 전반적인 퀄리티는 획기적으로 짧아지고 개선되었음이 국내외 AI 영화제 등을 통해 입증되고 있다.
앤사로픽의 클로드는 챗GPT, 제미니 등과 경쟁하는 멀티모달 AI다
©Shutterstock
멀티모달은 앞으로 우리가 콘텐츠를 만들고 소비하는 방식을 크게 바꿀 것이다. 더 많은 사람들이 콘텐츠를 소비하는 데 그치지 않고 2차, 3차 창작에 도전하고 온라인을 통해 비슷한 취향을 향유하는 전 세계 사람들과 공유할 것이다. 스포티파이, 유튜브, 아마존과 같이 셀프 퍼블리싱이 가능한 플랫폼은 이미 AI로 창작한 콘텐츠들이 넘쳐나고 있다. 이런 세상에서 기존의 ‘저작권’이라는 개념이 지금과 같이 유지될 수 있을까?
물론 AI 생성의 시대에도 콘텐츠산업이 지속되려면 창작자의 권리와 내 작품에 대한 소유권은 반드시 지켜져야 한다. 하지만 콘텐츠가 범람하는 시대에 문서로 일일이 저작권을 기록하는 기존의 방식은 결국 도태되고, NFT 등의 새로운 디지털 방식으로 대체될 것이다. 그리고 더 많은 창작자가 내가 만든 콘텐츠를 팬들에게 직접 제공하고 이익을 얻는 쉽고 편리한 새로운 방식들도 생겨날 것이다.
10년, 20년 후에도 K-콘텐츠가 세계 무대의 중심에 남아있으려면 지금부터 생성형 AI발 콘텐츠 혁신을 이끌어야 한다.
글. 김현정(키토크AI 홍보 담당 팀장)
* 이 글은 작성자 개인의 의견이므로 소속 회사의 의견과는 다를 수 있습니다