오픈AI의 ‘소라’ 등 동영상 생성 인공지능 기술이 영상 제작 산업에 혁신을 가 져오며 비용 절감과 창의적 제작을 가능하게 하고 있다. 그러나 이로 인한 일 자리 위협과 저작권 문제 등 다양한 논란도 함께 제기되고 있다.글. 최재운(광운대학교 경영학부)
2024년 2월, 오픈AI는 비디오 생성 인공지능 모델인 소라(Sora)를 공개했다. 오픈AI는 이를 통해 챗GPT에 이어 전 세계를 놀라게 한 새로운 기술을 또 한 번 공개한 것이다. 챗GPT와 마찬가지로 트랜스포머(Transformer)라는 인공지능 아키텍처를 기반으로 하는 소라는 텍스트 입력만으로 사실적이면서 생동감 넘치는 영상을 생성하는 능력을 선보였다. 특히, 단순 스틸 이미지나 짧은 클립 수준을 넘어 1분 가량의 영화와 같은 동영상을 생성할 수 있다는 점이 충격으로 다가왔다.
[그림 1] 오픈AI 소라가 생성한 영상 (자료: OpenAI, 2024.2.15.)
대중과 업계의 반응은 그야말로 뜨거웠다. 기술 매체들은 소라의 혁신성을 칭찬하기에 바빴으며, 소셜 미디어에서는 소라가 만든 영상들이 계속해서 공유되었다. 사람들은 프롬프트(prompt)라 불리는 텍스트 몇 줄로 영상을 창조할 수 있는 시대가 도래했다는 사실에 놀라움을 금치 못했으며, 영상 시장이 급변할 것이라는 목소리도 뒤따랐다. 특히, 영상 제작 산업계의 반응이 복잡했다. 할리우드의 대형 스튜디오들은 발 빠르게 움직이며, 소라를 비롯한 인공지능이 가져올 경제적 이익에 주목했고, 수천 명의 작가, 배우, 영상 편집자들은 인공지능으로 일자리를 잃을 수 있다는 우려도 제기했다.
신규 서비스가 계속해서 등장하는 동영상 생성 인공지능 시장
오픈AI가 쏘아 올린 ‘소라’라는 인공지능 모델은 동영상 생성 인공지능 시장을 뜨겁게 달아오르게 하였다. 사실 동영상 생성 인공지능을 처음 공개한 것은 오픈AI가 아니다. 인공지능 스타트업 중 하나인 런웨이(Runway)는 2023년 6월, 동영상을 생성하는 ‘젠2(Gen-2)’를 출시하며 업계를 이끄는 기업으로 주목받은 바 있다. 소라가 만든 영상이 공개되자, 런웨이의 CEO인 크리스토발 발렌수엘라(Christóbal Valenzuela)는 X(트위터)에 ‘게임 시작(game on)’이라는 짤막한 글을 남기며, 치열한 경쟁이 시작되었음을 암시했다. 그리고 이후 런웨이는 ‘젠-3 알파(Gen-3 Alpha)’라는 동영상 생성 모델을 출시하며 소라에 맞불을 놓았다. 런웨이의 새 모델은 고품질의 영상을 빠르게 생성할 뿐만 아니라, 사용자가 텍스트뿐만 아니라 이미지와 동영상을 활용해 영상을 만들 수 있도록 지원하며 시장의 큰 호응을 받고 있다. 이 외에도 중국의 클링(Kling)을 비롯해 많은 인공지능 스타트업들도 동영상 생성 인공지능 시장에 빠르게 진입하고 있다.
[그림 2] 런웨이 젠-3알파가 생성한 영상 (자료: Runway, 2024.6.18.)
오픈AI의 소라에 대응하기 위해 구글도 나섰다. 구글은 자사의 동영상 생성 인공지능 모델인 ‘비오(Veo)’를 공개했다. 비오 역시 텍스트를 기반으로 영상을 만드는 모델로, 사실적 영상뿐만 아니라 애니메이션 스타일의 영상도 만들 수 있다. 비오는 60초 이상의 1080p 영상을 생성할 수 있으며, 창의적인 제어 기능을 기반으로 다양한 영화 스타일을 지원하고 있다. 구글은 이를 통해 기존 동영상 생성 인공지능에서 발생하는 불안정한 영상 문제를 해결하고 있다고 설명하고 있다. 구글 외에도 가장 인기 있는 이미지 생성 인공지능 모델을 출시한 미드저니(Midjourney)와 스태빌리티AI(Stability AI)도 영상 생성 모델을 개발하는 것으로 알려져 있다.
천 리 길도 한 걸음부터, 짧은 영상부터 만드는 인공지능
아직 동영상 생성 인공지능이 만들어내는 작품의 길이는 짧은 편이다. 소라가 처음 공개한 영상은 1분가량이었으며, 다수의 기업이 공개한 동영상 역시 길이가 그리 길지 않다. 그래서 동영상 생성 인공지능을 만드는 기업들은 우선 짧은 영상을 필요로 하는 시장을 먼저 겨냥하고 있다. 이들은 처음부터 장편 영화에 도전하는 것이 아니라, 단편 영화, 광고, 뮤직비디오 등과 같은 콘텐츠 제작에 우선 집중하는 것으로 보인다.
소라의 가능성을 잘 보여주는 사례 중 하나는 폴 트릴로(Paul Trillo) 감독이 소라를 활용해 만든 ‘워시드 아웃(Washed Out)’ 뮤직비디오이다. 트릴로 감독은 소라로 생성한 클립 55개를 사용해 4분짜리 뮤직비디오를 완성했다. 이 과정에서 시각효과(VFX) 작업도 소라로 처리하며 제작 비용과 시간을 크게 줄였으며, 영상의 일관성을 유지할 수 있다는 점도 만족한다고 그는 밝혔다. 이처럼 소라와 같은 동영상 생성 인공지능은 새로운 영상을 제작하는 것 자체만으로도 혁신적인 도구가 될 수 있으며, 복잡한 후반 작업을 간소화하여 창작자들이 더욱 빠르고 저렴하게 고품질의 영상을 만들 수 있도록 한다.
[영상 1] 폴 트릴로 감독이 제작한 뮤직비디오 (자료: Washed Out 유튜브, 2024.5.2.)
오픈AI는 이 외에도 소라를 다양한 영상 제작자들에게 선 공개하며, 그들과 협업을 진행하였다. 그리고 공개한 결과물은 놀라웠다. 특히, ‘샤이 키즈(Shy Kids)’라는 캐나다 토론토의 밴드는 소라를 활용해 그들의 뮤직비디오 <에어 헤드(Air Head)>를 제작했다. 이 비디오는 실제 촬영 영상과 구별하기 어려울 정도로 높은 퀄리티를 보였으며, 제작자 특유의 감성이 더해지며 시청자들에게 깊은 인상을 남겼다. 물론 손이나 얼굴을 표현하는 데 있어 일부 왜곡이 발생하는 경우도 있었지만, 전반적으로 소라의 성능이 매우 뛰어나다는 것을 여러 제작자와의 협업으로 입증하였다.
한편, 동영상 생성 인공지능을 숏폼 콘텐츠에 활용하고자 하는 움직임도 있다. 구글은 앞서 소개한 비오를 유튜브의 숏츠(Shorts)에 통합하여 크리에이터들이 짧은 동영상 배경을 쉽게 생성할 수 있도록 하는 기능을 지원하기로 하였다. 이 기술은 간단한 텍스트 입력만으로 6초 분량의 클립을 만들 수 있어, 유튜브 쇼츠 제작자들에게 큰 도움이 될 것으로 보인다. 아마존 역시 자사 플랫폼을 통해 판매를 진행하는 이들을 대상으로 인공지능 기반 영상 생성기를 출시한다고 밝혔다. 판매자들은 인공지능으로 생성된 동영상을 광고로 활용할 수 있으며, 카탈로그의 내용을 기반으로 인공지능이 자동으로 제품 설명을 작성해 줄 수 있다.
[그림 3] 비오가 생성한 유튜브 쇼츠 배경 (자료: 유튜브, 2024.9.19.)
동영상 생성 인공지능은 영상산업의 판도를 바꿀 수 있을까?
이미 할리우드는 생성형 인공지능에 주목하고 있다. 오픈AI가 소라를 공개한 후, 오픈AI의 관계자는 할리우드 스튜디오, 미디어사, 그리고 연예기획사들과 미팅을 진행한 것으로 알려져 있다. 샘 알트먼(Sam Altman) 오픈AI CEO는 아카데미시상식 주말 동안 파티에 참석하여, 여러 유명 배우와 감독들에게 소라의 사용 권한을 제공한 바 있다. 이를 통해 오픈AI는 할리우드 내에서 소라의 도입을 본격화하려는 움직임을 보이고 있다.
할리우드의 제작자들 역시 빠르게 반응하고 있다. 미국의 유명 영화 제작자 타일러 페리(Tyler Perry)는 애초 8억 달러를 투자하여 대규모 영화 제작 시설을 신축하기로 계획하고 있었다. 하지만 소라를 접한 후, 영화 제작 시설 확장 계획을 무기한 중단한다고 밝혔다. 그는 인공지능을 통해 영화 제작 비용을 절감하고 수익을 높일 수 있지만, 동시에 인공지능이 영화 관련 다수의 일자리를 위협할 수 있다는 우려도 전했다.
실제 영화 제작에 동영상 생성 인공지능이 가능성을 보여준 사례 역시 최근 등장하였다. 영상 제작 스타트업 마일스(MYLES)는 런웨이의 영상 모델을 기반으로 2분가량의 단편 영화 <솜의 진혼곡(Somme Requiem)>을 공개했다. 이 영화는 제1차 세계대전 중 크리스마스 휴전 기간의 병사들을 묘사한 작품으로, 영상 생성 모델을 통해 수십 개의 장면을 만들어냈다. 이후 마일스의 편집자들이 색 보정과 음악을 삽입하며 완성도를 높였다.
[영상 2] 단편영화 <솜의 진혼곡> (자료: MYLES 유튜브, 2024.3.29.)
인공지능을 활용한 이와 같은 영화 제작은 독립 영화 제작자들에게 새로운 기회를 제공할 전망이다. 예전에는 대규모의 예산과 많은 시간이 필요했던 전쟁 영화와 같은 장르가 인공지능을 통해 훨씬 더 경제적으로 제작될 수 있기 때문이다. 마일스의 창립자이자 CEO인 조쉬 칸(Josh Kahn)은 2억 5,000만 달러의 비용이 들었던 애플TV+의 시리즈 <마스터즈 오브 디 에어(Masters of the Air)>와 같은 프로젝트를 예로 들며, 인공지능이 영화 제작에 들어가는 비용과 시간을 크게 절감할 수 있었다고 이야기했다.
물론, 현재의 동영상 생성 인공지능기술의 한계를 지적하는 목소리도 있다. 영화 <솜의 진혼곡>을 비롯해, 인공지능이 생성한 동영상의 장면들을 떼어놓고 보면 인상적일 수 있지만, 등장인물의 손가락이나 얼굴이 왜곡되는 등 아직 기술적 완성도에서 아쉬움이 남아있다. 또한, 저작권에서의 이슈도 존재한다. 이미 텍스트나 이미지를 생성하는 인공지능을 제작한 업체들은 저작권 관련 소송을 당한 바 있으며, 영상 생성 분야 역시 유튜브 등에 영상을 업로드한 크리에이터 등을 비롯한 영상 저작권자들이 소송을 예고하고 있다. 더 큰 문제는 딥페이크와 같이 생성 영상을 악용하는 사례이다. 조만간 있을 미국 대선을 앞두고 딥페이크 문제는 더욱더 사회적 문제로 부각되고 있다. 문제는 딥페이크와 같은 영상을 탐지하는 기술의 보급이 더디다는 점이다.
영상 산업에서 넘어야 할 가장 큰 산은 종사자들의 반발이다. 인공지능은 할리우드에서 민감한 주제이다. 이미 지난해 시나리오 작가들과 배우들은 인공지능에 대한 반발로 파업을 진행한 바 있다. 최근에는 할리우드 배우 노조에서 게임 회사를 상대로 인공지능에 대한 대비책을 마련하라는 요구를 하며 파업에 돌입한 바 있다. 또한 이들은 디즈니, 넷플릭스 등을 상대로 인공지능 사용으로 인해 어떠한 직원의 해고도 없을 것이라는 보장을 받기도 했다.
하지만 지금까지 다른 기술 산업 분야에서와 마찬가지로 인공지능 기술의 확산은 부지불식간에 벌어질 것이다. 생성형 인공지능 기술의 도입은 피할 수 없으며, 산업 종사자에게는 변화에 대비하는 자세가 필요한 시점이다. 지금까지 첨단 기술이 확산된 것과 마찬가지로, 눈 깜짝할 새 생성형 인공지능은 산업 전반에 침투하여 지형을 뒤바꾸고 있을 것으로 전망된다.
참고자료
- AI타임스, 오픈AI, 첫 동영상 생성 AI '소라' 공개...동영상 분야 지각변동 예고, 2024.2.16.
- Brookings, How OpenAI’s Sora hurts the creative industries, 2024.5.15.
- MIT 테크놀로지 리뷰, AI 영상 생성 분야의 미래는 어디로…, 2024.4.12.
- OpenAI, https://openai.com/index/sora/, 2024.
- 최재운 (광운대학교 경영학부 교수)
- KAIST 산업및시스템공학과에서 학사, 석사, 박사 학위를 취득했다. 박사 과정 중 ‘머신러닝’을 주제로 연구하면서 인공지능의 세계에 본격적으로 발을 들였다. 박사 학위 취득 후 삼성전자 삼성리서치 AI센터에서 인공지능 개발 및 서비스 기획 업무를 담당하며 수년간 경력을 쌓았다. 현재 광운대학교 경영학부 빅데이터경영전공 교수로 지내며 인공지능과 경영학을 연구하고 학생들을 가르치고 있다. 머신러닝과 딥러닝 관련 SCI급 논문을 다수 발간한 바 있으며, 저서로는 <1일 1단어 1분으로 끝내는 AI공부>가 있으며, 인공지능 관련 다수의 대중서를 집필 중에 있다.