홈으로

Big Picture

광고 속 춤추는 모델의 비밀

가상 인플루언서를 만드는 과학

글. 궤도(과학 커뮤니케이터)

정거장에서 버스를 기다리던 생기 넘치는 소녀가 멋지고 격렬한 춤으로 시선을 사로잡는다. 이 영상을 보고 떠올리는 생각은 대개 이런 거다. ‘춤에 맞춰 흘러나오는 노래가 좋네’, ‘모델이 춤을 굉장히 잘 추는데 어느 그룹에서 활동 중인 아이돌이지?’

“여행 좋아하고 MBTI는 ENFP예요. 사람은 아니고요.”

우리 호기심의 영역은 보통 여기까지였지, 사람인지 아닌지를 구분하는 건 쉽게 떠올릴 수 있는 영역이 아니었다. 하지만 뚜껑을 열어보니 한 생명보험 회사의 광고 ‘라이프에 놀라움을 더하다’ 속 모델은 놀랍게도 로지(Rozy)라는 이름의 가상 인간이었다. 유튜브 조회 수가 천만 회를 넘어설 정도로 높은 화제성을 가진 가상 인플루언서 로지는 ‘싸이더스 스튜디오 엑스’라는 기업에서 만들었는데, 지난해부터 SNS를 통해 꾸준히 자신의 취미생활을 공유해왔다. 몇 개월을 그렇게 비밀스럽게 보낸 후에 본인이 가상 인간이라는 것을 밝혔고, 공공기관의 홍보 모델, 잡지의 화보 촬영, 화장품 광고 등을 비롯한 다양한 미디어 활동에 참여하고 있다.

가상 인간이라는 걸 알고 아무리 뚫어져라 바라봐도 여전히 사람 같다고 느끼는 사람부터, 이제 가상 인간으로 영화나 드라마 제작도 가능하지 않을까를 기대하는 대중들까지 로지는 정말 많은 이목을 끌었다.

올해 초 ‘국제전자제품박람회(CES 2021)’에 연설자로 참여한 김래아(Reah Keem)를 비롯해서 가상 인간 열풍이 불고 있다. ‘세계 최초 인공지능 래퍼’라는 타이틀을 보유한 FN 메카(Meka), 기획사와 음반 발매 계약을 하고 가수로 데뷔한 인공지능 챗봇 린나(Rinna), 유방암 진단을 받고 투병을 하다가 인공지능이 작곡하고 연출한 곡을 부르며 건강한 모습으로 돌아온 미국의 팝 가수 타린 서던(Taryn Southern)도 있다.

과거에도 가상 인간은 있었다. 1990년대에 활동했던 추억의 사이버 가수 아담(Adam)이다. 우리나라 최초의 가상 인간이었지만 활발한 활동은 불가능했다. 기술력의 한계로 충분한 퀄리티의 영상을 만들어내지 못했다. 누가 봐도 3차원 컴퓨터 그래픽을 구성하는 기본 단위인 폴리곤(Polygon)으로 만들어낸 비현실적인 외모였고, 얼굴을 감춘 실존 가수가 따로 존재하던 반쪽짜리 가상 인간이었기 때문이다.

해부학, 심리학 반영해 인간과 닮아가는 인공지능

로지를 비롯한 지금의 가상 인간들을 만들어낸 과학기술은 사이버 가수 아담의 시대와는 비교도 되지 않는다. 우선 셀 수 없이 많은 센서 장비를 부착한 모델의 움직임 정보를 토대로 컴퓨터 그래픽을 만들어내던 ‘모션 캡처’라는 기술도 끊임없이 진화했다. 이제 번거로운 과정이 최소화되어 보유한 비디오만으로도 모션 캡처가 가능해졌기 때문에, 위치나 방향에 따라 신체 기관이나 관절들이 자세를 만들고 움직임을 예측하니, 이전보다 자연스러운 움직임을 빠르게 생성할 수 있게 되었다. 실시간으로 배우의 표정과 몸동작을 그대로 따라하며, 가장 자연스러운 형태로 자유롭게 움직인다.

여기에 인공지능이 학습하는 방식의 하나인 ‘딥러닝’을 기반으로 세상에 존재하지 않던 가상의 얼굴을 합성해낸다. 우리가 교과서를 보고 공부하듯, 인공지능은 기존에 보유한 수많은 인물 사진을 보고 특징들을 분석한다. 이후 현실에 있을 법한 그럴싸한 이미지를 스스로 창조하면 가상 인간이 만들어진다. 이런 방식이 가능한 이유는 인공지능이 존재하는 데이터를 전부 숫자로 표현할 수 있기 때문인데, 가지고 있던 원래의 데이터를 바탕으로 유사한 데이터를 수학적으로 만들어낸 것이다.

먼저 어느 정도 비슷한 형태가 갖추어지면, 다음 단계는 2014년 등장한 ‘생성적 적대 신경망(GAN, Generative Adversarial Networks)’을 활용할 차례다. 간단히 설명하면, 인공지능이 점차 좋은 형태의 결과물을 만들어가기 위해 배우는 여러 가지 기계학습의 방식 중에서 반복적인 경쟁을 통해 학습시키는 방식이다. 생성적 적대 신경망에는 두 가지 인공지능 모델이 있는데, 가상의 데이터를 만들어내는 생성자와, 만들어낸 데이터를 평가하는 판별자로 구분한다. 여기서 생성자와 판별자는 서로를 적대적 경쟁자로 인식하며 함께 발전해 나간다. 예를 들어, 수학여행에 가서 친구 중 누군가 한 명을 고양이로 분장시키는 대회에 나갔다고 치자. 생성자 역할을 하는 친구는 열심히 고양이 귀도 달고, 수염도 그리고 하면서 최대한 고양이에 가깝게 꾸밀 것이다. 하지만 적대적인 입장인 판별자 역할의 친구는 만족스럽지 못한 결과물을 끊임없이 공격한다. 이렇게 생긴 고양이 꼬리가 어디 있는지, 눈 모양은 고양이라고 보기 얼마나 어려운지 등 계속 태클을 걸면 결국 고양이 분장을 하는 친구는 더욱더 고양이와 비슷한 형태를 갖추어나갈 것이다. 인공지능은 이 과정을 반복하면서 매우 수준 높은 가상의 이미지나 영상을 만든다.

최근 부정적인 방향으로 많이 활용되어 논쟁거리가 되었던 딥페이크(Deepfake)도 사람의 얼굴을 합성하는 기술로 역시 생성적 적대 신경망을 활용한다. 원본 이미지의 여러 요소를 합성하면 각각의 이목구비 중에서 가장 개성이 강한 방향으로 표현되는 식이다. 딥페이크가 가상 인간과 다른 점은 실존하는 타인의 외모를 그대로 가져와 합성했다는 점, 생성된 얼굴을 원래 영상에 다시 삽입하는 형태로 제작하기 때문에 진정한 의미에서 ‘가상’ 인간이라고 보기 어렵다는 차이가 있다. 최근 등장한 가상 인간은 실제 사람의 얼굴 데이터에, 실제 배우의 움직임과 표정 수만 건을 활용하여 완전히 독창적인 외모를 만들어냈으며, 특정한 방향성 없이 사람과 가까운 새로운 형태의 표정과 움직임을 구현한다.

목소리 역시 자연어 정보를 수집해서 학습하는 과정을 거쳐야 한다. 음성합성 기술은 기계가 사람처럼 말하기를 소망하던 과학자들의 노력 덕분에 지난 수십 년간 꾸준히 발전해왔다. 최근 딥러닝으로 녹음된 여러 말소리를 음절 단위로 조합하여 특색 있는 억양이나 미세한 호흡까지 표현하는 데 성공했고, 이제는 자연스러운 음성을 만들어내는 수준을 넘어 감정이나 개성까지 나타내는 기술로 발전하고 있다. 심지어 몇 시간만 학습해도 특정인의 목소리나 스타일까지 적당히 모방할 수 있다.

만들어진 특정 음성에 맞추어 자동으로 얼굴의 모양과 입의 위치, 표정 등을 표현하는 것도 이미 게임이나 애니메이션을 통해 구현되어있다. 단순히 음성 오디오에 맞춰서 입 모양을 움직이는 건 그리 어려운 기술이 아니다. 자음, 모음, 받침 등 기본 입 모양의 공통적인 특성과 역할을 학습시키고 나면, 여기에 해부학, 인지과학, 심리학 등 다양한 학문 분야를 적용하여 완성한다. 이런 과정을 거치게 되면 입 모양이 자연스러울 뿐만 아니라 눈썹의 움직임이나 눈의 크기처럼 미세 표정을 활용한 비언어적 소통까지 가능한 형태가 된다. 그래서 사람들은 이 가상 인간을 실제 사람처럼 느끼는 것이다.

가상 인간이 드라마 주인공이 된다면

이제는 과거의 인물이나 실존하지 않는 인물을 대중의 눈앞에 등장시키는 문제에 대해 고민할 필요가 없다. 실제 장면과 적당히 섞이면, 누구도 어색함을 느끼지 못한다. 가상 인간이자 인플루언서들은 수많은 장점도 갖고 있다. 꾸준히 피부나 몸매를 관리해야 하는 실제 사람과 달리, 뾰루지도 나지 않고 살도 찌지 않아 언제나 완벽한 외모를 유지할 수 있다. 화장이나 스타일링도 전문가의 도움을 받지 않고 미리 준비된 틀이나 프로그램이 있다면 비교적 쉽게 변경할 수 있다. 나이도 먹지 않기 때문에 활동 기간도 이론상 무한대이며, 원하는 만큼 마음껏 늘릴 수 있다. 무엇보다 중요한 건 사적인 생활에 대한 어떠한 욕구나 의지도 없기에, 복잡한 사생활 이슈가 전혀 없다. 소속사와 상의 없이 개인적인 문제를 일으킬 가능성이 없는 것이다.

인플루언서로 활동하고 있는 가상 인간이 점차 늘어나면서, 인공지능을 기반으로 확장되는 과학기술의 개발과 융합은 탄력을 받고 있다. 최근 의학계에서도 가상 인간의 기반이 되는 인공지능 기술을 바탕으로 연구를 진행하고 있다. 2019년 독일 뤼벡대학교(University of Lübeck) 의료정보학연구소 연구진은 생성적 적대 신경망을 활용하여 정확도가 매우 높은 합성 의료영상을 만들어냈다. 환자의 사생활 침해에 대한 우려로 질병 진단용 인공지능이 학습할 의료영상 데이터가 부족한 상황이었는데, 인공지능의 이미지 패턴매칭 기능을 적극적으로 활용하여 개인정보에 문제가 없는 의료영상을 만들어냈다. 이렇게 만들어진 가상 의료영상을 인공지능이 학습하면, 실제 환자를 정확하게 진단하는 데 도움이 된다.

현실에 존재하지 않고, 오직 컴퓨터 데이터만으로 이루어진 존재에 관한 이야기는 오래전부터 많은 소설과 영화의 소재가 되어왔다. 인공지능과 사랑에 빠지거나, 홀로그램으로 만들어진 이성을 지키기 위해 몸을 던지는 내용의 영화나 드라마도 있었다. 그땐 그저 재미로 즐기던 공상과학이었는데, 놀랍게도 과학기술은 여기까지 왔다. 물론 다소 희미하게 남아있는 불편한 느낌을 지우는 과정과, 가상 인간과 관련된 윤리적 문제에 대한 고민은 이제부터 차근차근 시작해야 한다. ‘사이버펑크(Cyberpunk)’라는 과학소설 장르를 탄생시킨 윌리엄 깁슨은 이런 말을 남겼다. ‘미래는 이미 와 있다. 단지 널리 퍼져있지 않을 뿐이다.’ 정보와 과학적 사고력으로 충분히 무장한다면, 빠르게 변하는 세상에 남들보다 쉽게 적응할 수 있지 않을까.

필자 소개

  • 궤도
  • 과학 커뮤니케이터. YTN라디오 <궤도의 과학 궴성>, 유튜브 채널 ‘안될과학’을 진행 중이며, 저서로는 《궤도의 과학 허세》(동아시아)가 있다.