1. 서론
최근 하드웨어 성능과 컴퓨터 그래픽스 기술의 발전으로, 가상 아바타를 활용한 다양한 음악 콘텐츠들이 제작되고 있다. 2020년 SM 엔터테인먼트는 걸그룹 에스파(aespa)를 통해 현실의 멤버와 가상 멤버가 공존하는 독특한 컨셉의 아티스트를 선보였으며 [1], 이에 더해 최근에는 가상 아바타만으로 구성된 PLAVE, MAVE:와 같은 가상 아이돌들이 등장하였다 [2, 3]. 또한 라이브 스트리밍 업계에서 가상 아바타를 활용하여 실시간 스트리밍을 진행하는 가상 유튜버들 [4]은 음악 커버, 오리지널 곡 발매, 심지어는 콘서트까지 다채로운 음악 콘텐츠를 선보이고 있다 [5].
현재 가상 아바타를 활용한 음악 콘텐츠는 주로 가창이나 안무를 표현하는 것을 중심으로 제작되고 있다. 가상 아바타 공연을 분석한 연구에 따르면, 가상 아티스트는 주로 가상의 무대 위에서 빠른 템포의 음악에 맞춰 춤을 추었으며, 발라드와 같은 감성적이고 소울풀한 곡을 부르기도 했다 [6]. 하지만 가상 아바타를 활용하여 밴드 콘텐츠를 구성한 사례는 거의 찾아보기 어렵다. 이는 전 세계적으로 밴드 악기에 대한 수요가 늘어나고, 음악 시장에서 밴드 음악에 대한 수요가 커지고 있는 것과 상반된다 [7, 8, 9].
또 다른 흐름은 가상 아바타 콘서트의 오프라인 콘서트로의 확장이다. 최근에는 오프라인 공연장의 대형 스크린을 설치하여 가상 아바타가 실제 사람처럼 무대 위에서 공연하는 사례들이 등장하고 있다 [10, 11]. 오프라인 콘서트는 수만 명의 팬들을 한 공간으로 모아 가상 콘서트에서 경험하기 어려운 사회적 경험을 제공했다 [12]. 그러나 오프라인 콘서트는 가상 현실에서만 가능한 비현실적이고 화려한 시각적 연출을 보여주기 어렵다. 예를 들어, 가상 콘서트는 공연자가 하늘을 날아다니거나 사원과 같은 환상적인 공간에서 공연할 수 있지만 [6], 오프라인 콘서트는 표현할 수 있는 물리적 한계가 존재한다. 뿐만 아니라, 오프라인 콘서트는 지정된 좌석에서 한정된 시야로만 가상 아티스트를 볼 수 있다는 단점이 존재한다.
본 논문에서는 앞서 언급한 가상 아바타 음악 콘텐츠의 한계점들에 주목하여, 가상 아바타를 활용한 밴드 콘텐츠와 몰입형 인터랙티브 가상 공연을 제작한 사례를 소개한다. 먼저 가상 밴드 아이돌 Verse'day의 뮤직 비디오 제작 과정에 대해 소개한다. 본 뮤직 비디오 제작 사례에서는 관성식 모션 캡쳐 장비를 이용해 악기 연주 모션을 캡쳐하고, 실시간 엔진을 활용하여 자연스러운 밴드 연주 자세를 제작하는 방법에 대해서 탐구하여 이를 바탕으로 뮤직 비디오를 제작하였다. 이후, 뮤직 비디오 제작 프로세스를 확장하여 몰입형 인터랙티브 공연을 구성한 방법에 대해 소개한다. 본 사례에서는 가상 공간과 실시간 상호작용이 가능한 응원봉을 설계하고, 프로젝션 맵핑 기술과 응원봉을 활용해 오프라인 가상 아바타 공연에서 보다 높은 몰입감과 상호작용을 제공하였다. 마지막으로, 본 논문의 제작 사례들의 한계점에 대해서 언급하고, 가상 아바타 음악 콘텐츠 제작을 위한 향후 연구 방향에 대해서 논의한다.
본 논문의 기여점은 다음과 같다.
2. 관련 연구 및 사례
가상 아바타 콘텐츠는 아바타를 제작하는 모델링 과정과, 모션 데이터를 생성하고 아바타를 조작하는 리깅 및 애니메이션, 그리고 가상 환경을 영상으로 출력하는 렌더링 과정을 거쳐 제작된다. 전통적으로 이러한 가상 아바타 콘텐츠 제작 과정은 많은 시간과 노동력, 그리고 높은 비용이 요구되었다. 하지만 현대 컴퓨터 그래픽스 기술의 발전으로 Meta Human [13]과 같은 제작 도구를 통해 쉽게 고품질의 가상 아바타를 구성하는 것이 가능해졌으며, 모션 캡쳐 기술과 실시간 엔진의 발전으로 인간의 움직임을 추적하여 실시간으로 아바타를 조작하고 렌더링하는 것이 가능해졌다.
가상 아바타 콘텐츠 제작 기술 발전은 음악 분야에서 다양한 가상 아바타 콘텐츠의 제작을 불러왔다. 일례로, COVID-19 기간 Justin Bieber와 Ariana Grande 같은 유명 아티스트들은 애니메이션 스타일의 아바타를 활용하여 가상 콘서트를 진행하였다 [14, 15]. 또한 국내에서는 최근 그룹 V.O.S의
김경록이 실시간 마커리스 모션 캡쳐 기술과 실시간 엔진을 활용하여 가상 아바타 콘서트와 라이브 스트리밍 콘서트를 동시에 진행하기도 하였다[16]. 기존 유명 아티스트들 이외에도, 가상 아바타를 이용해 라이브 스트리밍을 진행하는 가상 유튜버들과 [4, 17] 가상 아바타를 기반으로 활동하는 PLAVE, MAVE:와 같은 가상 아이돌들이 활발한 음원 활동과 콘서트를 진행하고 있으며, 대중들에게 많은 큰 인기를 얻고 있다 [5]. 하지만 가상 아바타를 이용한 음악 콘텐츠들은 주로 공연자의 가창 혹은 안무를 표현하는 것을 중심으로 제작되는 반면, 가상 아바타를 활용하여 악기를 연주하는 밴드 콘텐츠를 제작하는 사례는 비교적 많이 확인되지 않고 있다.
악기 연주는 밴드의 필수적인 구성 요소로, 관객들은 비록 가상 아바타라 할지라도 연주 동작과 음악이 맞지 않을 경우 이러한 차이를 인식하고 부자연스러움을 느낀다[18]. 자연스러운 애니메이션을 구현하기 위해서는 모션 캡처용 특수 장비를 통해 추적을 진행한 후, 이 움직임을 애니메이팅 후작업에서 정제하는 것이 일반적이다. 모션 캡처 기술의 구현 방식은 크게 광학식 시스템(Optical System)과 비광학식 시스템(Non-optical System)으로 구분된다. 광학식 모션 캡쳐 시스템은 높은 정확도와 정밀도를 제공하지만, 폐색되는 경우 정확도가 현저히 떨어지며 가격대가 높다. 반면, 관성 센서를 활용한 비광학식 모션 캡쳐 시스템은 상대적으로 가격이 저렴하며 폐색과 같은 문제에서 자유롭다는 장점이 있지만, 주변 환경에 금속 물체가 있는 경우 전자기장의 영향으로 인해 관성 센서의 정확도가 떨어진다. 최근 연구는 앞서 언급된 모션 캡쳐 방식의 한계로 인해 마커리스 모션 캡쳐 방식과 오디오 입력에 상응하는 악기 연주 모션을 합성하는 Musical Performance Synthesis 방식이 등장하고 있다 [19]. 그러나 마커리스 방식은 여전히 폐색과 조명 환경에 취약하며, Musical Performance Synthesis 방식은 합성되는 모션이 사전에 학습된 데이터셋에 의존적이라는 한계가 존재한다 [19].
본 논문에서는 관성식 모션 캡쳐 방식으로 자연스러운 밴드 연주 애니메이션을 제작할 방안에 대해 고안하였으며, 언리얼 엔진을 사용한 가상 아바타 밴드 콘텐츠 제작 사례를 소개한다. 밴드 애니메이션 구현을 위한 모션 캡쳐 및 리타겟팅 과정, 가상 아바타와 가상 악기 간의 자연스러운 상호작용을 위한 기술적 방안들을 제안하고, 뮤직 비디오 제작을 위한 언리얼 엔진에서의 가상 공간 디자인 및 시퀀스 제작에 대한 구체적인 과정을 소개한다.
가상 아바타를 활용한 음악 콘텐츠의 증가와 더불어, 가상 아바타 콘서트에 대한 인기도 증가하고 있다 [21]. 가상 아바타 콘서트는 일반적으로 라이브 스트리밍 혹은 VR 플랫폼을 통해 관객들에게 전달되며, 관객들은 HMD(Head Mounted Display)를 착용하거나 PC를 통해 공연을 관람한다 [6]. 관람객들은 관람 플랫폼에 따라 실시간 채팅 혹은 VR 컨트롤러를 사용하여 공연자 및 타 관객들과 상호작용을 한다. 하지만 이러한 컴퓨터를 매개로 한 가상 아바타 콘서트 경험은 오프라인 콘서트와 비교했을 때, 사회적인 상호작용 경험과 관중의 에너지와 같은 현장의 분위기가 부족하다는 한계점이 있었다 [12, 22, 23].
최근 COVID-19 팬데믹이 종료되고 오프라인 콘서트가 다시 활성화됨에 따라, 가상 아바타를 이용한 콘서트들도 온라인 플랫폼을 넘어 오프라인에서 진행되는 사례들이 등장하고 있다. 일례로, 2023년 인천 송도에서 진행된 이세계 아이돌의 ‘이세계 페스티벌’과, 2024년 서울 올림픽홀에서 진행된 PLAVE 팬 콘서트 ‘Hello, Asterum’에는 수만 명 이상의 팬들이 참석하였다 [10, 11]. 이들 콘서트는 무대에 대형 디스플레이를 설치하여, 아티스트와 팬들이 물리적으로 한 공간에 있는 것과 같은 경험을 제공하였다 (Figure 1). 또한 팬들은 응원봉을 흔들거나 구호 혹은 함성을 외치며 아티스트를 응원했으며, 이는 실제 사람의 아티스트와 팬들 간 상호작용과 유사한 방식이었다. 하지만 오프라인 콘서트는 물리적인 제약으로 인해 가상에서만 경험할 수 있는 비현실적이고 환상적인 연출을 표현하기 어렵다는 한계와 관객들이 지정된 좌석에서 한정된 시야로 아티스트를 바라봐야 한다는 단점이 존재한다.
본 논문에서는 가상과 현실 공간의 장점을 결합한 몰입형 인터랙티브 콘서트 시스템을 제안한다. 본 시스템의 콘서트 공간은 CAVE 형태 [24]의 다면 프로젝션 맵핑 기술이 적용되어, 오프라인에서도 가상 공간에 들어간 듯한 몰입감을 제공한다. 또한, 아두이노 센서가 내장된 응원봉은 가상 아바타 콘서트 환경과의 다양한 상호작용을 제공한다. 이는 내가 원하는 시점으로 이동하여 공연을 관람하거나 가상 아티스트를 응원하는 기능을 포함한다. 또한 다중 사용자 시나리오에 대응할 수 있도록 제작하여, 사회적 상호작용 경험을 제공한다.
3. Verse’day: 버추얼 밴드 아이돌
Verse'day는 Frey, Hyan, Yeon 3명의 멤버들로 구성된 버추얼 아이돌이다 (Figure 2). Verse'day는 2022년 11월 Feel Alive라는 앨범으로 데뷔했으며, 제페토 플랫폼을 중심으로 활발한 활동을 진행하였다 [25]. 이후 2024년 2월 밴드 형태의 가상 아이돌로 리뉴얼된 Verse'day는 Wishbowl이라는 이름의 2집 앨범을 발매하였다. 해당 앨범의 타이틀 곡 Wishbowl은 록이 가미된 스쿨밴드 장르의 곡으로, Verse'day 멤버들이 각각 베이스, 드럼, 기타를 직접 연주하며 가창을 진행하는 뮤직 비디오를 선보였다 [26]. 또한 Wishbowl 뮤직 비디오를 바탕으로 몰입형 인터랙티브 가상 공연을 제작하여, 한국콘텐츠진흥원 NCA 프로젝트 쇼케이스 등의 여러 전시회에서 많은 팬들에게 몰입감 있는 Wishbowl 공연 경험을 제공하기도 하였다.
본 논문에서는 이러한 가상 밴드 아이돌 Verse'day의 2집 앨범 Wishbowl의 뮤직 비디오와, 이를 기반으로 제작된 몰입형 인터랙티브 가상 공연의 제작 과정을 자세히 소개하고 분석을 통해 향후 연구를 위한 통찰력을 제공하는 것을 목표로 한다.
4. 제작 사례 1: Wishbowl 뮤직 비디오
본 장에서는 Wishbowl 뮤직 비디오의 제작 사례에 대해 소개한다. Wishbowl 뮤직 비디오는 Perception Neuron (이하 PN) Studio [27]와 Unreal Engine [28]을 기반으로 제작되었다.
Figure 3은 Wishbowl 뮤직 비디오 제작 프로세스를 나타낸다. 이는 크게 애니메이션 구현 과정과 뮤직 비디오 제작 과정으로 구분된다. 애니메이션 구현 과정은 전신 및 손의 모션 캡쳐, 페이셜 캡쳐, 그리고 애니메이션 후처리 과정으로 구성된다. 뮤직 비디오 제작 과정은 가상 공간 디자인, 연출 및 렌더링을 위한 시스템으로 구성된다.
본 절은 각 멤버의 밴드 애니메이션을 제작하기 위해 전신 및 손, 얼굴에 대한 움직임을 추적하고 가상 아바타와 악기 간의 자연스러운 상호작용을 구현하는 과정으로 구성된다.
본 연구에서는 일렉 기타, 베이스, 드럼을 연주하는 애니메이션에 대한 모션 캡쳐를 진행하였다. 자연스러운 연주 모션 데이터를 수집하기 위해 10년 이상의 악기 연주 경력을 가진 전문가들을 모션 캡쳐 배우로 선발했다. 모션 캡쳐를 위해 PN Studio Inertial System과 PN Studio Gloves가 사용되었으며, PC에 설치된 PN Transceiver 및 Axis Studio 소프트웨어를 사용하여 전신 및 손의 모션 데이터를 수집했다 [27, 29, 30]. 모션 데이터를 계산하기 위해 모션 캡쳐 장비에 내장된 IMU (Inertial Measurement Unit)의 지자기 센서의 특성 상, 주변의 전자기장에 영향을 받아 부정확한 모션 데이터가 저장될 수 있었다 [31]. 본 연구의 저자들은 모션 데이터의 품질 개선을 위해, 다양한 금속 재질로 구성된 드럼 세트를 배제하였고 기타의 금속성 소재를 최소화한 모형 기타를 제작하였다. 따라서 연주자들에게 Figure 4와 같이 드럼 스틱과 모형 기타만 사용하여 노래에 맞는 연주 동작을 수행하도록 요청하였다.
연주자는 착용한 모션 캡쳐 센서의 캘리브레이션을 위해 A, S, T, B, P 포즈를 수행하였다. 이후 배우들은 각 악기 당 8회에서 10회 가량 Wishbowl 곡을 연주하는 모션 캡쳐를 수행하였으며, 캡쳐한 모션 중 가장 완성도가 높은 모션 데이터를 선별하여 사용하였다. 모션 캡쳐를 수행하는 모든 과정들은 모션 데이터 정제 시 참고하기 위해서 함께 녹화되었다. 모션 캡쳐 과정이 완료된 후, 아바타가 노래를 부르는 얼굴 애니메이션을 구성하기 위해서 페이셜 캡쳐를 추가로 진행하였다. 페이셜 캡쳐를 위해 Epic Games의 Live Link Face가 설치된 iPhone 15 Pro를 Unreal Engine의 Live Link, ARKit 플러그인과 연동하여 사용하였다 [32, 33].
우리는 Axis Studio를 통해 수집한 모션 데이터가 Verse'day 아바타들에 올바르게 호환되도록 리타겟팅을 진행했다. 본 연구에서는 모션 데이터와 관절 구조가 상이한 아바타들의 애니메이션을 구현하기 위해, Unreal Engine에서 지원하는 IK Rig와 IK Retargeter을 사용하였다 [34, 35]. IK Rig는 아바타의 각 관절을 연결된 관절 체인 형태로 정의하여 리타겟팅을 수행하거나 역운동학 기능을 설정할 수 있는 도구이다. IK Retargeter는 IK Rig에 의해 정의된 관절 체인을 바탕으로, 서로 다른 아바타가 가지는 상이한 관절 구조를 맵핑하여 리타겟팅된 애니메이션을 생성할 수 있다. 하지만, 리타겟팅된 애니메이션은 루트 관절이 미세하게 회전해서 아바타가 지면에 올바르게 서지 못하고 기울여지는 문제가 존재했다 [36]. IK Rig에서 아바타에 정의된 하체 관절 체인(발 - 종아리 - 허벅지)에 역운동학 설정을 적용하여 각 캐릭터의 발을 지면에 안정적으로 고정하는 것으로 리타겟팅 작업을 완수했다. Figure 5는 리타겟팅 수행 결과를 나타낸다.
모션 캡쳐 과정에서 악기 자체의 모션 데이터가 별도로 수집되지 않았기 때문에, Figure 6 (left)처럼 리타겟팅된 아바타에 가상의 악기를 부착하고 가상 아바타가 악기와 자연스럽게 상호작용하는 애니메이션이 구현되어야 했다. 이를 위해 우리는 노동집약적인 키프레임 기법 외에도 작업의 효율성을 높이기 위한 자동화된 방식을 함께 채택하였다. 자연스러운 연주 애니메이션을 구현하기 위해 실제 연주자의 모션 캡쳐 녹화본에 대하여 반복적인 관찰을 통해 얻은 휴리스틱을 적용하였다.
일렉 기타 및 베이스의 움직임은 일반적으로 기타의 바디와 넥 부분에 의하여 복합적으로 정의될 수 있다. 1) 기타의 바디는 전용 스트랩에 의해 연주자의 복부에 위치하며, 대부분 상체의 움직임과 동일한 방향으로 움직인다. 2) 기타의 넥은 잡고 있는 왼손의 운지법에 따라 왼손과 함께 다양한 각도로 움직인다. 아바타의 다양한 관절에 기타의 바디를 부착해 본 결과, 아바타의 척추 하단이 가장 적합한 관절이었다. 또한 왼손과 함께 다양한 각도로 움직이는 넥의 움직임을 구현할 수 있도록, 넥이 바디를 기준으로 왼손의 위치를 지속적으로 추적하게 했다. 이를 위해 Unreal Engine의 Look At 알고리즘이 적용되었으며, 이는 주로 관절이 지정된 타겟을 바라보거나 따라가도록 자동으로 추적하기 위해 사용된다 [37]. 결과적으로 Figure 6 (right)처럼 기타의 위치와 방향이 자연스러운 연주 애니메이션을 구현할 수 있었다.
기타와 달리, 드럼 스틱의 움직임은 한 손의 엄지와 검지의 방향에 의해 결정된다. 드럼 스틱을 부착하기 적합한 관절은 아바타의 검지 부분이었으며, 추가적인 추적 알고리즘 없이 자연스러운 드럼 연주 애니메이션을 구현할 수 있었다. 보다 사실적인 연주 애니메이션을 연출하기 위해, 드럼 스틱과 심벌의 충돌 이벤트를 설정하여 타격 시 심벌이 진동하는 애니메이션을 추가로 적용하였다.
이후 키프레임 에디터에서 각 관절의 애니메이션의 이상치를 정제하는 작업을 수행하였다. 주로 부착된 악기와의 상호작용이 부자연스러운 일부 관절의 움직임 및 손가락의 각 관절에 섞인 노이즈를 수동으로 수정하였다. 이를 통해 가상 아바타와 악기 간의 자연스러운 상호작용 및 움직임을 연출하였고, 최종적으로 페이셜 모션 데이터와 결합되었다.
본 절은 Unreal Engine을 이용하여 뮤직 비디오의 배경을 구성하는 레벨 디자인 과정과 조명 및 카메라 워크를 연출하는 레벨 시퀀스 제작 과정으로 구성된다.
본 절에서는 Unreal Engine에서의 레벨 디자인 및 레벨 시퀀스를 다룬다. 레벨이란 Unreal Engine 내에서 구성되는 가상 공간을 의미하며 건축물, 환경 요소, 아바타, 조명, 시각 효과 등을 모두 포함한다. 본 뮤직 비디오의 레벨은 Figure 7 처럼 아레나 형태의 원형 경기장을 바탕으로 디자인되었다. 경기장 내부에는 물이 가득 채워졌으며 수면 위에 큐브 형태의 스테이지가 부유하도록 연출되었다. 각 스테이지 에는 Verse'day 멤버와 악기, 조명이 배치되었다. 아바타의 외형을 만화 스타일로 표현하기 위해 셸 쉐이딩이 적용된 머티리얼을 사용하였으며, 4.2절에서 구현된 밴드 애니메이션이 적용되었다. Unreal Engine의 Niagara FX를 기반으로 하는 종이 폭죽, 불꽃 폭죽, 빛 입자 등을 이용한 파티클 이펙트가 배치되었다 [38]. 또한 가상 응원봉 오브젝트들이 객석을 따라 동심원 형태로 배치되었다. Verse'day와 가상 콘서트 공간을 촬영하기 위해 24대의 Cine Camera가 다양한 렌즈와 앵글로 구성되었다 [39].
본 연구의 저자들은 뮤직 비디오 촬영을 위해 Unreal Engine의 레벨 시퀀스를 활용하였다 [40]. 조명, 파티클 이펙트, 응원봉, 카메라 등 각종 오브젝트를 각 장면에 맞게 제어하기 위해 수동으로 키프레임 애니메이션이 제작되었다. 응원봉은 하이라이트 구간에 박자에 따라 흔들리는 애니메이션이 재생되었다. 부드럽고 일관적인 카메라 워크를 표현하기 위해 Unreal Engine의 Camera Rig Rail이 함께 사용되었다 [41].
본 뮤직 비디오 제작 사례는 가상 아바타의 밴드 콘텐츠 제작을 위한 전반적인 과정을 소개하였다. 최종 결과물은 Figure 8처럼 환상적인 가상 콘서트 공간에서 각 멤버들이 악기를 연주하고 악기와 상호작용하는 모습을 보여주었다. 본 뮤직 비디오의 전체 영상은 다음의 링크를 통해 확인할 수 있다: https://www.youtube.com/watch?v=h6GKyl106Xs. 뮤직 비디오 제작 과정 상에서 경험한 기술적 어려움과, 향후 개선 사항에 대해서는 6장에서 추가적으로 논의한다.
5. 제작 사례 2: Wishbowl 몰입형 인터 랙티브 공연
본 장에서는 앞선 장에서 설명한 Unreal Engine 기반의 뮤직 비디오 제작 공정을 오프라인 가상 아바타 공연 시스템(이하 Wishbowl 공연 시스템)으로 확장하여, 몰입형 인터랙티브 공연을 제작한 사례에 대해서 설명한다. Wishbowl 공연 시스템에서 다수의 관객들은 프로젝션 맵핑 기술을 활용하여 구성된 CAVE [24] 스타일의 몰입형 가상 공간에서, 실시간으로 가상 공간과 상호작용이 가능한 응원봉을 활용하여 공연을 관람할 수 있다. 향후 절에서는 Wishbowl 공연 시스템에서 고려된 디자인 요구 사항과 시스템 설계, 응원봉 상호작용, 공연 시스템의 구성, 그리고 그 제작 결과에 대해 설명한다.
Wishbowl 공연 시스템은 기존 VR을 활용한 가상 아바타 공연과 최근 등장한 오프라인 가상 아바타 공연의 장점을 결합하여 관객들에게 더욱 몰입감 있는 공연 경험을 제공하는 것을 목표로 한다. 가상 콘서트는 환상적이고 비현실적인 시각적 연출과 높은 자유도를 제공하지만, 현장감과 사회적 경험이 부족하다. 반면, 오프라인 콘서트는 현장감과 사회적 경험을 제공하지만, 관객이 제한된 시야에서 공연을 관람해야 하는 한계가 있다.
본 시스템은 이러한 가상 및 오프라인 공연의 장점을 혼합하여 다음의 디자인 고려 사항을 설정하였다. 1) 가상 공간만의 환상적이고 비현실적인 시각적 연출을 유지하면서, 오프라인으로 확장하여 다수의 관객이 동시에 관람할 수 있는 방안을 모색한다. 2) 제한적인 시야를 극복하고 다양한 각도와 시점에서 아티스트를 감상할 수 있는 기능을 제공한다. 3) 오프라인 콘서트처럼 응원봉을 흔들거나 함성 소리를 내는 등 아티스트와의 실시간 상호작용 경험을 제공한다.
본 시스템은 이러한 고려사항을 충족시키기 위해 프로젝션 맵핑 기술을 활용하여 CAVE [24] 스타일의 가상 공연 공간을 구현하였다. CAVE 프로젝션 맵핑 기술은 사용자의 전면, 좌측, 우측면에 프로젝션을 투사하여 가상 공간을 표현하는 방식으로, 오프라인 환경에서도 높은 몰입감을 제공하며 다수의 관객이 동시에 경험할 수 있는 장점을 지니고 있다.
또한, 관객과 가상 공간 및 아티스트 간의 실시간 상호작용을 위해 자이로 센서와 실시간 통신 모듈이 탑재된 응원봉을 시스템에 통합하였다. 응원봉은 기존의 다양한 공연에서 널리 사용되는 도구로, 관객이 이를 흔들며 공연자를 응원하는 데 활용된다. 본 연구에서는 이러한 응원봉의 상호작용 기능에서 영감을 받아, 응원봉에 아티스트를 실시간으로 응원하는 기능 외에도 가상 공간을 탐색하는 컨트롤러의 기능을 추가하여, 관객이 더욱 적극적으로 가상 공연에 참여할 수 있도록 하였다.
Wishbowl 공연 시스템에서는 가상 응원봉을 흔드는 응원과, 시점을 변경하는 상호작용을 구성하였다. 응원봉을 흔들어 공연자를 응원하는 행동은 공연에서 자연스러운 응원 문화이며, 응원봉을 흔드는 것은 많은 가상 아바타 공연에 대한 이전 연구에서도 차용된 방법이다 [43, 44]. 이러한 공연 응원 문화와 이전 연구 사례들에 영감을 얻어, Wishbowl 공연 시스템에서도 응원봉을 흔들어 가상 응원봉을 흔들며 공연자를 응원할 수 있도록 하였다. 또한 본 저자들은 가상 아바타 공연의 관객들은 가상 공간 내에서 자유롭게 시점을 변경하며 상호작용이 가능할 때 보다 높은 몰입감을 가질 수 있음을 언급한 이전 연구 결과[6]에 영감을 얻어, 응원봉을 기울여 관람 시점을 자유롭게 변경하며 관람할 수 있도록 설계하였다.
단, 앞서 언급된 두 상호작용이 응원봉을 흔들거나 기울여 수행되기 때문에, 상호작용의 중첩이 존재할 우려가 있다. 따라서 본 시스템에서는 공연을 공연되는 곡의 하이라이트 구간을 응원 구간으로, 이외의 구간을 탐색 구간으로 분리하여 다음과 같이 상호작용을 할당하였다.
만약 여러 명의 관객이 응원봉을 사용할 경우, 탐색 구간에서는 가장 많은 관객들이 가리킨 방향으로 시점이 이동된다. 응원 구간에서는 시스템에 연결된 응원봉 개수 만큼 가상 응원봉 그룹을 구성하여, 특정 가상 응원봉 그룹이 특정 응원봉의 움직임을 복제하도록 구성되었다. 추가적으로, 보다 현장감 있는 경험을 제공하기 위하여, 구간에 관계 없이 응원봉에 탑재된 버튼을 눌렀을 때 사전에 정의된 관객들의 함성 소리가 나오는 상호작용을 추가하였다. 또한 오프라인 공연에서의 응원봉 사용 경험과 유사한 경험을 제공하기 위해, 가상 공연의 진행 상황에 따라 응원봉의 LED 색상이 실시간으로 제어되도록 설계하였다.
본 절에서는 Wishbowl 공연 시스템의 디자인 고려사항과, 상호작용 시나리오를 바탕으로 구현된 Wishbowl 공연 시스템의 구조에 대해서 설명한다. Figure 10은 Wishbowl 공연 시스템의 구성을 나타낸다.
CAVE 스타일의 프로젝션 맵핑을 통해 가상 공간을 구현하기 위해서는 Unreal Engine을 통해 구현된 가상 공연 공간을 실시간으로 여러 장의 화면으로 렌더링 할 수 있어야 한다. 이를 위해, Unreal Engine에서 다면 영상 렌더링을 위한 기능인 nDisplay를 활용하였다 [45]. nDisplay를 사용하기 위해서는 우선 nDisplay Configuration (NDC) Asset에서 가상 공간을 렌더링 할 카메라의 위치와, 최종 출력 화면의 크기와 배치, 각 카메라와 화면의 연결을 정의해야 한다. Wishbowl 공연 시스템에서는 CAVE 형식의 프로젝션 맵핑을 위해 Figure 11 처럼 전면과 좌우면을 바라보는 카메라를 설정하고, 이를 해당 방향의 화면에 연결하였다.
NDC 설정을 완료한 후, 가상 공연 공간이 구성된 레벨에 NDC의 인스턴스인 nDisplay Root Actor를 배치하였다. Display Root Actor가 배치된 레벨은 Actor의 위치를 중심으로 NDC의 설정에 따라서 다면 영상 출력이 가능해진다. Wishbowl 공연 시스템에서는 뮤직 비디오 제작에 사용한 레벨을 공연 공간으로 활용하여, 레벨의 중앙에 nDisplay Root Actor를 배치하였다 (Figure 12). 추가적으로 nDisplay Root Actor의 위치를 중심으로, Verse'day 멤버들이 중앙에 있는 관객들을 바라보도록 위치를 조정하였다 (Figure 12). 이를 통해 관객들은 Verse'day 멤버로 둘러싸인 공간에서 보다 몰입감 있게 공연을 관람할 수 있도록 하였다. nDisplay에 대한 설정이 완료된 후, 가상 공연 공간 레벨을 Epic Games사의 Switchboard 소프트웨어와 연결하고, Switchboard를 통해 총 3대의 프로젝터로 영상을 송출하였다.
Wishbowl 공연 시스템의 응원봉 기반 상호작용은 Figure 10의 구조로 수행된다. 우선 본 시스템에서는 5.2절에 언급된 상호작용을 위해, 자이로 센서와 LED, 버튼, 통신 모듈이 탑재된 응원봉을 사용하였다. 자이로 센서는 응원봉의 기울기를 감지하는 역할을 하며, 정확한 회전 감지를 위해 6-DoF 회전 감지를 지원하는 GY-521 센서가 사용되었다. 통신 모듈로는 통신 지연으로 인한 상호작용의 중단을 최소화하기 위해 저지연 통신을 지원하는 RF (Radio Frequency) 모듈인 nRF24l01이 사용되었으며, LED의 경우 RGB 색상 출력이 가능한 Neopixel WS2812를 사용하였다. 또한 각 모듈들을 제어하기 위해 아두이노 나노 보드를 사용하였으며, 다수의 센서 및 모듈에 안정적인 전압을 공급하기 위해 9V 건전지를 사용하여 전력이 공급되었다. Wishbowl 공연 시스템이 시작되면, 응원봉은 현재 자이로 센서의 X, Y, Z축 회전 값과 버튼의 눌림 여부, 아두이노 보드의 고유 식별자를 직렬화하여 RF 모듈을 통해 Unreal Engine이 구동중인 렌더링 PC로 전송하였다. 본 시스템에서는 다중 사용자 상호작용을 지원하기 위해, 동일한 하드웨어를 가진 4대의 응원봉이 제작되어 사용되었다.
응원봉에서 전송된 데이터를 수신하고 응원봉에 LED 색상 데이터를 전송하기 위해, 렌더링 PC에는 RF 모듈이 수신 모드로 설정된 아두이노(수신기)와 RF가 송신 모드로 설정된 아두이노(송신기)가 연결되었다. 수신기는 RF 통신을 통해 응원봉에서 전송된 데이터를 수신해, 시리얼 통신을 통해 Unreal Engine으로 전달하였다. Unreal Engine은 탐색 구간에서는 응원봉의 회전 값을 바탕으로 응원봉이 기울어진 방향을 판단해, nDisplay Root Actor의 position을 변화시켜 가상 공간 내에서의 시점을 변환하였으며, 공연이 응원 구간에 진입했을 때에는 응원봉의 회전 값을 가상 응원봉에 대입하여, 가상 응원봉이 관객들이 흔드는 물리 응원봉의 움직임에 맞게 흔들리도록 설정하였다. 추가적으로 Unreal Engine에 응원봉에서 버튼이 눌린 것이 확인 되었을 때에는 가상 공연 공간 내에 배치된 함성 음원을 재생하였다.
마지막으로 곡의 진행에 따라 응원봉 색상을 제어하기 위해서, 본 저자들은 사전에 레벨 시퀀스를 이용하여 곡의 진행에 따른 응원봉의 색상을 지정하였다. 공연이 시작되면, 레벨 시퀀스에 지정된 응원봉의 색상 데이터는 시리얼 통신을 통해 송신기로 전달된다. 송신기로 LED 데이터가 전달되면, 송신기는 이를 수신기로 전달한 후, 수신기가 응원봉으로 부터 데이터를 수신할 때 acknowledge payload를 통해 LED 데이터를 응원봉으로 전달한다. 이러한 데이터 전송 구조는 아두이노의 시리얼 통신이 입출력이 동시에 수행될 수 없다는 점에 기인하였다. 수신기가 Unreal Engine으로 부터 LED 데이터를 수신하기 위해 시리얼 입력을 기다리는 동안은 Unreal Engine으로 데이터를 전송할 수 없다. 따라서 본 저자들은 시리얼 통신으로 인해 발생하는 상호작용의 지연을 방지하기 위해, Unreal Engine으로 부터 데이터를 전달받는 역할을 전담할 송신기를 사용하여, 데이터를 전달받도록 설계하였다.
Wishbowl 공연 시스템 제작 과정을 통해 가상 아바타 공연을 오프라인으로 확장하여 다수의 관객이 몰입감있게 감상하는 방안 뿐만 아니라, 특수 제작된 응원봉을 통해 다양한 상호작용 시나리오를 제안하였다. 최종 결과물은 Figure 9와 같이 구성된 CAVE 형태의 가상 공간에서 관객이 몰입감있는 인터랙티브형 공연을 체험하는 과정을 보여주었다. 본 공연의 실제 진행 영상은 다음의 링크에서 확인할 수 있다: https://www.youtube.com/watch?v=HdHAw4pW0os. Wishbowl 공연 시스템 제작에서 경험한 기술적 어려움과, 시스템에 대한 향후 개선 사항은 6장에서 추가적으로 논의한다.
6. 논의 및 제언
본 장에서는 앞서 소개된 가상 아바타 밴드 콘텐츠 제작과, 프로젝션 맵핑 및 실시간 상호작용 응원봉을 이용한 몰입형 인터랙티브 공연 시스템에 대해 논의하고, 가상 아바타 음악 콘텐츠 제작을 위한 향후 연구에 대해 제언한다. 우선 본 논문의 뮤직 비디오 제작 과정은 관성식 모션 캡쳐 시스템을 이용하여 자연스러운 가상 아바타 밴드 콘텐츠를 제작할 수 있음을 확인하였다. 관성식 모션 캡쳐 시스템은 비교적 저렴한 가격대로 많은 가상 아바타 콘텐츠 제작자들에게 접근이 가능한 장치로, 본 제작 사례의 공유를 통해 다양한 가상 아바타 콘텐츠 제작자들의 밴드 음악 콘텐츠 제작에 도움이 될 것으로 기대한다. 이에 더해 본 논문의 몰입형 인터랙티브 공연 시스템은 오프라인 가상 아바타 공연에서 프로젝션 맵핑 기술과 특수 제작된 응원봉을 통해 다수의 관객들이 사회적 경험을 공유하며, 함께 가상 아티스트를 응원하며 자유로운 상호작용의 제공이 가능함을 보였다. 본 논문의 공연 시스템을 시연한 다수의 전시회에서 관객들은 프로젝션 맵핑을 이용한 가상 공간에 대한 몰입감과, 응원봉을 통한 가상 공간과의 상호작용에 대해 높은 선호도를 보였다. 특히 실시간 상호작용 응원봉을 사용해본 관객들은 “참신하다”, “더 몰입된다” 등의 긍정적인 반응을 보이기도 하였다. 본 저자들은 본 논문의 공연 시스템이 향후 제작될 가상 아바타 공연에서 보다 다양한 상호작용 설계에 영감을 줄 수 있을 것이라 기대한다.
하지만 본 제작 사례는 일부 한계점이 존재했다. 본 뮤직 비디오 제작 사례에서는 밴드 애니메이션 구성을 위해 관성식 모션 캡쳐를 사용했는데, 이는 자기장에 의한 간섭에 취약한 구조를 가진다. 자기장에 의한 간섭을 방지하기 위해 악기에서 자석 및 금속 재질의 부품들을 제거한 상태에서 모션 캡쳐를 진행했으며, 이로 인해 모션 캡쳐 배우가 실제로 악기를 연주하며 모션 캡쳐를 수행할 수는 없었다. 향후 연구에서는 밴드 악기를 연주하는 연주자의 모션을 보다 정확하게 캡쳐하기 위해 최신 컴퓨터 비전 기술 및 멀티모달 딥러닝을 기술을 활용하여, 악기 연주자의 이미지와 연주 음성을 바탕으로 모션 캡쳐를 수행하는 연구가 가능할 것으로 예상한다.
또한 본 논문의 몰입형 인터랙티브 공연 시스템에서는 4대의 응원봉을 제작하여 사용하였다. 해당 시스템의 응원봉 상호작용이 수백 혹은 수천 명의 많은 관객이 참석하는 실제 공연 공간에서 적용하기 위해서 하드웨어 성능의 개선이 필요하다. 실시간 상호작용 응원봉의 사용자 경험을 더욱 향상시키기 위해, 추가적인 사용자 연구를 진행하여 보다 발전된 형태의 상호작용을 디자인할 수 있다. 대규모 상호작용 시나리오에서는 수 많은 개별 사용자가 다양한 입력을 제공할 수 있으며, 이러한 개별 사용자의 다양한 상호작용을 보다 효과적으로 제시하기 위한 연구를 진행할 수 있다. 본 연구의 몰입형 가상 공연 공간을 대규모 오프라인 공간에서 제공하기 위해, CGV의 ScreenX [46] 상영관과 같이 대규모의 다면 몰입형 영상 시스템 환경을 사용하여 현장 연구를 진행할 수도 있다.
7. 결론
본 논문은 가상 밴드 아이돌 Verse'day의 뮤직 비디오 제작 사례를 바탕으로 모션 캡쳐 시스템과 실시간 엔진을 활용하여 가상 아바타 밴드 콘텐츠 제작 과정에 대해서 탐구하였다. 이에 더해 실시간 엔진에 기반하여 제작된 밴드 콘텐츠를 확장하여 CAVE 형식의 프로젝션 맵핑 기술과, 실시간 상호작용 응원봉을 활용한 몰입형 인터랙티브 가상 공연 시스템을 제안하고, 실제 공연을 수행함으로써 시스템을 검증하였다. 다만, 본 제작 사례는 관성식 모션 캡쳐 장비를 활용하여 밴드 악기의 연주 애니메이션을 제작하기 위해 일부 부품이 제거된 악기를 활용해야 했으며, 최종 애니메이션 제작을 위해 수동으로 키프레임을 정제할 필요가 있다는 한계점이 존재한다. 또한 몰입형 인터랙티브 공연 시스템은 소규모의 공간에서 최대 4대의 응원봉을 이용해 시연되어, 대규모의 관객이 참여하는 실제 공연 사례에 적용하기 위해서는 추가적인 연구가 필요하다.
하지만 이러한 한계점에도 불구하고, 본 논문은 기존 가상 아바타 음악 콘텐츠에서 많이 시도되지 않았던 밴드 콘텐츠 제작 과정을 탐구하였으며, 증가하고 있는 오프라인 가상 아바타 공연에서 보다 몰입감 높은 공연 경험을 제공하기 위한 시스템을 제시하였다. 우리는 본 논문의 제작 사례가 보다 다양한 가상 아바타 밴드 컨텐츠가 제작되고 몰입감 있는 가상 아바타 공연을 제작하는데 영감을 줄 수 있을 것으로 기대한다.