1. 서론
최근 가상현실 (VR: virtual reality), 증강현실 (AR: augmented reality) 그리고 혼합현실(MR: mixed reality)을 아우르는 확장현 실 (XR: extended reality) 기술은 다양한 문화예술 및 공공 전시 공간에 도입되며 새로운 몰입형 체험 콘텐츠 기술로 주목받고 있 다 [1, 2]. 특히 XR 기술은 단순히 정보 전달의 수단을 넘어서, 사용자가 실제 공간에 있는 듯한 몰입감을 제공하고, 가상의 객 체와 상호작용함으로써 보다 적극적인 사용자 경험을 제공하는 데 적합하다 [3]. 이러한 맥락에서, XR 기반의 도슨트 시스템 같 은 가상의 해설자와 관람객 간의 실시간 상호작용 콘텐츠에 대한 관심과 필요성이 증대되고 있으며, 이러한 시스템 구현을 위한 기술적 방안과 운영적 측면에 대한 연구가 활발히 진행되고 있 다. [4, 5].
그러나 기존의 XR 콘텐츠는 대부분 사전 녹음된 음성이나 정 해진 경로의 애니메이션으로 구성되어 있으며, 사용자 입력에 제 한적으로만 반응하는 방식에 머무르고 있다 [6]. 이러한 정적 콘 텐츠는 관람객의 다양한 질문이나 즉흥적인 반응을 즉시 처리할 수 없기 때문에, 사용자가 예상하지 못한 질문을 하거나, 콘텐츠 흐름에서 벗어난 요청을 하는 경우, 시스템이 유연하게 대처하지 못하여 현실감과 몰입감이 저하되는 문제가 발생한다. 따라서 관 람객의 위치, 질문, 표정과 같은 현실 기반의 다양한 변수를 실시 간으로 인식하고, 이에 즉각적으로 반응하며 상호작용할 수 있는 시스템의 필요성이 지속적으로 제기되고 있다 [7]. 특히 문화 공 간이나 전시장처럼 불특정 다수가 방문하는 환경에서는 단순한 정보 전달에 그치지 않고 사용자의 연령, 지식 수준, 반응 등을 반영하여 설명의 난이도를 조절하고 대화의 흐름을 유연하게 이 어가는 것이 중요하다. 즉, 즉석에서 자연스러운 대화를 나눌 수 있는 실시간 상호작용성이 핵심이다. 이러한 시스템을 실현하기 위해서는 고정밀 모션 캡처, 실시간 페이셜 캡처, 음성 송수신, 관 람객의 움직임 감지 등 다양한 센서 기반 기술의 통합과 실시간 처리를 기반으로 한 시스템 설계가 필요하다 [8, 9].
본 논문에서는 이러한 문제를 바탕으로, 실제 배우가 콘텐츠 를 생성하고 관람객과 실시간으로 상호작용하는 XR 기반 도슨 트 콘텐츠를 제안한다. 제안하는 시스템은 물리적으로 분리된두 공간, 즉 콘텐츠를 생산하는 베이스캠프와 관람객이 콘텐츠를 소 비하는 전시 체험관으로 구성되어 있다. 두 장소는 네트워크를 통해 배우와 관람객이 마치 같은 공간에 존재하는 것처럼 실시 간으로 반응하고 대화할 수 있도록 연결되어 있다. 배우는 모션 캡처와 페이셜 캡처 장비를 착용하고, 관람객의 위치나 음성 반응 을 모니터링하면서 직접적인 설명과 응대를 수행한다. 관람객은 HMD (head-mounted display)나 AR 태블릿을 착용한 채 배우가 연기하는 가상의 도슨트 캐릭터와 자연스럽게 소통할 수 있으며, 자신의 동작이나 음성이 도슨트의 반응에 직접 영향을 끼치는 방 식으로 콘텐츠를 경험하게 된다.
제안하는 시스템은 단방향적인 콘텐츠 소비를 넘어, 배우와 관 람객 간의 인간 중심의 실시간 상호작용을 구현함으로써 기존전 시 체험 콘텐츠의 한계를 보완하는 데 기여한다 [10, 11]. 또한 기 술적 구현뿐만 아니라 실제 전시 운영 공간을 기반한 시스템 설계 와 실제 3개월간 운영중에 발생한 문제점과 한계점 그리고 운영 시나리오를 함께 제시함으로써 향후 유사한 XR 기반 인터랙션 시스템을 기획하고 개발하려는 연구자나 개발자에게 실질적인 참조 자료로 활용될 수 있을 것이다. 본 시스템은 Unity 엔진을 기 반으로 개발되었으며, 엔진의 실시간 렌더링을 적극 활용하였다. 본 논문의 구성은 다음과 같다. 2절에서는 관련 연구 및 선행 시스템에 대해 소개한다. 3절에서는 전시 체험관과 베이스캠프 의 물리적 공간 구성을 설명하며, 4절에서는 시스템의 기술적 구 조 및 데이터 흐름에 대해 상세히 기술한다. 5절에서는 실제 운영 사례를 바탕으로 체험 방식과 운영 방식에 대해 분석하고, 6절에 서는 기술과 운영에 대해 분석하고 운영 과정에서 발생한 한계와 개선점을 정리한다. 마지막으로 7절에서는 향후 연구 방향을 포 함한 결론을 제시한다.
2. 관련연구
본 절에서는 XR 기반의 도슨트 및 인터랙티브 콘텐츠 시스템을 크게 정적 데이터 기반 시스템과 실시간 데이터 기반 시스템으 로 나누어 관련 연구를 살펴보고, 제안하는 시스템과의 차별점을 기술한다 [12, 13].
기존 XR 기반 도슨트 시스템은 대부분 미리 녹화된 애니메이션 과 음성 데이터를 활용한다. Restivo 등은 MetaHuman Creator를 활용한 실제 같은 디지털 아바타와 iPad Pro 기반 페이셜 캡처 및 라이브 스트리밍 기술을 적용해 큐레이터의 표정과 음성을 아바 타에 적용하고, 관람객이 가상 큐레이터와 상호작용하며 유물의 3D 모델을 탐색하는 몰입형 시스템을 개발했다 [14]. Karuzaki 등은 전신 모션 캡처, 얼굴 표정 및 음성 동기화를 통합하여 실제 배우의 움직임과 표정을 디지털 아바타에 정밀하게 반영하는 시 스템을 구현하고, AR 및 VR 기기를 통해 문화유산 콘텐츠에서 몰입형 스토리텔링을 제공하였다 [15]. Hammady 등은 이집트 박 물관에서 인간 가이드를 MR 기반 가상 가이드로 대체하는 시스 템을 개발하고, HoloLens를 활용해 3D 스캔 유물과 실제 박물관 환경을 통합했다. 현지 방문객 171명을 대상으로 평가를 진행해 전통적 가이드 콘텐츠를 대체할 가능성을 확인했다 [16].
최근 엔터테인먼트 분야에서는 실시간 모션 캡처, 페이셜 캡처, 원격 스트리밍 기술 등을 활용하여 실제 사람과 거의 동일한 수 준의 몰입형 경험을 제공하는 버추얼 아이돌 (virtual idol) 콘텐 츠가 등장하여 큰 주목을 받고 있다 [17]. 시스템은 주로 가수나 퍼포머가 모션 슈트와 페이셜 캡처 장비를 착용하여 실시간으로 움직임과 표정을 캡처하고, 이를 원격지의 관람객에게 실시간으 로 송출하는 방식으로 이루어진다. 이러한 방식은 수천에서 수만 명의 관람객에게 실시간으로 아바타 퍼포먼스를 제공할 수 있 는 확장성을 가진다. 온라인 공연, 팬미팅, 방송 등에서 글로벌 관객을 대상으로 송출이 가능하며, 공연장 내외를 막론하고 다 양한 플랫폼에서 동일한 콘텐츠 경험을 제공할 수 있다. 그러나 버추얼 아이돌 시스템은 기본적으로 다수의 사용자에게 동일한 콘텐츠를 제공하는 공연 중심의 서비스이기 때문에, 개별 관람객 의 위치와 질문, 반응을 실시간으로 반영하여 개인화된 콘텐츠를 제공하는 것에 한계가 있다.
표 1은 각 시스템의 특성을 정리한 것이다 (× 지원하지 않음, △ 일부 지원, ⃝ 지원). 본 논문에서 제안하는 시스템은 실시간 데이 터 기반 시스템의 장점인 실시간 모션 캡처, 페이셜 캡처, 음성 상 호작용을 적극적으로 활용하면서, 개별 관람객의 실시간 위치와 질문, 반응을 반영하여 개인화된 관람 안내가 가능하다는 점에 서 차별화된다. 또한 XR 기술을 활용하여 실제 전시 환경에 가상 아바타를 증강함으로써 보다 높은 몰입감을 제공한다.
이러한 비교 분석을 통해, 제안된 시스템은 기존의 정적 데이 터 기반 시스템과 버추얼 아이돌 중심의 실시간 시스템의 장점들 을 활용하고, 동시에 각 시스템이 가진 한계를 극복하여 전시 및 체험 환경에서 몰입감을 제공하는데 기여할 수 있다.
3. 공간 구성
본 시스템은 실시간 XR 기반 도슨트 콘텐츠를 구현하기 위해, 역할과 기능에 따라 분리된 두 개의 공간으로 구성된다. 하나는 콘텐츠를 실시간으로 생성하고 관리하는 베이스캠프이고, 다른 하나는 관람객이 실제로 콘텐츠를 체험하는 전시 체험관이다. 이 두 공간은 약 16km 떨어져 있지만 네트워크를 통한 실시간 데이 터 송수신으로 긴밀히 연결되어 동작한다.
전시 체험관은 최신 IoT 기기를 활용해 관람객이 다양한 스마트 홈 환경을 직관적으로 체험할 수 있는 공간으로 설계되었다. 그림 1은 이러한 전시 체험관의 전경을 보여준다. 중앙에는 관람객 들이 앉을 쇼파가 준비되어 있으며 주변으로 다양한 센서가 부착 되어 있다. 관람객은 단순히 도슨트와 상호작용만이 아닌, 공간 내 설치된 IoT 기기들과 도슨트의 안내를 통해 스마트홈 전체의 작동 방식과 기능을 체험할 수 있다.
체험관 내부에는 콘텐츠 체험을 위해 표 2와 같이 HoloLens 2, AR 태블릿, Azure Kinect, CCTV 등의 XR 디바이스와 센서들이 배치되어 있으며, 이 장치들로 인해 체험관은 도슨트 배우와 관람 객 간의 실시간 상호작용을 가능하게 하는 복합 인터랙션 공간이 된다.
전시 체험관에는 XR 콘텐츠의 정확한 위치 정렬과 안정적인 체험 제공을 위해 체험관과 어울리는 이미지 마커가 설치되어 있 다. 콘텐츠 시작 시, 관람객이 사용하는 XR 디바이스는 해당 마커 를 인식하여 공간 내 기준 좌표계를 설정한다. 이를 통해 도슨트 아바타가 체험관 내에서 정확한 위치에 배치될 수 있다. 또한 콘 텐츠 진행 중 사용자의 이동이나 시야 변화로 인해 원점 추적이 일시적으로 불안정해질 가능성에 대비하여, 체험 동선 상에 보조 마커가 추가로 설치되어 있다. 마커는 관람객이 도슨트와 상호작 용할 때 자연스럽게 인식되어 XR 디바이스가 원점을 재보정할 수 있도록 도와주며, 결과적으로 자연스럽게 도슨트 아바타가 정 확한 위치에 표출될 수 있다.
마지막으로 전시 체험관은 XR 기기를 착용하지 않은 외부 방 문자나 관계자도 3인칭 관점에서 콘텐츠 실행 상황을 직관적으 로 이해할 수 있도록 스펙테이터 뷰 (spectator view) 시스템을 구 축하였다. 이 시스템은 체험관 내부 영상과 도슨트 아바타를 실시 간으로 합성하고 스트리밍 함으로써, 콘텐츠를 보다 넓은 범위로 확장할 수 있는 환경을 제공한다 (4.3절 참조).
그림 2는 베이스캠프의 전경을 보여준다. 이곳은 도슨트 아바타 를 생성하기 위한 핵심 공간으로, 배우의 모션, 표정, 음성 데이터 를 실시간 캡처하고 이를 전시 체험관으로 송출한다.
배우는 OptiTrack 모션 캡처 시스템과 iPhone 기반의 페이셜 캡처 장비를 착용하고, 지정된 구역 내에서 자유롭게 움직이며 연기를 수행한다. 이를 위해 베이스캠프에는 관람객의 반응을 시 각적으로 모니터링할 수 있도록 체험관 CCTV 영상이 실시간으 로 표시되는 TV가 설치되어 있다. 또한 배우와 시스템을 보조 하기 위한 오퍼레이터가 배치되어 시스템 이상이나 돌발 상황에 대처할 수 있도록 하였다. 이 공간에 설치된 주요 장비는 표 3에 정리되어 있다.
그림 3은 배우가 모션 캡처 수트를 착용하고, 헬멧에 iPhone을 결합한 페이셜 캡처 장치를 착용한 모습을 보여준다. 그림 3(a)는 배우가 반사형 마커가 부착된 수트를 입고, 아바타 스켈레톤을 캘리브레이션하는 장면이다. 그림 3(b)는 연구팀이 자체 제작한 페이셜 캡처 장치로, iPhone과 자전거용 헬멧을 결합한 형태로, 무게 중심을 맞추기 위해 헬멧 뒤쪽에는 추를 매달았다.
또한, 배우의 원활한 이동과 관람객의 명확한 동선을 유도하기 위해서 베이스캠프 바닥에는 정해진 시나리오대로 배우의 이동 경로와 주요 이벤트 지점을 안내하는 가이드라인이 설치되어 있 다. 이는 체험관 내 가구나 장비가 배치된 구역과 배우의 이동 가능 구역을 시각적으로 구분해 주는 역할을 한다. 배우는 이를 따라 움직이며, 실제 공간에서 관람객과 상호작용하듯 현실감 있 는 연기를 한다.
4. 시스템 기술 분석
본 시스템은 전시 체험관과 베이스캠프라는 두 개의 분리된 공간 을 하나로 연결한다. 두 공간은 네트워크를 통해 상시 연결되어 있으며, 모션, 표정, 음성, 관람객 피드백 등 다중 데이터 스트림을 동기화함으로써 실시간 양방향 상호작용을 구현한다 [18, 19].
그림 4는 도슨트 시스템의 전체 구조와 각 구성 요소 간의 상호 작용 및 데이터 흐름을 나타낸다. 시스템은 크게 두 축으로 나뉘 며, 베이스캠프에서는 배우의 모션, 표정, 음성 데이터를 캡처하 고 변환하여 전시 체험관으로 전송하고, 체험관에서는 관람객의 위치 및 음성 정보를 수집하여 다시 베이스캠프로 전송한다. 체 험관에 설치된 XR 디바이스는 전송받은 데이터를 기반으로 도 슨트 아바타를 실시간으로 렌더링하며, 관람객은 이를 통해 실제 배우와 대화하고 상호작용한다. 반대로, 베이스캠프의 배우는 관 람객의 음성, 위치, 스펙테이터 뷰 화면 등을 통해 원격지에 있는 관람객의 상태를 파악하고 실시간으로 대응할 수 있다.
체험관 시스템은 관람객에게 현실적이고 몰입감 있는 도슨트 경 험을 제공하기 위해 그림 4와 같이 네 가지 모듈로 구성되어 있다.
-
Docent Rendering Module
이 모듈은 시스템의 핵심으로서, 베이스캠프에서 실시간으 로 전송된 위치, 모션, 표정, 음성 데이터를 처리하여 실제 배우의 움직임과 표정을 아바타 형태로 시각화하는 역할을 담당한다.
-
Data Processing Module
이 모듈은 베이스캠프에서 전달된 모든 스트림 데이터를 실 시간으로 수집하고, 이를 정렬 및 가공하여 XR 디바이스의 아바타 렌더링과 음성 재생에 최적화된 형태로 변환한다.
-
Voice Processing Module
관람객과 도슨트 아바타 간의 음성 상호작용을 담당한다. 관 람객의 음성은 XR 디바이스의 마이크를 통해 수집되어 베 이스캠프로 전송되며, 배우의 음성은 다시 관람객의 XR 디 바이스에서 3D 오디오로 재생되어 실제로 도슨트와 같은 공 간에 있는 듯한 현장감을 느낄 수 있도록 한다.
-
Spectator View Module
스펙테이터 뷰 모듈은 XR 디바이스를 착용하지 않은 외부 관람객이나 관계자도 실시간 XR 콘텐츠의 흐름과 현장을 직관적으로 이해할 수 있도록 지원하는 시스템이다. 이것은 4.3절에서 자세하게 설명한다.
또한, 전시 체험관에는 별도의 CCTV가 설치되어 있다. 이 CCTV 시스템은 본 시스템과는 별도로 동작하며, 체험관 내 현 장의 상황을 실시간으로 베이스캠프로 스트리밍한다. 전송된 영 상은 베이스캠프 내에 설치된 TV를 통해 모니터링할 수 있다.
그림 5는 그림 4의 베이스캠프의 핵심 기능인 OptiTrack, Facial Capture App, Voice Processing Module, Data Processing Module 의 구성과, 각 모듈 간 데이터의 생성 및 처리 흐름을 보다 상세하 게 나타낸다.

그림 5의 OptiTrack 시스템은 배우가 착용하는 모션 캡처 수트 와 천장 및 벽면에 설치된 다수의 광학식 카메라로 구성된다. 배 우는 반사형 마커가 부착된 수트를 착용하고 베이스캠프 내 지정 된 구역에서 움직인다. 이때 광학식 카메라는 마커로부터 반사된 적외선 신호를 여러 각도에서 촬영하여 배우의 움직임을 정밀하 게 추적한다. 이렇게 캡처된 데이터는 Motive 소프트웨어를 통해 처리된 뒤, Data Processing Module 역할을 담당하는 서버로 전송 된다. 서버는 OptiTrack 플러그인 (plugin)을 활용하여 데이터를 해석하고, 실시간 처리가 가능한 3차원 위치 및 회전 데이터로 변환한다. 변환된 데이터는 Pose mapper 모듈에 의해 아바타의 동작으로 매핑된다.
그림 5의 페이셜 캡처는 연구팀이 자체 개발한 앱을 이용하 며, iPhone과 ARKit 기반의 마커리스 (markerless) 방식을 활용 한다 [20]. ARKit을 활용해 배우 얼굴에서 50개 이상의 미세한 움직임과 특징점을 실시간으로 추출하여 0과 1 사이의 값으로 정규화 (normalize)한다. 이 값은 블렌드 셰이프 (blend shape) 기 반의 아바타 모델에 적용된다 [21]. 음성 처리를 위해서 Unity Asset Store의 Dissonance Voice Chat 에셋을 앱에서 사용 가능하도 록 수정하여 활용하였다 [22]. 서버는 수신된 데이터를 Face recognizer 모듈과 Voice recognizer 모듈로 나누어 분석한다. Face recognizer는 얼굴 특징점을 아바타 모델에 맞게 변환하며, Voice recognizer는 음성 데이터를 배우의 위치와 결합하여 Spatial 3D audio player로 전송함으로써 현장감 있는 음성 재생을 구현한다.
본 시스템에서 모션 캡처는 120 Hz (8.3ms), 페이셜 캡처는 60fps (16.7ms)로 송신된다. 서버의 Synchronizer 모듈은 두 스 트림을 공통 60fps로 싱크를 맞춰 네트워크로 전송한다. 반면 클 라이언트의 렌더링 프레임률은 디바이스별로 상이하다. Android 태블릿은 고정 30 fps, HoloLens 2는 25 - 30 fps 범위로 동작 하였다. 그 결과 여러 프레임의 데이터가 동시에 수신되거나 일 부 데이터가 일시적으로 누락되는 경우에는 데이터 버퍼링 및 보간 (interpolation)을 통해 아바타의 모션 및 표정의 연속성을 유지한다 [23]. 결과적으로 각 처리 단계 (캡처, 동기화, 네트워 크, 클라이언트 렌더링)의 처리 시간을 합산하면, 시스템 전체의 end-to-end 지연은 평균적으로 약 95ms 이내로 추정된다. 이는 모션 (8.3ms) 및 페이셜 캡처 (16.7ms), 네트워크 송수신, 그리고 클라이언트 렌더링 (33 - 40ms) 등 각 구간별 프레임 속도와 전송 지연을 기반으로 산출한 이론적 값으로, 실제 운영 환경에서도 시각적 연속성이 전반적으로 유지됨을 관찰하였다.
스펙테이터 뷰는 전시 체험관에서 XR 디바이스를 착용하지 않 은 방문객이나 관계자도 콘텐츠를 제 3자의 입장으로 이해할 수 있도록 개발된 실시간 영상 합성 및 스트리밍 시스템이다 [24]. 스 펙테이터 뷰의 영상 합성을 위해 전시 체험관 내부 벽면에는 두 대의 Azure Kinect 카메라가 설치되어 있다. 두 카메라는 아바타 가 체험관 내부의 정확한 위치에 정밀히 합성될 수 있도록 사전에 정밀한 캘리브레이션 과정을 거쳤다. 그림 6은 두 대의 카메라가 설치된 벽면의 모습과 각 카메라가 촬영한 영상에 아바타가 정 밀하게 합성된 결과를 보여준다. 아바타에 실제 공간과 동일한 조명 환경을 고려한 그림자를 추가하여 현실감을 더욱 높였다.

합성 영상은 체험관 내 TV와 베이스캠프의 페이셜 캡처 앱으 로 동시에 스트리밍된다. 그림 7은 실시간 영상이 체험관 내부 TV로 출력되는 장면(그림 7(a) 참조)과 페이셜 캡처 앱 디스플레 이에 동일한 영상이 송출되는 장면(그림 7(b) 참조)을 보여준다.
본래 스펙테이터 뷰 시스템의 초기 개발 단계에서는 페이셜 캡처 앱으로의 영상 스트리밍은 계획하지 않았다. 그러나 현장 테스트 중에 배우가 관람객의 위치와 반응을 확인하기 위해 베 이스캠프에 설치된 CCTV 영상을 확인하기 위해 고개나 시선을 돌리는 상황이 발생하였다. 이로 인해 관람객의 입장에서는 배우 가 상호작용 중 시선이나 얼굴이 엉뚱한 방향을 향하는 것처럼 보이는 이질감을 느끼게 되고, 배우가 바라보는 방향을 관람객이 처다보는 문제가 나타났다. 이를 해결하기 위해 연구팀은 페이셜 캡처 앱의 디스플레이로 스펙테이터 뷰의 실시간 영상을 함께 송 출하는 방식을 추가적으로 도입하였다. 그 결과 배우는 더 이상 고개를 돌리거나 시선을 돌리지 않고도 자신의 바로 앞에 설치된 iPhone 화면을 통해 자연스럽게 관람객의 위치와 움직임을 실시 간으로 확인하며 연기할 수 있게 되었다. 결론적으로 스펙테이터 뷰 시스템은 본 시스템이 가진 한계점을 보완하여 현장감과 실감 성을 극대화하고, 배우가 연기에 집중할 수 있는 환경을 제공하여 전체적인 인터랙션 품질을 높이는 데 중요한 역할을 수행한다.
5. 콘텐츠 운영과 체험 방법
본 절에서는 실제 콘텐츠 운영 과정과 체험 방법을 단계별로 분 석한다. 도슨트 콘텐츠는 전시 체험관과 베이스캠프 간의 긴밀 한 협력을 통해 운영되며, 크게 관람객 방문, 도슨트 안내, 체험 종료의 세 단계로 구성된다. 그림 8은 각 상황별로 사전 수립된 시나리오를 보여준다.
관람객 방문 상황이 발생하면 안내원이 콘텐츠에 대한 간략한 소개를 시작으로 XR 디바이스 사용법, 콘텐츠 구성 및 주의사항 을 안내한다. 이후 안내원은 그림 9에서 볼 수 있듯이 관람객에게 HoloLens 2(그림 9(a) 참조) 또는 태블릿(그림 9(b) 참조) 중 한 가지를 착용하도록 돕고, 지정된 위치에서 대기하도록 요청한다. 동시에 베이스캠프에서는 CCTV를 통해 관람객의 준비 상황을 실시간으로 확인하며, 배우는 사전에 준비된 시나리오를 재점검 하고 응대 준비를 완료한다.
관람객이 준비된 위치에 도착하면 도슨트의 안내 단계가 시작 된다. 도슨트 아바타는 XR 디바이스를 통해 이펙트와 함께 지정 된 위치에서 등장한다. 아바타의 모습은 배우의 성별에 따라 그 림 10처럼 여성 또는 남성 캐릭터로 설정된다. 그림 10(a)는 여성 캐릭터, 그림 10(b)는 남성 캐릭터의 모습을 보여준다. 도슨트는 간단한 자기소개를 마친 뒤, XR 디바이스의 좌표계 오차를 바로 잡기 위해 벽면에 부착된 마커를 잠시 바라봐 달라고 관람객에게 요청한다. 이후, 관람객이 준비되었음을 확인하고 나면 체험관 내부의 주요 장소로 가이드를 시작한다.
관람객이 지정된 장소로 이동을 완료하면 메인 체험이 진행 된다. 총 체험시간은 약 8분 정도이며, 체험 과정은 다음과 같은 순서로 진행된다.
-
IoT 기반 스마트홈 기술 소개 및 체험
관람객은 조명 밝기 조절, 커튼 개폐, TV 및 오디오 장치, 로 봇 청소기 등 다양한 장치가 작동하는 모습을 보며 스마트홈 기술을 체험한다.
-
4D 리플레이 기반 태권도 콘텐츠 체험
도슨트는 체험관 내의 쇼파에 앉아 TV를 보며 4D 리플레이 기술을 활용한 태권도 경기를 감상하고, 여러 기능을 활용해 콘텐츠를 직접 조작하며 콘텐츠를 체험한다.
-
포인트 클라우드 기술 시연
관람객은 홀로그램 디스플레이를 통해 공간 스캔 데이터를 바탕으로 생성된 포인트 클라우드 영상을 관람한다. 이 과정 에서 도슨트의 설명을 통해 3차원 공간 데이터 구축 기술에 대해 보다 쉽게 이해할 수 있도록 돕는다.
특히, IoT 기반 스마트홈 기술 소개 및 체험 과정에서는 스마트 홈 장치들이 배우가 직접 조작하는 방식이 아니라, 베이스캠프에 배치된 오퍼레이터가 스마트폰을 통해 각종 장비를 원격으로 제 어한다. 이를 통해 배우는 스마트폰 조작에 의한 몰입도 저하나 부자연스러운 상호작용 없이 관람객의 질문과 반응에만 집중하 여 더욱 자연스럽게 대응할 수 있었다. 모든 체험이 끝나고 체험 종료 단계가 되면, 도슨트는 관람객에게 콘텐츠 체험이 완료되었 음을 알리고, XR 디바이스를 반납한 후 퇴장할 수 있도록 안내 한다. 베이스캠프의 배우는 마지막까지 관람객과 소통하며 작별 인사를 건네고, 아바타가 퇴장하는 모습을 연기한다. 체험이 끝 난 후 안내원은 관람객으로부터 XR 디바이스를 회수하고 체험관 내부를 정리하여 다음 체험을 준비한다.
6. 기술 및 운영 분석
본 장에서는 실제 현장에 적용된 도슨트 콘텐츠 시스템의 기술적 구현 및 운영 과정을 분석한다. 특히, 본 시스템의 핵심인 모션 캡 처, 페이셜 캡처, 스펙테이터 뷰를 중심으로 기술적 접근 방식을 심층적으로 다루고, 실제 운영 중 드러난 기술적 특성과 운영상의 강점, 한계 및 현실적 제약 사항을 구체적으로 분석한다.
본 연구에서 구축한 도슨트 시스템의 기술적 핵심은 배우의 실제 움직임과 표정, 음성을 최소한의 시간 지연으로 정밀하게 아바타 로 구현하는 데 있다. 이를 구현하기 위해 다양한 기술을 복합적 으로 적용하였다.
-
실시간 데이터 통합 기반 아바타 생성
각기 다른 센서와 장치에서 생성된 모션, 얼굴, 음성 데이터 를 통합하여, 서버에서 실시간으로 아바타를 생성하고 제어 하는 파이프라인을 구축하였다 [25]. 이를 통해 배우의 움직 임과 표정, 음성이 하나의 가상 캐릭터에 반영되어 몰입감 높은 상호작용이 가능했다.
-
스펙테이터 뷰 활용
전시 체험관에 설치된 2대의 Azure Kinect 카메라를 이용 하여 체험관 내부와 관람객, 도슨트 아바타의 합성 영상을 생성하였다. 또한, 합성된 영상을 배우가 사용하는 페이셜 캡처 앱에도 실시간으로 스트리밍하였다. 이를 통해 배우가 CCTV 화면을 별도로 보지 않고도 관람객의 위치를 정확히 인지할 수 있게 되어, 시선 처리의 자연스러움이 크게 향상 되었다.
-
3D 공간 좌표 정합
XR 디바이스의 좌표 오차를 최소화하기 위해 체험관과 어 울리는 이미지를 마커로 활용한 좌표계 보정 방식을 도입하 였다 [26]. 체험 공간 내에 추가로 재보정 마커를 설치하여 지속적으로 공간 정합을 유지하도록 유도하였다.
-
다수 관람객 지원:
시스템은 여러 관람객이 동시에 XR 체험을 진행할 수 있 도록 설계되었다. 각각의 관람객은 XR 디바이스를 활용해 도슨트와 상호작용하며, 관람객이 서로의 반응을 관찰할 수 있는 환경을 구현하였다.
본 XR 도슨트 시스템은 기술적 구현과 더불어 실제 현장 운영 과정에서도 다음과 같은 운영상의 강점이 확인되었다.
-
실시간 인터랙션
본 시스템은 미리 제작된 콘텐츠를 일방적으로 재생하는 방 식이 아니라, 관람객의 위치, 제스처, 음성 데이터를 실시간 으로 분석하여 배우가 즉흥적으로 대응하는 방식으로 구성 되었다. 이를 통해 관람객의 개별 특성과 현장 반응을 즉각 반영하는 인터랙션 중심의 콘텐츠 운영이 가능하였다.
-
체계적 협력 시스템
베이스캠프는 배우와 오퍼레이터가 긴밀하게 협력할 수 있 도록 구조화되었다. 돌발 상황이나 장비 문제 발생 시 오퍼 레이터가 즉각적으로 개입하여 대응할 수 있는 체계적 운영 매뉴얼과 역할 분담을 구축하였다.
-
장기간 안정적 운영
실제 체험관에서 약 3개월간 일반인 대상으로 운영했다. 이 기간 동안 시스템은 중대한 장애 없이 안정적으로 운영되었 다. 소프트웨어 및 하드웨어의 안정성, 운영 매뉴얼의 정비, 신속한 현장 대응 체계 등을 통해 서비스 품질을 유지할 수 있었다.
-
피드백 기반 운영 개선
현장 관람객과 배우, 오퍼레이터 등 실사용자의 피드백을 수 시로 수집하여 운영 프로세스와 시스템을 지속적으로 개선 하였다. 특히, 그림 7(b)의 경우 관람객의 피드백을 통해 추 가 개발된 경우이다.
-
교육 및 적응 지원 체계
오퍼레이터와 배우를 대상으로 한 사전 교육 및 적응 프로그 램을 운영하여, 시스템 및 장비의 숙련도를 높이고 운영 중 발생할 수 있는 문제에 신속히 대응할 수 있도록 하였다.
실제 운영 결과, 시스템의 기술적 한계와 운영상 문제점이 드러 났으며, 이에 대한 개선의 필요성도 확인되었다.
-
데이터 지연 문제
전시 체험관 내 XR 디바이스와의 통신 과정에서 데이터 전 송 지연이나 순간적인 데이터 유실로 인해 아바타의 표정이 나 동작이 일시적으로 부자연스럽게 나타나는 사례가 있었 다. 이러한 현상은 주말 시간때, 전시관에 사람이 많아지며 무선 네트워크 환경이 과밀해질 경우 특히 많이 발생되었 다. 데이터 보간을 통해 일부 보완되었으나, 여전히 완벽히 해결되지 않은 주요 과제로 남아 있다.
-
배우의 체력과 연기력 한계
배우가 장시간 연기를 수행함에 따라 체력 소모와 연기 품 질 저하가 운영상의 주요 문제로 나타났다. 실제 현장에서는 이러한 문제를 완화하기 위해 배우 2인 1조로 교대 근무를 실시하였다. 그리고 특정 배우의 뛰어난 연기력과 친화력에 의존하는 현상이 발생하여, 중요 이벤트나 피크 타임에는 한 배우에게 역할이 집중되는 경향도 확인되었다.
-
높은 비용과 준비 시간
전시 체험관과 베이스캠프 전체 시스템 운영에는 배우, 오퍼 레이터, 기술팀의 동시 투입이 필요하며, 장비의 구매, 설치 및 유지에 상당한 비용이 소요된다. 이러한 복합적인 준비 과정으로 인해 운영 전 상당한 시간과 인력이 요구되며, 전 체 운영 과정에서 높은 비용 부담이 지속되는 한계가 있다.
-
정밀 상호작용의 한계
배우가 관람객을 직접 볼 수 없고 CCTV나 스펙테이터 뷰에 의존해 관람객의 위치와 방향을 추정해야 한다. 이로 인해 눈맞춤과 같은 정밀한 상호작용의 한계가 있었다. 보다 정 확한 사용자 위치 정보 제공 기술의 필요성이 제기된다.
-
아바타 손 제스처 제한
현재 시스템은 손가락의 움직임을 정밀히 캡처하는 시스템 이 없기 때문에, 아바타의 손 제스처가 단순화되어 표현되 었다. 이에 따라 도슨트 아바타의 동작이 다소 어색하게 느 껴지고, 관람객이 느끼는 실감성과 몰입도가 일부 저하되는 한계가 있었다.
이처럼 XR 도슨트 시스템의 기술적 성과와 더불어, 운영상의 현실적 제약과 개선 필요성을 동시에 드러냈다. 이러한 분석 결 과는 향후 XR 기반 실시간 상호작용 콘텐츠의 설계 및 운영에 있어 중요한 참고 자료가 될 수 있다.
7. 결론 및 향후 연구
본 연구에서는 물리적으로 분리된 베이스캠프와 전시 체험관을 네트워크로 연결하고, 배우의 모션, 표정, 음성 데이터를 실시간 으로 전송하고 동기화하여 아바타로 구현함으로써 관람객과 몰 입형 상호작용이 가능한 콘텐츠 시스템을 설계하고 운영하였다. 이를 위해 OptiTrack을 활용한 고정밀 모션 캡처, ARKit 기반의 페이셜 캡처 기술, Azure Kinect 기반의 스펙테이터 뷰 구현, 실시 간 데이터 보간 알고리즘 등을 복합적으로 적용하여 기존의 정적 인 XR 콘텐츠와 차별화된 실감형 인터랙션 경험을 제공하였다. 또한, 배우가 관람객의 반응을 즉각적으로 파악하고 대응할 수 있도록 스펙테이터 뷰 영상을 페이셜 캡처 앱과 연계하였으며, 베이스캠프의 운영 방식을 최적화하여 배우가 연기에 몰입할 수 있는 환경을 조성하고 운영 효율성도 향상시켰다.
그러나 실제 운영 과정에서 데이터 전송 지연 및 순간적 데이터 유실로 인해 아바타의 표정이나 동작이 일시적으로 부자연스럽 게 표현되는 문제가 발생하였으며, 배우가 장시간 연기를 수행하 면서 나타나는 체력 소모와 연기력 저하와 같은 운영상 한계도 분명히 확인되었다. 특히, 전시 체험관 내 과밀한 무선 네트워크 환경으로 인해 발생한 데이터 전송 지연 문제는 보간을 통해 일부 완화할 수 있었지만, 완전한 실시간 정합성을 확보하기 위해서는 더욱 정밀한 데이터 전송 및 보정 기술이 요구된다 [27]. 또한 배 우가 장시간 실시간 연기를 수행하는 과정에서 피로가 누적되면 관람객에 대한 응대 품질이 저하될 가능성이 있으므로, 휴식 시간 확보, 배우 교대 운영 체계의 구축이나 일부 콘텐츠 운영의 자동 화 기술 도입과 같은 운영상의 개선책 마련이 필요하다. 더불어 시스템 초기 구축 시 배우, 오퍼레이터, 기술팀이 동시에 투입되 고 장비 설치와 검증, 리허설 과정까지 상당한 시간과 비용이 소 요되는 점은 향후 상용화를 위해 해결해야 하는 현실적인 과제로 남아있다.
향후 연구에서는 위와 같은 기술적인 문제와 운영상의 한계 를 보완하기 위해 저지연 데이터 전송 기술 및 네트워크 병목 현 상 완화 기술의 도입과 같은 기술적 개선이 우선적으로 필요하 다 [28, 29]. 또한 배우가 더욱 정밀하게 관람객의 위치와 반응 등을 인지할 수 있도록 추가적인 피드백 기술을 개발하고 시스템 전체를 모듈화 및 자동화하여 설치와 준비 과정을 단축할 수 있는 방안도 적극 마련해야 한다 [30, 31]. 이러한 기술적, 운영적 개선 은 전시, 교육, 문화 공연 등 다양한 분야에서 XR 기반 실시간 상 호작용 콘텐츠의 새로운 가능성을 제시하는 기반이 될 것이다. 본 연구의 성과와 현장 운영 사례는 향후 유사한 시스템을 기획하거 나 운영하는 연구자와 개발자들에게 실용적인 가이드라인으로 활용될 수 있을 것으로 기대한다.