Journal of the Korea Computer Graphics Society
The Korea Computer Graphics Society
Article

모바일 플랫폼 교육 콘텐츠 지원을위한 손 글씨 기반 텍스트 인터페이스

조윤식1https://orcid.org/0000-0003-2118-0904, 조세홍2https://orcid.org/0000-0003-3974-8086, 김진모2,*https://orcid.org/0000-0002-1663-9306
Yunsik Cho1https://orcid.org/0000-0003-2118-0904, Sae-Hong Cho2https://orcid.org/0000-0003-3974-8086, Jinmo Kim2,*https://orcid.org/0000-0002-1663-9306
1한성대학교 일반대학원 컴퓨터공학과
2한성대학교 컴퓨터공학부
1Department of Computer Engineering, Graduate School, Hansung University
2Division of Computer Engineering, Hansung University
*corresponding author: Jinmo Kim/Hansung University(jinmo.kim@hansung.ac.kr)

© Copyright 2021 Korea Computer Graphics Society. This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Received: Nov 19, 2021; Revised: Nov 24, 2021; Accepted: Nov 26, 2021

Published Online: Nov 30, 2021

요약

본 연구는 모바일 플랫폼 환경에서 언어 기반의 교육 콘텐츠 지원을 위한 텍스트 인터페이스를 제안한다. 이는 손 글씨를 통해 단어를 작성하는 입력 구조로 딥 러닝을 활용한다. 모바일 플랫폼 콘텐츠의 버튼, 메뉴 등을 활용한 GUI (Graphical User Interface)와 화면 터치, 클릭, 드래그 등의입력 방식을 기반으로 손 글씨를 사용자로부터 직접 입력하여 처리할 수 있는 텍스트 인터페이스를 설계한다. 이는 EMNIST (Extended Modified National Institute of Standards and Technology database) 데이터 셋과 훈련된 CNN (Convolutional Neural Network)을 사용하여알파벳 텍스트를 분류하고 조합하여 단어를 완성한다. 최종적으로 영어 단어 교육 콘텐츠를 직접 제작하여 제안하는 인터페이스의 학습 지원 효과를 분석하고 만족도를 비교하기 위한 실험을 진행한다. 동일한 교육 환경에서 기존의 키 패드 방식의 인터페이스와 제안하는 손 글씨 기반 텍스트 인터페 이스를 서로 체험한 사용자들이 제시하는 영어 단어를 학습하는 능력을 비교하고, 인터페이스를 조작하여 단어를 작성하는 과정에서의 전체적인 만족도를 분석, 확인하도록 한다.

Abstract

This study proposes a text interface for support of language-based educational contents in a mobile platform environment. The proposed interface utilizes deep learning as an input structure to write words through handwriting. Based on GUI (Graphical User Interface) using buttons and menus of mobile platform contents and input methods such as screen touch, click, and drag, we design a text interface that can directly input and process handwriting from the user. It uses the EMNIST (Extended Modified National Institute of Standards and Technology database) dataset and a trained CNN (Convolutional Neural Network) to classify and combine alphabetic texts to complete words. Finally, we conduct experiments to analyze the learning support effect of the interface proposed by directly producing English word education contents and to compare satisfaction. We compared the ability to learn English words presented by users who have experienced the existing keypad-type interface and the proposed handwriting-based text interface in the same educational environment, and we analyzed the overall satisfaction in the process of writing words by manipulating the interface.

Keywords: 텍스트 인터페이스; EMNIST; CNN; 딥 러닝; 모바일; 영어 교육 콘텐츠
Keywords: text interface; EMNIST; CNN; deep learning; mobile; English education contents

1. 서론

정보통신 기술의 발전과 함께 스마트폰, 태블릿 PC 등 접근성과 휴대성이 용이한 고사양의 디지털 장비를 쉽게 활용할 수 있고 이를 기반으로 다양한 디지털 콘텐츠를 제작 및 경험할 수 있는 환경으로 변화하고 있다. 현재는 현실과 가상의 경계를 넘나드 는 몰입감 높은 체험 환경을 제공하는 가상현실, 증강현실, 혼합 현실 콘텐츠로 나아가고 있다. Oculus Quest, HTC Vive와 같은 가상현실 HMD (Head Mounted Display) 장비의 보급은 현실세 계에서 경험하기 어려운 환경을 조건을 해결하여 새로운 가상현 실 경험을 제공하고 있다. 최근에는 코로나 19 팬데믹에 따른 비 대면 기술에 대한 관심이 높아지는 상황과 더불어 사회, 문화의 전반적 측면에서 현실과 비현실이 공존하는 확장된 가상현실인 메타버스로 확산되고 있다 [1].

사용자가 컴퓨터로부터 생성된 가상 환경과 상호작용하 는 방법으로 윈도우, 아이콘, 메뉴 등을 기반으로 하는 GUI(Graphical User Interface)에서 음성인식, 제스쳐와 같은 post-WIMP(Window, Icon, Menus, Pointer) 기술로 사용자의 시 각, 청각, 촉각과 같은 신체적 감각을 통해 직관적인 방향으 로 콘텐츠에 몰입하여 더 큰 만족감을 제공할 수 있도록 HCI (Human-Computer Interaction) 분야의 새로운 연구들이 진행되 고 있다 [2, 3]. Shneiderman [4]은 실제 환경 속에서 사용자가 사 물을 손으로 조작하여 행동하면서 작업을 수행하는 것과 유사한 사용자 인터페이스로 직접 조작 (direct manipulation) 방법을 제 안하기도 하였다.

사용자를 중심으로 한 인터페이스 기술들은 다양한 플랫폼과 장비들을 기반으로 가상 환경과 상호작용할 수 있는 연구들로 발 전되고 있다. Sung과 Kim [5]은 립모션을 활용하여 손 제스처를 통한 직관적인 상호작용을 제안하였고, Song et al. [6]은 립모션 이 탑재된 키오스크 장비를 기반으로 사용자의 동작을 인식하고 영상을 제어할 수 있는 인터랙티브 미디어 플레이어를 개발하였 다. 뿐만 아니라, 사용자의 입 바람을이용하여 가상 환경과 실시 간으로 상호작용하는 새로운 인터페이스 기술을 제안하기도 하 였다 [7]. 이러한 연구들은 실감형 콘텐츠 분야로 발전되어 모바 일 플랫폼 가상현실에서 사용자가걸을 때의 시선 변화를 활용한 걷기 인터페이스를 제안 [8]하거나 가상현실 사용자와 증강현실 사용자가 동일한 가상 환경에 참여하고 상호작용하는 과정에서 플랫폼에 적합한 인터페이스를 설계하는 연구 [9]들로 진행되었 다. 최근에는 사용자의 행동과 의사결정을 딥 러닝을 활용하여 더 욱 직관적이고 편리한 인터페이스로 확장되고 있다. 모바일 환경 에서 EMNIST 데이터 셋과 CNN을 통해 손 글씨를 활용한 영어 알파벳 교육 어플리케이션을 제작 [10]하거나 CNN을 기반으로 손 제스쳐를 통해 가상 환경과 직접적으로 상호작용하는 인터페 이스를 제안하기도 하였다 [11]. 사용자 중심의 상호작용과 이를 기반으로 한 콘텐츠 제작 기술들은 학습자의 관심, 흥미를 높일 수 있는 상호작용으로 응용하여 교육 콘텐츠 제작 및 학습 효과 분석 등의 연구들로 활용되기도 하였다 [12, 13].

본 연구는 모바일 플랫폼 환경에서 딥 러닝을 활용한 기존의 텍스트 인터페이스를 확장하여 손 글씨를 통해 단어를 조합하는 새로운 인터페이스를 설계하고, 교육 콘텐츠에 적용할 수 있는 방향을 제시한다. 다음은 본 연구의 핵심 목표이다.

  • - EMNIST 데이터 셋과 CNN을 활용하여 손 글씨를 통한 알파 벳 입력과 단어를 조합하는 텍스트 인터페이스를 설계한다.

  • - 모바일 플랫폼 교육 콘텐츠를 제작하고, 키 패드 방식의 기 존 인터페이스와의 비교 실험을 통해학습 효과와 인터페이 스 만족도를 분석한다.

2. 관련 연구

디지털 기술의 발전과 함께 콘텐츠를 제작, 편집하고공유하는 환 경이 용이해짐으로 인하여 디지털 콘텐츠 시장이 확대되고 이와 관련된 연구들이 다양한 관점, 분야에서 진행되고 있다. 이러한 변화는 PC에서 스마트폰까지 다양한플랫폼을 기반으로 접근성 이 높아지고 있고, 최근에는 가상현실, 증강현실은 물론 인공지 능 등 신기술과 결합된 융합 콘텐츠로 확산됨에 따라 여러 산업 분야에서 영향력을 높이며 성장하고 있다 [14]. 이러한 배경 속에 서 사용자의 관심, 몰입을 높여 교육의 질을 높이는 교육 콘텐츠 또한 많이 제작 및 연구되고 있다.

전통적인 교실 위주의 교육 환경은 학습자가 수동적으로 교 육에 임하게 되어 제한된 교육 효과를 가질 수 있다는 관점에서 디지털 기술을 기반으로 학습자의 관심을유도하고, 효과적으로 상호작용하여 교육의 질을 향상시키기 위한 연구들이 진행되고 있다. 이와 관련하여, R. Jayakanthan [12]은 컴퓨터 게임을 통한 교육의 필요성을 제시하였고, Zirawaga et al. [13]은 컴퓨터를 통 한 간단한 게임으로 교육에 대한 흥미를 유발할 수 있음을 확인 했다. Chen et al [15]은 디지털 기술의 지속적인 발전으로 디지털 콘텐츠를 접목시킨 교육 이론과 학습 방법이 더욱 풍부하고 다 채로워져 어린 아이들의 교육 성취도 향상에 좋은 영향을 끼칠 수 있음을 보였다. Fan et al. [16]은 2D, 3D 컨텐츠를 통해 생생한 시각 정보와 청각 정보를 가진 GUI를 기반한 교육이 학습자의 흥 미를 유발하고 자기 주도 학습에 긍정적인 효과를 주고, 이를 활 용한 음운, 단어, 쓰기 학습 등의 교육 효과를 향상시킬 수 있음을 확인하였다. 컴퓨터 뿐만 아니라 휴대성이 용이한 스마트폰 태블 릿 PC와 같은 디지털 기기를 활용한 교육형 콘텐츠가 제작되고 관련 연구 또한 진행되고 있다. E-Learning (electronic-learning)을 기반으로 모바일장비를 활용하는 M-Learning (mobile-learning), 가상현실을 활용하는 V-Learning (virtual-learning)등 다양한 전 자 매체를 통한 연구가 진행되고 있다. Lu [17]는 모바일 장비 를 활용함으로써 피교육자가 장소에 구애받지 않고 교육을 받을 수 있는 모바일 어휘 학습 시스템을 제안하였다. Jun et al. [18] 은 온라인 교육 게임을 활용하여 영어단어 학습을 진행하였을 때 학습자의 영어단어학습 성취도 향상에 효과가 있음을 보였다. Aminatun과 Oktaviani [19]는 보다 더 깊이 있는 영어교육 성과 를 위하여 언어 학습 어플리케이션인 ‘Memrise’를 제안하였고 학생들의 영어 실력이 향상됨을 보였다. 이는 인터넷만 제공이 된다면 언제 어디서나 학생 스스로 자율학습이 가능하며 이는 곧 학습 성취도 향상에 긍정적인 효과를 가져올 수 있다. 이처럼 전통적인 교실 수업 방식 보다 다양한 장비와 컨텐츠를 활용하 고 시간적 장소적제한을 받지않는 멀티미디어 교육 시스템에서 사용자의 흥미 증가, 동기부여 등 교육효과를 높일 수 있다는 것 을 확인하였다. 하지만 교육 콘텐츠와 관련된 대부분의 연구들은 일반적인 디지털 콘텐츠 제작 기술(플랫폼, GUI 등)을 활용하여 학습자 중심의 교육효과를 향상시키는 점에 주로 초점을 맞추고 있다. 교육에 참여하는 학습자의 관점에서 교육 효과를 향상시 키기 위해서는 가상 환경에 집중할 수 있는 사용자 인터페이스 및 상호작용 기술 역시 새로운 방향으로 연구가 진행되어야 할 필요성이있다.

사용자가 가상 환경과 상호작용하는 과정에서 만족도, 경험, 몰입 등을 고려한 인터페이스를 설계하는 연구들 역시 다양하게 진행되어 왔다 [20, 21]. 디지털 콘텐츠에서 가상현실, 증강현실 기술을 활용한 실감 콘텐츠로 진화하면서 몰입형 체험 환경을 지 원하는 사용자 인터페이스 연구들로 GUI를 기반으로 시선, 손 제스쳐, 컨트롤러 등 다양한 입력 처리 방법과 연계하는 방법이 제안되고 있다 [22, 23, 24, 25, 26]. 이 또한, PC 는 물론 모바일 등 다양한 플랫폼에 적합한 입력 처리 방법을 토대로 최적화된 인터페이스를 설계하여 사용자가 쉽고, 편리하면서 가상 환경과 직관적이고 직접적으로 상호작용할 수 있도록 제시하고 있다 [9]. 최근에는 딥 러닝 기술을응용하여 기존의 GUI를 통한 의사결정, 행동 수행 과정을 제스쳐, 텍스트 등으로부터 행동으로 직접 연결 하는 새로운 인터페이스 설계 방법을 제안하고 있다 [10, 11, 27]. 딥 러닝 응용 연구는 인터페이스는 물론 교육 모델에도 적용되어 기존의 교육 모델보다 유익하고과학적인 교육을 제공할 수 있는 새로운 방향을 제시하기도 하였다 [28]. 본 연구는 모바일 플랫폼 교육 콘텐츠를 지원하는 새로운 인터페이스의일환으로 손 글씨 입력을 통해 단어를 처리하고 학습할 수 있는 텍스트 인터페이스 를 설계하고자 한다.

3. 손 글씨 기반 텍스트 인터페이스

3.1 배경 및 개요

본 연구는 모바일 플랫폼 콘텐츠에서 화면 터치 입력과 GUI를 통해 가상 환경, 객체 등과 상호작용하는 기본적인 구조를 기반 으로 화면 드래그를 통해 손 글씨를 입력하고 텍스트를 처리하는 인터페이스를 제안한다. 이를 통해 단어 교육 (쓰기, 암기 등)을 목적으로 하는 모바일 플랫폼 교육 콘텐츠를 지원할 수 있는 새로 운 방법을 제시하고자 한다. 본 연구에서 제안하는 방법은 버튼, 이미지 등의 GUI를 기반으로 화면 드래그를 통해 손 글씨를 입력 받고 딥 러닝을 활용하여 알파벳을 분류한다. 그리고 분류된 손 글씨를 조합하는 과정을 통해 단어를 작성하는 방식이다. Figure 1은 제안하는 인터페이스의 핵심 구조를 나타낸 것이다. 딥 러 닝 모델을 활용하여 손 글씨를 분류 및 추론하는 과정을 토대로 영숫자부터 단어를 조합하는 과정으로 구성된다.

jkcgs-27-5-81-g1
Figure 1: The structure of proposed text interface.
Download Original Figure
3.2 EMNIST 데이터 셋과 CNN 모델

텍스트 인터페이스의 핵심은 손 끝으로 직접 그려 입력 받은 손 글씨 알파벳을 분류하고 인식하여 정확한 단어를 조합하는 것 이다. 본 연구는 EMNIST (Extended Modified National Institute of Standards and Technology database) 데이터 셋을 기반으로 훈련된 CNN을 활용한다. EMNIST 데이터 셋은 숫자로 구성된 MNIST 데이터 셋을 확장하여 알파벳까지 고려한 것으로 손 글 씨 영숫자 모음으로 구성된 28×28 형식의 이미지로 구성된다. 이는 697,932개의 훈련 세트 이미지와 116,323 개의 테스트 세 트 이미지로 대문자, 소문자 알파벳 그리고 0-9의 숫자로 총 62 개의 조합(숫자 10개, 대소문자 각각 26개)으로 구성된다. 이는 사용자가 이해하기 쉽고, 상대적으로 적은 용량의 데이터 셋이기 때문에 학습, 분류 및 컴퓨터비전 관점에서 표준 모델로 활용된 다 [29, 30]. Figure 2 (a)는 EMINST 데이터 셋의 일부를 나타낸 것이다.

jkcgs-27-5-81-g2
Figure 2: EMNIST dataset and CNN model for handwritten alphanumeric recognition: (a) Example of EMNIST dataset [29, 30], (b) CNN model structure [31].
Download Original Figure

손 글씨로 입력한 알파벳 또는 숫자를 인식하여 단어로 조합 하기 위하여 CNN (Convolutional Neural Network)을 활용한다. 본 연구는 모바일 플랫폼 교육 콘텐츠 지원을 목적으로 모바일 에 효과적으로 적용할 수 있는 CNN 구조를 활용한다 [31]. 이는 모바일 어플리케이션에서 EMNIST 데이터 셋을 기반으로 손 글 씨 텍스트 분류를 목적으로 설계한 CNN 모델로 모바일 환경에 서 효과적으로 학습 및 추론을 수행할 수 있도록 레이어 구조를 설계하고 높은 정확도로 손 글씨를 인식함을 실험을 통해 확인하 였다. Figure 2 (b)는 손 글씨 분류 및 인식에 사용된 CNN 모델을 나타낸 것으로 모바일 화면에서 손 끝으로 드로잉하여 입력된 256×256 해상도의 손 글씨 이미지를 28×28 이미지로 변환하는 reshape layer부터 output layer까지 총 8개의 layer로 구성된다.

3.3 인터페이스 구조

제안하는 텍스트 인터페이스의 구조는 Cho와 Kim [10]의 인터 페이스를 따른다. 사용자는 모바일 화면에 손 끝으로 드래그를 하면 터치된 손 끝 점들을 이어 선으로 표현한다. 선의 두께, 색 을 지정하고 점들이 모든 연결된 최종 선으로 손 글씨 영숫자를 이미지로 저장한다. 그리고 EMNIST 데이터 셋을이용해학습된 CNN 모델로부터 저장된 이미지의 손 글씨 영숫자를 추론하는 것이다. 이러한 과정을 반복하여 인식된 글자를 조합하면 단어로 완성된다. Figure 3은 이러한 구조를 바탕으로 제안하는 인터페 이스의 화면 구성을 나타낸 것이다. 사용자는 화면 중앙을 손 글 씨로 입력하게 되고 지정된 버튼을 통해 입력, 삭제, 초기화 등의 명령을 수행할 수 있다. 이때 사용자가 모바일 화면 위를 손 글씨 로 입력하는 과정과 GUI를 선택 (화면 터치, 메뉴 선택 등)하는 과정이 중복해서 발생하는 상황을 구분하여 손 글씨 입력을 편 리하게 제어할 수 있도록 입력 구조를 정리한다. Algorithm 1은 이를 나타낸 것으로, 텍스트 인터페이스로부터 손 글씨를 입력하 여 단어로 완성하는 과정을 절차적으로 처리하도록 구현한다.

jkcgs-27-5-81-g3
Figure 3: Layout of the proposed text interface.
Download Original Figure

Algorithm 1 Procedural structure for handwriting input in text interface.

1: procedure WORD COMPLETION PROCESS

2: if click the play button then

3: calculate touch screen coordinates with your fingertips.

4: draw lines by connecting screen coordinates.

5: tf ← time record since fingertip is released.

6: tf is initialized to 0 when the screen is touched.

7: tr ← the threshold time to determine whether the input is complete or not.

8: iftf > trthen

9: store the alphabet typed by line drawing as an image.

10: c ← inferred alphabet from a stored image.

11: w = w + c ← accumulate the current alphabet to a word.

12: end if

13: if click the clear button then

14: clear all entered words.

15: else if click the remove button then

16: remove the last letter of the accumulated word.

17: end if

18: else if click the send button then

19: send the completed word.

20: reset all settings.

21: end if

22: end procedure

손 글씨 입력 과정은 사용자가 종이에 단어를 쓰는 방식와 유 사하여 직관적이고 단순하여 결과적으로 키 패드 방식의 단어 입력과 비교하여 글자를 보고 쓰면서 학습할 수 있기 때문에 단 어 교육 효과 향상을 기대해 볼 수 있다. 기존의 연구 [10]의 경우 알파벳 한 글자만으로 단어를 학습하는 것을 전제로 하였지만 본 연구는 이를 기반으로 자동 텍스트 입력 제어 방법 (Algorithm 1) 을 제안하였다. 손 글씨를 통해 단어를 완성하기 위해서는 손 글 씨로 철자를 입력한 다음입력이 완료되었음을 전달하고 동시에 입력된 철자를 추론하기 위한 수동적인 GUI (버튼 등) 선택 과 정이 반복적으로 수행되어야 하는 번거로움이 발생한다. 따라서 제안하는 방법은 단어 입력이 시작되면 단어가 완성이 되는 과정 에서 손 글씨 외에 추가적인 GUI 입력없이 실제 종이 위에서의 손 글씨 쓰기 방식과 유사한 자연스러운 입력 방식을 제공하기 위함이다. 이를 위해 손 글씨를 위한 화면 터치가 종료된 시점 에서 시간 임계값을 초과하게 되면 다음 철자 입력 단계로 자동 연결되도록 설계한다. 이러한 과정을 반복하여 단어의 마지막 철 자를 입력하고 GUI의 종료 버튼을 입력하면 최종적으로 단어를 저장하는 구조이다 (Figure 4). 입력 과정에서 오타가 발생하거나 잘못된 손 글씨 입력이 있을 경우 정의된 버튼을 활용하여 지우 거나 초기화할 수 있도록 구현하였다.

jkcgs-27-5-81-g4
Figure 4: Process of word completion through handwriting input.
Download Original Figure

4. 영어 교육 콘텐츠 제작

본 연구에서 제안하는 텍스트 인터페이스는 손 글씨를 통해 글 자 쓰기, 암기 등 효과적인 단어 교육을 지원하는 것을 목적으로한다. 현재의 인터페이스 구조는 영어 단어에 국한된 것으로 효 과적인 영어 단어 학습 지원이 가능함을 확인하기 위하여 모바일 플랫폼의 간단한 교육 콘텐츠를 제작한다. 설문 실험에 참가할 대상의 연령대를 고려하여 연령대에서 난이도가 높은 단어들로 학습 단어 모음을 구성하고 가상 환경을 탐험하면서 단어를 학 습하는 과정으로 콘텐츠를 구성한다. 구체적으로 가상 환경 주변 곳곳에 영어 단어와 해당단어의음절을재생하는 객체를 배치한 다. 학습 효과의 요인으로 주변의 그래픽적 객체나 교육 컨셉에 맞는 디자인들을 고려할 수도 있지만 본 연구는 인터페이스에 집중하여 실험, 분석하기 위하여 배경적 요인은 최소화하였다. Figure 5는 본 연구의 콘텐츠 제작 결과와 교육 진행 흐름을 나 타낸 것이다. 모바일 플랫폼의일반적인 콘텐츠와의 비교 실험을 위하여 제안하는 인터페이스와 키 패드 방식의인터페이스 두 가 지를 나누어 제공하였다. 가상 공간에서 사용자의 이동을위한 가 상 조이 패드는 두 인터페이스 모두 동일하게 제공한다. 키 패드 방식의 기존 인터페이스의 경우 모바일에서 제공하는 키 패드를 활용하고 콘텐츠는 키 패드를 활성화하는 버튼 GUI만 추가적으 로 제공하였다.

jkcgs-27-5-81-g5
Figure 5: Results of English word education contents production: (a) the proposed text interface, (b) existing interface with keypad method.
Download Original Figure

5. 실험 및 분석

제안하는 손 글씨 기반 텍스트 인터페이스는 우선 딥 러닝을 위 하여 Anaconda 3, conda 4.6.12 와 Tensorflow 1.13.0을 활용하여 영숫자 분류 및 학습 모델을 구현하였고, Unity 3D 엔진 [32]에서 학습 모델에 대한 인식 및 추론은 TensorflowSharp 1.15.1 플러그 인 [33]을 활용하였다. 또한, 인터페이스 기술이 적용된 모바일 플랫폼 영어 단어 교육 콘텐츠는 Unity 3D 2019.2.3f1(64bit)를 활용하여 제작하였다. 콘텐츠 제작과 실험에 사용된 PC 환경은 Intel Core i7-10875H, 16GB RAM, Geforce RTX 2060 GPU를 탑 재하고 있다. 또한, 제작된 영어 단어 교육 콘텐츠를 통한 비교, 분석 실험은 Galaxy S20+ 모바일 기기를 사용하여 진행하였다.

사용자를 대상으로 본 연구에서 제안하는 딥 러닝을 활용한 손 글씨 입력과 이를 통한 단어 작성 텍스트 인터페이스의 처리 방 법과 기존 키 패드 입력 방식의 인터페이스를 통한 학습 효과와 함께 인터페이스의 만족도를 비교 분석하기 위한 설문 실험을 진 행하였다. 설문 참가자는 21∼27세 사이의 총 10명(남: 3, 여: 7) 으로 구성하였다. 설문의 핵심 목적은 제안하는 인터페이스가 동 일한 교육 환경에서 사용자에게 향상된 학습 효과를 나타낼 수 있는지를 확인하고 이와 더불어 기존의 인터페이스와 비교하여 만족도의 차이가 나타나는지를 분석하여 개선 방향을 확인하는 것이다. Figure 6은 설문 실험을 위하여 제안하는 인터페이스와 기존 키 패드 입력 방식의인터페이스를 활용하여 제작된 콘텐츠 를 체험하는 과정을 나타낸 것이다.

jkcgs-27-5-81-g6
Figure 6: Experience process of the created English word education contents: (a) the proposed text interface, (b) existing interface with keypad method.
Download Original Figure

우선, 학습 효과를 확인하기 위한 실험을 진행하였다. 10명의 실험 집단을 두 그룹으로 나누어 첫번째 그룹은 제안하는 인터 페이스를 먼저 두번째 그룹은 키 패드 방식의 기존 인터페이스를 먼저 사용하여 콘텐츠에 참여한다. 콘텐츠에 제시된 단어는 총 5 개로 사용자는 3번의 반복 과정을 통해 단어를 입력하고 학습하 게 된다. Table 1은 학습에 사용된 단어 조합으로 SAT 시험 준비 에 사용되는단어에서 무작위로 선택하였다. 이는 인터페이스별 로 유사한 난이도의 다른 단어를 제시하여 난이도로 인한 학습 효과의 차이가 크지 않도록 하기 위함이다.5개씩 두 조합으로 구 분하고, 첫번째 그룹은 A 조합을 키 패드 인터페이스에 B 조합을 제안하는 인터페이스 적용하여 학습을 진행하고 두번째 그룹은 반대로 학습을 진행하였다.

Table 1: Set of words used in the learning experiment.
Learning Word Set
Set A Set B
didactic circumspect
premonition turbulence
gluttonous mutability
hackneyed coalesce
fallacious outmoded
Download Excel Table

Table 2는 인터페이스에 따른 정답률을 기록한 것이다. 학습 체험이 종료된 이후 참가자들은 제시된 단어에 맞게 철자를 기 입하도록 하였다. 그 결과, 철자를 정확하게 맞힌 비율이 키 패드 인터페이스는 52% (2.6개), 텍스트 인터페이스로 46% (2.3개)로 기존의 방식이 다소 높게 기록되는 것으로 확인되었다. 설문 참 가자들은 학습에 사용된 단어를 모두 모른다고 답변하였지만, 인 터페이스별로 각각 다른 조합을 사용하여 학습을 진행하는 만큼 인터페이스 외에어떤 단어 조합으로 학습을 하느냐에 따라 정답 률에 영향을 일부 미쳤던 것으로 확인되었다. 다만, 전체 글자수 대비 오타의 수를 기록한 값은 제안하는 인터페이스가 6.9개, 기 존의 키 패드 방식은 8.6 개로 제안하는 인터페이스가 더 낮은 값을 기록하는 것을 알 수 있었다. 이는 제안하는 인터페이스가 단어를 정확하게 기억하는 것 보다는 단어를 구성하는 각 철자를 기억하는데 긍정적인 효과를 보인 것으로 확인되었다.

Table 2: The results of comparative analysis of the learning effect of the proposed interface and the keypad interface.
Proposed Interface Existing Interface
average number of correct answers (SD) 2.3(1.269) 2.6(1.356)
correct answer rate 46% 52%
average number of typos 6.9 8.6
Download Excel Table

다음 설문 실험은 두 인터페이스의 만족도 비교 분석이다. 제 안하는 인터페이스는 손 글씨 초점을 맞추고 있어 키 패드 방식 과 비교하여 동일한 단어를 입력하는데 더 많은 시간과 입력이 필요하다. 하지만 제안하는 인터페이스는 최소화된 GUI와 터치, 드래그 입력만으로 손 글씨를 효과적으로 처리할 수 있도록 설계 하였기 때문에 만족도에 있어서도 발전 가능성을 확인할 수 있을 것으로 가정하고 설문 실험을 진행하였다. 이를 위해 Lund [34] 의 USE (Usefulness, Satisfaction, and Ease of use) 설문지를 활용 하였다 이는 유용성 (usefulness), 사용의 용이성 (ease of use), 학 습의 용이성 (ease of learning), 만족도 (satisfaction)의 4개 항목, 30개 문항을 토대로 7점 척도로 구성된다. 이 역시 첫 번째 설문 실험과 동일하게 두 그룹을 나누어서설문지에 값을입력하였다. Table 3은 설문 결과를 토대로 통계 결과를 나타낸 것이다. 기존의 키 패드 방식의인터페이스에 친숙한 참가자들은 예상대로 유용 성 (usefulness),사용의 용이성 (ease of use), 학습의 용이성 (ease of learning)에서 상대적으로 높은 값을 기록하였다. 하지만 교육 의 측면에서 제안하는 인터페이스가 높은 만족도 (satisfaction) 를 기록한 것으로 확인되었다. 일반적으로 글자를 입력하는 인 터페이스의 측면에서는 기존의 키 패드 방식의 쉽고, 효과적이 지만 단어를 교육하는 의미에서의 인터페이스는 제안하는 방식 이 상대적으로 만족한다는 결과를 나타낸 것이다. 또한, one-way ANOVA를 통해 통계적 유의성을 계산한 결과 두 인터페이스가 전체 항목에 대해서 유의미한 차이는 없었음을 확인할 수 있었다. 따라서, 사용자들에게 불편함을 느낄 수 있는 요인들을 파악하여 개선해간다면 충분히 만족하는 경험을 제공하면서 학습에 도움 이 되는 새로운 인터페이스로 활용될 수 있을 것이다.

Table 3: Satisfaction comparison analysis results for the proposed text interface and existing keypad interface.
Proposed Interface Existing Interface
Mean(SD)
usefulness 4.227(1.394) 4.841(0.865)
ease of use 4.959(1.429) 5.562(1.056)
ease of learning 6.136(0.949) 6.386(0.881)
satisfaction 5.026(1.369) 4.545(1.139)
Pairwise Comparison
usefulness F(1,18) = 1.552, p=0.227
ease of use F(1,18) = 1.152, p=0.296
ease of learning F(1,18) = 0.372, p=0.549
satisfaction F(1,18) = 0.728, p=0.403
Download Excel Table

종합적인 설문 분석 결과, 단어 학습에 대한 경험과 모바일 플 랫폼의 기존 인터페이스에 친숙하지 않는 유아 또는 초등학생 들에게 활용한다면 더 나은 학습 효과나 만족도를 보일 수 있을 것으로 판단된다. 또한, 딥 러닝 모델을 활용하는 텍스트 인터페 이스에서 사람마다 다른 손 글씨체로 인하여 드물게 입력과 다 른 글자로 인식되는 경우가 발생하였다. 이러한 문제가 발생했던 일부 참가자들은 하나의 철자를 반복해서 입력하게 되어 인터페 이스의 만족도나 학습에 부정적인 영향을 미칠 수 있다는 의견을 주기도 하였다. 따라서 손 글씨 입력에 대한 글씨체 규칙을 정의 하여 성능적인 부분에서의 개선이 뒷받침된다면 만족도는 물론 학습 효과도 충분히 향상시킬 수 있을 것으로 기대한다.

6. 결론

본 연구는 모바일 플랫폼 교육 콘텐츠를 지원하기 위한 새로운 방법으로 딥 러닝을 활용하여 손 글씨를 직접 입력하는 인터페 이스를 제안하였다. 사용자는 손 끝으로 모바일 화면에 원하는 단어를 직접 드로잉하여 입력하고 입력된 영숫자를 EMNIST 데 이터 셋과 훈련된 CNN을 활용해서 정확히 분류 및 인식한 다음 이를 조합하여 단어로 완성시키는 구조를 갖는다. 또한, GUI 사 용을 최소화하여 키 패드 방식의인터페이스와 유사하게 단어를 입력하는데 불필요한 환경을 제공하지 않도록 단어 완성 과정을 설계하였다. 이를 기반으로 본 연구는 제안하는 인터페이스와 기 존 키 패드 방식의 인터페이스와의 비교 실험을 위한 영어 교육 콘텐츠를 직접제작하였고, 학습 효과와 인터페이스 만족도에 대 한 설문 실험을 수행하였다. 그 결과 단어에 대한 정답률은 기존 의 방식이 더 나은 결과를 기록한 반면 단어의 전체철자 수 대비 오타 수는 제안하는 인터페이스가 상대적으로 높은 학습 효과 를 나타내었다. 단어를 전체적으로 기억하는 과정에는 큰 효과를 보이지 못했지만, 단어를 구성하는 알파벳의 학습에는 긍정적인 영향을 미칠 수 있다는 것을 확인하였다. 또한 만족도의 경우 기 존의인터페이스에 친숙한 사용자들이 많은 만큼 상대적으로 낮 은 결과를 나타내었다. 하지만 통계적으로 유의미한 차이가 나지 않았으며 교육을 지원하는 측면에서 만족도는 제안하는 인터페 이스가 더 나음을 확인하였기 때문에 부족한 부분들을 보완해 나간다면 전체적인 만족도 역시 개선이 가능할 것으로 판단된다.

향후 딥 러닝 철자 분석 데이터를 영어 뿐만 아니라 한국어를 포함한 다양한 언어로 확장 시켜나갈 계획이다. 또한 단어 학습 수준과 언어에 대한 이해도를 고려하여 실험 참가자 그룹 (유아 부터 초중고등학생 등)을 체계적으로 나누어 실험을 확대할 계획 이며 이를 토대로 학습에 긍정적인 효과를 줄 수 있는 만족스러운 인터페이스 구조로 교육 콘텐츠 지원 방향을 제시하고자 한다.

감사의 글

이 논문은 2021년도 정부(과학기술정보통신부)의재원으로 정보 통신기획평가원의 지원을 받아 수행된 연구임(연구개발과제번 호: 2021-0-00884, 비대면 협업용 솔루션 및 블록체인 기반 디지 털 워크 통합플랫폼 개발, 기여율 30%, 조세홍). 그리고 정부(과 학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수 행된 연구임 (No. 2020R1F1A1063442, 기여율 40%, 조윤식). 또 한, 본 연구는 한성대학교 학술연구비 지원과제임 (기여율 30%, 김진모).

References

[1].

T. Sweeney, “Foundational principles & technologies for the metaverse,” in ACM SIGGRAPH 2019 Talks, ser. SIGGRAPH ’19. New York, NY, USA: Association for Computing Machinery, 28 July-1 August 2019. [Online]. Available:

[2].

A. van Dam, “Post-wimp user interfaces,” Commun. ACM, vol. 40, no. 2, p. 63–67, feb 1997. [Online]. Available:

[3].

H.-Y. Huang, C.-W. Ning, P.-Y. Wang, J.-H. Cheng, and L.-P. Cheng, “Haptic-go-round: A surrounding platform for encounter-type haptics in virtual reality experiences,” in Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems, ser. CHI ’20. New York, NY, USA: Association for Computing Machinery, 25-30 April 2020, p. 1–10. [Online]. Available:

[4].

Shneiderman, “Direct manipulation: A step beyond programming languages,” Computer, vol. 16, no. 8, pp. 57–69, 1983.

[5].

J.-H. Sung and T. Y. Kim, “Leap motion-based playing yut through hand gesture interaction,” The Journal of Korean Institute of Next Generation Computing, vol. 13, no. 1, pp. 74– 81, 2017.

[6].

B. D. Song, H.-J. Kim, H.-J. Jeong, and Y. J. Choi, “Development of interactive media player for kiosk with user motion detection,” The Journal of the Korea Contents Association, vol. 19, no. 11, pp. 270–277, 2019.

[7].

J.-H. Kim, “Interaction technique in smoke simulations using mouth-wind on mobile devices,” Journal of the Korea Computer Graphics Society, vol. 24, no. 4, pp. 21–27, 2018.

[8].

S. Hong, G. Na, Y. Cho, and J. Kim, “A study on movement interface in mobile virtual reality,” Journal of the Korea Computer Graphics Society, vol. 27, no. 3, pp. 55–63, 2021.

[9].

Y. Cho, J. Kang, J. Jeon, J. Park, M. Kim, and J. Kim, “X-person asymmetric interaction in virtual and augmented realities,” Computer Animation and Virtual Worlds, vol. 32, no. 5, p. e1985, 2021. [Online]. Available: https://onlinelibrary.wiley.com/doi/abs/10.1002/cav.1985

[10].

Y. Cho and J. Kim, “Production of mobile english language teaching application based on text interface using deep learning,” Electronics, vol. 10, no. 15, 2021. [Online]. Available: https://www.mdpi.com/2079-9292/10/15/1809

[11].

T. Kang, M. Chae, E. Seo, M. Kim, and J. Kim, “Deephandsvr: Hand interface using deep learning in immersive virtual reality,” Electronics, vol. 9, no. 11, 2020. [Online]. Available: https://www.mdpi.com/2079-9292/9/11/1863

[12].

R. Jayakanthan, “Application of computer games in the field of education,” Electronic Library, vol. 20, no. 2, pp. 98–102, 2002. [Online]. Available: https://www.learntechlib.org/p/95865

[13].

V. S. Zirawaga, A. I. Olusanya, and T. Maduku, “Gaming in education: Using games as a support tool to teach history,” Journal of Education and Practice, vol. 8, no. 15, pp. 55–64, 2017.

[14].

남현숙, “2020년 국외 디지털콘텐츠 시장조사 및 동향 심층 분석,” 소프트웨어정책연구소 연구보고서, vol. RE-107, pp. 1–378, 2021.

[15].

Y. Chen, D. Zhou, Y. Wang, and J. Yu, “Application of augmented reality for early childhood english teaching,” in 2017 International Symposium on Educational Technology (ISET), 2017, pp. 111–115.

[16].

M. Fan, A. N. Antle, and J. L. Warren, “Augmented reality for early language learning: A systematic review of augmented reality application design, instructional strategies, and evaluation outcomes,” Journal of Educational Computing Research, vol. 58, no. 6, pp. 1059–1100, 2020. [Online]. Available:

[17].

M. Lu, “Effectiveness of vocabulary learning via mobile phone,” Journal of Computer Assisted Learning, vol. 24, no. 6, pp. 515–525, 2008. [Online]. Available: https://onlinelibrary.wiley.com/doi/abs/10.1111/j.1365-2729.2008.00289.x

[18].

J. Jun, J. Lim, and S. Kim, “Investigating the educational effectiveness of an online educational game,” The journal of Educational Studies, vol. 39, no. 1, pp. 85–105, 2008.

[19].

D. Aminatun and L. Oktaviani, “Memrise: Promoting students’ autonomous learning skill through language learning application,” Metathesis: Journal of English Language, Literature, and Teaching, vol. 3, no. 2, pp. 214–223, 2019.

[20].

S. E. Lindley, J. Le Couteur, and N. L. Berthouze, “Stirring up experience through movement in game play: Effects on engagement and social behaviour,” in Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, ser. CHI ’08. New York, NY, USA: Association for Computing Machinery, 2008, p. 511–514. [Online]. Available:

[21].

K. V. Nesbitt and I. Hoskens, “Multi-sensory game interface improves player satisfaction but not performance,” in Proceedings of the Ninth Conference on Australasian User Interface - Volume 76, ser. AUIC ’08. AUS: Australian Computer Society, Inc., 2008, p. 13–18.

[22].

N. Sidorakis, G. A. Koulieris, and K. Mania, “Binocular eye-tracking for the control of a 3d immersive multimedia user interface,” in 2015 IEEE 1st Workshop on Everyday Virtual Reality (WEVR), 23 March 2015, pp. 15–18.

[23].

M. Kim, J. Lee, C. Jeon, and J. Kim, “A study on interaction of gaze-based user interface in mobile virtual reality environment,” Journal of the Korea Computer Graphics Society, vol. 23, no. 3, pp. 39–46, 2017. [Online]. Available:

[24].

I. Choi, E. Ofek, H. Benko, M. Sinclair, and C. Holz, “Claw: A multifunctional handheld haptic controller for grasping, touching, and triggering in virtual reality,” in Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems, ser. CHI ’18. New York, NY, USA: ACM, 21-26 April 2018, pp. 654:1–654:13. [Online]. Available:

[25].

J. Kim, “A study on comparative experiment of hand-based interface in immersive virtua reality,” Journal of the Korea Computer Graphics Society, vol. 25, no. 2, pp. 1–9, 2019.

[26].

M. Kim, J. Kim, K. Jeong, and C. Kim, “Grasping vr: Presence of pseudo-haptic interface based portable hand grip system in immersive virtual reality,” International Journal of Human–Computer Interaction, vol. 36, no. 7, pp. 685–698, 2020.

[27].

J. Kim, “Vivr: Presence of immersive interaction for visual impairment virtual reality,” IEEE Access, vol. 8, pp. 196 151–196 159, 2020.

[28].

S. Yang and M. Zhang, “Application of brain neural network in personalized english education system,” International Journal of Emerging Technologies in Learning (iJET), vol. 13, no. 10, pp. 15–22, 2018. [Online]. Available: https://online-journals.org/index.php/i-jet/article/view/9488

[29].

G. Cohen, S. Afshar, J. Tapson, and A. van Schaik, “Emnist: Extending mnist to handwritten letters,” in 2017 International Joint Conference on Neural Networks (IJCNN), 14-19 May 2017, pp. 2921–2926.

[30].

A. Baldominos, Y. Saez, and P. Isasi, “A survey of handwritten character recognition with mnist and emnist,” Applied Sciences, vol. 9, no. 15, 2019. [Online]. Available: https://www.mdpi.com/2076-3417/9/15/3169

[31].

S. S. Mor, S. Solanki, S. Gupta, S. Dhingra, M. Jain, and R. Saxena, “Handwritten text recognition: With deep learning and android,” International Journal of Engineering and Advanced Technology (IJEAT), vol. 8, no. 3S, pp. 819–825, 2019. [Online]. Available: https://www.ijeat.org/wpcontent/uploads/papers/v8i3S/C11730283S19.pdf

[32].

UnityTechnologies, “Unity engine,” Unity Technologies, 2019. [Online]. Available: https://unity3d.com/

[33].

GoogleBrain, “Tensorflow,” Google Brain, 2021. [Online]. Available: https://www.tensorflow.org/

[34].

A. Lund, “Measuring usability with the use questionnaire,” Usability Interface, vol. 8, no. 2, pp. 3–6, 01 2001.

<저자소개>

조 윤 식

jkcgs-27-5-81-g7

  • 2021년 한성대학교 컴퓨터공학부 학사

  • 2021년~현재 한성대학교 일반대학원 컴퓨터공학과 석사과정

  • 관심분야: 가상현실, 증강현실, HCI 등

조 세 홍

jkcgs-27-5-81-g8

  • 1983년 연세대학교 3년 수료

  • 1991년 California State Univ. CS 학사

  • 1996년 Arizona State Univ. CSE MCS

  • 1999년 Arizona State Univ. CSE Ph.D.

  • 1999년~2002년 대구대학교 정보통신공학부 조교수

  • 2002년~현재 한성대학교 컴퓨터공학부 교수

  • 관심분야: 메타버스, 가상현실, 증강현실, 디지털콘텐츠, 멀티미디어, 원격교육, 인공지능, 빅데이터 등

김 진 모

jkcgs-27-5-81-g9

  • 2006년 동국대학교 멀티미디어학과 학사

  • 2008년 동국대학교 영상대학원 멀티미디어학과 석사

  • 2012년 동국대학교 영상대학원 멀티미디어학과 박사

  • 2012년~2014년 동국대학교 영상문화콘텐츠연구원 전임연구원

  • 2014년~2019년 부산가톨릭대학교 소프트웨어학과 조교수

  • 2019년~현재 한성대학교 컴퓨터공학부 조교수

  • 관심분야: 컴퓨터그래픽스, 가상현실, 증강현실, 게임 공학 등