1. 서론
최근 들어 곤충의 눈을 모사하여 만든 복안 렌즈를 통해 출력된 복안 영상에 대한 연구가 많이 진행되고 있다. 복안영상 이란 잠자리, 꿀벌 등 곤충의 흩눈이 갖는 특징을 기반으로 만든 복안 렌즈로 촬영한 영상을 말한다. 복안 렌즈는 곤충의 눈이 갖는 특징인 광 시야각 구조, 빠른 반응 속도, 무 초점 등의 장점을 모사하여 설계되었다[1]. 일반적인 카메라 렌즈와 다르게 겹눈 구조로 설계된 복안 렌즈는, 곤충의 눈이 갖는 특징을 살려 적은 수차, 넓은 화각, 작은 렌즈 크기 등의 장점이 있다. 복안 렌즈는 여러 개의 렌즈가 합쳐져 있는 구조로서 각각의 렌즈로 이미지 촬영이 가능하며 각 렌즈의 조리개 설정을 다르게 할 수 있다. 촬영한 각각의 이미지를 Sub-Aperture 영상이라 하는데, Sub -Aperture 이미지들을 기반으로 거리 추정, HDR로도 활용 가능하다. 또한 일반적인 카메라렌즈로 촬영한 영상대비 2배 이상 넓은 화각을 확보할 수 있으며, 렌즈의 크기도 작아 초소형 카메라 시스템이 필요한 분야에 적용 가능하다[2][3]. 이처럼 다양한 장점을 갖는 복안 렌즈를 구성하는 각각의 렌즈는 구조적 한계로 인하여 렌즈 상에서 빛을 제대로 모으기 힘들며, 일반적인 카메라렌즈로 촬영한 영상과 비교하였을 때 영상의 품질이 저하된다는 단점이 있다. 그리하여 본 논문에서는 복안 영상이 갖는 영상 품질 저하 문제를 극복하기 위해 복안영상 품질 향상 알고리즘을 제안한다. 제안 알고리즘은 이미지 전처리부, 이미지 융합부, 이미지 개선부로 구성되며 이미지 개선부에서는 생성신경망을 사용하여 영상을 복원하여 품질을 향상 시킨다.
이미지 복원은 이미지 데이터를 기반으로 품질이 떨어지는 영역을 복원하는 과정을 말하며[5], 이미지 복원에서 좋은 성능을 보이는 초해상 모델인 Enhanced Super Resoulition Generative Adversarial Network(ESRGAN)를 기반으로 복안 영상 품질 향상 알고리즘을 제시한다[6]. 제시하는 알고리즘은 복안영상의 각 Sub-Aperture 이미지들의 융합 후 생기는 노이즈와 대조비 문제를 해결하기 위하여 가우시안 필터와 히스토그램 평활화을 전처리기로 사용한 후 ESRGAN을 적용 시킨다. 복안영상 품질 향상 정도를 평가하기 위하여 평가 이미지 50Case를 활용하여 융합된 Sub-Aperture 이미지를 알고리즘 적용 전후 비교 실험하였고, 영상 품질 평가는 주파수 영역을 통계적 특성으로 분석한 무 참조 영상 품질 평가(No-Reference Image Quality Assement) 방법인 BRISQUE, NIQE, PIQE를 사용하여 평가하였다[4]. 본 논문의 구성은 다음과 같다. 2장에서는 복안 영상을 이용한 연구, 이미지 복원에 관한 연구 등 관련 연구를 소개한다. 3장에서는 제안하는 알고리즘을 이미지 전처리부, 이미지 융합부, 이미지 개선부로 나눠서 적용된 알고리즘 설명 및 설계방안을 제시한다. 4장에서는 제안한 알고리즘을 바탕으로 실험방법과 설계결과를 도출해낸다. 마지막 5장에서는 결론과 함께 향후 적용방안에 대하여 고찰한다.
2. 관련 연구
복안영상이 갖는 다양한 장점에 비해 복안 렌즈의 구조적 한계로 인해 영상 품질이 떨어진다는 단점이 있다. 그리하여 본 논문에서 제안하는 방법은 이미지 업스케일링 방법과 영상처리를 통해 영상의 화소수를 높이고, 영상의 품질을 높이는 방법을 제시한다. 기존에 진행된 영상 품질 향상을 위한 초해상 연구를 알아보고, ESRGAN을 이용한 연구를 알아본다.
최근 이미지 업스케일링 연구는 GAN(Generative Adversarial Networks) 등의 생성 신경망을 사용하여 업스케일링을 하며, 이미지 품질을 향상 시킨다. 그 중 LEDIG[6] 등이 제안한 논문은 기존 Super-Resolution 연구에서 갖는 문제점인 텍스쳐 Details 문제를 MSE 손실함수 대신 지각손실함수을 사용하여 성능을 극복시켰다. 본 논문에서 제안하는 알고리즘은 LEDIG[6]이 제안한 논문에 단점을 극복한 WANG[7]의 ESRGAN을 기반으로 설계되었다. ESRGAN은 LEDIG[6]의 네트워크에서 시각적 디테일을 향상 시키기 위하여 여러 가지 방법을 제안하였는데, Batch Normalization(BN)을 사용하여 Artifact 현상을 극복하기 위해 BN을 제거하였고, 계산 효율성을 증대시켰다. LEDIG[6]이 사용한 Residual Block을 기반으로 더 깊은 Dense Block인 Residual in-Residual Dense Block(R-RDB)를 추가하여 성능을 향상 시켰고, 피쳐맵을 Activation 이후에 사용하여 SRGAN보다 더 효과적인 지각손실함수를 개발하여 성능을 향상시켰다.
3. 방법
복안 센서를 이용하여 복안 영상을 출력하는 복안 시스템에 대해 설명하며, 제안하는 복안영상 품질 향상 알고리즘에 대해서 설명한다. 제안하는 알고리즘은 이미지 전처리부, 이미지 융합부, 이미지 개선부로 구성된다.
복안 영상 센서는 Figure 1과 같이 3x3 배열 형태를 갖는다. Sub-Aperture 각 렌즈의 조리개 조절이 가능하여 여러 노출 값의 이미지를 출력한다. 각 Sub-Aperture 렌즈는 단안 구조이며, 작은 두께, 적은 수차를 갖는다.
Figure 2는 복안 영상은 복안 영상 센서에서 나온 출력 이미지이다. 각각의 복안 렌즈로 촬영한 Sub-Aperture 출력 이미지의 사이즈는 300x300이다. 각 이미지는 총 9장이 출력되며. 각각의 Sub-Aperture 이미지들은 촬영 위치가 다르므로 이미지 간에 Disparity가 발생한다. Disparity가 발생하는 특징을 이용하여 거리 추정이 가능하다. 또한, 각 렌즈는 조리개 조절이 가능하여 빛에 대한 노출 값이 다르다. 빛에 대한 노출값이 다르다는 특징을 통해 HDR 기능을 적용할 수 있다.
본 논문에서 제안하는 복안영상 품질 향상 알고리즘은 Figure 3과 같은 흐름으로 구성된다.
알고리즘의 순서는 크게 이미지 전처리부, 이미지 융합부, 이미지 개선부로 구성된다. 이미지 전처리부에서는 복안 렌즈가 갖는 구조적 특징으로 인하여 발생하는 노이즈를 제거한다. 노이즈 제거는 가우시안 필터를 사용하여 영상에 Smoothing 효과를 주어 영상 촬영 시 노이즈를 제거하였다. 또한 영상 촬영 시, 렌즈의 내, 외부 구조적 특징으로 인하여 영상 왜곡이 발생하게 되는데, 영상의 왜곡을 보정하기 위해 카메라 캘리브레이션을 진행한다. 카메라 캘리브레이션은 범용적으로 많이 사용되는 체커보드를 이용하여 진행하였다. 이미지 융합부에서는 각각의 Sub-Aperture 이미지들을 융합한다. 융합하여 여러 렌즈에서 들어오는 픽셀 정보를 통해 넓은 화각을 확보할 수 있고, 거리 추정, HDR 기능 등을 사용할 수 있다. 영상 융합 알고리즘으로는 Exposure Fusion 알고리즘을 사용하여 각각의 Sub-Aperture 이미지를 융합 한다. 마지막 영상 개선부에서는 복안영상의 품질을 향상 시키기 위하여 히스토그램 평활화과 생성 신경망인 ESRGAN을 적용시킨다. 렌즈의 구조적 특징과 영상 융합 알고리즘으로 영상 융합 시 영상 품질이 많이 저하되는데, 히스토그램 평활화을 통해 영상의 대조비를 증가시키고, ESRGAN을 통해 영상을 업스케일링 하여 영상의 화소를 높힌다.
이미지 전처리부에서는 영상에서 발생하는 노이즈를 제거하기 위해 가우시안 필터를 적용하여 Smoothing 효과를 준다. 그리고 영상의 왜곡을 보정하기 위하여 카메라 캘리브레이션을 진행한다.
가우시안 필터는 공간 도메인 방법으로, 노이즈 제거에 효과적인 필터이다. 수식에서 x는 가우시안 필터 커널의 중심에서 떨어진 거리를 의미하며, SIGMA값은 노이즈의 정도를 나타낸다. 복안 영상에 수식 (1)을 적용하면, 이미지에 가우시안 분포가 적용되어 이미지 전체적으로 노이즈가 Blur 되고, 전체적으로 Smoothing 되는 효과를 갖는다[10].
x : 가우시안 필터 커널의 중심에서 떨어진 거리
σ : 노이즈의 정도
복안 영상이 갖는 영상의 품질 저하 문제중에 하나는 노이즈다. 복안 렌즈는 작은 크기를 갖기 때문에 이미지 센서의 화소수 자체가 적다. 적은 화소수에서 노이즈가 발생하게 되면 영상 품질이 많이 저하되므로 노이즈 제거가 필수적이다. 노이즈를 제거하기 위하여 가우시안 필터를 사용하여 융합 전 촬영된 Sub-Aperture 이미지의 노이즈를 제거한다.
Figure 4는 각 Sub-Aperture 영상의 가우시안 필터 적용 전후를 보여준다.
우리가 사용하는 카메라는 렌즈, 이미지 센서 등으로 구성이 되어있는데, 이미지 센서와 렌즈와의 거리, 각도 등 렌즈의 내부적인 요인에 따라 왜곡 현상이 발생하게 된다. 이런 왜곡 현상을 극복하는 과정을 카메라 캘리브레이션이라 한다. 카메라 캘리브레이션은 초점 거리, 주점, 비대칭 계수를 갖는 내부 파라미터와, 세계 좌표계를 카메라 좌표계로 변환 시키기 위한 변환 행렬인 외부 파라미터를 구하여 파라미터를 최적화 시키는 방향으로 카메라 캘리브레이션을 진행한다[11]. 내부 파라미터는 렌즈의 중심과 이미지센서와의 거리인 초점거리와, 이미지 센서의 Cell array의 y축이 기울어진 정도인 비대칭 계수, 렌즈의 중심인 주점을 통하여 구해진다. 외부 파라미터에 좌표계의 3D 포인트 좌표를 변환한 R(rotation)과 T(translation vectors)의 연산에 의해 구해진다.
(X,Y,Z) : 카메라 좌표계에서의 3차원 좌표
(X',Y',Z') : 보정된 3차원 좌표
R :회전행렬
T : 변환행렬
복안 렌즈로 촬영된 복안 영상 역시 렌즈의 특성으로 인하여 왜곡 현상이 발생하며, 왜곡 현상을 보정해주기 위하여 카메라 캘리브레이션이 과정이 필요하다. 카메라 캘리브레이션을 하기 위해서는 내부 파라미터, 외부 파라미터를 구하여 보정하는 과정을 거치는데, 카메라 캘리브레이션 시 많이 사용되는 체커 보드판을 사용한다. Figure 5와 같이 체커보드를 촬영한 이미지에서 수식 (2)를 통해 보정된 3차원 좌표를 연산하여, 최적의 캘리브레이션 파라미터 값을 찾는다.
이미지 융합부에서는 각 Sub-Aperture 이미지를 융합한다. 융합된 이미지를 통해 각 렌즈에서 출력된 픽셀 정보를 얻을수 있으며 넓은 화각이 확보 가능하며,거리 추정, HDR 등의 기능이 사용 가능하다.
각 전처리된 Sub-Aperture의 융합을 위하여 Exposure Fusion 방식을 사용한다. Exposure Fusion은 여러 장의 영상을 융합 시켜 동적 범위가 높은 영상을 출력해내는 알고리즘이다. 명도, 채도, 대비 각각의 가중치를 영상에 부여하며, HDR 대비 더 자연스러운 영상 융합이 가능하다. 총 9장의 Sub-Aperture 이미지를 융합하여 하나의 이미지로 만든다[12][13].
W: Esposure Fusion 알고리즘 결과 값
C :Contrast
S : Saturation
E : Exposedness
i,j:픽셀의좌표
k:k번째입력영상
수식 (3)에서 C는 Contrast, S는 Saturation, E는 Exposedness를 의미하며 해당 수식을 통해 가중치를 찾아 영상 융합에 사용된다.
Figure 6는 각 복안 영상으로 촬영한 Sub-Aperture 이미지들을 Exposure Fusion을 사용하여 융합된 이미지를 보여준다.
복안 영상 시스템은 각 Sub-Aperture 이미지들의 융합을 통해 기존 카메라에서 구현하지 못하였던 HDR, 거리 추정 등 여러 기능을 구현할 수 있는 장점이 있다. 하지만 이미지가 융합 되는 과정에서 Sub-Aperture 이미지 대비 융합 영상 품질이 저하되는 문제점이 발생한다. 각 Sub-Aperture 이미지들이 렌즈 구조적 특징으로 인하여 영상 품질이 저하 되는데, 융합 과정 시 성능이 한번 더 저하되므로 영상품질 향상 알고리즘을 통해 융합 영상의 품질 향상이 필요하다. 이런 영상 품질이 떨어지는 문제점을 극복하기 위하여 이미지 개선부 에서는 히스토그램 평활화과 ESRGAN을 적용하여 이미지의 대조비를 높이고 이미지를 업 스케일링하여 이미지의 품질을 향상 시킨다.
복안 영상을 일반 카메라 대비 대조비가 많이 떨어지게 되어 영상 품질을 향상 시키기 위해서는 대조비 향상이 필요하다. 히스토그램 평활화는 이미지의 대조비가 작을 때 대조비를 크게 하기 위하여 사용하는 방법이다. 이미지 픽셀의 인텐시티 값이 특정 값에 몰려 있게 되면 사람 눈으로 보기에는 대조비가 작게 보인다. 작은 대조를 고르게 분포시켜주어, 이미지 대비를 크게하는 기법을 히스토그램 평활화이라 한다.
H(v) : 히스토그램 평활화 결과 값
cdfmin :cdf 중 가장 작은 값
M × N : 이미지의 넓이
융합된 복안 영상을 보면 대조가 떨어지는 것을 알 수 있다. 이 점을 극복하기 위하여 수식(4)와 같이 픽셀 값의 Cumulative Density Function(cdf)를 구하였고, 히스토그램 평활화를 적용하여 전체 이미지의 대조비를 크게 하였다. L은 픽셀 인텐시티를 나타낸다. cdf_min은 cdf 중 가장 작은 값에 해당하며 M x N은 이미지의 넓이를 의미한다.
Figure 7은 히스토그램 평활화의 적용 예시를 보여준다.
융합된 복안영상의 품질 저하 요소 중 하나는 작은 화소수에 있다. 이미지 센서의 크기 제한으로 많은 화소수를 사용할 수 없고, 렌즈의 특성상 영상의 품질이 떨어지게 된다.
제안하는 알고리즘에서는 히스토그램 평활화이 적용된 이미지를 ESRGAN에 통과 시켜 업스케일링을 한다. ESRGAN은 SRGAN 대비 Batch Normalization Layer를 제거하여 Deblurring의 성능을 향상시키고, 기존의 Residual Block(RB) 들을 Residual in Residual Dense Block(RRDB)로 교체하였고, 수식 (5)와 같이 지각손실함수를 제안하여 성능을 향상 시켰다. Figure 8은 ESRGAN의 Architecture를 보여준다.
Where
Lpercep : 지각 손실
ηL1 : 정규 분포
4. 실험 및 분석
4장에서는 제안한 알고리즘을 복안 영상에 적용하여 알고리즘 적용 전후의 성능을 비교하는 실험을 진행한다.
본 논문에서 제안하는 영상은 NR(No-reference)를 사용하여 영상의 품질을 평가한다. NR은 FR(Full-reference), RR(Reduced-reference)와 다르게 품질을 평가할 때 원본 영상이 필요하지 않다. NR에는 많은 종류의 평가방법이 있지만, 본 논문에서는 여러 연구에서 많은 평가 지표로 사용되는 BRISQUE, NIQE, PIQE를 사용하여 영상 품질을 평가한다[4]. 평가 데이터는 총 50 case의 이미지를 사용하였고, 각 데이터의 알고리즘 적용 전후로 BRISQUE, NIQE, PIQE 수치를 비교하였다. Figure 9은 실험에 사용된 평가 데이터셋 예시를 보여준다.
BRISQUE(Blind/Referenceless Image Spatial Quality Evaluator) 평가 기법은 실제 영상에서 왜곡이 일어나면 픽셀 공간에서도 왜곡이 일어난다는 통계를 기반으로 만들어진 평가기법이다.
i: 이미지의 픽셀 인덱스
N: 이미지 전체 픽셀 갯수
w(i): 각 픽셀에 대한 가중치
f(i) : 픽셀의 특징 벡터
(σ(i))2: 각 픽셀의 특징 벡터 분산
통계적 특성을 나타내기 위해 수식 (6)과 같이 MSCN 처리를 하고, 출력된 히스토그램을 일반화된 가우시안 분포와 비교를 통하여 평가 지표를 주출해낸다[4][16][17].
NIQE 평가 기법은 BRISQUE와 마찬가지로 수식 (7)과 같이 MSCN 처리를 하여 a x a 사이즈의 패치로 분할한 뒤
(v1, X1): 깨끗한 이미지 품질
(v2, X2): 테스트 할 이미지 품질
각 패치에서 벡터값을 도출해낸다. NIQE는 도출해낸 피쳐 및 공분산 행렬을 계산하여 영상의 품질을 측정하는 방법이다[4][18].
PIQE 평가 기법은 입력 이미지에 MSCN을 적용하여, 16x16 패치로 분할한다. MSCN 계수의 분산 값을 임계값을 기준으로 하여 왜곡의 존재 유무 패치를 판단하여 왜곡이 있는 패치를 점수화 한다[4][19].
실험은 복안 영상 50 case의 Sub-Aperture 이미지를 Exposure Fusion 알고리즘을 사용하여 융합 하였다. 융합한 이미지를 활용하여 본 눈문에서 제안한 알고리즘 적용 전후를 비교하였다. Figure 10은 실험에 사용한 융합 전후 이미지를 보여준다.
50 case의 이미지를 각각 BRISQUE, NIQE, PIQE 값을 Table 1과 같이 구하였다. BRISQUE는 알고리즘 적용 전 Original 이미지 평균 32,51, 알고리즘 적용 후 이미지 25.19로 약 7.32 감소하였고, NIQE는 알고리즘 적용 전 Original 이미지 평균 4.95, 적용 후 이미지 4.24로 0.71 감소하였고, PIQE는 적용 전 38.34, 적용 후 32.27로 6.07 감소하였다.
Dataset | BRISQUE | NIQE | PIQE |
---|---|---|---|
Original | 32.51 | 4.95 | 38.34 |
Ours | 25.19 | 4.24 | 32.27 |
5. 결론
본 논문에서는 소형화, 적은 수차, 넓은 화각, HDR, 거리 추정이 가능하다는 장점을 갖는 복안 영상을 사용할 때 생기는 영상 품질 저하 문제를 극복하기 위해 ESRGAN 기반의 복안영상 품질 향상 알고리즘을 제시했다. 50 case의 평가 이미지를 사용하여 영상을 품질을 평가하였고, NR 평가 방법의 대표적인 Metric인 BRISQUE, NIQE, PIQE를 지표로 사용하였다. BRISQUE, NIQE, PIQE는 전부 값이 낮으면 좋은 성능을 갖는 지표라고 평가된다. 본 논문이 제안한 알고리즘을 평가한 결과 BRISQUE 값은 평균 32.51에서 25.19로 22.51%,NIQE 값은 평균 4.95에서 4.24으로 14.34%, PIQE 값은 38.34에서 32.27로 15.83% 성능이 향상되는 결과를 보았다. 제안하는 알고리즘을 적용 시 융합된 복안 영상에서 영상 품질 향상이 가능하며, 복안 영상이 갖는 저품질 문제를 극복하여 국방 등 다양한 산업군에서 복안 카메라를 이용한 객체 탐지, 객체 분할, 객체 추적에 사용될 수 있을 것이라 판단된다. 향후에는 다양한 환경에서 촬영한 여러 복안 영상 데이터를 추가로 수집하고, 수집한 데이터를 바탕으로 생성 신경망 모델을 추가로 학습하여, 학습된 모델을 바탕으로 복안영상 품질 향상 알고리즘의 성능을 개선할 수 있을 것으로 기대한다.