1. 서론
이동통신 인프라 중 기지국 안테나는 서비스 품질 및 커버리지를 결정하는 핵심 요소이며, 전파 자원의 효율적 운용과 간섭 관리 측면에서도 매우 중요한 자산이다. 특히 5G 기술의 본격적인 도입에 따라 기지국 밀집도가 급격히 증가하고[1], 다중 대역 및 다중 입출력 안테나 구성이 보편화되면서 기지국 철탑이나 건물 옥상 구조물에 설치된 장비의 종류와 배치는 과거보다 훨씬 복잡한 양상을 띠고 있다. 이러한 환경에서 안테나의 규격, 설치 방향, 수량 및 소유 사업자 정보는 장애 대응, 정기 유지보수, 설비 증설 계획 수립 및 자산 감사 등 통신 인프라 운영 전반에 걸친 필수적인 데이터로 작용한다. 또한, 전파 관리 관점에서도 원격 또는 현장 촬영 영상을 통해 안테나 속성을 신속하고 객관적으로 식별하는 기술은 조사 절차의 표준화와 신뢰성 향상에 크게 기여할 수 있다. 하지만 현재 안테나 점검은 현장 인력의 수작업에 의존하고 있어 막대한 시간과 비용이 소모되며, 고소 작업 특유의 안전사고 위험을 수반한다. 더욱이 점검자의 숙련도에 따른 결과 편차와 광범위한 지역 자산의 최신성 유지 한계는 관리 효율을 저해하는 근본적 요인이다. 결과적으로 이러한 수동적 관리 체계는 운영 비용 상승의 주요 원인이 되고 있으며, 이에 따라 실환경의 물체로 인한 가림 현상이나 기상 변화에 강건하게 대응할 수 있는 이미지 기반 자동화 인식 시스템의 도입이 절실한 실정이다.
최근 딥러닝 기반의 컴퓨터 비전 기술은 객체 탐지(object Detection) 및 분류(classification) 성능의 비약적인 발전을 거듭하며 다양한 산업 현장의 자동화를 견인하고 있다[2,3,4]. 딥러닝 모델은 영상 데이터로부터 특징 추출 및 판단 기준을 직접 학습하여 모델 내부에 내재화함으로써, 기존의 주관적 판단 과정을 객관화하고 분석 절차를 표준화할 수 있다는 핵심적인 장점을 가진다[5,6,7]. 또한 대규모 데이터를 대상으로 일관된 품질의 처리가 가능하며, 이는 기지국 안테나 식별과 같이 작업 환경의 변동성이 크고 반복적인 업무 부하가 높은 분야의 효율성을 극대화하는 데 매우 적합하다. 특히 복잡한 배경이나 가림 현상이 빈번한 실외 환경에서도 강건한 성능을 보장할 수 있는 딥러닝의 특성은 지능형 자산 관리 시스템 구현을 위한 최적의 기술적 토대를 제공한다.
본 연구는 작업자 스마트폰 등 다양한 장비로 촬영된 기지국 안테나 이미지를 기반으로 데이터셋을 구축하고, 안테나 객체의 자동 탐지 및 사업자(operator)와 세부 속성 예측을 수행하는 딥러닝 기반 안테나 인식 시스템을 제안한다. 특히 안테나 객체 간의 높은 시각적 유사성과 복잡한 배경으로 인한 오분류 문제를 해결하기 위해, 객체 탐지와 속성 분류를 분리하여 수행하는 계층적 파이프라인 구조를 제안한다. 또한, 가림 현상이나 기상 변화 등 실제 운용 환경에서 발생할 수 있는 가변성에 대응하고자 현장 특화형 데이터 증강(data augmentation) 및 최적화된 학습 전략을 적용하여 모델의 일반화 성능을 극대화하였다.
실험 결과, 제안 시스템은 안테나 탐지율 93.9%와 속성 분류 정확도 89.6%를 달성하며 실환경에서의 강건한 성능을 입증하였다. 이러한 성과는 수작업 중심의 현장 점검 프로세스에 자동화된 안테나 인식 기술을 도입함으로써 업무 효율성을 제고하고, 판별 결과의 일관성을 확보하는 데 실질적인 기여를 할 수 있음을 시사한다.
2. 관련 연구
객체 탐지 기술은 크게 2단계(2-stage) 모델과 1단계(1-stage) 모델로 발전해왔다[8]. 2단계 모델은 물체가 존재할 가능성이 높은 후보 영역을 생성하는 영역 제안 단계와, 제안된 후보 영역에 대해 클래스를 분류하고 경계 상자(bounding box)를 정제하는 단계로 구성된다. R-CNN[9]은 선택적 탐색(selective search) 기반으로 후보 영역을 생성한 뒤, 각 영역을 네트워크 입력 크기에 맞게 변형하고 CNN을 통해 클래스와 경계 상자를 예측하는 방식을 제안하였다. 그러나 R-CNN은 후보 영역마다 CNN 추론을 반복해야 하므로 학습 및 추론 시간이 매우 오래 걸린다는 한계가 있었다. 이를 개선하기 위해 Fast R-CNN[10]이 제안되었으며, 입력 이미지를 한 번만 CNN에 통과시켜 특징 맵을 추출하고, 선택적 탐색으로 얻은 후보 영역을 RoI(Region of Interest) 풀링을 통해 고정 크기 특징으로 변환한 뒤 FC(Fully Connected) 레이어에 전달하는 구조를 사용하였다. 이로 인해 R-CNN 대비 학습 및 추론 효율이 크게 향상되었다. 다만 Fast R-CNN 역시 후보 영역을 생성하는 과정에서 선택적 탐색에 의존하기 때문에 병목이 남아 있었고, Faster R-CNN[11]은 이를 해결하기 위해 RPN(Region Proposal Network)을 도입하였다. RPN은 네트워크가 후보 영역을 직접 생성하도록 설계되어, 선택적 탐색 기반 방식보다 더 빠른 학습 및 추론을 가능하게 하였다.
반면 1단계 모델은 2단계 모델과 달리 후보 영역 생성 과정을 별도로 두지 않고, 단일 네트워크에서 물체의 위치 추정과 분류를 동시에 수행한다. SSD(Single Shot MultiBox Detector)[12]는 다양한 크기의 객체를 탐지하기 위해 여러 해상도의 특징 맵을 활용하는 구조를 제안하였다. RetinaNet[13]은 1단계 모델에서 흔히 발생하는 배경과 물체 간 샘플 불균형 문제를 완화하기 위해 Focal Loss를 도입하였다. CenterNet[14]은 물체를 경계 상자로 직접 회귀하기보다 이미지 상의 중심점을 먼저 탐지하고, 중심점을 기준으로 물체의 크기와 위치를 추정하는 방식으로 탐지 성능을 향상시켰다. YOLO(You Only Look Once)[3] 계열은 이미지 전체를 한 번에 처리하여 객체의 위치와 클래스 확률을 예측하는 구조를 기반으로, 지속적인 개선을 통해 정확도와 속도 측면에서 모두 경쟁력 있는 성능을 보여왔다.
본 연구는 기지국 안테나 현장 점검 시 요구되는 실시간 처리 성능, 모바일 환경으로의 배포 용이성, 그리고 하드웨어 자원의 효율성을 종합적으로 고려하여 YOLO 계열 모델을 객체 탐지의 중추 알고리즘으로 채택하였다.
안테나 속성 분류 문제는 클래스 간 외형적 차이가 크지 않기 때문에, 미세(fine-grained) 분류 문제로 볼 수 있다. 이러한 문제는 작은 구조적 차이나 국소적인 패턴에 의해 클래스가 구분되기 때문에, 특징 표현의 세밀함과 안정적인 학습이 중요한 요소로 작용한다. 이미지 분류 분야에서는 CNN 기반 모델의 발전과 함께 다양한 구조가 제안되었으며, ResNet[15]은 잔차 연결(residual connection)을 통해 매우 깊은 네트워크에서도 안정적인 학습을 가능하게 하여 범용적인 분류 백본으로 널리 활용되고 있다. 또한 EfficientNet[16]은 모델의 깊이, 너비, 해상도를 균형 있게 확장하는 스케일링 전략을 통해 경량화와 성능을 동시에 고려한 구조를 제안하였다.
최근에는 Transformer[17]기반 분류 모델이 강력한 표현 학습 능력을 바탕으로 주목받고 있다. ViT[18]는 이미지를 패치 단위의 시퀀스로 변환하여 전역적인 셀프 어텐션(self-attention)을 적용함으로써, 장거리 문맥 정보를 효과적으로 활용하는 구조를 제시하였다. Swin Transformer[19]는 계층적 구조와 윈도우 기반 어텐션을 도입하여 국소 정보와 전역 문맥을 모두 고려할 수 있도록 개선되었으며, 이는 미세한 패턴과 전체 구조를 동시에 활용해야 하는 미세 분류 문제에 적합한 특성을 가진다.
본 연구는 객체 탐지 단계에서 검출된 RoI를 입력으로 받아, 안테나의 다중 속성을 예측하는 멀티헤드 분류 구조를 사용한다.
3. 안테나 탐지 및 분류 시스템
본 장에서는 우선 이미지에서 분류 대상이 되는 속성과 이에 대응하는 클래스 라벨을 정의한다. 그리고 다양한 환경에서 촬영된 현장 이미지로부터 기지국 안테나를 탐지하고, 탐지된 안테나의 세부 속성(attribute)을 다중 헤드 분류(multi-head classification) 방식으로 예측하는 2단계 시스템을 제안한다.
본 연구는 KT-MOS 남부의 작업 현장에서 다양한 환경 조건 아래에 촬영된 기지국 안테나 이미지를 기반으로 탐지와 분류 목적의 데이터셋을 각각 구축하였다 (Figure 1). 각 안테나 객체는 속성 라벨을 부여하였다. 속성 라벨은 사업자(operator), 안테나 유형(type), 이득(gain), 사용 포트 수(ports) 등 복수의 속성을 동시에 예측할 수 있도록 다중 속성 라벨링 구조로 정의하였다 (Table 1).
| Attribute\Class | |
|---|---|
| operator | “kt”, “unknown” |
| type | “sector”, “unknown” |
| gain | “6.5”, “7”, “13.5”, “14”, “15.5”, “16”, “17.5”, “19.5”, “unknown” |
| ports | “0”, “1”, “2”, “3”, “4”, “5”, “6”, “unknown” |
각 속성 라벨은 단일 이미지에서 관찰 가능한 외관 단서를 기준으로 정의하였다. 안테나 유형 속성은 안테나 본체의 전반적 형상과 비율, 사용 포트 수 속성은 하단 포트부 연결 구성 및 연결 케이블 수, 사업자는 하단 포트부의 연결 위치 또는 연결선 부근에 존재하는 라벨 색상에 의해 구분된다. 이득 속성의 경우에는 본체 규격과 포트부 구성을 단서로 활용하여 분류할 수 있다. 반면 촬영 각도, 거리, 해상도, 물체에 의한 가림으로 인해 시각적인 단서가 충분히 확보되지 않거나 판독이 어려운 경우에는 해당 속성을 unknown으로 라벨링하였다.
본 논문에서 사업자 속성은 “kt”와 “unknown”으로 정의하였다. 따라서 본 연구는 다중 사업자 환경에서의 일반화 성능을 직접 검증한 것은 아니다. 다만 제안 방법은 안테나 하단 포트부, 연결선, 라벨 색상과 같은 국소 시각 단서를 활용하도록 설계되었으며, 다른 사업자 안테나 환경에서도 이러한 식별 단서가 일관되게 확보되는 경우 동일한 파이프라인으로 확장 가능하다.
탐지 데이터셋은 입력 이미지에서 안테나 객체의 위치를 학습하기 위해 구성되었으며, 라벨링 오류가 발생한 이미지 12장을 제외한 1,219장으로 학습용 975장과 검증용 244장 데이터셋을 구성하였다. 분류 데이터셋은 탐지 단계에서 정의된 안테나 객체 영역을 기준으로 이미지를 크롭(crop)하여 생성하였고, 학습용 4,532장과 검증용 1,055장으로 구성된다. 이처럼 탐지와 분류 데이터셋을 분리하여 구축함으로써, 각 단계의 학습 목적에 부합하는 데이터 구성을 확보하였다.
Figure 2는 본 연구에서 제안한 안테나 탐지 및 속성 분류 시스템의 전체 구조를 나타낸다. 시스템의 입력은 기지국 안테나 이미지이며, 입력 이미지는 먼저 객체 탐지 모델에 전달된다. 탐지 모델은 이미지로부터 기지국 안테나의 위치를 추정하고, 이에 대응하는 경계 상자(bounding box)를 출력한다.
이후 예측된 경계 상자를 기준으로 안테나 영역을 크롭하여 분류 모델의 입력으로 사용한다. 이때 안테나 하단에 위치한 연결 포트 및 연결선에 부착되어 있는 라벨 색상과 같은 요소는 속성 분류에 유용한 단서가 될 수 있으므로, RoI 추출 시 경계 상자의 하단 방향으로 상자 높이의 50%에 해당하는 길이만큼 크롭 범위를 확장하였다 (Figure 2 우측). 추출된 RoI 이미지는 분류 모델의 입력 크기에 맞게 크기변환 및 정규화한 뒤, 분류 단계의 입력으로 사용된다. 본 연구는 탐지 모델로 YOLOv11-M을 사용하였다.
분류 단계에서는 탐지 모델이 추출한 안테나 RoI를 입력으로 사용하며, 하나의 백본(backbone)을 공유하고 속성별 분류 헤드를 병렬로 두는 멀티헤드(multi-head) 구조로 각 속성을 예측한다. 사업자, 안테나 유형, 이득, 사용 포트 수 등 속성 간 의미가 상이하므로, 속성별로 독립적인 분류 헤드를 구성하여 예측을 수행하였다. 또한 데이터셋 규모가 제한적인 조건을 고려하여 Transformer 계열 백본 대신 CNN 기반 ResNet50을 채택하였고, 이를 통해 학습 안정성과 과적합 완화 측면에서의 이점을 확보하였다.
이와 같이 탐지와 분류를 분리한 2단계 계층적 구조는 각 단계의 성능을 독립적으로 분석할 수 있어 오류 원인 파악이 용이하다는 장점이 있다. 또한 탐지 모델(YOLOv11-M) 또는 분류 모델(ResNet 기반 분류기)을 개별적으로 교체하거나 고도화할 수 있어, 시스템 전체를 재설계하지 않고도 성능 개선이 가능하다. 이러한 구조적 유연성은 실제 현장 적용 및 유지·보수 측면에서도 실용적인 이점을 제공한다.
본 연구의 분류 단계는 탐지 모델이 산출한 안테나 RoI 이미지를 입력으로 하여, 다중 헤드 분류 구조를 통해 안테나의 세부 속성들을 직접 예측한다. 각 속성은 사전에 정의된 유효 클래스 집합과 함께 unknown 클래스를 포함하도록 구성되며(예: operator={kt, unknown}), 데이터 분포 상 여러 속성에서 unknown 샘플이 다수를 차지하는 불균형이 관찰된다 (Figure 3). 대표적으로 operator 속성에서 kt 클래스의 비율은 전체의 약 11.5%에 불과하며, 표준 교차 엔트로피 손실로 학습할 경우 모델이 빈도가 높은 unknown 클래스에 편향될 가능성이 크다. 그 결과 유효 클래스(예: kt)에 대한 재현율(Recall)이 저하될 수 있으며[21], 이러한 편향은 공유 백본을 사용하는 멀티헤드 구조에서 특징 표현 학습에도 영향을 미쳐 다른 속성 예측 성능에 간접적인 저하를 유발할 수 있다.
이를 완화하기 위해 본 연구는 모든 속성 헤드에서 unknown 클래스에 대해서만 클래스 가중치(class weight)를 적용하는 가중 교차 엔트로피 손실을 사용하였다[22]. 구체적으로 속성 a에 대해 unknown 클래스의 가중치는 전체 샘플 수 Na 대비 unknown 샘플 수 na,unknown의 비율을 이용해 정의하고 (Equation 1), unknown을 제외한 나머지 유효 클래스에는 기본 가중치를 부여하였다. 이후 속성별 가중 교차 엔트로피 손실을 합산하여 전체 학습 손실을 구성하였다 (Equation 2). 이러한 설계를 통해 각 속성에서 unknown 클래스가 학습을 지배하는 현상을 완화하고, 소수 유효 클래스에 대한 예측 성능 저하를 줄이고자 하였다.
실제로 클래스 가중치 적용 후, 이득 및 사용 포트 수 속성의 정확도(accuracy)가 적용 전 대비 약 2% 향상되는 것을 확인하였다.
본 연구는 안테나의 외관(appearance) 정보만을 이용하여 세부 속성을 분류하는 것을 목표로 한다. 그러나 안테나는 외관만으로 세부 속성을 명확히 구분하기 어려운 경우가 많으며, 서로 다른 사업자의 안테나라도 형태적 특징이 유사한 사례가 빈번하다. 또한 촬영 각도, 촬영 거리, 조명 조건 등 환경 요인에 따라 동일한 안테나도 서로 다른 형태로 관측될 수 있다. 더 나아가 실제 현장에서는 안테나의 식별 표기가 누락되거나 판독이 어려운 경우가 존재하여, 전문가라 하더라도 단일 이미지로 정확한 속성 판별이 쉽지 않다.
이러한 분류 단계의 본질적 모호성은 라벨 노이즈 증가 및 클래스 경계의 불명확성으로 이어져 모델 학습 난이도를 높이고, 달성 가능한 분류 성능을 제한하는 요인으로 작용한다. 본 연구는 이를 완화하기 위해 라벨 스무딩(label smoothing) 기법을 적용하였다[23]. 라벨 스무딩은 정답 라벨을 엄격한 원-핫(one-hot) 벡터로 고정하는 대신, 스무딩 계수를 이용해 타깃 분포를 완화함으로써 모델이 특정 클래스에 과도하게 확신하는 현상을 억제한다. 이를 통해 과적합을 완화하고 라벨 모호성이 존재하는 상황에서도 보다 안정적인 확률 출력을 유도하였으며, 라벨 스무딩 적용 후 모든 속성에 대한 예측 정확도가 적용 전 대비 약 3% 향상되는 것을 확인하였다.
본 연구는 실제 무선 기지국 촬영 환경에서 빈번하게 발생하는 가림(occlusion) 및 가시성 저하(visibility degradation) 문제(Figure 4)를 모델 학습 단계에서 반영하기 위해, 현장 조건을 모사한 데이터 증강(data augmentation) 전략을 적용하였다. 일반적인 색상 변화나 기하 변형 중심의 증강 기법만으로는 실제 운용 환경에서 발생하는 복잡한 시각적 변동을 충분히 반영하기 어렵다는 점을 고려하여, 본 연구는 현장에서 주요 성능 저하 요인으로 관찰된 수목 가림과 기상 변화(강설·적설)를 핵심 변동 요인으로 정의하였다.
먼저, 강설 및 적설 환경에 따른 가시성 저하를 모델 학습에 반영하기 위해 WeatherGAN[13] 기반의 날씨 변환 기법을 활용하였다(Figure 6(a)-(b)). 맑은 조건에서 촬영된 이미지에 대해 눈에 의한 텍스처 변화와 명암 변화를 합성하여, 적설 환경과 유사한 시각적 특성을 갖는 학습 샘플을 생성하였다. 이를 통해 계절 및 기상 조건 변화에 따른 외관 변화를 학습 데이터에 포함하여, 다양한 기상 환경에서도 안정적인 탐지 및 속성 분류 성능을 확보하고자 하였다.
또한 실제 현장에서 빈번하게 관찰되는 수목에 의한 부분 가림 상황을 반영하기 위해, 수목 가림 증강 기법을 적용하였다(Figure 6(c)-(d)). 가림이 상대적으로 적은 이미지에 대해 나뭇가지 및 잎과 같은 수목 패턴을 안테나 영역의 상단 또는 전면에 합성함으로써, 안테나가 부분적으로 가려진 상황을 인위적으로 생성하였다. 이는 부분 가림이 발생하더라도 탐지 및 속성 분류 성능이 급격히 저하되지 않도록 강건한 특징을 학습하는 것을 목표로 한다.
이와 더불어, 다양한 영상 품질 저하 및 촬영 조건 변화를 폭넓게 반영하기 위해 일반적인 데이터 증강 기법도 함께 적용하였다. 구체적으로 강우(rain) 효과, 밝기 변화(명/암), 모션 블러 및 가우시안 블러, 센서 노이즈 추가, 압축 아티팩트 기반 화질 저하, 좌우·상하 반전, 회전 변환 등을 적용하여 촬영 조건 변화에 대한 모델의 강건성을 향상시켰다.
이러한 현장 특화 증강 전략을 통해 실제 운용 환경에서 발생 가능한 변동 요인에 대한 모델의 강건성을 높였으며, 그 효과는 4.3장에서 정량적으로 분석한다.
4. 결과 및 분석
본 연구는 NVIDIA A100 GPU 환경에서 학습 및 추론을 수행하였다. 탐지 모델과 분류 모델 모두 배치 크기 16, 학습 에포크 200으로 동일하게 설정하였으며, 최적화 기법으로 AdamW를 적용하였다. 학습 및 평가는 구축한 기지국 안테나 데이터셋(3.1장)을 사용하였다. 모든 성능 평가는 학습 데이터와 분리된 검증 데이터셋을 기준으로 수행하였다.
탐지 모델의 성능은 검증 데이터셋에서 정밀도(precision), 재현율(recall), mAP@0.5, mAP@0.5:0.95 지표로 평가하였다. 분류 모델의 성능 평가는 검증 데이터셋에서 탐지 모델이 산출한 RoI를 입력으로 사용하여 수행하였으며, 속성별 정확도(attribute-wise accuracy)와 모든 속성을 동시에 정답으로 맞춘 경우의 정확도(overall accuracy)를 산출하였다.
전체 파이프라인에서 탐지 모델 성능은 precision 93.1%, mAP@0.5 93.9%를 달성하였고, 분류 모델 성능은 overall accuracy 89.6%를 기록하였다. 또한 사업자 정확도는 91.3%로 가장 높게 나타났다(Table 2).
| Base dataset scale | Precision | Recall | mAP@0.5 | mAP@0.5:0.95 |
|---|---|---|---|---|
| 100 | 70.5% | 55.6% | 67.7% | 35.8% |
| 256 | 70.5% | 82.2% | 70.5% | 55.3% |
| 741 | 91.5% | 89.3% | 93.6% | 72.0% |
| 1,231 | 88.2% | 89.8% | 92.0% | 73.3% |
Figure 5는 제안한 탐지–분류 파이프라인의 정성적(qualitative) 결과 예시를 제시한다. 해당 예시는 입력 이미지에 포함된 모든 GT(ground truth) 안테나 객체에 대해 탐지 모델이 경계 상자를 정확히 산출하고, 이후 분류 모델이 각 객체의 속성을 모두 정답으로 예측한 사례이다. 또한 예측 결과는 안테나 객체 영역에서만 선택적으로 활성화되었으며, 안테나가 아닌 영역에 대한 불필요한 검출이 관찰되지 않았다. 이러한 정성적 결과는 제안한 파이프라인이 현장 이미지에서 안테나 위치와 속성을 일관되게 추정할 수 있음을 뒷받침한다.
안테나 탐지 모델. 본 연구는 안테나 탐지를 위해 YOLOv11-M 모델을 사용하였으며, 사전학습(pretrained)된 YOLOv11-M 가중치를 초기값으로 설정한 후, 기지국 안테나 탐지 데이터셋(3.1장)에 대해 파인튜닝(fine-tuning)을 수행하였다. 입력 이미지는 모델 입력 규격에 맞게 640×640 해상도로 크기변환하여 사용하였다. 성능 평가는 학습에 사용되지 않은 검증 데이터셋을 대상으로 수행하였다.
Table 2는 학습 데이터 규모에 따른 탐지 모델 성능의 변화를 보여준다. 데이터셋 규모가 증가함에 따라 mAP@0.5 및 mAP@0.5:0.95를 포함한 전반적인 지표가 향상되는 경향을 확인하였다. 특히 데이터 규모가 100에서 741로 증가할 때 precision은 70.5%에서 91.5%, recall은 55.6%에서 89.3%, mAP@0.5는 67.7%에서 93.6%, mAP@0.5:0.95는 35.8%에서 73.3%까지 성능이 크게 개선되었다. 반면 741에서 1,231으로 증가한 구간에서는 지표가 유사한 수준으로 수렴하는 양상을 보여주었으며, 이는 학습 데이터 증가와 함께 검증 데이터셋의 규모와 구성 또한 확대되면서, 보다 다양한 촬영 조건과 실제 현장 사례가 평가에 포함되었기 때문으로 해석된다. 그럼에도 불구하고 탐지와 분류 성능은 전반적으로 유사한 수준을 유지하거나 일부 개선되었으며, 이는 제안 모델이 데이터 규모 증가에 따라 특정 조건에 과적합되기보다 다양한 케이스에 대해 성능이 점차 수렴하고 안정화됨을 보여준다. 최종적으로 데이터셋 규모 1,231 기준 precision 88.2%, recall 89.8%, mAP@0.5 92.0%, mAP@0.5:0.95 73.3%를 달성하였다. 이를 통해, 충분한 학습 데이터가 확보될 경우 탐지 모델이 이미지 내 안테나 객체를 안정적으로 검출할 수 있음을 확인하였다.
안테나의 세부 속성 분류 모델. 본 연구는 안테나의 세부 속성 분류를 위해 ResNet50 기반 분류 모델을 사용하였다. 분류 모델은 사전학습된 가중치를 초기값으로 설정한 뒤, 안테나 분류 데이터셋에 대해 파인튜닝을 수행하였다. 입력 해상도는 224×224로 설정하였으며, 분류 단계에서 발생 가능한 라벨 노이즈 및 과적합을 완화하기 위해 라벨 스무딩 계수는 0.1로 설정하였다.
Table 4은 학습 데이터 규모에 따른 분류 성능 변화를 보여준다. 데이터셋 규모가 증가함에 따라 모든 속성에서 정확도가 전반적으로 향상되었으며, overall accuracy 또한 53.4%에서 79.7%로 개선되었다. 특히 741 구간에서 안테나 종류 87.5%, 이득 82.3%, 포트 개수 82.5%, 사업자 88.0%로 클래스 정확도가 큰 폭의 향상이 관찰되었고, 이후 1,231 규모에서는 overall accuracy가 79.7%로 완만한 증가/수렴 양상을 보였다. 이 결과는 세부 속성 분류 성능이 학습 데이터 규모에 민감하며, 충분한 학습 샘플 확보가 성능 향상에 중요한 요인임을 보여준다.
Table 3는 증강 조합에 따른 성능 변화를 보여준다. 조건별 학습 데이터 규모는 Base(미적용) 데이터셋이 탐지 970장, 분류 4,532장으로 구성되며, 가림(Occlusion) 증강 데이터셋은 탐지 1,764장, 분류 8,430장, 날씨(Weather) 증강 데이터셋은 탐지 588장, 분류 2,810장으로 구성된다. 증강 미적용 데이터셋에 가림 증강 데이터셋을 추가할 경우 탐지 precision은 88.2%에서 90.7%, mAP@0.5는 92.0%에서 93.6%로 개선되었고, 분류 overall accuracy도 79.7%에서 87.7%로 상승하였다. 또한 증강 미적용 데이터셋에 날씨 증강 데이터셋을 추가하면 overall accuracy가 89.3%로 더 크게 향상되었으며, 사업자 클래스 정확도는 91.3%로 가장 높게 나타났다. 마지막으로 가림 증강과 날씨 증강 데이터셋을 모두 적용하면 탐지 precision이 93.1%로 최고치를 기록하고, overall accuracy 또한 89.6%로 가장 높게 나타났다. 또한 Figure 7은 본 연구에서 적용한 현장 특화 증강의 효과를 보여준다. 이전에 탐지 성능이 낮았던 적설 및 가림 환경에서도 안테나를 보다 안정적으로 검출할 수 있다.
이는 가림 및 기상 변화와 같은 현장 조건을 반영한 증강이 탐지와 분류 모두에서 일반화 성능을 향상시키는데 기여함을 의미한다.
5. 결론
본 연구는 다양한 현장 환경에서 촬영된 기지국 안테나 이미지를 기반으로, 안테나 객체를 자동으로 탐지하고 세부 속성을 분류하는 이미지 기반 안테나 인식 시스템을 제안하였다. 실제 업무 환경 데이터의 복잡성과 안테나 외형 유사성으로 인해 발생하는 미세 분류 문제를 고려하여 탐지와 분류를 분리한 2단계 계층적 파이프라인을 설계하고, YOLOv11-M 기반 탐지 모델과 ResNet50 기반 멀티헤드 분류 모델을 적용하였다. 또한 가림 및 기상 변화와 같은 현장 조건을 반영한 데이터 증강과 클래스 불균형 및 라벨 모호성을 완화하기 위한 학습 전략을 도입하여, 다양한 촬영 조건에서의 탐지 및 분류 성능을 검증 데이터셋을 통해 확인하였다. 결과적으로 제안한 시스템은 검증 데이터셋에서 탐지 precision 93.1%, mAP@0.5 93.9%, 분류 overall accuracy 89.6%(사업자 91.3%)를 달성하여, 실제 운용 환경의 기지국 안테나 자동 인식 문제에 대한 적용 가능성과 일반화 성능을 확인하였다.
제안하는 방법은 높은 탐지 및 분류 정확도를 보여주지만, 일부 데이터에 대해 여전히 오탐지 및 오분류 결과를 보여주기도 한다. Figure 8은 그 예들을 보여준다. 정답(GT)으로 정의된 안테나 박스에 대한 탐지는 성공하였으나, 일부 사례에서 속성 오분류가 발생하고, 안테나와 유사한 형태의 객체에 대한 오탐지를 관찰할 수 있다.
성능 저하는 주로 다음 조건에서 발생하였다. 안테나 하단 포트부, 연결선, 라벨 영역이 가려지거나 흐리게 촬영되어 분류에 필요한 단서가 약화된 경우와 원거리 촬영 및 저해상도로 인해 안테나 세부 구조가 충분히 표현되지 않는 경우, 그리고 옥상 난간, 벽체 모서리, 수직 금속 지지대와 같이 안테나와 유사한 형태를 갖는 배경 객체가 존재하는 경우에 성능 저하가 발생하였다.
따라서 향후 연구에서는 사전에 안테나 장비를 해상도에 맞게 촬영할 수 있도록 하여 학습 및 추론 이미지의 일관성을 유지하도록 고도화하며, 유사 객체 및 복잡 배경을 포함한 학습 데이터 증강, 오탐지 억제를 위한 후처리 또는 2차 검증 모듈 도입, 속성 분류 단계에서의 모호성 완화를 위한 추가 단서(예: 다중 뷰/연속 프레임) 활용 등을 통해 현장 환경에서의 안정성을 향상시키고자 한다.






