Paper Reading/Review

[리뷰] Target Detection Method using Lightweight Mean Shift Segmentation and Shape Features

  • -
728x90
반응형

이번에는 한국컴퓨터정보학회 2022 동계학술대회 논문집 제30권 1호에 발표된 논문인 Target Detection Method using Lightweight Mean Shift Segmentation and Shape Features를 읽고, 이전과 다르게 세세한 리뷰 보다는, 요약 및 논문에 대한 내 생각을 위주로 정리해보고자 합니다.

Index
1. Summary
2. My Opinion

1. Summary

  • 본 논문은 하드웨어 리소스가 제한된 장치에서 영상 분할 방법을 이용하여 small size object의detection을 하는 방법의 개선 방안에 대해 제안한다.
  • 영상 분할 방법은 region 기반 방법과, edge 기반 방법으로 나누어지며 대표적으로 FCM, Quickshift, Felzenszwalb, SLIC 알고리즘 등 이 있다고 한다. Region 기반 방법은 동일한 영역의 인접 화소의 특성 유사도를 이용하여 공간적으로 인접한 영역을 그룹화 하는 방법이다. Edge 기반 방법은 detection한 edge를 사용하여 edge의 연결성을 만족하는 영역을 하나의 영역이라고 보는 방법이다.
  • 본 논문에서 사용한 mean-shift 방법은 region 기반 영상 분할 방법으로, 데이터 분포에서 peak또는 무게중심을 찾아 가장 높은 밀도를 가지는 영역으로 클러스터링 하는 방법이다. 즉, 평균을 따라 이동시키는 것이다. 아래는 mean-shift의 원리와 그 결과물을 나타낸 것이다.

  • 기존의 mean-shift 방법은 feature window의 크기가 작을 경우 과분할 되고, 연산의 cost가 높다는 단점이 존재한다. 이 단점을 보완하기 위해 등장한 Quickshift, SLIC, Meanshift++과 같은 알고리즘은 연산 cost는 낮췄지만 object의 feature가 손실되는 문제점이 존재하였다. 따라서, 본 논문에서는 이러한 단점들을 해결한 개선된 mean-shift 방법 및 feature를 이용한 object detection 방법을 제안한다.
  • 제안한 방법은 크게 이미지 전처리, mean-shift 적용, object detection의 3단계로 이루어지며, 자세한 작동 과정은 아래와 같다.

  • 먼저 객체와 배경을 분리하기 위해, 영상에 평균 필터를 적용하는 image pre-processing 과정을 통해 영상 내 noise를 제거한다. 그 후 영상 전체에 대한 픽셀 평균값을 이용하여 분할을 위한 threshold값을 산출하고, mean-shift를 수행한다. 분할 된 각 segmentation에 대해 width, height, brightness 등의 정보를 이용하여 객체 feature와 부합하는 segmentation을 feature map에 추가하고, 추가된 각 객체의 feature과 비교하여 가장 유사도가 높고, 반복적으로 검출되는 obejct를 최종 detection 결과로 확정한다.
  • 영상 분할 과정은 데이터의 최빈값(mode) searching, mode clustering, merge small regions의 3단계로 이루어지며, 본 논문에서는 가장 시간이 오래 걸리는 mode searching을 grid cell binning 방식을 이용하여 해상도를 낮춘 영상에 대해 연산을 진행함으로써 수행시간을 단축하였다고 한다.
  • 또한 mode clustering을 위해 bandwidth를 설정해야 하는데, 본 논문에서는 이를 자동으로 산출하기 위하여 영상의 평균 밝기값과 채대값을 이용하여 이 값을 정해주었다고 한다.
  • Feature map의 생성은 분할된 영상의 segmentation에서 width, height, volume 등을 계산하는데, 딥러닝과 다르게 segmentation에서 얻어진 값을 if문과 같은 일종의 filter로 사용하여 detection 하고자 하는 objecet의 조건에 맞는 값을 걸러낸다. 이 때, 본 논문에는 자세히 나와있지 않지만, 탐지하고자 하는 객체는 딥러닝과 다르게 width, height, volume에 대한 정보를 사용자가 직접 입력하는 것으로 추정된다.
  • 본 논문이 제안한 경량화된 mean-shift 방식은 기존의 방식 대비 아래와 같은 수행시간 차이, 하나의 object에 대한 영상 분할 능력 차이, object detection 능력 차이를 보였다고 한다.

  • 최종적으로 본 논문은 영상 분할 능력 향상을 통해, 객체 탐지율을 기존의 mean-shift 방식을 이용하는것 대비 15% 이상 향상시켰으며, 연산량을 줄임으로써 크기가 어느 정도 큰 영상에 대해서도 실시간 처리가 가능한 수준의 속도를 달성했다고 한다.

 

2. My Opinion

딥러닝이 아닌, 다른 기법이 적용된 이유에 대한 생각

  • 우선 영상 분할은, 어떠한 영상을 비슷한 인접 영역끼리 clustering 하는 것이다.

  • 영상 분할에서 한 발자국 더 나아가면, 분할된 결과를 바탕으로 segmentation이나 object detection이 가능하게 되는데, 이는 threshold값을 기준으로 구분된 각 segmentation 영역에 대하여 edge로 폐곡선을 만들어 구분하였기 때문이다. 이는 곧, 영상에서 분할된 각각의 segmentation은 어떠한 object 로 볼 수 있다는 것이고, 이는 딥러닝의 object detection과는 차이를 가진다.
  • 딥러닝의 object detection은 일반적으로 사용자가 detection을 원하는 object에 대해 적지 않은 크기의 데이터 셋(보통은 object에 대해 bounding box를 ground truth로 이용)을 구축하여, 이를 신경망을 통해 학습시킨 뒤, 학습이 완료된 모델(가중치와 레이어 정보)을 이용하여 학습된 object만을 detection하게 된다.
  • 본 논문은 두 저자가 국방과학연구소 소속인데, 논문의 실험 영상을 보면 무언가 바다에서 작은 물체(군부대의 입장에서는 잠수함이나 밀항선, 적군의 감시 장비 등)를 찾기 위함인 것으로 판단된다. 해당 경우, 영상으로 볼 때 소형의 장비(관측 장비와 멀리 떨어져 있는 물체)의 종류는 수도 없이 다양하고, 이를 학습시킬 데이터 셋을 구성하는 것은 불가능에 가까워 보인다고 생각한다. 예를 들어, 물고기 모양의 감시장비를 적군이 사용한다고 하면, 물 위로 올라오는 수많은 물고기에 대해 학습시켜야 할 것이다. 또한, 진짜 물고기와의 구분도 필요할 것이다.
  • 그러나, 본 논문의 방식처럼 영상 처리 기술을 통해 object detection을 하게되면, 영상 크기만 크지 않다면 CPU로도 충분히 실시간 처리가 가능하며, 데이터 셋을 구축하지 않아도 되고, 마찬가지로 특정 object에 대해 학습 또한 필요하지 않다.
  • 본인도 object detection & tracking 관련 프로젝트에 참여중인데, 가볍다고 알려진 딥러닝 모델 조차 GPU를 사용하거나, 컴퓨팅 파워가 좋은 CPU를 사용해야만 학습된 모델로 prediction(여기서는 detection)을 (원활하게) 하는 것이 가능하다. 개인적으로 이 마저도, 영상의 크기가 작더라도 실시간 처리를 하려면 GPU가 거의 필수적으로 필요하다고 아직까지는 판단하고 있다.
  • 따라서 본 논문에서 딥러닝 대신 일반 영상 처리 기술을 적용한 이유는 아래에 서술한 내용과 같다고 생각한다.
    • 보통의 CPU는 GPU보다 물리적인 크기가 작고, 전력 소모도 덜하므로, 이 시스템이 적용된 군사용 장비를 개발할 때 소형화가 가능하게 된다. 이런 첨단 장비의 소형화는 여러 측면에서 실용적이고, 군사 영역에서도 마찬가지로 중요하기 때문이다.
    • 군부대든 아니든, 장비에 대한 비용 문제는 중요한 부분이다. CPU의 가격보다 GPU의 가격이 일반적으로 높은점을 감안하면, 제한된 성능을 가진 장비에서 원활한 성능을 보장하기 위해서는 연산량이 딥러닝 모델보다 적은 일반 영상 처리 기술이 취지에 부합한다.
    • 군부대 목적상, 감시장비는 (소형의) 미상 물체를 잘 detection하기 위함이지, 이 물체가 어떠한 물체인지 기계의 판단 능력은 중요한 것이 아니다. 그 이유는, 우선 무언가 감지된다면 더욱 정밀하고 성능좋은 장비를 통해 해당 영역을 확대해서 보면 그만이기 때문이며, 군사용으로 이런 장비는 이미 존재하기 때문이다. 또한, 이런 판단에 대해 기계의 정확도가 매우 높다고 하더라도, 안보와 관련된 부분이므로 결국 사람이 최종확인을 하기 때문이다.
    • 또한 현재 컴퓨터 비전 영역의 큰 흐름은, 이전에는 너무 많은 연산으로 구성되어 computing power가 부족하여 풀기 힘들었거나, 문제의 풀이 방법을 명확하게 정의하기 힘든 문제에 대해, 발전된 HW(높아진 computing power)를 이용하여 연산량이 많은 AI에 적용시키는 것이다. 그러나, 본 논문은 연산량이 많지 않은 경우에는 굳이 딥러닝 기술을 사용하지 않고, 기존에 단점은 존재하지만 잘 작동하는 수학적 방법에 대해 조금 개선하는 것 만으로도, 해당 문제를 잘 풀 수 있음을 보여준 것이라 생각된다. 

 

 

논문 링크

https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11037666

728x90
반응형
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.