Loading [MathJax]/jax/output/CommonHTML/jax.js
Paper Reading/Review

[리뷰] Focus On Details: Online Multi-object Tracking with Diverse Fine-grained Representation

  • -
728x90
반응형

이번에는 CVPR 2023에 게재된 논문인 ocus On Details: Online Multi-object Tracking with Diverse Fine-grained Representation를 읽고, 리뷰해보고자 합니다.

Index
1. Background
    1.1. Triplet Loss
2. Abstract
3. Introduction
4. Related Work
5. Method
    5.1. Overview
    5.2. Flow Aligned FPN
    5.3. Multi-head Part Mask Generator
    5.4. Train and Inference
6. Experiment
7. Conclusion 
 

Triplet Loss

1. 개념 무작위 dataset을 뽑은 후, positive pair와 negative pair들과 비교 positive는 가까이, negative는 멀리 배치 2. 계산 방법 L(A,P,N)=max(f(A)f(P)2f(A)f(N)2+α,0) A는 anchor

alstn59v.tistory.com

 

  • MOT에서 각 object의 ID를 유지하기 위해 discriminative representation이 필요
    • occlusion이 발생하면 bounding box의 영역이나 object의 center point에 대한 representation은 신뢰할 수 없음
  • global, local 관점에서 appearance에 대한 fine-grained representation에 대한 탐색 제안
  • pixel의 위치를 바꾸기 위해 서로 다른 해상도의 feature map 간에 semantic flow 생성 후, fine-grained feature를 추출하기 위한 Multi-head Part Mask Generator 제시

 

  • MOT problem은 camera motion 등에 의해 object의 occlusion이 불가피
    • appearance representation에 대한 요구사항이 엄격해짐
  • 이전의 tracker들이 사용한 feature extract 방법은 noise에 민감
    • position cue를 사용하여 만족스러운 결과를 얻을 수 있으며, appearance cue는 추가 개선에 불리
  • appearance-based 방법에 대한 재검토
    • bounding box의 local detail에 초점을 맞춤
    • global과 local 정보를 이용하여 서로를 보완한 apperance representation 생성
  • object의 appearance를 extract하기 위해 주로 FPN을 이용
    • 해상도 차이에 의한 semantic mis-alignment를 해결하기 위해 Flow Alignment FPN 제안
  • label 없이 자세한 부분의 mask를 생성하기 위해 transformer의 multi-head self-attention에 영향을 받은 Multi-head Part Mask Generator 제안
  • Re-ID를 합리적으로 훈련하기 위해, shuffle group sampling 방법 제안
    • video frame을 순서대로 짧은 segment로 그룹화 한것을 shuffle하여 이용
    • positive와 negative sample의 균형을 유지

 

  • Tracking-by-detection
    • appearance와 motion이 중요하지만, 항상 신뢰할 수 있는 정보는 아님
    • SORT, DeepSORT, … etc
  • Re-ID in MOT
    • bounding box의 영역이나 center point의 feature에 대해 global embedding 생성하여 이용
      • 잘못 tracking 된 object에 대해서는 representation이 효과를 발휘하지 못함
    • FairMOT, CSTrack, … etc

 

  • detector로 YOLOX 이용

  • feature aggregation을 위한 방법으로 feature pyramid network를 주로 이용하였음
    • 그러나, down-sampling과 서로 다른 크기의 feature map간 semantic mis-alignment 발생
  • fine-grained feature를 얻기 위해 flow alignment module을 이용
    • 서로 다른 feature map간의 semantic flow를 생성하고, alignment에 대한 guide와 spatial dislocation 제거하는데 이용
    • FPN의 aggregation process 최적화하고, flow alignment FPN 구성
  • fine-grained representation을 생성하는 기초가 되는 semantic 정보와 고해상도 feature map으로 집계

  • 최근에는 global embedding을 최적화 하기 위해 잘 설계된 모듈에 의존하지만, 이는 semantic ambiguity를 유발하는 embedding으로 일반화 하는 문제가 있으며, occlusion이나 noise에 영향을 받음
  • 위의 문제를 극복하기 위해, object를 detail한 부분을 집중하여 appearance representation을 탐색하는 것을 제안
    • feature map의 강화를 위해 attention 이용
    • transformer의 multi-head self-attention에 영감을 받아 object의 각기 다른 부분에 초점을 맞추는 방법 이용하여 각 부분의 mask를 생성

  • 이전의 연구는 더 나은 탐지 성능을 위해 video frame을 shuffle하여 batch에 동일한 ID의 target이 거의 포함되지 않도록 하였음
    • 이러한 불균형은 model이 다른 대상 사이의 차이만을 발견하고, 공통점을 발견 못함
    • 각 object를 구별하는 것이 목표인 Re-ID 에는 부적절
  • Shuffle-Group Sampling
    • 위 문제를 해결하기 위해, 순차 sampling 방식을 이용하여 video frame을 그룹화하여 동일한 batch의 target은 동일한 ID를 가져서 sample의 불균형 완화
    • 학습 시, 수렴 과정의 변동 폭을 줄이기 위해 그룹화된 data의 순서를 바꿔주는 전략을 이용하여 상당한 appearance variation을 가진 track segmentation 생성
  • Training Loss
    • SGS 방식을 통해 batch에 positive sample과 negative sample이 모두 포함되므로, triplet loss를 이용하여 model 최적화
    • part feature와 global feature는 아래와 같이 표현 가능
      • fpart={fn,kp,n[1,2,,N],k[1,2,,K]}, fglobal={fnp,n[1,2,,N]}
        • N은 image에서 target의 수, 각 target은 K개의 부분으로 구성)
    • part feature에 대한 triplet loss는 아래와 같이 계산
      • Lptri(k)=1KKk=1Triplet(fkp)
        • fkp는 target nk번째 part feature)
    • global feature에 대한 triplet loss는 아래와 같이 계산
      • Lgtri(k)=Triplet(fglobal)
    • fkp를 얻은 후, K에 대해 linear layer와 softmax의 조합은 classification result vector P={pkn,k[1,2,,K],n[1,2,,N]}에 각각 적용
      • pkn는 target nk번째 part feature의 classification vector, M차원이며 dataset에서 모든 target의 수)
    • target ID label은 다음과 같이 나타냄
      • Y={yn,m,n[1,2,,N],m[1,2,,M]} 
        • yn,m은 target n의 ID와 target m의 ID가 같은지 다른지를 0 or 1로 표시)
    • target nk번째 part feature에 대한 classification loss를 아래와 같이 계산
      • Lpn,k(m)=yn,mlog(pkn(m)),m[1,2,,M]
    • 전체 part features에 대한 classification loss는 아래와 같이 계산
      • Lpcls=1KNKk=1Nn=1Mm=1Lpn,k(m)
    • global feature에 대한 classification loss를 아래와 같이 계산
      • Lgcls=1NNn=1Mm=1yn,mlog(gn(m)) 
        • gn은 target n의 global feature에 대한 classification vector)
    • multiple branch가 유사한 세부사항을 주시하는것을 방지하기 위해, 같은 target의 다른 part의 distance에 대한 loss인 Ldiv사용
      • 같은 target의 다른 part의 cosine similarity를 가능한 낮게 유지
      • Ldiv=1NK(K1)Nn=1Kkikjfn,kip,fn,kjpfn,kip2fn,kjp2
    • 최종 loss는 아래와 같음
      • L=α(Lpcls+Lptri)+β(Lgcls+Lgtri)+γLdiv
        • α, β, γ는 각각 3, 0.3, 2
  • Inference
    • ByteTrack을 기반으로 Re-ID feature를 feature distance matrix로 계산하는 DeepSORT와 유사한 방법 이용
      • part feature를 global feature와 Re-ID에 concatenate
      • feature distance matrix dfeat는 아래와 같음
    • dfeat=1Similarity(˜ft1,ft)
      • cosine similarity 이용, ˜ft1는 tracklet의 feature, ft는 target의 feature
    • 지수 이동 평균 방식을 사용하여 frame t에서  \( i_{th} \) tracklet에 match된 feature ˜fti를 update
    • IoU distance matrix dIoU는 아래와 같음
      • dfeat=1IoU(bdet,bpre)
        • b는 bounding box
      • 멀리 떨어진 object의 간섭을 피하기 위해 IoU distance가 1미만(bounding box가 overlap 되는 경우)인 pair에 대해서만 고려
        • ˜dfeat=1(1dfeat)(dIoU<1)
    • 최종 distance matrix는 아래와 같으며, association threshold는 0.5로 설정
      • d=˜dfeatdIoU

 

  • MOT17과 MOT20 dataset에서의 성능 비교

  • DanceTrack dataset에서의 성능 비교

  • 제안한 요소들의 적용 여부에 따른 성능 변화

 

  • MOT에 fine-grained representation이 필수적이라고 주장
    • 세분화된 appearance representation의 탐색 제안
  • aligning semantic과 aggregating contextual information을 위해 FAFPN 제안
  • label 없이 object의 다른 부분에 효과적으로 focus하고, self-attention을 이용하여 background noise를 필터링하는 MPMG 제안
  • positive sample과 negative sample의 균형을 맞춰서 이용하는 SGS 학습 방법 제안

 

 

논문 링크

https://ieeexplore.ieee.org/document/10203280

 

 

참고 링크

https://cvml.tistory.com/5

 

728x90
반응형

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.