Paper Reading/Review

[리뷰] Focus On Details: Online Multi-object Tracking with Diverse Fine-grained Representation

728x90

이번에는 CVPR 2023에 게재된 논문인 ocus On Details: Online Multi-object Tracking with Diverse Fine-grained Representation를 읽고, 리뷰해보고자 합니다.

Index
1. Background
1.1. Triplet Loss
2. Abstract
3. Introduction
4. Related Work
5. Method
5.1. Overview
5.2. Flow Aligned FPN
5.3. Multi-head Part Mask Generator
5.4. Train and Inference
6. Experiment
7. Conclusion

1. Background

1.1. Triplet Loss

Triplet Loss

1. 개념 무작위 dataset을 뽑은 후, positive pair와 negative pair들과 비교 positive는 가까이, negative는 멀리 배치 2. 계산 방법 \( L(A, P, N)=\max(\Vert f(A)-f(P) \Vert^{2}-\Vert f(A)-f(N) \Vert^{2}+\alpha, 0) \) \( A \)는 anchor

alstn59v.tistory.com

2. Abstract

MOT에서 각 object의 ID를 유지하기 위해 discriminative representation이 필요
- occlusion이 발생하면 bounding box의 영역이나 object의 center point에 대한 representation은 신뢰할 수 없음
global, local 관점에서 appearance에 대한 fine-grained representation에 대한 탐색 제안
pixel의 위치를 바꾸기 위해 서로 다른 해상도의 feature map 간에 semantic flow 생성 후, fine-grained feature를 추출하기 위한 Multi-head Part Mask Generator 제시

3. Introduction

MOT problem은 camera motion 등에 의해 object의 occlusion이 불가피
- appearance representation에 대한 요구사항이 엄격해짐
이전의 tracker들이 사용한 feature extract 방법은 noise에 민감
- position cue를 사용하여 만족스러운 결과를 얻을 수 있으며, appearance cue는 추가 개선에 불리
appearance-based 방법에 대한 재검토
- bounding box의 local detail에 초점을 맞춤
- global과 local 정보를 이용하여 서로를 보완한 apperance representation 생성
object의 appearance를 extract하기 위해 주로 FPN을 이용
- 해상도 차이에 의한 semantic mis-alignment를 해결하기 위해 Flow Alignment FPN 제안
label 없이 자세한 부분의 mask를 생성하기 위해 transformer의 multi-head self-attention에 영향을 받은 Multi-head Part Mask Generator 제안
Re-ID를 합리적으로 훈련하기 위해, shuffle group sampling 방법 제안
- video frame을 순서대로 짧은 segment로 그룹화 한것을 shuffle하여 이용
- positive와 negative sample의 균형을 유지

4. Related Work

Tracking-by-detection
- appearance와 motion이 중요하지만, 항상 신뢰할 수 있는 정보는 아님
- SORT, DeepSORT, … etc
Re-ID in MOT
- bounding box의 영역이나 center point의 feature에 대해 global embedding 생성하여 이용
  - 잘못 tracking 된 object에 대해서는 representation이 효과를 발휘하지 못함
- FairMOT, CSTrack, … etc

5. Method

5.1. Overview

detector로 YOLOX 이용

5.2. Flow Aligned FPN

feature aggregation을 위한 방법으로 feature pyramid network를 주로 이용하였음
- 그러나, down-sampling과 서로 다른 크기의 feature map간 semantic mis-alignment 발생
fine-grained feature를 얻기 위해 flow alignment module을 이용
- 서로 다른 feature map간의 semantic flow를 생성하고, alignment에 대한 guide와 spatial dislocation 제거하는데 이용
- FPN의 aggregation process 최적화하고, flow alignment FPN 구성
fine-grained representation을 생성하는 기초가 되는 semantic 정보와 고해상도 feature map으로 집계

5.3. Multi-head Part Mask Generator

최근에는 global embedding을 최적화 하기 위해 잘 설계된 모듈에 의존하지만, 이는 semantic ambiguity를 유발하는 embedding으로 일반화 하는 문제가 있으며, occlusion이나 noise에 영향을 받음
위의 문제를 극복하기 위해, object를 detail한 부분을 집중하여 appearance representation을 탐색하는 것을 제안
- feature map의 강화를 위해 attention 이용
- transformer의 multi-head self-attention에 영감을 받아 object의 각기 다른 부분에 초점을 맞추는 방법 이용하여 각 부분의 mask를 생성

5.4. Train and Inference

이전의 연구는 더 나은 탐지 성능을 위해 video frame을 shuffle하여 batch에 동일한 ID의 target이 거의 포함되지 않도록 하였음
- 이러한 불균형은 model이 다른 대상 사이의 차이만을 발견하고, 공통점을 발견 못함
- 각 object를 구별하는 것이 목표인 Re-ID 에는 부적절
Shufﬂe-Group Sampling
- 위 문제를 해결하기 위해, 순차 sampling 방식을 이용하여 video frame을 그룹화하여 동일한 batch의 target은 동일한 ID를 가져서 sample의 불균형 완화
- 학습 시, 수렴 과정의 변동 폭을 줄이기 위해 그룹화된 data의 순서를 바꿔주는 전략을 이용하여 상당한 appearance variation을 가진 track segmentation 생성
Training Loss
- SGS 방식을 통해 batch에 positive sample과 negative sample이 모두 포함되므로, triplet loss를 이용하여 model 최적화
- part feature와 global feature는 아래와 같이 표현 가능
  - \( f_{part}=\{ f^{n,k}_{p}, n \in [1, 2, \dots, N], k \in [1, 2, \dots, K] \} \), \( f_{global}=\{ f^{n}_{p}, n \in [1, 2, \dots, N] \} \)
    - \( N \)은 image에서 target의 수, 각 target은 \( K \)개의 부분으로 구성)
- part feature에 대한 triplet loss는 아래와 같이 계산
  - \( L^{p}_{tri}(k)=\frac{1}{K}\sum^{K}_{k=1}{Triplet(f^{k}_{p})} \)
    - \( f^{k}_{p} \)는 target \( n \)의 \( k \)번째 part feature)
- global feature에 대한 triplet loss는 아래와 같이 계산
  - \( L^{g}_{tri}(k)=Triplet(f_{global}) \)
- \( f^{k}_{p} \)를 얻은 후, \( K \)에 대해 linear layer와 softmax의 조합은 classification result vector \( P=\{ p^{k}_{n},k \in [1,2,\dots,K], n \in [1,2,\dots,N] \} \)에 각각 적용
  - \( p^{k}_{n} \)는 target \( n \)의 \( k \)번째 part feature의 classification vector, \( M \)차원이며 dataset에서 모든 target의 수)
- target ID label은 다음과 같이 나타냄
  - \( Y=\{ y_{n,m}, n \in [1,2,\dots,N], m \in [1,2,\dots,M] \} \)
    - \( y_{n,m} \)은 target \( n \)의 ID와 target \( m \)의 ID가 같은지 다른지를 0 or 1로 표시)
- target \( n \)의 \( k \)번째 part feature에 대한 classification loss를 아래와 같이 계산
  - \( L^{p}_{n,k}(m)=y_{n,m}\log{(p^{k}_{n}(m))}, m \in [1,2,\dots,M] \)
- 전체 part features에 대한 classification loss는 아래와 같이 계산
  - \( L^{p}_{cls}=-\frac{1}{K \cdot N}\sum^{K}_{k=1}\sum^{N}_{n=1}\sum^{M}_{m=1}L^{p}_{n,k}(m) \)
- global feature에 대한 classification loss를 아래와 같이 계산
  - \( L^{g}_{cls}=-\frac{1}{N}\sum^{N}_{n=1}\sum^{M}_{m=1}y_{n,m}\log{(g_{n}(m))} \)
    - \( g_{n} \)은 target \( n \)의 global feature에 대한 classification vector)
- multiple branch가 유사한 세부사항을 주시하는것을 방지하기 위해, 같은 target의 다른 part의 distance에 대한 loss인 \( L_{div} \)사용
  - 같은 target의 다른 part의 cosine similarity를 가능한 낮게 유지
  - \( {L_{div}} = \frac{1}{{N \cdot K(K - 1)}}\sum\limits_{n = 1}^N {\sum\limits_{{k_i} \ne {k_j}}^K {\frac{{\left\langle {f_p^{n,{k_i}},f_p^{n,{k_j}}} \right\rangle }}{{{{\left\| {f_p^{n,{k_i}}} \right\|}_2} \cdot {{\left\| {f_p^{n,{k_j}}} \right\|}_2}}}} } \)
- 최종 loss는 아래와 같음
  - \( L = \alpha \cdot (L_{cls}^p + L_{tri}^p) + \beta \cdot (L_{cls}^g + L_{tri}^g) + \gamma \cdot {L_{div}} \)
    - \( \alpha \), \( \beta \), \( \gamma \)는 각각 3, 0.3, 2
Inference
- ByteTrack을 기반으로 Re-ID feature를 feature distance matrix로 계산하는 DeepSORT와 유사한 방법 이용
  - part feature를 global feature와 Re-ID에 concatenate
  - feature distance matrix \( d_{feat} \)는 아래와 같음
- \( d_{feat}=1-Similarity(\tilde{f}^{t-1}, f^{t}) \)
  - cosine similarity 이용, \( \tilde{f}^{t-1} \)는 tracklet의 feature, \( f^{t} \)는 target의 feature
- 지수 이동 평균 방식을 사용하여 frame \( t \)에서 \( i_{th} \) tracklet에 match된 feature \( \tilde{f}^{t}_{i} \)를 update
- IoU distance matrix \( d_{IoU} \)는 아래와 같음
  - \( d_{feat}=1-IoU(b_{det}, b_{pre}) \)
    - \( b \)는 bounding box
  - 멀리 떨어진 object의 간섭을 피하기 위해 IoU distance가 1미만(bounding box가 overlap 되는 경우)인 pair에 대해서만 고려
    - \( \tilde{d}_{feat}=1-(1-d_{feat})\cdot(d_{IoU} < 1) \)
- 최종 distance matrix는 아래와 같으며, association threshold는 0.5로 설정
  - \( d=\sqrt{\tilde{d}_{feat}\cdot d_{IoU}} \)

6. Experiment

MOT17과 MOT20 dataset에서의 성능 비교

DanceTrack dataset에서의 성능 비교

제안한 요소들의 적용 여부에 따른 성능 변화

7. Conclusion

MOT에 fine-grained representation이 필수적이라고 주장
- 세분화된 appearance representation의 탐색 제안
aligning semantic과 aggregating contextual information을 위해 FAFPN 제안
label 없이 object의 다른 부분에 효과적으로 focus하고, self-attention을 이용하여 background noise를 필터링하는 MPMG 제안
positive sample과 negative sample의 균형을 맞춰서 이용하는 SGS 학습 방법 제안

논문 링크

https://ieeexplore.ieee.org/document/10203280

참고 링크

https://cvml.tistory.com/5