Paper Reading/Review [리뷰] Quo Vadis: Is Trajectory Forecasting the Key Towards Long-Term Multi-Object Tracking? - 728x90 반응형 이번에는 NeurIPS 2022에 발표된 논문인 Quo Vadis: Is Trajectory Forecasting the Key Towards Long-Term Multi-Object Tracking?를 읽고, 리뷰해보고자 합니다. Index1. Background 1.1. Homography 1.2. Graph Neural Network 1.3. Bi-Partite Matching2. Abstract3. Introduction4. Related Work5. Method 5.1. Overview 5.2. Data-driven Homography Estimation 5.3. Forecasting 5.4. Tracking via Forecasting6. Experiment7. Conclusion 1. Background 1.1. Homography Homography 0. 들어가기에 앞서 본 게시글은 복잡한 내용을 제외하고, 개념적으로 가볍게 homography matrix가 무엇인지 알아보기 위해 작성한 글입니다. 더욱 자세한 내용을 알고싶다면, 아래의 참고 링크 부분 alstn59v.tistory.com 1.2. ByteTrack Graph Neural Network 0. 들어가기에 앞서 본 게시글은 개념적으로 가볍게 GNN이 무엇인지 알아보기 위해 작성한 글입니다. 더욱 자세한 내용을 알고싶다면, 아래의 참고 링크 부분의 링크를 참고 바랍니다. 1. 개념 grap alstn59v.tistory.com 1.3. ByteTrack Bi-Partite Matching 0. 들어가기에 앞서 본 게시글은 복잡한 수학 내용 대신, 개념적으로 가볍게 bi-partite matching이 무엇인지 알아보기 위해 작성한 글입니다. 더욱 자세한 내용을 알고싶다면, 아래의 참고 링크 부분 alstn59v.tistory.com 2. Abstract 최근 MOT tracker의 많은 발전이 있었지만, 여전히 3초보다 긴 occlusion의 10% 미만에 대해서만 association를 정상 수행 occlusion이 길어지면 association에 대한 검색 공간이 커짐 missing key가 미래의 trajectory에 대한 근거라고 제안 moving agent에 대한 작지만 다양한 trajectory 예측 세트가 association에 대한 검색 공간을 크게 감소시켜, long-term track에 대해 robust 해짐 3. Introduction 최근 SOTA를 달성한 tracker는 regression과 combinatorial optimization을 re-id model과 결합 짧은 occlusion에는 효과적 occlusion이 길어질수록 가능한 association 집합이 증가하며, 이에따라 3초 이상 지속되는 occlusion에 대해 10% 정도만 제대로 tracking함 따라서 re-id model은 occlusion을 해결하기에 적합하지 않음 인간의 움직임은 관찰할 수 없는 요소에 의해 이루어지기 때문에, 단순한 선형모델로 추측하기 힘듬 association 집합 search space를 줄이기 위해, 장기 trajectory 예측 제안 tracking시 perspective projection의 영향을 받지 않지만, bird’s-eye view에서 효과를 발휘 bird’s-eye view에서 2D bounding box의 localization은 시간적으로 일관성 필요 data-driven 방식으로 sequence당 하나의 homography를 추정하여 해결 4. Related Work multi-object tracking 초기의 tracker는 association의 최적화와 hand-crafting 및 motion 기반의 descriptor에 초점 최근의 tracker는 data 중심이며, 주로 appearance에 초점 regression을 이용한 방법은 detection이 누락되었을 때도 object에 대해 localization이 가능하며, 짧은 시간의 occlusion을 해결하기 위해 re-id model과 함께 사용 Tracking without bells and whistles, How to train your deep multi-object tracker, Tracking objects as points, …, etc 그러나 occlusion 이후, object의 속도가 빠른 경우 tracking 실패 긴 시간의 occlusion을 해결하기 위해 graph neural network를 이용한 방법이 있지만, 계산 cost가 높음 Learning a neural solver for multiple object tracking, GNN3DMOT, Learnable Onine Graph Representations for 3D Multi-Object Tracking, …, etc trajectory forecasting 초기의 forecasting은 physical model을 기반으로 한 결정론적 방법 후기의 forecasting은 주위 상황과 상호작용을 모델링하는데 중점을 둔 LSTM기반의 encoder-decoder를 사용한 방법 가장 최근의 forecasting은 가능한 미래 trajectory의 분포를 배우는 GAN을 사용한 방법 Social GAN, Social-BiGAT, Social Ways, MG-GAN, Goal-GAN, …, etc 최근 non-linear modeling을 위해 보행자의 목표, 의도에 대한 예측과 다양한 trajectory를 산출하기 위한 multimodal posterior distribution을 추정하는데 노력 5. Method 5.1. Overview sequence 전체에 대한 이미지 평면을 3D로 매핑하는 homography 행렬 H 추정 tracker의 output과 H를 이용하여 bird’s-eye view에서의 tracking을 수행하도록 model 통합 trajectory forecasting network를 사용하여 bird’s-eye view에서의 손실된 track 예측 예측을 online tracker에 통합하고, 새로운 탐지를 기존 track에 연결해 occlusion 해결 5.2. Data-driven Homography Estimation monocular object tracking과 forecasting을 결합하기 위해 sequence에서 detection과 track을 bird’s-eye view space의 좌표로 변환이 필요함 이미지 평면에서 2D object detection을 고려했을 때, 하단 중심의 위치를 2D bird’s-eye view space의 좌표에 매핑하는 homography H를 찾음 sequence의 첫 번째 frame의 추정되거나 알려진 3D point cloud를 재구축 하기 위해 depth estimator를 synthetic dataset을 이용하여 학습 semantic segmentation network를 이용하여 평면 영역을 mask, select하여 지면에 맞춤 지면의 법선 vector를 추정하고, 평면을 XY평면에 정렬 Z축을 따라 접지된 지점을 projection하여 지면의 지점과 bird’s-eye view space의 좌표사이에 대응 관계를 만들어 H 추정 지평선 근처의 픽셀에 대한 homography 변환을 선형화하여 변환의 발산 방지 Static camera 첫 번째 frame에 대해서만 H 계산하여 이용 Moving camera 각 frame에 대해 Ht를 계산하여 이용 optical flow를 사용하여 지면 픽셀간의 대응 관계를 찾아내고, 이를 이용하여 두 점 집합의 translation vector를 계산 경험적으로, rotation없이 translation을 추정하는 것이 더 robust한 camera의 motion을 계산한다는 것을 발견 5.3. Forecasting bird’s-eye view에서 object의 localization은 미래 trajectory를 forecasting할 수 있도록 함 고정된 크기의 과거 trajectory의 GT가 필요 forecasting된 trajectory는 noisy하고 길이가 다양함 forecasting model은 많은 prediction을 장려하고, L2 distance를 최소화하는 metric에 최적화 Preprocessing 고정된 크기의 관측된 trajectory를 입력으로 사용하는 LSTM encoder-decoder 구조 사용 bird’s-eye view에서 localization된 동일한 track ID의 detection을 이용하여 입력 trajectory 구성 localization noise를 보정하기 위해 kalman filter를 사용하여 noisy한 관측을 smoothing 하고, trajectory를 linearly extrapolation 하여 필요한 고정된 입력 길이를 얻음 Trajectory forecasting design patterns 실험 에서 아래의 주요 설계 패턴을 포함 Stochasticity 확률적 trajectory predictor를 사용하여 미래 trajectory의 불확실성을 고려하기 위해 가능한 여러 trajectory를 sampling 할 수 있음 Social GAN의 접근 방식을 따르고 GAN 모델을 학습하고 다양한 많은 sample들의 loss로 학습 Social Interactions 주위 상황은 object의 미래 motion에 영향을 미침 pooling, attention, graph neural network를 활용하여 상호작용 예측 tracking에서 상호작용이 중요한지 파악하기 위해 Social GAN활용 Multimodality and Diversity multi-generator GAN에서 가능한 적은 sample을 이용하여 여러 decoder head를 학습 후, 하나의 장면에서 다양한 예측을 수행 5.4. Tracking via Forecasting visible objects를 tracking 할 수 있는 tracker가 있다고 가정 새로운 detection에 의해 track이 update되면 활성화 된 것으로 간주하고 활성화 세트 SA에 유지, 그렇지 않으면 비활성화 세트 SI에 유지 각 frame t에 대해 tracker는 track O=(o1,…,oM)의 output을 가짐 oi=(IDi,bi,fi) ID∈N+, b∈R4, f∈RD ID는 track의 id, b는 pixel space의 bounding box, f는 D차원의 appearance feature vector 추정된 H를 사용하여 bird’s-eye view space(x∈R2)의 bounding box를 localization Quo Vadis? track이 일시적으로 손실되어 비활성화 되면 해당 track을 memory bank로 이동 후, trajectory 예측 model을 사용하여 k개의 길이가 τmax인 trajectory 예측 다시 활성화 될 때 까지 예측된 trajectory를 따라 이동하며, 각 frame 마다 완전히 새로운 trajectory를 예측하지 않음 Filtering and removing predictions 확률적으로 여러 trajectory의 예측을 하는 경우, 부정확하거나 오래된 예측을 제한하여 잘못된 association의 가능성을 줄임 예측 trajectory의 최대 수명을 τmax로 제한 비활성 track의 모든 예측이 τmax 이전에 제거되면, 전체 track을 제거 결국에는 visible object가 detection된다고 가정하고, τvis frame 이상에 대한 예측을 제거 카메라에 더 가까운 object와의 overlap이 25% 이하인 경우, visible object로 간주 Matching predictions with new detections 비활성 track i와 새로운 detection j는 기존의 방법에 따라 bi-partitie matching을 이용하여 match하며, 이때의 association cost cij는 아래와 같음 cij=(ΔIoU+max(τL2−ΔL2,0))⋅(ΔApp≥τApp and ΔIoU≥τIoU) ΔIoU는 두 bounding box 사이의 IoU score, ΔL2는 bird’s-eye view에서 prediction i와 detection j간의 euclidean distance, ΔApp은 visual feature fi와 fj의 cosine distance, τL2, τIoU, τApp은 matching을 위한 threshold 잘못된 association을 줄이기 위해 시각적으로 일치하지 않는 association에 대한 필터 역할을 하는 최소한의 τApp과 τIoU가 필요 실제 공간의 spatial distance를 기반으로 association하면 recall이 높아지고 IDSW가 줄어들지만, 복잡한 장면에서 ID transfer error가 증가할 수 있음 6. Experiment MOT17 validation dataset에서의 사용한 요소에 따른 성능 차이 threshold 사용 유무에 따른 성능 차이 다양한 tracker에 제시된 알고리즘을 사용하였을 때, 성능 향상 MOT17, MOT20의 test dataset에서의 성능 비교 7. Conclusion 조합된 model을 이용하여 구축한 bird’s-eye view에서 여러 가지의 실현 가능한 trajectory 예측을 활용하는 이점을 보여줌 특히 긴 시간 동안의 occlusion 이후, object ReID에 중점 trajectory 예측 model을 MOT와 결합 아래와 같은 한계 존재 monocular video와 trajectory 예측을 바탕으로 bird’s-eye view에서 trajectory를 구축해야하므로, 모델이 복잡함 bird’s-eye view를 구축하기 위해 homography 변환을 이용하는데, homography 행렬이 추정의 품질에 의존하므로 3D localization 오류에 민감 논문 링크 https://arxiv.org/abs/2210.07681 https://github.com/dendorferpatrick/QuoVadis 728x90 반응형 좋아요공감공유하기 URL 복사카카오톡 공유페이스북 공유엑스 공유 게시글 관리 구독하기Minsu Jo's Development Log 저작자표시 비영리 동일조건 Contents 1.Background 1.1.Homography 1.2.ByteTrack 1.3.ByteTrack 2.Abstract 3. Introduction 4.RelatedWork 5. Method 5.1.Overview 5.2.Data-driven Homography Estimation 5.3.Forecasting 5.4.Tracking via Forecasting 6. Experiment 7. Conclusion 당신이 좋아할만한 콘텐츠 [리뷰] TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captured Scenarios 2023.11.14 [리뷰] A Normalized Gaussian Wasserstein Distance for Tiny Object Detection 2023.09.07 [리뷰] KalmanNet: Neural Network Aided Kalman Filtering for Partially Known Dynamics 2023.03.27 [리뷰] Hard to Track Object with Irregular Motions and Similar Appearances? Make It Easier by Buffering the Matching Space 2023.03.21 댓글 0 + 이전 댓글 더보기 Minsu Jo's Development LogMinsu Jo 님의 블로그입니다.구독하기