이후 qisa가 feed forward neural network를 통과하고 다시 Normalized까지 거치고 나면 최종 output인 ^qic가 생성
최종 output은 현재 frame의 entrance query와 결합되어 다음 frame으로 전달
5.6. Overall Optimization
학습 시, train loss는 frame별로 계산되며, 전체 loss는 train set에 대한 모든 GT의 수에 의해 정규화된 모든 frame의 tracking loss의 합
Lot(Y,^Y)=∑Nn=0(Lt(Y,^Y))∑Nn=0(Vi)
N : 비디오 시퀀스 길이, Yi와 ^Yi : Tiframe의 예측과 GT, Vi : Vit+Vie로 Ti frame의 총 GT 수, Vit와 Vie : 추적된 object와 새로운 track의 수, Lt : Deformable DETR의 detection loss와 유사한 단일 frame의 tracking loss
Lt(Y,^Y)=λclsLcls+λl1Ll1+λgiouLgiou
Lcls : focal loss, Ll1 : L1 loss, Lgiou : generalized된 IoU loss, 각 loss에 곱해진 λ∗는 각 요소의 가중치
5.7. Difference between our track loss and detection loss in Deformable DETR
Deformable DETR의 tracking loss와 detection loss의 주요 차이점은 라벨 할당임
detection loss의 경우, 라벨 할당은 모든 GT와 prediction간의 hungarian algorithm에 의해 결정
tracking loss의 경우, 트랙 쿼리는 특정 object를 예측할 책임이 있기 때문에 GT와 쿼리가 추적하는 object에 의해 결정
빈 쿼리는, 예측의 GT 객체는 빈 쿼리의 prediction과 새로운 track의 GT 사이의 hungarian algorithm에 의해 결정
6. Experiment
τen=0.8, τex=0.6, M=5인 환경에서 실험
MOT dataset에 대한 다른 tracker와의 성능 비교
M값의 변화에 따른 성능 변화
TAN과 MFT의 적용에 따른 성능 변화
확률적으로 track query를 무작위로 지우는 것에 따른 성능 변화
확률적으로 FP인 track query를 무작위로 삽입하는 것에 따른 성능 변화
7. Conclusion
Deformable DETR 기반의 IoU-matching이 요구되지 않는 트랙 쿼리의 반복적인 업데이트를 이용하는 end-to-end MOT 프레임워크 제안