[논문정리]Training-Time-Friendly Network for Real-Time Object Detection

2020. 1. 14. 13:14ㆍPapers/Object Detection

3333333Training-Time-Friendly Network for Real-Time Object Detection

Zili Liu, Tu Zheng, Guodong Xu, Zheng Yang, Haifeng Liu, Deng Cai

Accepted to AAAI2020

Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG); Image and Video Processing (eess.IV)

Abstract

현대 객체 검출기는 짧은 학습 시간, 빠른 추론 속도, 높은 정확도를 동시에 달성하길 원한다.
이를 달성하기 위해서 Training-Time-Friendly Network(TTFNet)을 제안한다.
해당 모델의 특징으로는 가벼운-헤드, 단일 stage, 그리고 Anchor-free 디자인 이다.
라벨링된 박스들로부터의 더 많은 훈련 샘플을 인코딩하면 배치 크기를 증가시키는 것과 유사한 역할을 수행하며, 이는 learning rate를 높이고 훈련과정을 과속화한다.
학습 샘플들을 인코딩하기 위한 Gaussian Kerenl을 소개한다.
또한 정보 활용도를 높이기 위해 초기 샘플 가중치를 설계한다.
MS COCO 데이터셋의 실험에 따르면 TTFNet은 학습 시간, 추론 속도 및 정확도의 균형을 유지하는데 큰 이점이 있다.
SOTA 성능을 유지하면서 기존의 실시간 탐지기와 비교하여 학습 시간을 7배 이상 단축했다.
또한 TTFNet-18 및 TTFNet-53의 초고속 버전은(학습시간이 짧은 버전) 각각 훈련 시간의 1/10 미만으로 SSD300 및 YOLOv3보다 성능이 우수하다. (요즘 모델의 경우에는 직접 학습하기에 너무 큰 모델들이 존재하기 때문에 직접 돌려보기에는 어려운 단점들이 존재했지만 해당 논문의 모델을 통해서 이러한 부분을 해결할 수 있다.)

Introduction

객체 검출기의 정확도, 추론 속도 및 학습 시간은 광범위하게 관련되어 있으며 지속적으로 개선되었다.
직관적으로, 추론 속도가 빠른 검출기는 훈련 시간이 짧아야한다.
하지만 실제로 대부분의 실시간 탐지기는 비 실시간 탐지기보다 훈련 시간이 더 오래 걸린다.
높은 정확도의 검출기는 크게 두 가지 유형 중 하나로 분류될 수 있다. 이러한 검출기는 추론 속도가 느리고 훈련 시간이 많이 소요된다.
첫번째 유형의 네트워크는 일반적으로 무거운 검출 헤드 또는 복잡한 후처리에 의존한다.
이러한 디자인은 정확도 향상 및 빠른 수렴에 도움이 되지만 추론 속도가 크게 느려진다. (무거운 검출 헤드와 복잡한 후처리에 의해)
따라서 이 유형의 네트워크는 일반적으로 실시간 응용 프로그램에 적합하지 않다.
추론 속도를 높이기 위해 연구자들은 정확도를 유지하면서 탐지 헤드와 후처리를 단순화하려고 노력했다.
CenterNet이라는 최근 연구에서 추론 시간이 더 짧아졌다. backbone 네트워크에서 소비하는 시간과 거의 같도록 탐지 헤드와 후처리를 단순화 하였다.
그러나 이러한 모든 네트워크에는 필연적으로 오랜 교육 시간이 필요하다.
이러한 네트워크는 단순화로 인해 훈련하기가 어렵기 때문에 데이터 호가대 및 긴 훈련 일정에 크게 의존한다.
예를 들어, CenterNet은 MS COCO데이터셋 기준으로 학습하는데 140 epochs이 필요하다.
반대로, 첫번째 유형의 네트워크는 일반적으로 12 epoch만을 필요로 한다.
따라서 이러한 문제점을 해결하기 위해서 실시간 객체 성능의 SOTA를 보유하면서도 짧은 훈련 시간을 가질 수 있도록 초점을 맞춘다.
이전 연구에 따르면 배치 크기가 더 크면 더 큰 learning rate를 사용할 수 있다.
라벨이 달린 상자에서 더 많은 훈련샘플을 인코딩하는 것은 배치 크기를 늘리는 것과 유사하다.
특징을 인코딩하고 손실을 계산하는데 소요되는 시간은 특징 추출 시간에 비해 무시할 수 있을 정도로 빠르기 때문에 기본적으로 추가 검사 없이 더 빠른 수렴을 안전하게 얻을 수 있다.
반대로, 크기 회기(size regression)을 위해 객체 중심에만 집중하는 CenterNet은 객체 중심 근처의 정보를 활용할 기회를 잃는다.
이 디자인은 실험에 따라 느린 수렴의 주요 원인으로 확인되었다.
훈련 시간을 단축하기 위해 Gaussian kernel을 사용하여 위치화 및 회귀에 대한 훈렴 샘플을 인코딩하는 새로운 접근법을 제안한다.
네트워크가 라벨이 되어있는 상자를 더 잘 사용하여 더 많은 지도 신호를 생성할 수 있으므로 더 빠른 수렴을 위한 전제 조건을 제공한다.
구체적으로, 객체 중심 주변의 하위 영역은 kernel을 통해 구성되며 이 영역에 밀집된 훈련 샘플을 추출한다.
또한 Gaussian 확률은 회귀 샘플의 가중치로 처리되어 객체 중심 근처에서 해당 샘플을 강조한다.
또한 큰 상자에서 제공하는 추가 정보를 활용하고 작은 상자에서 제공한 정보를 유지하기 위해 적절한 정규화를 적용한다.
해당 방식은 FPN과 같은 다른 구성 요소 없이도 모호하고 저품질 샘플을 줄일 수 있다.
또한 결과를 수정하는데 도움이되는 오프셋 예측이 필요하지 않으므로 효과적이고 통일되며 직관적이다.
가벼운-헤드, 단일 스테이지 및 anchor-free 디자인과 함께 이 논문은 학습 시간, 추론 속도 및 정확도 사이에서 균형이 잘 맞는 최초의 물체 탐지기를 제공한다.
Dataset : MS COCO / GPU = 8개의 GTX 1080Ti
TTFNet-18은 1.8시간의 학습을 통해 25.9 mAP / 112 FPS를 달성할 수 있다.
TTFNet-53은 3.1시간의 학습을 통해 32.9 mAP / 155 FPS를 덜성할 수 있다.
이와 같은 특징을 활용하면 한정된 컴퓨팅 자원일때도 충분히 활용할 수 있다.
장기 교육 버전의 경우에는 보다 높은 성능을 얻을 수 있다.
이러한 성능은 다른 SOTA 물체 탐지기와 비교했을 때 매우 경쟁력이 있다.

Motivation

기존의 가중치 업데이트는 다음과 같이 정의 할 수 있다.
- $w_{t+1}=w_t {\eta}{1 \over n} \sum_{x{\in}B}\nabla(x,w_t)$ (1)
- 여기서 $w$ 는 network의 weight, $B$는 학습 셋으로부터 샘플된 mini-batch, $n=|B|$는 mini-batch의 크기, $\eta$는 learning rate 그리고 $l(x,w)$는 라벨링된 이미지 $x$에 대한 loss 계산이다.
이미지 $x$는 다수의 라벨링된 박스들을 포함할수도 있으며, 이러한 박스들은 학습 샘플들($s{\in}S_x$)로부터 인코딩 될 수 있다.
$m_x=|S_x|$는 이미지 $x$에서 모든 박스들로부터 생성된 샘플의 수를 나타낸다.
그러므로 (1)번 식을 다음과 같이 표현할 수 있다.
$w_{t+1}=w_t-{\eta}{1 \over n}\sum_{x{\in}B}{1 \over m_x}\sum_{s{\in}S_x}{\nabla}l(s,w_t)$ (2)
동일한 mini-batch로부터 기존의 방식(1)보다 (2)의 방식이 많은 정보량을 학습할 수 있다. 만약 mini-batch의 크기와 encoding된 이미지의 수가 같다고 생각한다면 (1)의 방식과 (2)의 방식은 약 제곱만큼의 정보의 차이가 존재한다고 볼 수 있다.
대부분의 검출기보다 몇 배 더 빠른 CenterNet은 오랜 학습 시간으로 어려움을 겪는다.
학습에서 복잡한 data augmentation을 사용한다.
augmentation은 안정적인 정확도 향상을 주지만, 이는 느린 수렴을 일으킨다.
수렴 속도에 미치는 영향을 배제하기 위해, learning rate를 높이고 augmentation을 제거해보았다.

Figure 1을 보면 큰 learning rate는 CenterNet의 빠른 수렴에 도움을 주지 않으며, augmentation을 제거하는 것은 나쁜 성능으로 이어진다.
위의 결론에 따르면, CenterNet은 훈련 중 객체의 중심에서 단일 회귀 샘플을 인코딩하기 때문이다.
이러한 설계로 인해 CenterNet은 data augmentation 및 긴 학습 일정에 크게 의존하여 비효율적인 학습 시간으로 이어진다.
학습 시간을 줄이면서 네트워크의 data augmentation에 대한 의존도를 줄이려면 회기 샘플을 인코딩하는 더 나은 전략이 필요하다고 가정한다.

Our approach

Background

CenterNet은 중앙 위치화 및 크기 회귀 두 부분으로 구성되어 객체 검출을 다룬다.
위치화를 위해 CornerNet에서와 같이 Gaussian Kerenl을 채택하여 히트맵을 생성하여 네트워크가 객체 중심 근처에서 더 높은 활성화를 생성할 수 있다.
회귀를 위해 객체 중심의 픽셀을 훈련 샘플로 정의하고 객체의 높이와 너비를 직접 예측한다.
도한 출력 stride으로인한 이산화 오류를 복구 할 오프셋을 예측한다.
네트워크가 추론하여 객체 중심 근처에서 더 높은 활성화를 생성할 수 있기 때문에 시간이 많이 걸리는 NMS는 다른 구성 요소로 대체될 수 있다.
NMS에 대한 필요성을 없애기 위해 중심 위치화를 위한 유사한 전략을 채택한다.
특히 CenterNet에서 고려하지 않는 전략이 차선책이므로 Gaussian Kernel에서 상자의 종횡비를 추가로 고려한다.
크기 회귀와 관련하여 주류 접근 방식은 전체 상자 또는 상자의 하위 사각형 영역의 픽셀을 훈련 샘플로 처리한다.
해당 논문에서는 Gaussian 영역의 모든 픽셀을 훈련 샘플로 취급할 것을 제안한다.
또한, 더 나은 정보 활용을 위해 객체 크기 및 Gaussian 확률로 계산된 가중치가 이러한 샘플에 적용된다.

Gaussian Kernel for Training

이미지가 입력으로 제공되면 네트워크에서 특징 ${\widehat{H}}{\in}R^{N{\times}C{\times}{H \over r}{\times}{W \over r}}$ 및 ${\widehat{S}}{\in}R^{N{\times}4{\times}{H \over r}{\times}{W \over r}}$를 예측한다. 4 = $x,y,w,h$의 정보
전자는 물체 중심이 존재할 수 있는 위치를 나타내는데 사용되고 후자는 물체 크기와 관련된 정보를 얻는데 사용된다.
$N,C,H,W,r$은 배치 크기, 범주 수, 입력 이미지의 높이와 너비 및 출력의 stride를 의미한다.
여기서 $C=80$ 그리고 $r=4$로 설정한다.
Gaussian Kernel은 우리의 접근 방식에서 위치화와 회귀에 모두 사용되며, $\alpha$및 $\beta$는 각각 정의하여 커널 크기를 제어한다.

Object Localization

$m$번째 라벨 상자는 $c_m$번째 범주에 속하며, 특징 맵 스케일에 선형으로 맵핑된다.
그런 다음 2D Gaussian Kernel $𝐾_𝑚 (𝑥,𝑦)=exp⁡(-{{(𝑥−𝑥_0 )^2}\over{2𝜎_𝑥^2 }}-{{(𝑦−𝑦_0 )^2}\over{2𝜎_𝑦^2 }})$, 여기서 $𝜎_𝑥={{𝛼𝑤}\over 6},𝜎_𝑦={{𝛼ℎ}\over 6}$이다.
마지막으로, 요소 별 최대 값을 $H_m$으로 적용하여 $H$의 $c_m$번째 채널을 업데이트한다.
생성된 $H_m$는 매개 변수 $\alpha$, 중심 위치 $(x_0,y_0)_m$ 및 상자 크기 $(h,w)_m$에 의해 결정된다.
$([{x \over r}],[y \over r])$을 사용하여 CenterNet에서와 같이 중심의 픽셀에 있게 한다.
$\alpha=0.54$로 설정한다.

$\alpha_f$그리고 $beta_f$는 focal loss의 파라미터이다.
$M$은 라벨링된 박스의 수이며, $\alpha_f=2$그리고 $beta_f=4$로 설정한다.

Size Regression

특징 맵 스케일에서 $m$번째 라벨링된 상자가 주어지면 다른 Gaussian Kernel이 $S_m=R^{1{\times}{H \over r}{\times}{W \over r}}$를 생성하기 위해 채택된다.
kernel의 크기는 위에서 언급한 것 처럼 $\beta$로 제어된다.
kernel와 $\beta$가 같은 경우 동일한 kernel을 사용하여 계산을 저장할 수 있다.
$S_m$의 0이 아닌 부분은 Figure 3과 같이 Gaussian-area $A_m$이라 불린다.
$A_m$은 항상 $m$ 상자 안에 있기 때문에 나머지 용지에도 하위 영역이라 한다.

하위 영역의 각 픽셀은 회귀 샘플로 처리된다.
Gaussian Area$A_m$ 영역과 출력 보폭 $r$에 픽셀 $(i,j)$이 주어지면 회귀 타겟은 $(ir,jr)$에서 4 변의 거리로 정의되며 이는 $(w_l,h_t,w_r,h_b)^m_ij$로 표현할 수 있다.
$\widehat{x_1}=ir-\widehat{W_l}s, \widehat{y_1}=jr-\widehat{h_t}s$
$\widehat{x_2}=ir+\widehat{W_r}s, \widehat{y_1}=jr-\widehat{h_b}s$ (5)
$s = 16$으로 고정되어 있는 값이다.
예측 상자 $(x_1,y_1,x_2,y_2)$는 특징 맵 스케일이 아니라 이미지 스케일이다.
만약 하위 영역에 픽셀이 포함되어 있지 않다면 학습 중에서 픽셀이 무시된다.
픽셀이 여러 하위 영역 (모호한 샘플)에 포함되어 있으면 학습 대상이 더 작은 영역의 객체로 설정된다.
이러한 모든 샘플에 대해 (5)와 같이 예측된 박스와 해당 라벨링이 된 샘플 박스를 디코딩하고 손실 계산에 GIoU를 사용한다.
$N_reg$는 회기 샘플의 수
$L_reg={1 \over N_reg}\sum_{(i,j){\in}A_m}\text{GIoU}(\widehat{B_ij},B_m){\times}W_ij$ (6)
$\widehat{B_ij}$은 $(\widehat{x_1},\widehat{y_1},\widehat{x_2},\widehat{y_2})$박스를 디코딩한 것이며, $B_m=(x_1,y_1,x_2,y_2)_m$은 이미지 스케일에서의 m번째 라벨링된 박스와 일치한다.
$W_ij$는 각 샘플의 loss 균형을 맞추기 위해서 사용하는 weight값이다.
개체의 대규모 분산으로 인해 큰 개체는 수천 개의 샘플을 생성하는 반면 작은 개체는 소수의 샘플만 생성할 수 있다.
모든 샘플에서 발생하는 손실을 정규화한 후 작은 물체로 인한 손실을 무시할 수 있어 작은 물체의 검출 성능이 저하된다.
그러므로 $W_ij$가 굉장히 중요한 역할을 한다.
$(i,j)$이 $m$번째 라벨링된 상자의 하위 영역 $A_m$안에 있다고 가정하면 다음과 같다.

여기서 $G_m(i,j)$는 $(i,j)$에서의 Gaussian 확률이고 $a_m$는 큰 물체에 포함된 작은 라벨 정보의 영역이며 작은 물체의 영역을 보존한다.
또한 이러한 샘플을 물체 중심 근처에 강조하여 애매 모호한 품질의 샘플이 미치는 영향을 줄인다.

Total Loss

$L = w_loc L_loc + w_reg L_reg$ 여기서 $w_loc = 1.0$,$w_reg = 5.0$이다.

Overall Design

backbone model로 resnet과 darknet을 사용한다.
원래 이미지의 1/4 크기로 backbone 후 up-sampled를 통하여 추출한다. MDCN (Modulated Deformable Convolution) 과 up-sample layer로 구현된다.
그런 다음 업 샘플링 된 기능은 서로 다른 목표를 위해 두 개의 헤드를 별도로 거치게됩니다.
국소화 헤드는 물체 중심 근처의 해당 위치에서 높은 활성화를 생성하는 반면 회귀 헤드는 해당 위치에서 상자의 4면까지의 거리를 직접 예측합니다.
객체 맵은 피쳐 맵에서 로컬 최대 값에 해당하므로 2D 최대 풀링을 통해 최대 값이 아닌 값을 안전하게 억제 할 수 있습니다.
그런 다음 회귀 결과를 수집하기 위해 극대값의 위치를 사용합니다.
최종적으로, 검출 결과가 달성 될 수있다.
우리의 접근 방식은 대형 및 중형 객체에 포함 된 주석 정보를 효율적으로 사용하지만 정보가 거의없는 소형 객체에 대한 프로모션은 제한됩니다.
짧은 교육 일정으로 작은 물체에 대한 감지 성능을 향상시키기 위해 고해상도지만 낮은 수준의 기능을 도입하는 바로 가기 연결을 추가합니다.
바로 가기 연결은 백본의 2, 3 및 4 단계에서 제공되는 기능을 소개하며 각 연결은 3X3 회선 레이어로 구현됩니다.
단계 2, 3 및 4의 계층 수는 3, 2 및 1로 설정되며 ReLU는 짧은 연결에서 마지막 계층을 제외하고 각 계층을 따릅니다.

Experiments

Conclusion

우리는 경험적으로 더 많은 훈련 샘플이 학습 속도를 높이고 가우스 커널을 사용하여 훈련하는 새로운 방법을 제안 함을 보여줍니다.
교육 시간, 추론 속도 및 정확도의 균형을 유지하기위한 효율적인 솔루션으로, 교육 시간에 민감한 작업에 더 많은 잠재력과 가능성을 제공 할 수 있습니다.

'Papers > Object Detection' 카테고리의 다른 글

MLP-Mixer: An all-MLP Architecture for Vision (0)	2022.05.24
[논문정리]Cascade RPN: Delving into High-Quality Region proposal Network with Adaptive Convolution (0)	2020.02.27
[논문정리] Gaussian YOLOv3: An Accurate and Faster Object Detector Using Localization Uncertainty for Autonomous Driving (0)	2020.01.20
Real-Time Object Detection YOLO (중요부분 요약) (0)	2019.12.19

DYDeepLearning

DYDeepLearning

태그

최근글

댓글

공지사항

아카이브

3333333Training-Time-Friendly Network for Real-Time Object Detection

Zili Liu, Tu Zheng, Guodong Xu, Zheng Yang, Haifeng Liu, Deng Cai

Accepted to AAAI2020

Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG); Image and Video Processing (eess.IV)

Abstract

Introduction

Motivation

Our approach

Background

Gaussian Kernel for Training

Object Localization

Size Regression

Total Loss

Overall Design

Experiments

Conclusion

'Papers > Object Detection' 카테고리의 다른 글

관련글

티스토리툴바