이 논문은 Video Super-Resolution을 위한 end-to-end 구조를 제안하는 논문이다.

Video Super Resolution (VSR)

VSR을 하는 직접적인 방법은 single-image super-resolution(SISR)을 프레임마다 하는 것인데, SISR은 프레임간의 관계를 고려하지 않기 때문에, 깜빡거리는 결과가 나올 수 있다. 기존의 VSR은 여러 low-resolution(LR) 프레임들을 인풋으로 받고, 연속된 LR 프레임들의 움직임을 고려하여 high-resolution(HR) 프레임들을 내놓는다. 딥러닝 기반의 VSR은 보통 모션 예측과 보정 과정으로 이루어진다. 문제점은 모션 예측에 의존성이 높고, CNN을 이용하기 때문에 블러된 아웃풋이 나온다는 점이다.

이 논문에서는 새로운 end-to-end 뉴럴넷을 제안한다. 모션 정보가 dynamic upsampling filter를 만드는 데에 쓰인다. 만들어진 dynamic upsampling filter와 LR의 center frame을 가지고 HR frame이 만들어진다. 이 연구는 state-of-the-art인 VSRnet보다 더 날카로운 결과물을 만들 수 있다.

Dynamic Upsampling Filters

기존의 bilinear나 bicubic upsampling등의 방법들은 직접적인 모션 보정으로, 날카롭게 보정하기 힘들다. 이와 반대로 이 논문에서는 dynamic filter network를 사용한다. 이 filter들은 지역적으로 생성된다. dynamic filter들은 LR에서 주변 픽셀을 관찰하여 만들어지는데, 직접적인 모션 보정을 피할 수 있게 해준다.

Residual Learning

디테일들이 linear filtering으로는 보정이 되지 않을 수 있는데, 이 문제를 해결하기 위해 고주파수 디테일을 얻기 위해 residual image를 추가적으로 예측한다. 이 residual image는 여러 input 프레임(앞뒤 몇개의 프레임)을 통해 얻어진다. Dynamic Upsampling을 한 이미지가 이 residual image와 합쳐지면 더 날카롭고 앞뒤 문맥에 적합한 프레임이 얻어진다.

Network Design

filter와 residual generation network는 weight를 공유함으로써 오버헤드를 줄여준다. 공유된 부분의 네트워크 구조(3D layer)는 dense block에서 착안되었다. 각 input 프레임들은 공유된 2D convolutional layer들로 프로세싱되고 시간적 순서로 합쳐진다. 이것이 시공간 feature map인데, 이 3D dense block으로 들어가고, 각 가지들로 나눠져 처리되어 2개의 output(dynamic filter, residual image)를 만든다. 이후 LR 프레임이 dynamic filter와 convolution되어 upsampling된 후 residual image와 합쳐지면 HR 프레임이 얻어진다.

Temporal Augmentation

training data를 만들기 위해서는 정방향, 역방향, 프레임 건너뛰기 등을 이용할 수 있다.