• Visualizing the Loss Landscape of Neural Nets

    [Abstract] 이 논문에서는 왜 특정 네트워크 구조가 학습이 잘되고 일반화가 잘되는지를 알기 위해, loss function의 구조와 지형을 시각화해보고자 한다. [1] Introduction 이 논문에서 알아보고자 하는 것은 loss function의 특징 네트워크 구조가 loss지형에 미치는 영향 non-convex 구조가 학습에 미치는 영향 loss function의 지형이 일반화 특성에 미치는 영향 이다. 그리고 이들은 filter...


  • On the Variance of the Adaptive Learning Rate and Beyond

    [Abstract] learning rate warmup은 학습을 안정화시키고, 수렴을 가속화하고 adaptive SGD의 일반화를 개선하는 데에 좋다. 이 논문에서는 그 매커니즘을 자세히 알아본다. adaptive lr은 초기 단계에 분산이 큰데, warmup이 분산 감소에 효과적이라는 이론을 제안하고 이를 검증한다. 또한 이 논문에서는 RAdam을 제시한다. [1] Introduction 최근 adaptive lr이 빠른 수렴도때문에 많이 쓰이는데, 나쁜 local...


  • Deep Residual Learning for Image Recognition

    [Abstract] residual learning 이라는 framework을 만들었는데, 이 방법은 layer input에 대한 reference가 된다. 이 방법을 이용해서 더 깊은 네트워크를 더 쉽고 정확하게 학습시킬 수 있다. 여기다 앙상블을 쓴 결과는 ImageNet에서 3.57%의 에러를 갖는다. [1] Introduction 네트워크의 깊이가 적당히 깊으면 학습이 잘되는데, 계속 깊게하면 성능이 저하된다. 이는 일반화에 관한 것이 아니고...


  • QSGD - Communication-Efficient SGD via Gradient Quantization and Encoding

    [Abstract] SGD는 병렬처리를 할 수 있어 좋지만, 통신에 cost가 많이 들어간다. 이에 대응하기 위해 양자화된 gradient만 통신하는 방법이 제안되었는데, 이는 항상 수렴하지는 않는다. 이 논문에서 제안된 QSGD는 수렴을 보장하고 좋은 성능을 가진다. 이 방법을 이용하면 통신 대역과 수렴 시간에 대한 trade-off를 마음대로 할 수 있다. 각 노드들은 반복 당 몇...


  • A Closer Look at Deep Learning Heuristics - Learning Rate Restarts, Warmup and Distillation

    [Abstract] 현재의 딥러닝 모델들은 heuristic들로부터 좋은 결과를 냈다. 현재 이 경험적인 방법들은 linear interpolation이나 차원 감소를 통한 시각화들로 분석되는데, 이들은 각자의 단점을 가지고 있다. 이 논문에서는 mode connectivity, Canonical correlation analysis(CCA)를 가지고 knowledge distillation과 cosine restart, warmup을 재분석한다. 분석으로 얻은 결과는 다음과 같다. cosine annealing이 잘 작동되는 이유로 설명된 것들이...