• Don't Decay the Learning Rate, Increase the Batch Size

    [Abstract] 이 논문에서는 learning rate를 줄이는 것 대신 batch size를 훈련 동안 증가시키면서 원래와 비슷한 learning curve를 얻는 방법에 대해 소개한다. 이 방법은 SGD, SGD with momentum, Nesterov momentum, and Adam. 같은 epoch 수를 사용하면 같은 테스트 정확도가 나오지만, 파라미터 업데이트를 덜 하면 더 병렬화가 가능하고 학습 시간이 덜 걸린다....


  • Accurate, Large Minibatch SGD - Training ImageNet in 1 Hour

    [Abstract] 딥러닝에서 네트워크와 데이터셋이 커지면 학습시간이 늘어나게 되어서 분산병렬 SGD를 사용한다. 이 논문에서는 미니배치 크기가 크면 최적화하는 데에 어려움을 야기하지만, 이렇게 훈련된 네트워크는 일반화를 잘 한다는 것을 보여준다. 또한 한번에 미니배치 사이즈를 8192개까지 늘려도 정확도에는 변함이 없다는 것을 보여준다. 이 결과를 얻기 위해 learning rate를 정하는 규칙을 적용했고, 새로운 warmup...


  • SAGA - A Fast Incremental Gradient Method With Support for Non-Strongly Convex Composite Objectives

    [Abstract] SAGA는 SAG와 SVRG의 뒤를 잇는데, 더 좋은 수렴도를 갖는다. SDCA와는 다르게 strongly convex가 아닌 문제도 바로 풀 수 있고, 문제의 본질적인 strong convexity에 적응할 수 있다. [1] Introduction 함수 $f(x)$를 최소화하고 싶은데, $f(x)$는 이렇게 생겼다. 각 $f_i$는 convex하고 gradient가 $L$-Lipschitz continuous하다. 이 논문에서는 $f_i$들이 $\mu$-strongly convex한 경우와 $F(x)=f(x)+h(x)$인 경우(proximal...


  • Accelerating Stochastic Gradient Descent using Predictive Variance Reduction

    [Abstract] SGD의 본질적인 분산 때문에 느리고 점진적으로 수렴하는 단점을 해결하고자 이 논문에서는 SVRG라고 불리는 explicit한 분산 감소 방법을 제안한다. smooth하고 strongly convex한 함수에 대해서는 SDCA, SAG와 같은 수렴속도를 증명했다. SDCA, SAG와의 차이점은 gradient를 저장할 필요가 없다. [1] Introduction 머신러닝에서 푸는 문제는 주로 의 형태이다. (주로 $\psi$는 loss function이다) 주로 이를...


  • Histograms of the Normalized Inverse Depth andLine Scanning for Urban Road Detection

    [Abstract] 이 논문에서는 3D LiDAR와 하나의 카메라의 기하 정보를 조합해 자동차 앞에 있는 도시의 도로 검출하는 방법을 제안한다. 이 방법의 장점은 3D LiDAR의 정확성과 도로의 연속성이다. 처음에는 LiDAR 데이터의 효과적인 표현과 2D 역 depth map을 얻는다. (3D LiDAR 포인트를 카메라 이미지 평면에 사영) 새로운 표현 방법을 이용하면 도로의 중간 표현을...