Optimization Lecture 2
by Yeonjee Jung
Convex Optimization
Convex Optimization
Convex Optimization이란 $x^* = \text{min}_{x \in C} f(x)$를 찾는 문제이다. 이 때 $f$는 convex function이고, $C$는 convex set이다. 수렴도도 중요하지만, 얼마나 빨리 수렴하는지도 수렴 알고리즘의 선택에서 중요한 요소이다.
Convergence Rate
convergence rate은 $f(x^* )$가 optimal value일 때,
에서의 $g(t)$이다. 이 때 $x_t$는 $x$가 $t$번 업데이트 된 값이고, $c$는 상수이다. 주로
- $g(t) = \frac{1}{t}$
- $g(t) = \frac{1}{\sqrt{t}}$
- $g(t) = e^{-t}$
가 쓰이는데, $g(t) = e^{-t}$가 가장 수렴속도가 빠르다.
$f(x_t)-f(x^* ) \le \epsilon$으로 만들 때,
- $g(t) = \frac{1}{t}$일 때는 $\frac{1}{\epsilon}$번의 step이 필요하고,
- $g(t) = \frac{1}{\sqrt{t}}$일 때는 $\frac{1}{\epsilon^2}$번의 step,
- $g(t) = e^{-t}$일 때는 $\ln{\frac{1}{\epsilon}}$번의 step이 필요하며, 가장 빠르다.
Convex Functions
Convex Function의 예시에는 다음과 같은 함수들이 있다.
- Linear Functions : $f(x) = a^Tx$
- Affine Functions : $f(x) = a^Tx + b$
- Exponential Functions : $f(x) = e^{\alpha x}$
- Norms
Norms
주어진 벡터공간 $V$에서의 norm은 0보다 크거나 같은 scalar function $p$이다.
norm은 다음과 같은 특징을 가진다.
- $p(x) + p(x) \ge p(x+y), \forall x, y\in V$
- $p(ax) = | a|p(x)$
- $p(x) = 0 \Leftrightarrow x=0$
p-norm
주로 쓰이는 $p$값은 $1, 2, \infty$이다.
Example of Norms
young’s inequality : $ab\le\frac{a^p}{p}+\frac{b^q}{q}, \forall p, q \ge 1, \frac{1}{p}+\frac{1}{q}=1$
Hoelder inequality : $|\sum_{i=1}^n u_i\cdot v_i| \le \left(\sum_{i=1}^n|u_i|^p\right)^{\frac{1}{p}}\left(\sum_{i=1}^n|v_i|^q\right)^{\frac{1}{q}}$
Minkowski inequality : $\left(\sum_{i=1}^n|x_i+y_i|^p\right)^{\frac{1}{p}}\le\left(\sum_{i=1}^n|x_i|^p\right)^{\frac{1}{p}}+\left(\sum_{i=1}^n|y_i|^p\right)^{\frac{1}{p}}$
Hoelder’s inequality를 증명하는 데에 young’s inequality를 사용하고, Minkowski inequality를 증명하는 데에 Hoelder’s inequality를 사용한다.
(Proof) Young’s inequality
(Proof) Hoelder’s inequality
(Proof) Minkowski inequality
(Proof) Every norm is Convex
(Recall) triangle inequality : $p(x) + p(y) \ge p(x+y), \forall x, y \in V$
(Lemma) Jensen’s inequality
$f$가 convex이고, $x_1, x_2, \cdots, x_m \in \text{dom}(f)$이고, s.t. $\sum_{i=1}^m \lambda_i = 1$일 때,
$x$가 random variable이라면
이 부등식은 $\lambda_1 + \lambda_2 =1$이고 $\lambda_1, \lambda_2 \ge 0$일 때
라는 convex의 정의를 이용해, 수학적 귀납법으로 증명할 수 있다.
(Proof)
m일 때 성립한다고 가정한다. 그러면
따라서,
가 성립한다.
Differentiable Functions
Differentiable
$f$가 continuous한 일차미분식을 갖는다면, $f$는 differentiable하다. 이 특징은 매우 중요한데, 대부분의 최적화 iteration은 gradient값을 사용하기 때문이다.
Tangent Hyperplane
이 tangent hyperplane이다. 이 직선은 $(x, f(x)$를 지나고 $\triangledown f(x_0)$의 기울기를 갖는다.
First-order Characterization of Convexity
가 first-order derivative이다.
(Proof) $\Leftarrow$
$z = \theta x + (1-\theta) y, \theta\in [0, 1]$ 라고 하자.
(Proof) $\Rightarrow$
Nondifferentiable Functions
$f(x) = |x|$같은 함수의 경우, $x=0$부근에서 많은 접점이 있지만 정확한 극한값은 없다. 이 때 그냥 하나를 마음대로 정할 수 있는데, 이것이 subgradient이다.
에서 $g_x$가 subgradient. 위에서 예를 든 $f(x) = |x|$의 경우, $g\in[-1,1]$은 모두 subgradient가 될 수 있다.
Second-order Characterization of Convexity
일변수함수에 대해서는 이차미분식이 그냥 하나의 식이지만, 다변수함수에서는 이차미분식이 Hessian이다. Hessian은
으로 정의된다.
(Def) Positive Definite
가 symmetric하고 $x^TAx \gt 0, \forall x\in\mathbb{R}^d$일 때 $f$는 positive definite이다.
(Proof) $f : $ convex function $\Leftrightarrow \triangledown^2f(x)$ is positive semidefinite
$g(t)$가 convex function이므로, 를 만족한다. 따라서 $t=0$일 때도 만족하는데, 이를 대입해보면 다음과 같다.
이는 positive semidefinite의 정의이므로, 둘은 동치이다.
Local Minima, Critical Point
(Def) Local Minima
$\epsilon \gt0$에 대해, $f(x)\le f(y), \forall y \text{ s.t. }|y-x|\le\epsilon$을 만족하면 $x$는 local minima이다.
(Def) Critical Point
$\triangledown f(x)=0$을 만족하면 $x$는 critical point이다. 만약 $f$가 convex라면, critical point는 global minima이다. critical point는 최적화에서는 bad point인데, tangent line이 기울기가 0이기 때문에 gradient가 존재하지 않아 local minima를 빠져나가기가 어렵다.
Constrained Minimization
$f$가 convex function이고, $X$가 convex set이면
(Proof)$\Rightarrow$
Let $f(x^* )\le f(y), \forall y \in X$
Since $f$ is convex,
(Proof) $\Leftarrow$
Let $\triangledown f(x^* )^T(y-x^* )\ge 0, \forall y\in X$
$f$가 convex이기 때문에, $f(y)\ge f(x^* )+\triangledown f(x^* )^T(y-x^* )$이다.
$\Rightarrow f(y)-f(x^* )\ge\triangledown f(x^* )^T(y-x^* )\ge 0$
$\therefore f(y)\ge f(x^* ), \forall y\in X$
(Thm) Tayler
Subscribe via RSS