Convex Optimization

Convex Optimization

Convex Optimization이란 $x^* = \text{min}_{x \in C} f(x)$를 찾는 문제이다. 이 때 $f$는 convex function이고, $C$는 convex set이다. 수렴도도 중요하지만, 얼마나 빨리 수렴하는지도 수렴 알고리즘의 선택에서 중요한 요소이다.

Convergence Rate

convergence rate은 $f(x^* )$가 optimal value일 때,

에서의 $g(t)$이다. 이 때 $x_t$는 $x$가 $t$번 업데이트 된 값이고, $c$는 상수이다. 주로

  1. $g(t) = \frac{1}{t}$
  2. $g(t) = \frac{1}{\sqrt{t}}$
  3. $g(t) = e^{-t}$

가 쓰이는데, $g(t) = e^{-t}$가 가장 수렴속도가 빠르다.

$f(x_t)-f(x^* ) \le \epsilon$으로 만들 때,

  1. $g(t) = \frac{1}{t}$일 때는 $\frac{1}{\epsilon}$번의 step이 필요하고,
  2. $g(t) = \frac{1}{\sqrt{t}}$일 때는 $\frac{1}{\epsilon^2}$번의 step,
  3. $g(t) = e^{-t}$일 때는 $\ln{\frac{1}{\epsilon}}$번의 step이 필요하며, 가장 빠르다.

Convex Functions

Convex Function의 예시에는 다음과 같은 함수들이 있다.

  1. Linear Functions : $f(x) = a^Tx$
  2. Affine Functions : $f(x) = a^Tx + b$
  3. Exponential Functions : $f(x) = e^{\alpha x}$
  4. Norms

Norms

주어진 벡터공간 $V$에서의 norm은 0보다 크거나 같은 scalar function $p$이다.

norm은 다음과 같은 특징을 가진다.

  1. $p(x) + p(x) \ge p(x+y), \forall x, y\in V$
  2. $p(ax) = | a|p(x)$
  3. $p(x) = 0 \Leftrightarrow x=0$

p-norm

주로 쓰이는 $p$값은 $1, 2, \infty$이다.

Example of Norms

young’s inequality : $ab\le\frac{a^p}{p}+\frac{b^q}{q}, \forall p, q \ge 1, \frac{1}{p}+\frac{1}{q}=1$
Hoelder inequality : $|\sum_{i=1}^n u_i\cdot v_i| \le \left(\sum_{i=1}^n|u_i|^p\right)^{\frac{1}{p}}\left(\sum_{i=1}^n|v_i|^q\right)^{\frac{1}{q}}$
Minkowski inequality : $\left(\sum_{i=1}^n|x_i+y_i|^p\right)^{\frac{1}{p}}\le\left(\sum_{i=1}^n|x_i|^p\right)^{\frac{1}{p}}+\left(\sum_{i=1}^n|y_i|^p\right)^{\frac{1}{p}}$

Hoelder’s inequality를 증명하는 데에 young’s inequality를 사용하고, Minkowski inequality를 증명하는 데에 Hoelder’s inequality를 사용한다.

(Proof) Young’s inequality

(Proof) Hoelder’s inequality

(Proof) Minkowski inequality

(Proof) Every norm is Convex

(Recall) triangle inequality : $p(x) + p(y) \ge p(x+y), \forall x, y \in V$

(Lemma) Jensen’s inequality

$f$가 convex이고, $x_1, x_2, \cdots, x_m \in \text{dom}(f)$이고, s.t. $\sum_{i=1}^m \lambda_i = 1$일 때,

$x$가 random variable이라면

이 부등식은 $\lambda_1 + \lambda_2 =1$이고 $\lambda_1, \lambda_2 \ge 0$일 때

라는 convex의 정의를 이용해, 수학적 귀납법으로 증명할 수 있다.

(Proof)

m일 때 성립한다고 가정한다. 그러면

따라서,

가 성립한다.

Differentiable Functions

Differentiable

$f$가 continuous한 일차미분식을 갖는다면, $f$는 differentiable하다. 이 특징은 매우 중요한데, 대부분의 최적화 iteration은 gradient값을 사용하기 때문이다.

Tangent Hyperplane

이 tangent hyperplane이다. 이 직선은 $(x, f(x)$를 지나고 $\triangledown f(x_0)$의 기울기를 갖는다.

First-order Characterization of Convexity

가 first-order derivative이다.

(Proof) $\Leftarrow$

$z = \theta x + (1-\theta) y, \theta\in [0, 1]$ 라고 하자.

(Proof) $\Rightarrow$

Nondifferentiable Functions

$f(x) = |x|$같은 함수의 경우, $x=0$부근에서 많은 접점이 있지만 정확한 극한값은 없다. 이 때 그냥 하나를 마음대로 정할 수 있는데, 이것이 subgradient이다.

에서 $g_x$가 subgradient. 위에서 예를 든 $f(x) = |x|$의 경우, $g\in[-1,1]$은 모두 subgradient가 될 수 있다.

Second-order Characterization of Convexity

일변수함수에 대해서는 이차미분식이 그냥 하나의 식이지만, 다변수함수에서는 이차미분식이 Hessian이다. Hessian은

으로 정의된다.

(Def) Positive Definite

가 symmetric하고 $x^TAx \gt 0, \forall x\in\mathbb{R}^d$일 때 $f$는 positive definite이다.

(Proof) $f : $ convex function $\Leftrightarrow \triangledown^2f(x)$ is positive semidefinite

$g(t)$가 convex function이므로, 를 만족한다. 따라서 $t=0$일 때도 만족하는데, 이를 대입해보면 다음과 같다.

이는 positive semidefinite의 정의이므로, 둘은 동치이다.

Local Minima, Critical Point

(Def) Local Minima

$\epsilon \gt0$에 대해, $f(x)\le f(y), \forall y \text{ s.t. }|y-x|\le\epsilon$을 만족하면 $x$는 local minima이다.

(Def) Critical Point

$\triangledown f(x)=0$을 만족하면 $x$는 critical point이다. 만약 $f$가 convex라면, critical point는 global minima이다. critical point는 최적화에서는 bad point인데, tangent line이 기울기가 0이기 때문에 gradient가 존재하지 않아 local minima를 빠져나가기가 어렵다.

Constrained Minimization

$f$가 convex function이고, $X$가 convex set이면

(Proof)$\Rightarrow$

Let $f(x^* )\le f(y), \forall y \in X$
Since $f$ is convex,

(Proof) $\Leftarrow$

Let $\triangledown f(x^* )^T(y-x^* )\ge 0, \forall y\in X$
$f$가 convex이기 때문에, $f(y)\ge f(x^* )+\triangledown f(x^* )^T(y-x^* )$이다.
$\Rightarrow f(y)-f(x^* )\ge\triangledown f(x^* )^T(y-x^* )\ge 0$
$\therefore f(y)\ge f(x^* ), \forall y\in X$

(Thm) Tayler