Mirror Descent

지금까지의 모든 결과들(특히 Lipschitz에 관해서)은 유클리드 공간에서 정의되었다. 그런데 Lipschitz는 norm에 따라서 크기가 달라지는데, 다른 norm에 관해서는 어떤 convergence speed를 가지게 될까 하는 궁금증이 생기게 된다.

Dual Space

이 궁금증을 해결하기 위해, 먼저 Dual space를 정의한다. 모든 벡터공간 $V$는 $V$에서 정의된 모든 선형 함수에 대해서 항상 dual space $V^* $를 갖는다. 모든 Tangent Line ($y=f(x^* )+f’(x^* )(x-x^* )$)는 항상 선형이기 때문에, 모든 gradient에 대해서는 항상 dual space를 갖는다.

Dual Norm

$\mathbb{R}^n$에서 정의된 모든 norm 에 대해 dual space에서의 norm 또한 항상 존재하는데, dual norm 은 다음과 같이 정의한다.

말이 어려운데, $p$-norm에 대해 생각해 보면 다음과 같은 관계가 있다고 한다.

즉, 원래 공간에서 $p$-norm을 사용하였다면 dual space에서는 $q$-norm을 사용하면 된다. 이러한 새로운 dual의 정의에서, Lipschitz는 다음과 같이 쓸 수 있다.

Bregman Divergence

Dual space에서의 convergence를 해석하기 위해 Bregman divergence라는 것을 정의한다.

사실 첫 항을 제외한 항은 Tangent Line을 의미하는 식이다. 결국 Bregman divergence는 한 점에서의 접선에 대해 같은 $y$값에서 원래 함수와 Tangent Line의 차이를 의미한다. Bregman divergence에 관한 특성으로는 다음과 같은 것이 있다.

  1. $(\triangledown f(x)-\triangledown f(y)^T(x-z)=D_f(x,y)+D_f(z, x)-D_f(z, y)$
  2. $\lambda$-strongly convex인 함수 $h$에 대하여

Mirror Map

우선 $D\in\mathbb{R}^n$은 $X\subset\bar{D}$인 open set이라고 하자. Mirror Map $\Phi$는 $D$에서 $\mathbb{R}^n$으로의 mapping function인데, 다음과 같은 조건이 있다.

  1. $\Phi$는 convex하고 미분가능한 함수이다.
  2. $\Phi$의 gradient는 어떤 숫자든 가능하다.
  3. $\Phi$의 gradient는 $D$의 가장자리에서 발산한다.

이렇게 놓고 보면, 이전에 우리가 썼던 gradient descent 식 $x_{t+1}=x_t-\gamma\triangledown f(x_t)$가 좀 이상해 보이기 시작한다. $x_t$는 원래 공간인데, $\triangledown f(x_t)$는 dual space에서 정의되는 것이기 때문이다. 사실 이전에는 유클리드 norm을 기준으로 진행했기 때문에 dual space의 norm도 유클리드 norm이 되어서 상관이 없었다. 그렇지만 이제는 다르므로 gradient descent를 새롭게 정의할 필요가 있다.

Mirror Descent

다음은 Dual space 공간에서의 gradient descent 알고리즘이다. Mirror Descent라고도 한다.

  1. $x_t$를 mirror map $\triangledown \Phi (x_t)$에 매핑시킨다. 이후는 모두 dual space이다.
  2. $\triangledown \Phi (x_t)-\gamma \triangledown f(x_t)$
  3. $\triangledown\Phi(y_{t+1})=\triangledown\Phi(x_t)-\gamma\triangledown f(x_t)$를 만족하는 $y_{t+1}$를 찾는다.
  4. 다시 원래 공간으로 가져오는데, constrained set $X$ 안에 $x_{t+1}$이 있어야 하기 때문에 projection을 한다.

Mirror Descent는 proximal gradient와도 연결된다.

중간에 $y$만에 관한 항들은 $\arg\min$이므로 마음대로 넣어도 상관 없고, 마찬가지로 $x_t$만에 관한 항은 마음대로 넣어도 상관없다.

Mirror Descent : L-Lipschitz continuous

우선 함수에 대해서, $\Phi$는 $\rho$-strongly convex이고, $f$는 convex이고 L-Lipschitz이다. 그리고 이다.

모든 $T$에 대해서 다 더하면

인데, 마지막 $\sum$항만 bound할 수 있다.

마지막 항은, 그 전 식이 에 관한 이차식이고, 위로 볼록한 함수이기 때문에 미분해서 $0$이 되는 점이 최대점이라는 점을 이용했다. 다시 $\sum$으로 돌아가면,

따라서, 다음과 같은 결론이 나온다.

(Proof)

위 증명에서 그냥 넘어갔던 위 명제를 증명해보자.

이다. 두 식을 더하면

을 얻게 되는데, 마지막 항을 제외한 식은 $D_\Phi(x, y_{t+1})$이다. 마지막 항은 $-\triangledown_xD_\Phi(x_{t+1}, y_{t+1})^T(x-x_{t+1})$ 라고도 쓸 수 있는데, $x_{t+1}$은 정의에 따라 Bregman Divergence에서의 최적값이므로, 이 항은 $0$보다 무조건 작다. 따라서

가 성립함을 알 수 있다.