Structure from Motion

Multiview geometry 문제에는 세 종류가 있다.

Scene geometry (Structure) : 2D 좌표가 주어질 때, 3D 좌표는 어디에 있는가?
Correspondence (stereo matching) : 한 이미지에서의 한 점이 다른 이미지에서는 어디에 존재할 가능성이 있는가?
Camera geometry (motion) : 한 대상에 대해 여러 관점의 이미지 좌표가 주어질 때, 카메라 파라미터 행렬은 무엇인가?

이번 단원에서는 1번에 대해 다룰 것이다. (2, 3번은 각각 2번, 3번에서 다루었다.)

Structure from Motion Ambiguity

Scene geometry는 m개의 이미지와 n개의 3D 좌표가 주어졌을 때, m개의 projection matrix $P_i$와 n개의 3D 좌표 $X_j$를 $m\times n$개의 $x_{ij}$로부터 찾는 문제이다.

$\mathbf{x}_{ij}=P_i\mathbf{X}_j$ $i=1, \cdots , m, j=1, \cdots, n$

만약 scale factor $k$가 존재하고, 카메라 파라미터들을 모두 $k$로 나눈다면, 그렇지 않았을 때와 같은 식이 나오게 되므로 정확한 scale 측정이 불가능하다.

$\mathbf{x}=P\mathbf{X}=\left(\frac{1}{k}P\right)(k\mathbf{X})$

또는, transformation matrix $Q$를 이용해도 똑같은 결과가 나온다.

$\mathbf{x}=P\mathbf{X}=(PQ^{-1})(Q\mathbf{X})$

Affine Camera

Orthographic projection은 이미지 좌표에서 world좌표로 변환 시 $z$축의 변화가 없는 변환이었다. affine 카메라는 3D 공간상에서의 affine 변환, orthographic projection, 이미지상의 affine 변환 효과가 결합된 것이다. 따라서 다음 식으로 나타낼 수 있다.

$P=\left[3\times3 \text{affine}\right]\left[\begin{matrix}1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 1\end{matrix}\right]\left[4\times4 \text{affine}\right]=\left[\begin{matrix}a_{11} & a_{12} &a_{13} &b_1 \\a_{21} & a_{22} &a_{23} &b_2 \\ 0 & 0 & 0 & 1\end{matrix}\right]=\left[\begin{matrix}A & b \\ 0 & 1\end{matrix}\right]$

결국 affine 카메라는 linear mapping에 translation을 더한 것이다.

$\mathbf{x}=\left(\begin{matrix}x \\ y\end{matrix}\right)=\left[\begin{matrix}a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23}\end{matrix}\right]\left(\begin{matrix}X \\ Y \\ Z \end{matrix}\right)+\left(\begin{matrix}b_1 \\ b_2\end{matrix}\right)=A\mathbf{X+b}$

이 해는 유일하지 않고, 임의의 affine transformation $Q$에 의해 $\left[\begin{matrix}A & b \\ 0 & 1\end{matrix}\right] \rightarrow \left[\begin{matrix}A & b \\ 0 & 1\end{matrix}\right]Q^{-1}$ , $\left(\begin{matrix}X\\1\end{matrix}\right)\rightarrow Q\left(\begin{matrix}X\\1\end{matrix}\right)$ 가 해가 될 수도 있다.

Affine Structure from Motion

우리는 $2mn$개의 변수를 알고 있고, $8m+3n$개를 모르고 $Q$가 12의 degree of freedom을 가지므로 $2mn \geq (8m+3n)-12$여야 이 문제를 풀수 있다?

먼저, 이미지 좌표의 중심을 빼므로써 centering을 한다.

$\hat{\mathbf{x}}_{ij}=\mathbf{x}_{ij}-\frac{1}{n}\sum_{k=1}^n\mathbf{x}_{ik}=A_i\mathbf{X}_j+b_i-\frac{1}{n}\sum_{k=1}^n(A_i\mathbf{X}_k+b_i)=A_i\hat{\mathbf{X}}_j$

계산을 쉽게 하기 위해 world좌표계의 원점이 3D좌표계의 center라고 하자.

$\hat{\mathbf{x}}_{ij}=A_i\mathbf{X}_j$

그리고 $2m\times n$개의 데이터 행렬을 만든다.

$D=\left[\begin{matrix}\hat{\mathbf{x}}_{11} & \hat{\mathbf{x}}_{12} & \cdots & \hat{\mathbf{x}}_{1n} \\ \hat{\mathbf{x}}_{21} & \hat{\mathbf{x}}_{22} & \cdots & \hat{\mathbf{x}}_{2n} \\ & & \ddots & \\ \hat{\mathbf{x}}_{m1} & \hat{\mathbf{x}}_{m2} & \cdots & \hat{\mathbf{x}}_{mn} \end{matrix}\right]= \left[\begin{matrix}A_1 \\ A_2 \\ \vdots \\ A_m\end{matrix}\right] \left[\begin{matrix}\mathbf{X}_1 & \mathbf{X}_2& \cdots & \mathbf{X}_n\end{matrix}\right]=MS$

이 행렬은 rank가 3이다. ($A$행렬이 열 3개이고 $D$는 $A$와 $X$들의 조합으로 만들어지므로)이제 Singular Value Decomposition (SVD)를 이용해 D를 세 개의 행렬로 나눌 수 있다.

$D=UWV^T$

rank가 3이기 때문에 W의 대각성분 3개 빼고는 다 0이다. 우리는 $U, W, V$행렬에서 좌측 3개만 가져와서 차원을 3으로 압축할 수 있다.

$D=U_3W_3V_3^T$

$M=U_3W_3^{\frac{1}{2}}, S=W_3^{\frac{1}{2}}V_3^T$ 라고 한다면, 원하는 차원의 $M$과 $S$를 얻을 수 있다.

이 decomposition도 유일하지 않아서, 임의의 $3\times3$ 행렬 $C$를 이용하여 $M\rightarrow MC$, $S\rightarrow C^{-1}S$의 해를 만들 수도 있다.

Eliminating the Affine Ambiguity

서로 직교하고 scale이 1인 축을 기준으로 하게 한다. 이 축은 다음 두 식을 만족한다.

$a_1\cdot a_2=0$ $\|a_1\|^2=\|a_2\|^2=1$

이미지 한장당 $a_1, a_2$가 각각 존재할 것이다. 이들은 각각

$a_1La_1^T=1$ $a_2La_2^T=1$ $a_1La_2^T=0$

을 만족한다.

$A_i=\left[\begin{matrix}a_{1i} \\ a_{2i}\end{matrix}\right]$ 라고 하면 $3m$개의 방정식

$A_iLA_i^T=I$ , $i=1, \cdots, m$

을 얻을 수 있다. 이 방정식을 풀고, cholesky decomposition을 이용해 $L=CC^T$로 분해한 뒤 $M\rightarrow MC$, $S\rightarrow C^{-1}S$로 바꿔주면 ambigudity를 없앨 수 있다?

Missing Data

실제로 어떤 3D 좌표는 어떤 view의 이미지에서는 보이지 않을 수도 있기 때문에 $M$행렬이 원하는 모양으로 나오지 않을 수도 있다. 이 때는 이 행렬을 dense sub-block으로 나누고, 그 sub-block들을 factorize한 뒤 사용하는 방법이 있다. incremental bilinear refinement를 사용한다는데.. 어떻게 하는거지

Projective Structure from Motion

m개의 이미지와 n개의 3D 좌표가 주어졌을 때, m개의 projection matrix $P_i$와 n개의 3D 좌표 $X_j$를 $m\times n$개의 $x_{ij}$로부터 찾는 문제이다. 아까와 똑같지만, $z_{ij}$라는 depth가 추가로 존재한다.

$z_{ij}\mathbf{x}_{ij}=P_i\mathbf{X}_j$ $i=1, \cdots , m, j=1, \cdots, n$

calibration 정보가 없으면 카메라와 좌표들은 $4\times4$ projective transformation 행렬 $Q$를 통해서만 발견할 수 있다?

우리는 $2mn$개의 변수를 알고 있고, $11m+3n$개를 모르고 $Q$가 15의 degree of freedom을 가지므로 $2mn \geq (11m+3n)-15$여야 이 문제를 풀수 있다? 따라서 2개의 카메라에 대해서는 최소 7개 점에 대한 정보가 필요하다.

우선 두 뷰 사이의 fundamental matrix $F$를 계산한다. 기준이 될 카메라의 행렬을 $\left[\begin{matrix}I \mid 0\end{matrix}\right]$ , 다른 카메라의 행렬을 $\left[\begin{matrix}A \mid b \end{matrix}\right]$ 라고 하자. 그러면

$z\mathbf{x}=\left[I \mid 0\right]\mathbf{X}$ $z'\mathbf{x}'=\left[A\mid b\right]\mathbf{X}=A\left[I\mid 0\right]\mathbf{X}+b=zA\mathbf{x}+b$ $z'\mathbf{x}'\times b=zA\mathbf{x}\times b$ $(z'\mathbf{x}'\times b)\cdot \mathbf{x}'=(zA\mathbf{x}\times b)\cdot \mathbf{x}'=0$

($\mathbf{x}’\times b$와 $\mathbf{x}’$는 서로 수직이므로 내적하면 0이 된다.)

$\mathbf{x}'^T[b_{\times}]A\mathbf{x}=0$

이므로, $F=[b_{\times}]A$이다.

$D=\left[\begin{matrix}z_{11}\mathbf{x}_{11} & z_{12}\mathbf{x}_{12} & \cdots & z_{1n}\mathbf{x}_{1n} \\ z_{21}\mathbf{x}_{21} & z_{22}\mathbf{x}_{22} & \cdots & z_{2n}\mathbf{x}_{2n} \\ & & \ddots & \\ z_{m1}\mathbf{x}_{m1} & z_{m2}\mathbf{x}_{m2} & \cdots & z_{mn}\mathbf{x}_{mn} \end{matrix}\right]= \left[\begin{matrix}P_1 \\ P_2 \\ \vdots \\ P_m\end{matrix}\right] \left[\begin{matrix}\mathbf{X}_1 & \mathbf{X}_2& \cdots & \mathbf{X}_n\end{matrix}\right]=MS$

$z$를 알고 있다면 factorize를 통해 $M, S$를 구할 수 있고, $M, S$를 알고 있다면 $z$를 구할 수 있다.

Self-Calibration

Self-Calibration (auto-calibration)은 카메라의 intrinsic 파라미터를 바로 알아내는 것이다. intrinsic 파라미터는 모든 이미지에 대해 상관없이 일정하다는 조건을 가지고 찾아낼 수 있다.

Terms

tangency : 접합
fuse : 사용하다