Weakly-Supervised Semantic Segmentation by Iteratively Mining Common Object Features

이 논문은 이미지에서 tag만 주어진 상황에서 그 tag의 대상을 segmentation하는 반복적 방법을 제안한 논문이다.

Fully-Supervised Semantic Segmentation

Fully-Supervised Semantic Segmentation에는 region-based, pixel-based의 두가지 방법이 있다.

Region-based : 이미지를 set of region으로 가져와서 label을 예측하기 위해 특징을 추출한다.
Pixel-based : 이미지 전체를 input으로 가져와서 pixel-wise label을 예측한다.

보통은 pixel-based가 더 강력하지만, 이 논문에서는 둘의 장점을 모두 가져와서 사용할 것이다. region-based가 common feature를 추출하는 데서는 유리하다는 것을 보일 것이다.

Weakly-Supervised Semantic Segmentation under Image Tags Supervision

번역하면 ‘이미지 태그가 있으면 문법적으로 세그맨테이션 해주는 약한 감독학습’ 정도가 될 수 있다. 사람과 배경이 함께 있는 이미지에서 사람만을 세그멘테이션해주는 것이라고 생각하면 된다. Fully-Supervised Semantic Segmentation이 너무 많은 양의 labeling cost를 필요로 하는데, 여기서는 tag만 labeling하면 되므로 더 적은 cost가 필요해서 사용한다. 그러나 이것은 어려운 문제인데, tag라는 high-level semantic부터 픽셀 단위라는 low-level appearance까지 연관이 있기 때문이다. 현재까지의 연구는 두 가지로 나눌 수 있다.

Multi-Instance Learning (MIL) based method

classification network로 바로 segmentation mask 예측하는 방법이다. 모든 픽셀들은 하나의 클래스에 들어가 있다고 가정하고, 그 클래스를 예측하는 것이 목적이다. 하지만 경계 부분에 대해서는 좋지 않은 성능을 보인다.

Localization-based method

classification network를 초기 localization에 사용하고, 그리고 그걸 segmentation network를 감독하는데 사용한다. weak label로 initial object localization을 만드는 것이 목적이다. 그러나 정확하지 않은 weak label을 계속 사용하기 때문에 에러가 계속해서 축적되어, 이것도 경계 부분에 대해서 좋지 않은 성능을 보인다.

Initial Localization

반복적인 학습을 위해서는 시작이 있어야 한다. 이 논문에서는 initial localization을 얻기 위해서 classification network를 학습하고 각 object의 heatmap을 얻기 위해 ‘Classification Activation Map(CAM)’을 사용한다. 그러나 얻어진 heatmap이 매우 rough하기 때문에, 이미지를 superpixel region으로 segmentation 하고, heatmap을 평균한다. heatmap중 threshold를 넘는 부분을 initial seed로 사용한다.

Mining Common Object Feature (MCOF)

제안된 이 방법은 ‘하나의 동일한 대상에는 공통된 특징이 있을 것이다’라는 생각으로부터 시작되었다. 따라서 큰 train set을 가지고 학습하면, 대상에 대한 특징을 학습하여 object의 region을 넒혀갈 수 있을 것이다. 논문에서 제안하는 network는 bottom-up, top-down의 두 가지의 큰 구조로 이루어져 있다.

Bottom-Up (RegionNet)

원래의 object localization을 object seed로 이용해서 common object feature (COF) 를 찾아낸다. 순서는 다음과 같다.

train image를 superpixel region으로 segmentation 한다. (graph-based segmentation method 사용)
Superpixel region과 initial seed를 가지고 region classification network를 학습한다. (mask-based Fast R-CNN 이용)

이 때 찾아낸 COF는 object의 key part만 포함하고 있으므로 경계 부분이 정확하지 않다. 이를 보완하기 위해 saliency-guided refinement method를 사용한다. 이 방법은 mined object region과, Bayesian framework를 이용한 saliency map을 같이 고려한다. 높은 saliency value를 가지고 있는 region에 대해, 만약 이 대상이 mined된 object와 유사하다면, 이 region은 그 대상에 속할 확률이 높다고 판단한다. 이 방법은 맨 처음 반복에서만 사용된다.

Top-Down (PixelNet)

bottom-up에서 얻은 object region을 이용해서 segmentation network를 학습한다. 이 network를 학습한 후 input을 집어넣으면 더 정확한 object mask를 얻을 수 있다.

이 두 과정을 계속 반복한다. 이렇게 반복적으로 수행하면, 계속해서 더 정확한 segment를 얻을 수 있다.