이 논문은 Zero-Shot Learning(ZSL)에서의 새로운 distance metric을 제안하는 논문이다.

Zero-Shot Learning(ZSL)

ZSL에서는 seen class와 unseen class, 그리고 image feature가 semantic embedding space에 사영된다. 새로운 input은 seen class중 한 class에 해당하고, 어떤 image feature를 가지고 있다고 하자. 그 사영된 공간에서 seen class와 image feature가 결합된 벡터가 unseen class와 가까우면, unseen class에 대한 학습 없이도 해당 class로 분류가 가능하다. 마치 어린아이가 ‘말’을 알고 ‘줄무늬’를 알면 ‘얼룩말’을 한번도 본적이 없더라도 판별해낼 수 있는 것과 같다.

Semantic Embedding Space

Seen class와 unseen class는 고차원 공간상에서 연관을 갖고있다. 이를 Semantic embedding space라고 부른다.

Semantic Embedding (SE)

거의 대부분의 ZSL은 SE를 사용한다. SE에서는 seen class에 대해서만 mapping을 학습한다. 이 mapping함수는 나중에 unseen class image가 space로 mapping될때도 사용된다.

Semantic Relatedness (SR)

거의 사용되지는 않지만 SR이라고 불리는 것도 있다. 먼저 seen class에 대해서 n-way classifier 를 학습하는데, 이 classifier는 unseen과 seen의 visual 유사도를 계산하는데 쓰인다. 그 후 semantic 유사도와 visual 유사도를 계산하는데, 이 두 유사도 벡터가 가까우면 unseen class로 예측한다.

Euclidean/Cosine Distance 쓰면 생기는 문제점

기존 ZSL에서는 거리 계산 척도로 euclidean distance나 cosine distance를 사용했는데, 고차원 공간에서는 이런 척도가 hubness나 domain shift등의 문제를 야기할 수 있다.

  • Hubness : 많은 벡터들에 동시에 가까운 중심 벡터가 있을 수 있다. 보통 high dimension에서 발생한다. unseen 클래스 수가 적어서 ZSL에서도 발생 가능성이 있다.
  • Domain shift :
    • (SE에서) visual feature embedding이 seen 클래스로부터 학습되어서, 사영된 unseen class point가 seen class 쪽으로 bias될 수 있다. 따라서 hub의 출현이 쉽다.
    • (SR에서) visual-semantic domain shift.

Semantic Manifold Distance

일반적으로 semantic embedding space에서 label들은 semantic manifold 구조를 갖고 있는데, 이 manifold 구조를 더 잘 설명하는 distance이다. 여기에는 hubness와 domain shift 문제가 없다.


여기까지가 서론이고, 이후 논문의 제안에 대한 내용이 있으나 제대로 이해를 못함…