Contents

[Paper Review]Multimodal Machine Learning: A Survey and Taxonomy

개요

  1. Multi-Modal Learning에 관련한 서베이 논문을 리뷰해보려고 한다.

Introduction

  1. 세상을 둘러싼 환경은 여러 modality를 포함하고 있다. 사람들은 이러한 modalitysensory modality(vision or touch)와 연결을 짓는다.

  2. 본 논문은 natural language, visual, vocal signal에 관해서 중점을 두어 설명을 한다.

  3. Multi modalAI에 사용하기 위해서는 multimodal message에 대해 여러 정보(multiple modalities)를 연결시킬줄 알아야 한다.

  4. 또한 여러 데이터 간 데이터의 이질성으로 인하여 Multimodal machine learning에서는 여러 해결해야할 문제가 있는데 본 논문에서는 5개를 제시한다.

  5. 첫 번째는 Representation이다. 이는 multimodal data를 어떻게 잘 요약하고 표현을 할 지에 대한 문제이다.

  6. 두 번째는 Translation이다. 이는 하나의 modality에서 다른 하나의 modality로 어떻게 mapping(translate)을 할 지에 대한 문제이다.

  • 이미지에 대한 올바른 방식의 해석이 있어도 단 하나의 완벽한 해석은 존재하지 않는다.
  1. 세 번째는 Alignment이다. 이는 여러개의 modality로부터 요소 사이의 관계들을 정렬하여 식별하는 것이다.
  • 서로 다른 modality 간의 유사성을 측정하고, 가능한 장거리 의존성 및 모호성을 처리해야 한다.
  1. 네 번째는 Fusion이다. 여러 modality추론 결과를 합치는 것이다.
  • 다른 modality로부터 오는 정보들은 다양한 예측 결과를 가져올 수 있다.
  1. 다섯 번째는 Co-learning이다. Modality간에 knowledge를 전달하는 것이다.
  • 이것은 한 modality의 data가 부족할 때 유용하다.
  1. 위 표multi-modal을 적용하는 application에서 위에 설명한 5가지의 challenge의 포함 여부를 나타낸 것이다.

  2. 위 표를 확인하며 multi-modal로 활용할 수 있는 task가 무엇인지도 함께 확인하면 될 것 같다.


Representation

  1. 이젠 5가지의 challenge에 대해서 설명할 것이다. 먼저 첫 번째로 설명하는 Multimodal Representation에 대한 설명이다.

  2. 여러 modalityrepresenting하는 것은 다양한 어려움이 존재한다.

  • 이질성인 데이터에서 어떻게 섞을 것인지
  • 다른 종류의 noise를 어떻게 처리할 것인지
  • missing data를 어떻게 처리할 것인지
  1. 좋은 representation하는 방법은 model의 성능을 중요하다. (최근 speech recognition, visual object detection 등의 성능 향상 사례가 있다.)

  2. 또한 좋은 representation을 위한 몇 가지 속성으로 부드러움(smoothness), 시간적 및 공간적 일관성(temporal and spatial coherence), 희소성(sparsity), 자연스러운 클러스터링(natural clustering) 등이 있다.

  3. Multi modal representation을 위한 여러 속성들이 있다. 그것은 표현 공간에서의 유사성이다. 이는 해당 개념들의 유사성을 반영해야 하며, 일부 modality가 없어도 쉽게 표현을 얻을 수 있어야 하고, 관찰된 modality를 바탕으로 누락된 모달리티를 채울 수 있어야 합니다.

  4. 이전까지 단일 modality에 대한 연구는 광범위 하게 연구되어 왔다. 이미지에 관련한 dataSIFT기법 에서 CNN기법으로 연구되어 왔고 audio domain은 음향적 특징들이 deep neural network에서 rnn으로 연구되어 왔다.

  5. 이런 와중 multi-modal에선 단일 modality에 대한 연구들을 단순히 concat하는 방법만 사용하고 있다. 이런 방법론들이 변화되고 있다.

  1. 따라서, 본 논문에선 jointcoordinated라는 두 가지의 representation 방법을 소개한다.

  2. joint는 각각의 modality를 같은 representation space에 결합하는 방식이다. 이는 아래와 같은 수식으로 표현할 수 있다. ($x_1, x_n$등은 각각 modality이다.)

$$ x_m = f(x_1,…,x_n)$$

  1. coordinated는 각각의 modality각각 분리해서 처리하지만 similarity 규정을 사용해 coordinated space에 가져온다. 이는 아래와 같은 수식으로 표현할 수 있다.

$$f(x_1) ~ g(x_2)$$


Joint Representation

  1. Joint Representation독립적인 modality 특징들을 concatenation을 한다고 생각하면 된다.

  2. 앞으로는 data의 representation 방법가장 유명한 방법Neural network에서 Joint Representation을 하는 방법에 대해서 설명할 것이다.

  3. Neuraul network을 사용해 multi modal representation을 구축하기 위해 각 modality는 여러 개의 개별 신경 계층으로 시작하고, 이후 이 modality들을 joint space에 투영하는 hidden layer가 따른다.

  4. 이렇게 jointrepresentation 들은 hidden layer를 거치거나 예측에 직접적으로 사용을 한다.

  5. 이런 neural network에서 훈련을 할 때, 많은 label data가 필요하게 된다. 따라서 unsupervised data에서 autoencoder를 사용해 이러한 표현을 pre-training하는 것이 일반적이다.

  1. 하나의 예시로 denoising하는 여러개 autoencoderstack한 후 다른 autoencoder layer를 사용하여 fuse하게 된다.
  • 이런 autoencodermulti-modal에서 representation을 잘 학습하기 위하여 reconstruction loss를 사용하고 그 representation을 사용하여 object label을 예측할 수도 있게 한다.
  1. 또 다른 방법으로는 Probabilistic graphical model이 있다. 이는 latent random variable에서 representation을 재구성하는 방법이다.

  2. Graphical model에서 가장 유명한 방법은 restricted Boltzmann machine(RBM)을 쌓아 올린 deep Boltzmann machine(DBM)이다. 이는 앞서 설명한 autoencoder와 같이 unsupervised learning이 가능하다.

  3. 이 방법은 neural network로도 변환이 가능하다. 이 방법의 장점은 생성적 특성이다. 따라서 missing data가 있어도 하나의 modality가 있어서 다른 modality의 특성을 생성해낼 수 있다.

  4. 하지만 높은 computational cost 때문에 훈련이 어렵고 적절한 variational training method를 사용해야한다는 문제점이 있다.

  5. 다음으론 고정된 길이가 아닌 연속적인 성격을 지닌 data(audio, video, sentence 등)을 model이 represent하는 방법에 대해서 설명할 것이다.

  6. RNNLSTMsequence model에서 훌륭한 성과를 내고있다. RNNhiddein state는 data의 representation이라고 볼 수 있다. 왜냐하면 RNN의 encoder에서 나온 hidden state의 조합으로 decoder가 재조합 하는 것 이기 때문이다.

Coordinated Representation

  1. 각각의 modality에서 representation을 얻은 다음에 constraint를 통하여 조정을 하게 하는 것이 coordinated representation 방법이다.

  2. 비슷한 모델은 coordinated space에서 가까운 거리를 가지는 경향이 있다. 예를 들어 dog라는 단어와 dog를 나타내는 이미지 간에 distance가 dog와 car를 나타내는 이미지의 distance보다 짧은 것을 확인했다.

  3. 따라서 이와 비슷한 모델로 WSABIE(web scale annotation by image embedding)의 설명이 나온다. 이 모델은 이미지와 그 주석들을 위한 coordinated 공간을 구축했다.

  • 이미지와 텍스트 특징 간에 간단한 선형 맵을 구성하여 해당하는 주석과 이미지 표현 사이의 내적(inner product)이 더 크고
  • 일치하지 않는 주석과 이미지 표현 사이의 내적은 상대적으로 작게 하였다.
  1. 최근에는 WSABIE와 유사하지만 더 복잡한 이미지와 embedding을 사용할 수 있는 neural network DeViSE(A deep visual-semantic embedding)을 소개한다. 이 모델에서 내적 연산, ranking loss를 사용하였다.
  • 이러한 모델은 end-to-end 방식으로 학습을 할 수 있는 장점이 있다.
  1. Structured coordinated spacerepresentation유사성을 강제하는 것 뿐 아니라 modality의 추가적인 constraint를 더한다.
  • 적용 분야에 따라 constraint가 달라진다.
  1. Cross-modal hashing에서 자주 쓰인다. Cross modal hasing은 높은 차원의 data를 압축하여 비슷한 객체에 대해 유사한 이진 코드를 갖는 소형 이진 코드로 변환하는 것이다.

  2. 이는 Cross-modal 검색을 위해 이런 해시 코드들이 만들어 진다.

  3. 이때 hashing은 결과로 얻어진 multi modal 공간에 대해 다음과 같은 특정 제약을 강제한다. 또한 이런 제약은 hash function으로 data representation표현하는 방법을 훈련하면서 세 가지를 충족하려고 한다.

  • N차원 해밍 공간이어여 하며, 제어 가능한 이진 표현이어야 한다.
  • 다른 modality로부터 같은 object를 가지면 유사한 hash code를 가져야한다.
  • Space는 similarity-preserving이어야 한다.
  1. 앞선 방법으로 문장 description과 해당 이미지 간의 공통 binary space을 학습하는 방법을 딥러닝에 적용하는 예시가 있다.

  2. 또한 Structured coordinated space의 다른 예로 이미지언어순서 임베딩에서 찾을 수 있다. 언어와 이미지 표현의 부분 순서를 캡처하여 공간에 계층 구조를 강제하는 것이다.

  • 예를 들어, “여자가 개를 산책시키고 있는 이미지” → “여자가 개를 산책시키고 있다"라는 텍스트 → “여자가 산책 중이다"라는 텍스트로 이어지는 순서를 강제하게 된다.

Translation

  1. continue