👽 졸업 논문 ( 10 ) - 멀티 모달 논문 분석 : Multimodal Machine Learning:A Survey and Taxonomy
Abstract & Introduction
우리의 세계 경험은 시각, 청각, 촉각, 후각, 미각과 같이 여러 감각(modality)을 통해 이루어진다.
인공지능(AI)이 주변 세계를 더 잘 이해하려면 이러한 다중 모달 신호를 함께 해석할 수 있어야 한다.
Multimodal Machine Learning은 여러 모달리티의 정보를 처리하고 상호 연관시키는 모델을 구축하는 것을 목표로 한다.
이 논문에서는 특히 세 가지 주요 모달리티에 초점을 맞춘다.
- 자연어(Natural Language) - 텍스트(문자) 또는 음성으로 표현됨
- 시각적 신호(Visual Signals) - 이미지 또는 비디오 형태로 표현됨
- 음성 신호(Vocal Signals) - 소리 및 억양(prosody), 감정 표현을 포함
또한 이 논문에서는 다중 모달 머신러닝의 주요 도전 과제를 다음과 같이 다섯 가지로 정리한다.
- 표현(Representation)
- 다중 모달 데이터를 효과적으로 표현하고 요약하는 방법
- 모달리티 간 보완성(complementarity) 및 중복성(redundancy) 활용
- 예: 텍스트는 기호(symbolic) 형태, 음성과 영상은 신호(signal) 형태 → 이질적인 데이터 표현 문제
- 변환(Translation)
- 한 모달리티의 정보를 다른 모달리티로 변환하는 문제
- 모달리티 간 관계가 개방적(open-ended)이며 주관적(subjective)일 수 있음
- 예: 같은 이미지를 여러 가지 방식으로 설명할 수 있음 → 단일한 정답이 존재하지 않을 수도 있음
- 정렬(Alignment)
- 서로 다른 모달리티의 (하위)요소 간 직접적인 연관성 찾기
- 예: 요리 레시피의 각 단계를 요리하는 영상의 특정 순간과 연결하는 문제
- 다중 모달 데이터 간 유사성을 측정하고, 장거리(long-range) 의존성과 모호성 해결 필요
- 융합(Fusion)
- 여러 모달리티의 정보를 결합하여 예측 수행
- 예: 오디오-비주얼 음성 인식에서는 입술 움직임(비주얼 정보)과 음성 신호(오디오 정보)를 함께 사용
- 각 모달리티의 예측 성능, 노이즈 특성, 데이터 누락(missing data) 문제 해결 필요
- 공학습(Co-learning)
- 서로 다른 모달리티 간 지식 공유 및 전이 학습(transfer learning)
- 한 모달리티에서 학습한 지식을 다른 모달리티의 모델 훈련에 활용
- 예: 코트레이닝(co-training), 개념적 기반 학습(conceptual grounding), 제로샷 학습(zero-shot learning)
- 특정 모달리티(예: 주석이 적은 데이터)의 리소스가 부족할 때 특히 중요
Section 3. Representation
표현의 중요성
- 머신러닝 모델이 데이터를 처리하려면 데이터를 적절한 형식(벡터 또는 텐서)으로 변환해야 한다.
- 다중 모달 표현은 이미지, 오디오, 텍스트 등의 다양한 데이터 유형을 결합하여 표현하는 것을 의미한다.
- 여러 모달을 결합할 때의 주요 도전 과제:
- 서로 다른 유형의 데이터를 어떻게 결합할 것인가?
- 노이즈(잡음)에 어떻게 대응할 것인가?
- 일부 데이터가 누락되었을 때 어떻게 처리할 것인가?
좋은 표현의 특성
[ Bengio et al. (2003) ]
- 매끄러움(smoothness) : 유사한 입력이 유사한 출력을 가져야 함
- 시간적 및 공간적 일관성(temporal & spatial coherence) : 데이터가 연속적인 패턴을 유지해야 함
- 희소성(sparsity) : 중요한 정보만 포함하여 불필요한 요소를 배제
- 자연스러운 클러스터링(natural clustering) : 비슷한 개념들이 비슷한 표현을 가져야 함
[ Srivastava & Salakhutdinov (2014) ]
- 표현 공간에서 개념 간의 유사성이 유지되어야 함
- 일부 모달이 누락되더라도 표현을 쉽게 얻을 수 있어야 함
- 관찰된 모달을 기반으로 누락된 모달을 복원할 수 있어야 함
단일 모달에서 다중 모달 표현으로의 발전
- 초기 머신러닝에서는 사람이 직접 특징을 설계하는 방식(hand-crafted features)이 주류였다.
- 예시:
- 이미지: SIFT(Scale Invariant Feature Transform) → CNN 기반 데이터 학습
- 오디오: MFCC(Mel-Frequency Cepstral Coefficients) → 심층 신경망(DNN) 기반 특징 학습
- 텍스트: 단순 단어 빈도수 기반 → 데이터 중심의 워드 임베딩(word embedding)
- 다중 모달 표현 초기에는 단일 모달 표현을 단순히 연결하는 방식 이 많았지만, 최근에는 보다 정교한 방법들이 등장하고 있다.
다중 모달 표현 방식
다중 모달 표현은 크게 두 가지로 나뉜다.
공동(Joint) 표현
- 여러 개의 단일 모달 표현을 하나의 통합된 표현 공간 으로 변환.
- 예) 신경망, 제한된 볼츠만 머신(RBM), 순환 신경망(RNN) 등을 사용하여 여러 모달을 하나의 벡터로 변환.
조정(Coordinated) 표현
- 각 모달을 별도의 표현 공간 에서 변환하지만, 표현 간의 관계를 유지하도록 학습.
- 예) 두 모달의 벡터의 코사인 유사도를 최소화하거나, 상관관계를 최대화하거나 부분 순서를 유지하는 방식.
3.1. Joint Representations
Joint Representations
: 여러 모달리티(이미지, 오디오, 텍스트 등)의 특성을 하나의 공간에 결합하여 표현하는 방법
Neural Networks
: 모달리티를 표현하는 데 매우 인기 있는 방법
- 각 모달리티의 데이터가 신경망을 통해 결합되어 하나의 멀티모달 공간에 투영된다.
- 네트워크의 마지막 또는 두 번째 마지막 층을 데이터 표현으로 사용한다.
Autoencoder 활용
Autoencoder을 통해 pre-train을 하고, Multi-modal 지도 학습 모델로 fine-tuning을 진행하면
적은 라벨링 데이터로 좋은 결과를 낼 수 있다
비지도학습인 Autoencoder를 통해 우선적으로 특징 벡터를 추출해낸다
이때 손실 항에 레이블 예측 값을 넣게 되면 ( 손실 함수 = 복원 오차 + 레이블 예측 오차 )
학습을 반복하면서 각 레이블을 더 잘 구별해낼 수 있는 좋은 특징 벡터를 추출할 수 있게 된다
그렇게 추출된 특징 벡터를 인풋값으로 넣고 지도학습 모델을 fine-tuning한다
( pre-train 없이 적은 라벨링 데이터를 바로 지도학습에 넣으면 적절한 특징 벡터가 나오기 어렵고 과적합이 나타날 가능성이 크지만 Autoencoder를 활용하면 좋은 특징 벡터를 추출할 수 있게 됨으로써 더 나은 모델을 생성할 수 있다 )
Joint Representations의 장단점
- 장점: 데이터가 부족할 때도 unsupervised 방식으로 사전 훈련할 수 있음
- 단점: 신경망은 데이터를 충분히 훈련해야 하며, 결측 데이터를 자연스럽게 처리하기 어려움
PGM(Probabilistic Graphical Models)
: DBM (Deep Boltzmann Machines)을 사용하여 멀티모달 데이터를 확률적 그래프 모델로 표현하는 방법
DBM(Deep Boltzmann Machines)
: RBM(Restricted Boltzmann Machine)을 여러 층으로 쌓은 모델
- 비지도 학습 가능 → 라벨 없이도 학습 가능
- 데이터의 확률적 표현을 학습 → 생성 모델로 활용 가능
- 각 층이 점점 더 추상적인 표현을 학습 (딥러닝과 유사)
- 결정론적인 신경망(Deterministic NN)으로 변환 가능 (하지만 생성 능력 손실됨)
RBM(Restricted Boltzmann Machine)
: 확률적 그래픽 모델의 일종
- 입력층(visible layer)과 은닉층(hidden layer)으로 이루어진 이층 신경망 구조
- 모든 뉴런이 서로 연결되어 있는 것이 아니라, 층 사이에서만 연결됨
MMDBM(Multimodal DBM)
: 서로 다른 모달리티를 각각 DBM으로 표현한 후, 이들을 공유된(hidden) 층에서 결합하여 공통 표현(joint representation)을 학습
- 여러 가지 모달을 하나의 표현으로 학습
- 각 모달리티 간 상호작용을 학습할 수 있음
- 한 가지 모달이 없더라도 다른 모달을 통해 보완 가능
RNN(Recurrent Neural Networks)
: 순차적(Sequential) 데이터를 다룰 때 사용하는 신경망. 시간의 흐름을 고려하여 데이터 처리.
RNN의 hidden state
RNN에서 각 시간 단계(time step)의 은닉 상태(hidden state) 는 이전까지 입력된 데이터를 요약(summarization)하는 역할
즉, 시점 t에서의 은닉 상태는 이전 모든 입력 데이터의 정보를 포함한다
RNN의 Decoder, Encoder
- 인코더(Encoder): 입력 데이터를 하나의 고정된 벡터(hidden state)에 압축
- 디코더(Decoder): 압축된 벡터를 다시 출력 데이터로 변환
3.2 Coordinated Representations
Coordinated Representations
: 다양한 모달리티를 결합하여 하나의 공동 공간에 투영하는 대신, 각 모달리티에 대해 별도의 표현을 학습하고 이를 특정 제약 조건을 통해 조정하는 방법
Coordinated Representations의 유형
1 ) 유사성 모델 (Similarity Models)
유사성 모델 : 서로 다른 데이터 타입의 표현(Embedding) 간 거리를 줄이는 방식으로 학습하는 모델
의미적으로 비슷한 것들은 가깝게, 관련 없는 것들은 멀게 배치하는 방식 사용
최근 연구 모델
- WSABIE 모델 → 이미지 & 텍스트를 내적(inner product) 기반으로 매핑
- DeViSE 모델 → WSABIE보다 더 복잡한 신경망 구조 사용
- LSTM을 활용한 연구(Kiros et al.) → 문장과 이미지의 관계 학습
- Dependency Tree RNN(Socher et al.) → 문법적 구조까지 반영
- 비디오 활용 연구(Pan et al., Xu et al.) → 영상과 텍스트 간의 관계 학습 가능
2 ) 구조적 조정된 표현 (Structured Coordinated Representations)
구조적 조정된 표현 : 모달리티 간의 유사성을 극대화하는 것을 넘어, 특정한 구조적 제약을 추가하여 학습하는 방식
- 애플리케이션에 따라 다른 제약 적용
모델 유형 | 핵심 개념 | 대표 연구 |
Cross-modal Hashing | 텍스트 & 이미지를 이진 벡터(해시 코드) 로 변환 | Jiang & Li Cao et al. |
Order-Embeddings | 데이터 간 계층적 관계(Partial Order) 학습 | Vendrov et al. Young et al. |
Canonical Correlation Analysis (CCA) | 모달리티 간 상관관계를 최대로 유지 | KCCA [116] DCCA [7] Semantic Correlation Maximization |
논의 (Discussion)
공동 표현 (Joint Representations)
공동 표현은 모든 모달리티가 추론 과정에 함께 존재할 때 가장 적합하다
ex ) AVSR (Audio-Visual Speech Recognition), 감정 인식 (affect), 다중 모달 제스처 인식 (multimodal gesture recognition)
조정된 표현 (Coordinated Representations)
조정된 표현은 테스트 시에 하나의 모달리티만 존재하는 경우에 적합하다
ex ) 다중 모달 검색 (multimodal retrieval), 번역 (translation), zero-shot learning
공동 표현은 두 개 이상의 모달리티를 결합하여 표현을 만드는 데 사용된 반면
조정된 표현은 지금까지 주로 두 개의 모달리티에만 적용되었다
Section 4. Translation
Translation
: 한 모달리티에서 다른 모달리티로의 번역(매핑)
ex ) 이미지를 주면 이를 설명하는 문장을 생성하거나, 텍스트 설명을 주면 그에 맞는 이미지를 생성하는 것
Translation 모델 유형은 예시 기반 모델과 생성 기반 모델로 나뉜다

4.1. 예시 기반 (Example-based)
예시 기반 알고리즘
: 사전(서로 다른 모달리티를 연결해놓은 것)에 의해 제한된다
예시 알고리즘은 검색 기반(retrieval-based)과 조합 기반(combination-based) 두 가지 유형으로 나눌 수 있다
검색 기반 모델 (Retrieval-based models)
: 사전에서 검색된 번역을 그대로 사용하는 방식
- 가장 가까운 샘플을 찾고 그것을 번역 결과로 사용한다
검색은 단일 모달리티 공간 혹은 중간 의미 공간에서 이루어진다
- 단일 모달리티 공간 검색 : 번역할 데이터의 같은 모달리티에서 가장 가까운 예제를 찾음.
장점 : 구조가 단순하고 빠름 / 한 가지 모달리티만 고려해도 됨
단점 : 후처리(re-ranking) 과정이 필요할 수 있음 / 비슷한 이미지 ≠ 적절한 번역이 아닐 수도 있음
- 중간 의미 공간 검색 : 소스와 타겟 모달리티를 공통 의미 공간으로 변환한 후, 가장 가까운 예제를 찾음.
모달리티 구분 신호를 유지함으로써 각 모달리티를 서로 구분할 수 있음
예시:
- Farhadi et al. : 이미지와 문장을 (객체, 행동, 장면) 형태의 의미 공간에 매핑 후, 가장 가까운 캡션을 검색.
- Socher et al.: 문장과 CNN 기반 이미지 특징을 공동 임베딩(coordinated space) 으로 학습해 번역.
- Jiang & Li [93], Cao et al. : 다중모달 해싱(cross-modal hashing)을 활용해 이미지-문장 번역 수행.
- Hodosh et al. : KCCA(Kernel Canonical Correlation Analysis) 기법으로 이미지-문장 검색.
- Karpathy et al. : 전체 이미지-문장 매칭이 아니라, 이미지 조각(시각적 객체)과 문장 조각(구문 구조)을 내부적으로 정렬하여 의미를 보존하는 검색 수행.
장점:
- 더 의미 있는 검색 가능 → 텍스트와 이미지가 같은 공간에서 비교되므로 번역 품질 향상.
- 양방향 번역 가능 (예: 이미지 → 문장, 문장 → 이미지).
단점:
- 대량의 학습 데이터(이미지-텍스트 쌍)가 필요.
- 의미 공간을 수동으로 설계하거나 딥러닝을 사용해 학습해야 함
조합 기반 모델 (Combination-based models)
조합 기반 모델
: 검색된 예시들을 의미 있는 방식으로 결합하여 더 나은 번역을 생성하는 방식
동작 방식
이미지 또는 텍스트 입력이 주어짐
-> Retrieval-based 방식으로 사전에서 관련 예제들을 검색
-> 검색된 예제들을 조합하여 새로운 문장을 생성
조합 규칙은 수작업(Hand-crafted) 또는 휴리스틱(Heuristics, 경험 기반 규칙)으로 정의됨
연구 사례
- Kuznetsova et al. (2012) : 시각적으로 유사한 이미지의 설명을 검색한 후, 정수 선형 계획법을 사용하여 가장 적절한 문장을 조합
- Gupta et al. (2012) : k-Nearest Neighbors (KNN) 방법으로 유사한 이미지를 k개 찾은 후, 각 이미지에 대한 설명에서 문구(phrases)를 추출하여 조합
- Lebret et al. (2015) : CNN을 이용해 이미지의 특징을 추출한 후, 그 특징을 기반으로 이미지에 대한 문구(phrases) 예측.마지막으로, trigram 기반 언어 모델을 사용하여 문구를 자연스럽게 조합
장점
- 단순 Retrieval 방식보다 더 유연한 번역 가능
- 기존 데이터에 없는 새로운 문장도 생성 가능
- 사전(Dictionary) 크기가 작아도 활용 가능
단점
- 사전이 커질수록 모델이 무거워지고 추론 속도가 느려짐
- 하지만 해싱(Hashing) 같은 최적화 기법을 사용하면 속도를 개선할 수 있음.
- 모든 입력에 대해 완벽한 번역을 찾는 것은 불가능
- 예제 기반 번역이므로, 사전에 없는 경우 좋은 번역을 찾기 어려움.
- 특히 단방향 번역만 가능하고, 의미 공간을 학습한 모델처럼 양방향 번역(예: 이미지 → 텍스트 & 텍스트 → 이미지) 기능이 부족함.
4.2. Generative Approaches (생성적 접근법)
Generative Approaches
: 생성적 접근법은 단일 모달리티의 소스를 기반으로 다중 모달리티 번역을 수행하는 모델을 구축하는 방법
ex ) 이미지를 보고 문장을 생성하거나(이미지 캡셔닝), 텍스트를 보고 음성을 생성하는(text-to-speech) 등의 작업
Generative Approaches의 도전 과제
- 입력 모달리티를 정확히 이해해야 하고
- 그 정보를 바탕으로 새로운 데이터를 생성해야 하며
- 정답이 하나가 아니라 다양한 가능한 결과가 있기 때문에 평가가 어렵다
Generative Approaches가 다루는 모달리티
- 언어(Language): 텍스트 생성 (예: 이미지 → 문장 생성)
- 비전(Vision): 이미지 생성 (예: 텍스트 → 이미지 생성)
- 소리(Sound): 음성 또는 소리 생성 (예: 텍스트 → 음성 변환)
Grammar-based models(문법 기반 모델)
: 목표 모달리티에 대해 미리 정의된 문법을 사용하여 생성
ex ) 이미지에서 객체(object)와 행동(action)을 탐지한 후, 이를 미리 정의된 문법 구조(템플릿)에 맞춰 문장을 생성
"A person is holding a cup" 같은 문장을 생성할 때,
- subject(주어): A person
- verb(동사): is holding
- object(목적어): a cup
이런 구조적 틀을 따라 생성하는 것
동작 방식
입력 데이터에서 고수준 개념(high-level concepts) 탐지
- 이미지: 객체(사람, 동물, 사물), 관계(위치, 동작) 탐지
- 비디오: 행동(걷기, 뛰기), 이벤트(공을 던지기) 탐지
탐지된 개념을 특정 문법 템플릿에 맞춰 조합
- 예: "주어 + 동사 + 목적어(subject-verb-object)" 구조
- 예: "주어 + 전치사 + 목적어(subject-preposition-object)" 구조
미리 정해진 문법을 적용해 결과 생성
- 정해진 규칙에 따라 올바른 문장을 생성하도록 설계됨.
장점
- 문법적으로 정확한 문장 생성 가능
- 미리 정의된 문법 규칙을 따르므로 문법 오류가 적음.
- 예: "The cat is sitting on the mat." (템플릿에 맞춰 자연스럽게 생성)
- 논리적으로 일관된 결과를 생성
- "누가-무엇을-어디서-어떻게" 같은 구조적 일관성을 유지 가능.
- 신뢰성 높은 모델
- 템플릿을 사용하므로 이상한 문장이 생성될 가능성이 낮음.
단점
- 창의적인 표현이 부족함
- 제한된 문법 템플릿을 사용하므로 자연스러운 변형이 어려움.
- 예: "The cat is sitting on the mat." → "A furry cat is comfortably resting on a soft mat." 같은 다양성을 구현하기 어려움.
- 복잡한 파이프라인이 필요함
- 객체 탐지 모델, 관계 탐지 모델 등 여러 개의 개별 시스템이 필요.
- 각각의 탐지 시스템이 오류를 내면 전체 결과가 잘못될 위험이 있음.
- 새로운 데이터에 적응이 어려움
- 학습되지 않은 새로운 객체나 행동이 등장하면 문장을 제대로 생성하기 어려움.
- 예: "드론이 날고 있다" → 기존 문법이 드론 개념을 포함하지 않으면 문장 생성 불가.
Encoder-Decoder models(인코더-디코더 모델)
: 소스 모달리티를 벡터 표현으로 인코딩한 후, 디코더를 사용하여 목표 모달리티를 생성하는 방식
ex ) 이미지 캡셔닝, 비디오 설명, 텍스트-스피치 변환
동작 방식
인코더 - 입력데이터를 숫자로 변환
- 소리(음성) 데이터 → RNN(Recurrent Neural Networks), DBN(Deep Belief Networks)
- 문장(텍스트) 데이터 → 배포적 의미론(distributional semantics), RNN 변형 모델
- 이미지 데이터 → CNN(Convolutional Neural Networks)
- 비디오 데이터 → CNN을 쓰기도 하지만, 여전히 수작업(hand-crafted) 특징 추출 기법을 많이 씀
다양한 데이터를 공통된 벡터 공간(coordinated space) 에 매핑하는 것이 더 나은 성능을 보임
디코더 - 변환된 벡터를 원하는 형태로 변환
주로 RNN, LSTM 사용
- 변환된 벡터를 RNN/LSTM의 초기 상태로 사용
- 이를 기반으로 문장, 이미지, 소리 등을 생성
다양한 성능 향상 연구 진행 중
장점
- 전방위적인 학습과 파이프라인에서 연속된 예측을 할 수 있어 매우 유연하고 다재다능함
단점
- 긴 문장을 생성할 때 앞의 내용을 잊어버리는 문제(장기 의존성 문제) 가 있음
- 긴 텍스트나 복잡한 이미지를 생성할 때 성능이 떨어질 가능성 있음
- 엄청나게 많은 훈련 데이터 필요함
Continuous Generation Models(연속 생성 모델)
: 입력 데이터를 순차적으로 처리하면서 실시간(온라인)으로 출력을 생성하는 모델
- 시퀀스(Sequence) 데이터를 입력받아, 시퀀스 데이터를 출력하는 모델.
- 입력이 한 번에 주어지는 것이 아니라 시간 순서대로 입력이 들어오고, 이에 맞춰 출력도 점진적으로 생성됨.
- 중요한 점: 입력과 출력 간의 시간적 일관성(Temporal Consistency) 유지가 필요함.
- ex ) 말하는 영상에서 입술 모양과 음성이 일치해야 함
연구 동향
[ 초기 연구 : Graphical Models(그래픽 모델) / Latent Variable Models(잠재 변수 모델) ]
Deena & Galata :
- 오디오(음성)와 비주얼(영상) 데이터를 공유된 가우시안 프로세스 잠재 변수 모델로 변환
- 즉, 음성과 영상을 같은 공간에 매핑하여 변환 가능하도록 함
- 예: 오디오를 기반으로 사람의 입 모양을 애니메이션으로 생성
히든 마코프 모델 (HMM, Hidden Markov Model)
- 음성 기반 영상 생성(Visual Speech Generation)
- 텍스트-음성 변환(Text-to-Speech)
- 확장된 HMM 모델:
- 여러 명의 화자(스피커), 언어, 감정 등을 학습할 수 있도록 클러스터 적응 훈련(Cluster Adaptive Training) 도입.
- ex ) 여러 사람의 음성을 학습한 후, 특정 사람의 스타일에 맞춰 음성을 생성하는 기능.
[ 최근 연구 : 인코더-디코더 기반 뉴럴 네트워크 모델 ]
Owens et al. :
- 드럼스틱이 연주하는 비디오를 보고 LSTM으로 소리를 생성하는 연구.
- CNN을 이용해 비주얼 특징을 추출한 후, 이를 기반으로 소리를 예측.
- 하지만 예측된 소리보다, 가장 가까운 실제 오디오를 찾는 방식이 더 좋은 결과를 보였음.
Van den Oord et al. :
- 완전 합성곱 신경망(Fully Convolutional Neural Networks) 을 이용하여 음성을 직접 생성.
- 이전 기술들보다 음성 합성 품질이 크게 향상됨.
- 예: AI 음성 생성(딥러닝 보이스 합성).
음성 인식 (Speech-to-Text)
- RNN을 이용한 음성 인식(Speech Recognition) 연구 [72].
- 최근에는 인코더-디코더 기반 모델을 사용하여 음성을 문자 단위(letter-level)로 변환하는 연구도 등장 [35].
- 이 모델은 특히 희귀 단어(Rare Words)나 사전에 없는 단어(Out-of-Vocabulary Words) 도 더 잘 인식할 수 있음
Collobert et al.
- 기존에는 음성 인식을 할 때 특정 오디오 특징을 추출하는 과정이 필요했지만,
- 이 연구에서는 오디오 원본(raw audio signal)만으로 음성 인식이 가능하도록 함.
다중 모달 변환 모델 평가의 어려움
멀티모달 번역 방법은 평가하기 매우 어려운 문제다.
예를 들어, 음성 인식 같은 작업은 정답이 명확하지만, 음성 합성이나 미디어 설명과 같은 작업에서는 여러 개의 답이 존재할 수 있다
이 경우 어느 번역이 더 좋은지 평가하는 것은 주관적이다.
인간 평가
인간이 직접 판단하는 방식
- Likert 척도를 사용해 자연스러움(naturalness), 평균 의견 점수(mean opinion score), 현실성(realism), 문법적/의미적 정확성(grammar & semantic correctness) 등을 평가
- 선호도 연구(preference study)를 통해 여러 번역을 제시하고 사람들이 더 좋은 번역을 선택하도록 함
- 단점 : 비용이 많이 들고, 시간이 오래 걸리며, 평가자가 가진 언어, 문화적 배경, 성별, 연령 등의 편향이 개입될 가능성 존재
자동화된 평가 대안
BLEU, ROUGE, Meteor, CIDEr와 같은 자동 평가 지표 등장
- BLEU (Bilingual Evaluation Understudy): 기계 번역에서 자주 사용되며, 생성된 문장이 참조 문장과 얼마나 유사한지 평가
- 한계 : 사람들의 평가와 약한 상관관계(weak correlation)
- ROUGE (Recall-Oriented Understudy for Gisting Evaluation): 요약문 평가에서 사용되며, 단어나 문장 간의 겹치는 정도 측정
- METEOR (Metric for Evaluation of Translation with Explicit ORdering): BLEU보다 문장의 유창성을 더 고려
- CIDEr (Consensus-based Image Description Evaluation): 이미지 캡션 평가에 최적화됨
대체 평가 방법 - 검색 기반 평가
- 캡션을 직접 생성하는 대신, 데이터베이스에서 적절한 캡션을 찾아 순위를 매기는 방식
- 이 방식은 사람이 직접 캡션을 평가하는 방식과 더 유사한 결과를 제공함
- 이러한 방법은 비디오 캡션 생성에서도 적용
시각적 질문 응답(VQA)
: VQA는 이미지와 질문이 주어졌을 때, 적절한 답변을 생성하는 방식
ex ) "이 이미지에서 사람이 몇 명인가?" → "3명"
- 정답이 명확한 경우 평가가 쉬워지지만, 질문에 대한 답이 모호할 수도 있어 평가가 여전히 어려움
Section 5. Alignment
멀티모달 정렬 (Alignment)
: 서로 다른 모달리티 간에 서로 대응하는 부분을 찾는 작업
ex1 ) 이미지와 캡션이 주어졌을 때, 캡션의 단어나 구와 대응되는 이미지 영역을 찾기
ex2 ) 영화가 주어졌을 때, 그것이 기반이 된 대본이나 책의 챕터와 정렬하는 작업
- 멀티모달 정렬은 명시적 정렬과 암묵적 정렬로 구분된다
5.1. 명시적 정렬 (Explicit Alignment)
명시적 정렬
: 서로 다른 모달리티(예: 텍스트-이미지, 오디오-비디오 등) 간 서브 컴포넌트(subcomponents) 를 정렬하는 것이 주요 목표
: 핵심은 유사성 측정이며, 유사성은 수동으로 정의하거나 데이터에서 학습할 수 있다
명시적 정렬의 두 가지 유형
1 ) 비지도 학습 (Unsupervised) 정렬
- 정렬 라벨 없음 ( 명시적인 모달리티 간 매핑 정보 없음 )
- 주요 기법:
- Dynamic Time Warping (DTW):
- 시계열 간 유사도 측정 및 시간 왜곡을 통한 최적 정렬
- 수동 유사도 정의 필요
- 예시: grapheme-phoneme, 영상 장면-문장 정렬 등
- DTW + CCA (Canonical Correlation Analysis):
- CCA로 모달리티를 공동 공간에 매핑하여 DTW 수행 (선형 관계만 가능)
- Deep Canonical Time Warping은 비선형 관계까지 모델링 가능
- 그래픽 모델 기반 방법:
- 예시:
- 이미지-음성 정렬 (Yu & Ballard)
- 영화 장면-스크립트 정렬 (Cour 등)
- 요리 영상-레시피 정렬 (Malmaud 등)
- 문장-프레임 정렬 (Naim 등)
- HMM, CRF 등 사용
- 전문가 지식 필요함
- 예시:
2 ) 지도 학습 (Supervised) 정렬
- 정렬 라벨 존재 (부분적이거나 약한 지도 가능)
- 주요 기법:
- Bojanowski 등: Canonical Time Warping 기법을 감독 학습에 확장
- Plummer 등: 이미지 영역-문장 구간 정렬에 CCA 사용
- Gebru 등: GMM과 그래픽 모델 결합해 오디오-비디오 정렬
- Kong 등: 3D 객체-텍스트 정렬을 위한 마르코프 랜덤 필드 사용
3 ) 딥러닝 기반 접근법
- 주요 기법:
- Zhu 등: 책-영화 간 장면-텍스트 정렬을 CNN으로 수행
- Mao 등: LSTM(텍스트) + CNN(이미지) 조합
- Yu 등: 상대적 맥락 고려로 객체 구분 향상
- Hu 등: 이미지 영역-설명 간 정렬에 LSTM 기반 스코어링 사용
5.2 암시적 정렬 (Implicit Alignment)
암시적 정렬
: 암시적 정렬은 정렬 자체가 목적이 아니라, 다른 주요 작업(예: 번역, 자막 생성, 질문 응답 등)을 잘 수행하기 위한 중간 단계로서 정렬을 학습하는 방식
: 명시적 정렬처럼 명확하게 '무엇과 무엇이 일치한다'를 표시하지 않으며, 대신 모델이 학습 중에 잠재적으로 내부적으로 정렬을 수행
- 주요 접근법 : 그래픽 모델을 사용한 초기 작업과 신경망 기반의 최신 방법
1 ) 그래픽 모델 기반 초기 방법들:
- 예: 음소와 음성 사이의 정렬, 번역을 위한 단어 정렬 등에 사용됨.
- 문제점: 수동으로 매핑 모델을 정의해야 하며, 전문가 지식이나 데이터가 필요함.
2 ) 신경망 기반 최신 방법들:
- Encoder-Decoder 구조에서 흔히 사용됨.
- 기존 구조는 전체 문장/이미지를 하나의 벡터로 요약 → 성능 저하 가능성.
- 해결책: Attention 메커니즘 도입 → 각 시점에 중요한 부분을 강조해서 처리.
Attention 기법
- Attention 기법을 사용하면 디코더가 소스 인스턴스의 하위 구성 요소에 집중할 수 있게 됨
- 예시:
- 이미지 캡셔닝: CNN으로 전체 이미지 인코딩 대신, RNN 디코더가 이미지의 특정 부분에 집중하면서 문장 생성
- 질문 응답: 질문의 단어와 이미지/텍스트/영상의 부분을 정렬하여 더 정확한 응답 가능
- 다양한 attention 모델:
- 계층적(Hierarchical)
- 스택(Stacked)
- 에피소드 메모리(Episodic memory) 기반
5.3 논의 (Discussion)
멀티모달 정렬의 어려움
- 명시적으로 정렬된 데이터셋이 부족함.
- 서로 다른 모달 간 유사도 측정이 매우 어려움.
- 정확한 정렬이 하나만 존재하지 않음
발전 방향
- 초기에는 그래픽 모델과 동적 프로그래밍 기반의 비지도 정렬이 주류였음.
- 최근에는 지도 학습(Supervised learning)이 가능해지며, 정렬과 유사도 학습이 동시에 이루어짐.
- 동시에, 비지도 방식으로 번역, 융합, 정렬을 함께 학습하려는 신경망 기반의 최신 접근법도 점점 인기를 얻고 있음.
Section 6. Fusion
멀티모달 융합
: 여러 모달리티에서 정보를 통합하여 예측을 수행하는 것
- 예측 결과는 분류(classification)나 회귀(regression)로 나타남
멀티모달 융합의 주요 이점:
1 ) 다양한 모달리티의 정보 활용 : 동일한 현상을 여러 관점에서 포착 -> 예측의 정확도 향상
2 ) 보완적 정보 확보 : 하나의 모달리티에서는 보이지 않던 정보를 다른 모달리티에서 제공 가능
3 ) 모달리티 결손에 대한 강건함 : 한 모달리티가 결손되어도 다른 모달리티로 작동 가능
멀티모달 융합의 접근 방식
모델 비의존적 접근법
: 특정 머신 러닝 방법에 의존하지 않으며, 특징 추출 후 여러 모달리티를 통합하는 방법
모델 기반 접근법
: 융합을 모델 구조 안에 포함시키는 방법
최근 딥러닝 기반 모델에서는 표현 학습과 예측 작업(분류/회귀)이 서로 뒤섞이면서, 융합과 표현의 경계가 모호해지고 있음
6.1. 모델 비의존적 접근법 (Model-agnostic approaches)
모델 비의존적 접근법
- 대부분의 초기 멀티모달 융합은 모델 비의존적 접근법을 사용함
- 기존 단일 모달 모델들(classifier/regressor)을 그대로 사용해 융합 구조를 구성할 수 있어 유연하고 구현이 간단함
- 초기 융합(early fusion), 후기 융합(late fusion), 하이브리드 융합(hybrid fusion) 으로 나눌 수 있음

6.2 모델 기반 접근법 (Model-based approaches)
모델 기반 접근법
- 커널 기반, 그래픽 기반, 신경망 기반으로 나뉨
커널 기반 학습 (MKL)
* 커널 : 데이터 포인트 간의 유사도 함수
- 커널 서포트 벡터 머신(SVM)의 확장으로, 서로 다른 모달리티에 대해 다른 커널을 사용할 수 있게 해줌
- 장점
- 커널 선택의 유연성
- 컨벡스 최적화 가능 → 전역 최적해 보장
- 분류와 회귀 모두에 사용 가능
- 단점
- 테스트 시에도 훈련 데이터(서포트 벡터) 필요 → 느린 추론 속도와 큰 메모리 사용량
그래프 모델 (Graphical Models)
- 데이터 간의 확률적 관계를 모델링.
- 생성 모델(generative)과 판별 모델(discriminative)로 나뉨
- 주요 예시
- 생성 모델: Coupled/Factorial HMM, 동적 베이지안 네트워크 등.
- 판별 모델: CRF(Conditional Random Fields), HCRF(Hidden CRF), Multi-view HCRF 등.
- 장점
- 시공간적 구조(예: 시간 흐름, 순서 등) 반영 가능 → AVSR, 감정 인식 등에 유리.
- 해석 가능성(interpretable) 높고 전문가 지식 반영 가능.
- 단점
- 복잡한 구조에 비해 최근 성능 면에서는 딥러닝에 밀리는 경우가 많음.
- 딥러닝 기반으로 멀티모달 데이터 융합
- AVSR, 감정 분석, 이미지 캡셔닝 등에서 주로 사용
- 최근에는 RNN, LSTM, CNN-LSTM 구조 등이 활발히 사용됨
- 장점
- 대규모 데이터 학습 가능.
- 엔드 투 엔드(end-to-end) 학습 구조 가능.
- 복잡한 결합 구조와 비선형적 관계 학습 가능 → 성능 우수.
- 단점
- 해석 불가(black-box) → 예측 근거 파악 어려움.
- 대용량 데이터 필요 → 데이터 부족 시 성능 저하.
6.3 논의 (Discussion)
- 멀티모달 융합은 다양한 방식(모델 비종속, 그래픽 모델, 커널 기반, 신경망)으로 연구됨.
- 신경망 기반 방식이 최근 주류지만, 데이터가 적거나 해석 가능성이 필요한 경우엔 여전히 MKL과 그래픽 모델이 유용함.
- 여전히 남아 있는 3가지 주요 과제:
- 모달리티 간 시간적 비동기성 문제
- 보충 정보까지 활용하는 모델 설계의 어려움
- 모달리티 간 이질성(다른 특성) 존재
Section 7. Co - Learning
Co-Learning
: 자원이 부족한 모달리티(예: 라벨이 적거나 노이즈가 많은 경우)의 모델링을 자원이 풍부한 모달리티의 지식을 활용하여 돕는 방식
: 핵심은 도움이 되는 모달리티는 학습 시에만 사용되고, 테스트 시에는 사용되지 않는다는 것
- 데이터의 자원에 따라 병렬 데이터 기반 공학습, 비병렬 데이터 기반 공학습, 하이브리드 데이터 기반 공학습으로 나뉜다
7.1 . 병렬 데이터
병렬 공학습
: 병렬 데이터 공학습에서는 두 모달리티가 동일한 인스턴스를 공유함
학습 방식
Co-training (코트레이닝)
- 적은 라벨 데이터로 더 많은 라벨 데이터를 만들어내는 방식
- 각각의 모달리티로 약한 분류기를 만든 후 서로 라벨을 보완
- 예: 오디오-비디오 음성 인식, 웹페이지 분류 등
- 다만, 코트레이닝은 잘못된 라벨을 확산시켜 과적합으로 이어질 수 있음
Transfer learning (전이학습)
- 풍부한 모달리티의 표현을 부족한 모달리티로 전이
- 예: 오디오 모델에서 얻은 표현을 이미지 기반 립리딩 모델에 전이 → 테스트 시 오디오 없이도 동작
- 멀티모달 오토인코더, 딥 볼츠만 머신 등을 사용
7.2. 비병렬 데이터
비병렬 공학습
: 직접 연결된 인스턴스가 없지만, 개념 또는 클래스가 겹치는 경우에 활용
Transfer learning
- 각 모달리티에서 별도 학습 후 표현 공간을 조정해 전이.
- 예: 텍스트 데이터(word2vec)를 사용하여 이미지 분류 모델의 일반화 향상.
Conceptual grounding (개념 정착)
- 인간은 언어뿐 아니라 시각, 청각, 후각 등을 통해 개념을 이해함
- 언어적 표현을 비언어적 모달리티(예: 이미지, 소리)로 보완하여 의미를 더욱 풍부하게 표현
- 예: 메타포(은유) 분류, 단어 유사도 평가, 감각 기반 표현 학습
Zero-shot learning (제로샷 학습)
- 본 적 없는 개념을 분류
- 예: 고양이 이미지를 한 번도 본 적 없어도 ‘고양이’라는 단어의 의미 공간을 통해 분류
- 시각-텍스트 간 의미 공간을 공유하거나 매핑하는 방식으로 달성
7.3. 하이브리드 데이터
Bridge Correlational Neural Network
- 두 모달리티가 공통 모달리티를 통해 간접 연결됨
- 예: 다국어 이미지 캡션 – 각 언어 캡션은 동일한 이미지와 연결되어 있음.
- 다른 사례:
- 다국어 기계번역에서 중간 언어(예: 영어)를 브릿지로 사용
- 비슷한 작업에 대한 대형 데이터셋을 활용하여 학습 부족 보완 (예: 텍스트로 이미지 세분화 향상)
7.4. 논의
공학습은 모달리티 간 보완적인 정보를 활용해 더 나은 모델을 만드는 데 중점을 둔다
이는 특정 작업(분류, 번역, 정렬)에 국한되지 않고 모든 멀티모달 모델의 성능 향상에 활용될 수 있는 일반적인 프레임워크이다