👽 졸업 논문 ( 2 ) - 멀티 모달 연합 학습, 탐사선 데이터

2025. 3. 13. 13:33개발/👽 졸업 논문

 

 

 

저번 회의를 통해서 이번 졸업 논문의 주제를 대략적으로 잡아보았다

💡 주제 : 탐사선 ( 케플러 / 허블 / 로버 등등 ) 의 누락 데이터 복구

 

우주로 보내지는 탐사선들은 데이터의 누락이 발생하기 쉽고

데이터의 절대적인 양 자체가 적기 때문에

누락 데이터의 복구가 매우 중요할 것 같다고 판단했다

 

 

ㅎㅎ 근데 일단 아는 게 너무 없어숴 ㅎㅎ

멀티모달 연합 학습, 멀티 모달 데이터의 복구에 적합한 생성형 AI 모델들(GAN, Diffusion Models 등)에 대해서 조사하고

우주 데이터를 얻을 수 있는, 특히 탐사선 데이터를 얻을 수 있는 플랫폼들을 찾아봐야겠다

 

 

 


 

 

멀티 모달 연합 학습과 멀티 모달 누락 데이터 복원

 

 

관련 논문 - Learning with Missing Modalities a servey

Learning%20with%20Missing%20Modalities%20A%20Survey.pdf
1.53MB

 

요약

1. 개요

멀티모달 학습(Multimodal Learning)은 텍스트, 이미지, 음성 등 다양한 데이터 모달리티를 결합하여 분석하는 인공지능(AI) 분야에서 중요한 연구 주제이다. 하지만 현실 세계에서는 하드웨어 제한, 비용 문제, 프라이버시 이슈, 데이터 손실 등의 이유로 일부 모달리티가 누락되는 경우가 많다. 이로 인해 멀티모달 모델의 성능이 저하될 수 있으며, 이러한 문제를 해결하기 위한 연구가 활발히 진행되고 있다.
이 논문은 누락된 모달리티(Missing Modality)를 고려한 멀티모달 학습(MLMM, Multimodal Learning with Missing Modality)의 최근 연구 동향을 종합적으로 분석한 최초의 서베이 논문이다. 기존의 멀티모달 학습과 MLMM의 차이를 설명하고, MLMM 기법, 응용 사례, 데이터셋을 체계적으로 정리하며, 향후 연구 방향에 대해 논의한다.


2. 누락된 모달리티 문제란?

현실에서는 다음과 같은 이유로 멀티모달 데이터가 불완전할 수 있다.

-  센서 고장: 하드웨어 제한이나 환경적 요인(예: 마이크 노이즈, 카메라 장애물)으로 인해 특정 모달리티가 누락될 수 있음.
-  데이터 비용 및 프라이버시 문제: 의료 데이터에서 개인 정보 보호 규제로 인해 특정 모달리티를 수집하기 어려움.
-  데이터 전송 문제: 네트워크 패킷 손실로 인해 일부 데이터가 사라질 수 있음.
-  장비 차이: 센서 버전이나 브랜드 차이로 인해 모달리티가 다르게 제공될 수 있음.

이러한 문제를 해결하지 않고 단순히 누락된 모달리티가 포함된 데이터를 제거하면 중요한 정보를 잃게 되고, 모델이 현실적인 상황에서 제대로 작동하지 않을 위험이 있다. 따라서 MLMM은 누락된 모달리티를 동적으로 처리하면서도 높은 성능을 유지할 수 있는 기법을 연구하는 것이 목표이다.


3. MLMM의 분류

MLMM 접근 방식은 데이터 처리 관점과 전략 설계 관점에서 4가지 주요 범주로 나뉜다.

1 ) 데이터 처리 기반 기법

( 1 ) 모달리티 보완 (Modality Imputation)
-  모달리티 구성 (Modality Composition): 누락된 모달리티를 임의의 값(0, 랜덤 값)이나 유사한 데이터 샘플을 기반으로 대체.
-  모달리티 생성 (Modality Generation): 생성 모델(GAN, 오토인코더, Diffusion 모델 등)을 이용해 누락된 모달리티를 예측.

( 2 ) 표현 학습 기반 기법 (Representation-Focused)
-  조정된 표현 학습 (Coordinated Representation): 다양한 모달리티 간의 표현을 정렬하여 데이터가 불완전한 상태에서도 의미 있는 피처를 학습.
-  표현 조합 (Representation Composition): 가용한 모달리티 표현을 단순 연산(평균, 합 등)으로 조합하여 누락된 정보를 보완.
-  표현 생성 (Representation Generation): 소규모 생성 모델을 사용해 누락된 모달리티의 표현을 보충.

(2) 전략 설계 기반 기법

( 1 ) 아키텍처 중심 기법 (Architecture-Focused)
-  어텐션 기반 (Attention-Based): 가용한 모달리티의 가중치를 동적으로 조정하여 최적의 결합 전략을 학습.
-  지식 증류 (Distillation-Based): 모든 모달리티를 사용할 수 있는 "교사 모델(Teacher Model)"이 지식을 "학생 모델(Student Model)"에 전달하여 누락된 모달리티를 보완.
-  그래프 학습 (Graph Learning-Based): 모달리티 간 관계를 그래프 구조로 모델링하여 누락된 정보를 보완.
-  멀티모달 대형 언어 모델 (Multimodal Large Language Model, MLLM): GPT 계열의 대형 모델을 활용하여 다중 모달 데이터를 처리.

( 2 ) 모델 결합 기법 (Model Combinations)
-  앙상블 (Ensemble): 다수의 모델을 조합하여 보다 강력한 예측을 수행.
-  전용 모델 학습 (Dedicated Training): 각 누락된 모달리티 조합에 대해 별도 모델을 학습.
-  이산 스케줄러 (Discrete Scheduler): LLM을 활용하여 주어진 모달리티에 맞춰 적절한 하위 모델을 선택.


4. MLMM의 주요 응용 분야

MLMM 기술은 다양한 도메인에서 활용되고 있다.
감성 분석: 음성, 영상, 텍스트 데이터를 조합하여 감정 분석 수행.
의료 진단: CT, MRI, 생체 센서 데이터를 결합하여 진단 정확도 향상.
정보 검색: 텍스트와 이미지 정보를 활용한 검색 엔진 개선.
원격 감지 (Remote Sensing): 위성 이미지와 다른 센서 데이터를 조합해 환경 변화 감지.
로봇 비전: 로봇이 다양한 센서를 활용하여 주위 환경을 인식하고 판단.


6. 결론 및 향후 연구 방향

자원 효율적 접근법 연구 필요: 현재 많은 MLMM 기법이 높은 연산 비용을 요구하므로, 경량화된 모델 개발이 필요함.
불완전한 학습 데이터셋 대응 방안: 대부분의 방법이 완전한 데이터셋을 전제로 하므로, 데이터 누락이 있는 경우에도 성능을 유지하는 연구가 필요함.
범용 MLMM 모델 개발: 현재 연구는 특정 도메인에 맞춰져 있어, 다양한 응용 분야에서 활용할 수 있는 범용 MLMM 모델이 필요함.

 

 

 

MLMM 모델

 

1. 이미지 데이터 복원 (Image Reconstruction)

GAN(Generative Adversarial Networks)
예시: StyleGAN, CycleGAN
손상된 이미지의 패턴을 학습하여 자연스럽게 복원하는 데 사용됨.

Diffusion Model
예시: Stable Diffusion, DALL·E 2
점진적으로 노이즈를 제거하는 방식으로 결손된 부분을 복원함.

Autoencoder & Variational Autoencoder (VAE)
예시: CVAE, β-VAE
데이터의 잠재 공간을 학습하여 누락된 부분을 채울 수 있음.

Transformer-based Models
예시: ImageGPT, ViT(Vision Transformer)
이미지 패치 기반으로 손실된 영역을 복원 가능.

 

2. 텍스트 데이터 복원 (Text Imputation)

GAN 기반 모델
예시: WaveGAN, MelGAN
손실된 음성을 주변 패턴을 통해 재구성.

Transformer 기반 오디오 모델
예시: Whisper, AudioLM
연속된 음성 데이터를 학습하여 손실된 부분을 보완.

Diffusion Models
예시: AudioGen, WaveGrad
주어진 음성 데이터를 기반으로 자연스러운 보간 수행.

 

 

3. 오디오 데이터 복원 (Audio Inpainting)

GAN 기반 모델
예시: WaveGAN, MelGAN
손실된 음성을 주변 패턴을 통해 재구성.

Transformer 기반 오디오 모델
예시: Whisper, AudioLM
연속된 음성 데이터를 학습하여 손실된 부분을 보완.

Diffusion Models
예시: AudioGen, WaveGrad
주어진 음성 데이터를 기반으로 자연스러운 보간 수행.

 

4. 비디오 데이터 복원 (Video Inpainting)

GAN 기반 모델
예시: DeepFillv2, TecoGAN
프레임 간 연속성을 유지하면서 손실된 부분을 자연스럽게 채움.

Transformer 기반 비디오 모델
예시: VideoGPT, MoCo
시퀀스 기반으로 영상 프레임을 복원.

Diffusion Models
예시: Video Diffusion Models
점진적으로 누락된 비디오 영역을 생성.

 

5. 표(Tabular) 데이터 복원

GAN 기반 모델
예시: TGAN, CTGAN, TabGAN
연속형 및 범주형 데이터를 고려하여 표 데이터를 생성 및 복원.


Transformer 기반 모델
예시: TabTransformer
표 형식 데이터에서 누락된 값을 추론.

Bayesian Network 기반 모델
예시: Bayesian Imputation
통계적 관계를 이용하여 결측값을 복원.

 

 

 


 

 

 

탐사선 데이터

 

 

[  ROVER Datasets  ]

https://www.kaggle.com/search?q=rover+in%3Adatasets

 

Search | Kaggle

 

www.kaggle.com

 

https://zenodo.org/records/1049137

 

Mars surface image (Curiosity rover) labeled data set

This data set consists of 6691 images spanning 24 classes that were collected by the Mars Science Laboratory (MSL, Curosity) rover by three instruments (Mastcam Right eye, Mastcam Left eye, and MAHLI).  These images are the "browse" version of each origin

zenodo.org

 

 

https://iis-esslingen.github.io/rover/

 

Welcome to The ROVER Dataset · The ROVER Dataset

Welcome to The ROVER Dataset Hello everyone! We’re excited to share The ROVER Dataset with you. This dataset is designed to support Visual SLAM research, especially for challenging outdoor environments. Here, you’ll find a resources, information, and t

iis-esslingen.github.io