👽 졸업 논문 ( 1 ) - 멀티 모달, 누락 데이터, 생성형 AI 복구

2025. 3. 10. 16:24개발/👽 졸업 논문

 

 

 

드뎌... 졸프가 시작돼따...

은채랑 한나랑 같이 팀 만들어따 💖

👽 우리 팀명 - 지구 정복 연구젝트 👽

 

 

캡스톤은 산학이랑 연구 트랙으로 나뉘는데

산학은 서비스 하나를 개발하는 거구 연구는 논문을 출고하는 거당

 

프로젝트 개발은 몇번 해보기도 했구 해볼 기회도 많은데

논문은 써볼 기회도 적구 교수님이랑 더 긴밀하게 탐구할 수 있는 기회도 흔치 않을 듯하여

졸업 프로젝트는 산학 말구 연구 트랙으로 진행하기로 결정해따!

 

 


 

 

교수님들 연구 주제 리스트를 받았구

우리는 형준리 굣님께 지도 교수님을 맡아 달라고 부탁드렸다

 

커다란 연구 주제는

💡 [멀티모달 생성 AI] 멀티 모달리티 학습 환경에서 누락된 모달리티 데이터 생성 연구

 

이게 뭐시냐...

조사 시작!

 

 

1.  멀티모달(Multi-Modal)이란?

 

멀티모달 : 여러 가지 형태(Modal)의 데이터를 동시에 활용하는 것

 

예를 들어, 

사람이 대화를 할 때는 음성, 얼굴 표정, 텍스트 등의 여러 정보를 함께 사용하고

자율주행 자동차는 카메라 영상, 라이다 센서 데이터, GPS 정보 등을 동시에 처리한다

 

AI에서도 이런 여러 가지 데이터 유형을 동시에 다루는 걸 멀티모달 학습(Multi-Modal Learning)이라고 한다

 

 

2.  멀티모달 연합 학습(Multi-Modal Federated Learning)

 

멀티모달 연합 학습 : 멀티모달 데이터를 중앙 서버 없이 여러 개의 기기(클라이언트)에서 분산 학습하는 방식

즉, 데이터를 직접 공유하지 않고 각 기기가 자기 데이터를 학습하고, 모델 업데이트만 공유하는 방식을 의미한다

이 방식이 중요한 이유:

  • 개인정보 보호 (ex. 병원 간 환자 데이터 공유 없이 AI 학습)
  • 네트워크 비용 절감 (ex. 데이터 전송 없이 모델만 공유)
  • 분산 환경에서 다양한 데이터 활용

 

 

3.  멀티모달 환경에서의 누락 데이터

 

멀티모달 데이터에서는 한 가지 이상의 모달리티 데이터가 빠지는 경우가 자주 발생한다

데이터 누락 원인 :

  1. 하드웨어 문제
    • 예: 자율주행 중 카메라 고장, 마이크 고장 등으로 데이터 일부 손실.
  2. 환경적 요인
    • 예: 음성 인식 시스템이 있는데 소음이 심해서 음성 데이터가 깨짐.
  3. 데이터 수집 비용
    • 예: CT 촬영은 비싸지만 X-ray는 저렴해서, 모든 환자가 CT 데이터를 제공하지 않음.
  4. 사용자 선택
    • 예: 어떤 사용자는 음성 데이터를 제공하지만 얼굴 인식을 원하지 않을 수도 있음.
  5. 센서 동기화 문제
    • 예: VR 환경에서 모션 센서는 정상 작동하는데, 심박수 센서 데이터가 유실됨.

 

즉, 누락된 데이터를 보완하는 방법이 필요하고, 여기에 생성 AI(Generative AI)를 활용하는 것이다

 

 

4.  누락된 데이터 생성형 AI 복원 방법

 

🔹 모달리티 간 상관관계를 활용한 생성

  • 예: 얼굴 영상이 있지만 음성이 없을 때, 입술 움직임을 분석해서 음성을 생성하는 모델 사용.
  • 기술: Lip-to-Speech 모델, AV-HuBERT, Wav2Lip

 

🔹GAN(Generative Adversarial Networks) 기반 보완

  • 예: 일부 사진이 손실되었을 때, 다른 모달 데이터를 참고해 이미지를 보완하는 방식.
  • 기술: CycleGAN, Pix2Pix

 

🔹 확률 모델 기반 데이터 복원

  • 예: 의료 데이터에서 CT가 없을 때, X-ray 데이터 기반으로 CT를 예측하는 방식.
  • 기술: VAE(Variational Autoencoder), Diffusion Models

 

🔹 대규모 멀티모달 모델을 활용한 데이터 보강

  • 예: OpenAI의 CLIP, DALL·E 같은 모델을 활용해서 텍스트를 기반으로 이미지를 생성.