2025. 3. 10. 16:24ㆍ개발/👽 졸업 논문
드뎌... 졸프가 시작돼따...
은채랑 한나랑 같이 팀 만들어따 💖
👽 우리 팀명 - 지구 정복 연구젝트 👽
캡스톤은 산학이랑 연구 트랙으로 나뉘는데
산학은 서비스 하나를 개발하는 거구 연구는 논문을 출고하는 거당
프로젝트 개발은 몇번 해보기도 했구 해볼 기회도 많은데
논문은 써볼 기회도 적구 교수님이랑 더 긴밀하게 탐구할 수 있는 기회도 흔치 않을 듯하여
졸업 프로젝트는 산학 말구 연구 트랙으로 진행하기로 결정해따!
교수님들 연구 주제 리스트를 받았구
우리는 형준리 굣님께 지도 교수님을 맡아 달라고 부탁드렸다
커다란 연구 주제는
💡 [멀티모달 생성 AI] 멀티 모달리티 학습 환경에서 누락된 모달리티 데이터 생성 연구
이게 뭐시냐...
조사 시작!
1. 멀티모달(Multi-Modal)이란?
멀티모달 : 여러 가지 형태(Modal)의 데이터를 동시에 활용하는 것
예를 들어,
사람이 대화를 할 때는 음성, 얼굴 표정, 텍스트 등의 여러 정보를 함께 사용하고
자율주행 자동차는 카메라 영상, 라이다 센서 데이터, GPS 정보 등을 동시에 처리한다
AI에서도 이런 여러 가지 데이터 유형을 동시에 다루는 걸 멀티모달 학습(Multi-Modal Learning)이라고 한다
2. 멀티모달 연합 학습(Multi-Modal Federated Learning)
멀티모달 연합 학습 : 멀티모달 데이터를 중앙 서버 없이 여러 개의 기기(클라이언트)에서 분산 학습하는 방식
즉, 데이터를 직접 공유하지 않고 각 기기가 자기 데이터를 학습하고, 모델 업데이트만 공유하는 방식을 의미한다
이 방식이 중요한 이유:
- 개인정보 보호 (ex. 병원 간 환자 데이터 공유 없이 AI 학습)
- 네트워크 비용 절감 (ex. 데이터 전송 없이 모델만 공유)
- 분산 환경에서 다양한 데이터 활용
3. 멀티모달 환경에서의 누락 데이터
멀티모달 데이터에서는 한 가지 이상의 모달리티 데이터가 빠지는 경우가 자주 발생한다
데이터 누락 원인 :
- 하드웨어 문제
- 예: 자율주행 중 카메라 고장, 마이크 고장 등으로 데이터 일부 손실.
- 환경적 요인
- 예: 음성 인식 시스템이 있는데 소음이 심해서 음성 데이터가 깨짐.
- 데이터 수집 비용
- 예: CT 촬영은 비싸지만 X-ray는 저렴해서, 모든 환자가 CT 데이터를 제공하지 않음.
- 사용자 선택
- 예: 어떤 사용자는 음성 데이터를 제공하지만 얼굴 인식을 원하지 않을 수도 있음.
- 센서 동기화 문제
- 예: VR 환경에서 모션 센서는 정상 작동하는데, 심박수 센서 데이터가 유실됨.
즉, 누락된 데이터를 보완하는 방법이 필요하고, 여기에 생성 AI(Generative AI)를 활용하는 것이다
4. 누락된 데이터 생성형 AI 복원 방법
🔹 모달리티 간 상관관계를 활용한 생성
- 예: 얼굴 영상이 있지만 음성이 없을 때, 입술 움직임을 분석해서 음성을 생성하는 모델 사용.
- 기술: Lip-to-Speech 모델, AV-HuBERT, Wav2Lip
🔹GAN(Generative Adversarial Networks) 기반 보완
- 예: 일부 사진이 손실되었을 때, 다른 모달 데이터를 참고해 이미지를 보완하는 방식.
- 기술: CycleGAN, Pix2Pix
🔹 확률 모델 기반 데이터 복원
- 예: 의료 데이터에서 CT가 없을 때, X-ray 데이터 기반으로 CT를 예측하는 방식.
- 기술: VAE(Variational Autoencoder), Diffusion Models
🔹 대규모 멀티모달 모델을 활용한 데이터 보강
- 예: OpenAI의 CLIP, DALL·E 같은 모델을 활용해서 텍스트를 기반으로 이미지를 생성.