👽 졸업 논문 ( 19 ) - 논문 분석 : Galaxy mergers in Subaru HSC-SSP: a deep representation learning approach for identification and the role of environment on merger incidence

2025. 5. 21. 19:54개발/👽 졸업 논문

 

 

 

🌌 Galaxy mergers in Subaru HSC-SSP: a deep representation learning approach for identification and the role of environment on merger incidence

은하 병합 여부 분류 

https://arxiv.org/pdf/2309.15539

 

 

중요한 부분만 하겠움...

 

 

0.  Abstract

 

Zoobot이란?

Zoobot(Walmsley et al. 2023)은 공개된 사전학습(pretrained) 딥러닝 모델로, 은하 형태 분류(galaxy morphology classification) 문제에 맞게 미세 조정(fine-tuning) 하여 사용할 수 있습니다.

 

초기 학습 데이터

  • 초기 Zoobot 모델은 Galaxy Zoo DECaLS(GZ DECaLS) 프로젝트의 데이터와 라벨을 기반으로 학습되었습니다.
  • GZ DECaLS는 자원봉사자들이 시각적으로 은하를 분류한 프로젝트로, DECaLS(Deep Energy Camera Legacy Survey) 이미지 데이터를 사용합니다.
  • DECaLS 이미지는 이전 Galaxy Zoo 프로젝트에서 사용된 이미지(SDSS 등)보다 해상도와 깊이(노출 수준)가 뛰어남.
구분 SDSS(GZ2 사용) DECaLS
깊이 r = 22.7 mag r = 23.6 mag
시상 1.4″ < 1.3″
해상도 0.396″/pixel 0.262″/pixel
  • 이러한 고품질 이미지를 통해 표면 밝기가 낮은 병합 구조도 탐지 가능하며, Zoobot이 사용하는 이미지와 훈련·예측에 사용하는 이미지 깊이가 유사하다는 점도 장점입니다.

분류된 은하 특징

GZ DECaLS 데이터셋에서 자원봉사자들은 다음과 같은 은하 구조적 특징들을 시각적으로 분류했습니다:

  • 바(bar)
  • 벌지(bulge)
  • 나선팔(spiral arms)
  • 병합 여부(merger indicators)

31만 개 이상의 은하에 대해 약 750만 개의 분류 결과가 수집되었으며, 이 데이터를 기반으로 **깊은 표현 학습 모델(deep representation learning model)**이 학습되었습니다.

이 모델은 자원봉사자들의 신뢰도 높은 분류 결과와 비교했을 때 약 99%의 정확도를 보여주었습니다.


Zoobot의 일반화 능력

  • Zoobot은 학습하지 않은 새로운 태스크(예: 유사 은하 탐색, 이상 탐지)에서도 성공적으로 활용 가능하다는 결과가 있습니다.
  • 모델 구조를 바꾸지 않고도 다양한 형태 분류 문제에 범용적으로 적용할 수 있음을 보여줍니다.

미세 조정(fine-tuning) 방식

  • 미세 조정은 사전학습 모델을 다른 태스크에 맞게 적은 양의 데이터로 재학습시키는 기술입니다.
  • 방법:
    1. 사전학습된 모델의 ‘head’ (출력 계층) 제거
    2. 기존 레이어(base)는 고정(freeze)
    3. 새로운 태스크에 맞는 ‘new head’를 추가하여 학습

이 방식은 처음부터 모델을 학습시키는 것보다 훨씬 적은 학습 데이터로도 높은 정확도를 얻을 수 있습니다.


🔹 미세 조정의 효과

  • Walmsley et al. (2022b)의 연구에 따르면:
    • 1000개의 학습 샘플만으로도 from-scratch 학습보다 더 높은 정확도를 얻을 수 있습니다.
    • 일반 이미지 데이터셋 (예: ImageNet)으로 학습된 모델보다, **Zoobot(은하 전용으로 학습된 base)**을 사용하는 것이 정확도가 더 높음을 보였습니다.

 

2.2. 시뮬레이션 이미지를 활용한 Zoobot 미세 조정

2.2.1. 학습 데이터

분류기를 학습하기 위해서는 이미지 데이터와 해당 이미지에 대한 정답 레이블(merger 또는 non-merger) 이 필요합니다. 본 연구에서는 TNG50 시뮬레이션으로부터 생성된 HSC-SSP 합성 이미지를 이용해 병합(galaxy merger) 여부가 명확히 정의된 데이터를 사용합니다. 시뮬레이션을 이용하면 관측으로는 알 수 없는 정보(예: 은하 병합 시점이나 병합 특성, 질량비 등)에 접근할 수 있다는 장점이 있습니다.


2.2.2. IllustrisTNG50

병합 및 비병합 은하 샘플은 IllustrisTNG라는 대규모 우주론적 마그네토-유체역학 시뮬레이션 데이터를 사용하여 구성됩니다. 해당 시뮬레이션은 AREPO 코드로 수행되며, 별의 형성 및 진화, 블랙홀 성장, 자기장, 피드백, 냉각 등을 포함한 복합적인 은하 형성 모델을 사용합니다.

TNG 시뮬레이션은 TNG50, TNG100, TNG300 세 가지 버전으로 존재하며, 본 연구에서는 가장 높은 해상도를 제공하는 TNG50 데이터를 사용합니다. 이는 50 Mpc50\,\text{Mpc} 상자 안에 2×216032 \times 2160^3개의 입자를 포함합니다.

이미지 생성 과정:

  1. SKIRT라는 몬테카를로 복사 전달 코드를 통해 HSC grizy 밴드의 합성 이미지를 생성.
  2. 각 은하에 대해 입자 데이터를 기반으로 SED(스펙트럼 에너지 분포)를 모델링:
    • 10 Myr 이상: Bruzual & Charlot (2003), Chabrier IMF 사용
    • 10 Myr 이하: MAPPINGS III 코드 사용 (HII 영역 및 포토디소시에이션 영역 포함)
  3. 먼지 모델링: TNG는 먼지를 직접 추적하지 않기 때문에, Rémy-Ruyer et al. (2014)의 금속도 기반 먼지 질량 비율 모델을 사용.
  4. RealSim 도구를 이용하여:
    • HSC 이미지에 은하 삽입 위치 및 밝기 보정
    • HSC의 해상도로 재조정
    • PSF 적용 및 최종 HSC-SSP 이미지로 삽입

해당 이미지들은 실제 HSC 관측 이미지와 매우 유사한 시각적 품질을 보여줍니다. 연구에서는 스냅샷 78, 84, 91 (각각 z=0.3,0.2,0.1z = 0.3, 0.2, 0.1)에서 생성된 합성 이미지를 사용하며, 항성 질량 log⁡(M∗/M⊙)>9 조건을 만족하는 은하만 포함됩니다.


2.2.3. 병합 및 비병합 은하 선정

  • 병합 은하: 시뮬레이션 상에서 은하가 병합한 시점(과거 또는 미래)이 기준입니다. 병합 이벤트는 두 개의 halo가 하나로 합쳐지는 시점을 의미합니다.
    • 병합 특징이 관측 이미지에 드러나는 시간(관측 가능 시간)은 다양하며, Lotz et al.의 연구에 따르면 보통 0.2~1 Gyr로 제시됩니다.
    • 본 연구에서는 병합 전후 0.5 Gyr 이내의 은하를 병합 은하로 정의합니다.
    • 다양한 질량비의 병합(major < 1:4, minor < 1:10, mini < 1:20)을 포함하며, 총 291개의 병합 은하를 사용합니다.
  • 비병합 은하: 시뮬레이션 상에서 과거 및 미래 병합 시점이 3 Gyr 이상 떨어진 은하로 선정하여 병합 흔적이 관측되지 않도록 합니다.
    • 병합 은하와 동일한 snapshot에서, 항성 질량이 0.1 dex 이내로 유사한 은하를 매칭하여 클래스 간 편향을 제거합니다.
    • 병합 291개, 비병합 291개의 은하를 사용하여 균형 잡힌 학습 데이터를 구성합니다.
  • 모든 은하는 4가지 시점(라인 오브 사이트)에서 SKIRT를 통해 이미지화되어, 병합과 비병합 각각 약 1200장 정도의 gri 합성 이미지가 생성됩니다.
  • 이미지 전처리: 각각의 은하 이미지를 중심으로 10× Sersic 반지름만큼 잘라내고, 300×300 픽셀로 리사이즈합니다.

2.2.4. 학습 절차

  • 기존 Zoobot 모델의 ‘head’ (최종 출력 계층)를 제거하고, ‘base’ 모델을 고정(freeze)한 상태에서 학습을 진행합니다.
  • Zoobot의 자세한 구조는 Walmsley et al. (2022a)에서 확인할 수 있습니다.
  • 병합 여부만 이진 분류(merger: 1, non-merger: 0)하며, 병합 유형(질량비, 시점 등)은 구분하지 않습니다.