논문 리뷰

[논문리뷰] Fusing Modalities by Multiplexed Graph NeuralNetworks for Outcome Prediction in Tuberculosis

statinb 2025. 6. 29. 03:57

 

 

논문 mindmap

본 논문은 결핵과 같은 복잡한 질병에서 임상, 유전체, 영상 등 다양한 모달리티 데이터를 효과적으로 통합하여 환자 맞춤형 예후 예측과 치료 가이드를 제공하기 위한 새로운 융합 프레임워크를 제안한다. 질병 관련 정보는 환자마다 다르게 나타날 수 있으며, 모든 모달리티가 항상 존재하지 않거나 모든 정보가 유의미하지 않을 수 있기 때문에, 기존의 단순한 조기(early), 후기(late), 중간(intermediate) 통합 방식은 예측 성능에 한계가 있다. 이를 해결하기 위해, 제안된 방법은 각 모달리티를 타깃 인코딩(targeted encoding)으로 표현하고, 통합된 잠재 공간에서 추출한 핵심 특징들을 바탕으로 멀티플렉스 그래프(multiplexed graph)를 구성한다. 이 그래프 구조로부터 효과적으로 학습할 수 있도록 새로운 그래프 신경망(GNN) 모델도 함께 제시한다. 제안된 모델은 대규모 결핵(TB) 데이터셋을 기반으로 한 실험에서, 기존의 최첨단 다중 모달 융합 기법들보다 뛰어난 다중 예후 예측(multi-outcome prediction) 성능을 입증하였다.

 

1. Introduction

결핵(TB)은 세계에서 가장 흔한 감염병, 최근 사망률 감소 BUT 단일 또는 다제내성균의 출현으로 인해 빠르고 효과적인 치료가 어려워짐. TB 치료 결과를 정확히 예측하려면 환자의 임상, 유전체, 영상 데이터를 포함한 다중 모달리티(multimodal) 정보가 필요함. 하지만 각각의 모달리티가 어떤 정보를 잘 담고 있으며, 이들을 어떻게 결합해야 최적의 예측이 가능한지는 명확하지 않음.

ex) 유전체 정보는 내성 관련 유전자 변이를 잘 포착,
영상 정보만으로는 다제내성과 민감성 TB를 구분하기에 충분하지 않음

 

핵심은 각 모달리티에서 중요한 정보를 추출하고, 이들을 효과적으로 결합하는 것!

 

기존 연구의 한계점

: 기존 연구들은 대부분 단일 예후(outcome) 예측이나 제한된 모달리티만을 사용해옴. 본 논문에서는 여러 종류의 예후(다중 클래스 분류)를 동시에 예측할 수 있도록 설계된 포괄적인 접근 방식을 제안, 임상·유전체·영상 데이터 외에도 단백질 도메인, 딥러닝 기반 영상 특징 등 확장된 모달리티를 활용함.

 

제안 방법

: 멀티플렉스 그래프(multiplexed graph)를 기반으로 모달리티 간 관계를 명시적으로 모델링하고, 새로운 그래프 신경망(GNN)을 설계하여 이를 학습에 활용. 이 프레임워크는 각 모달리티를 타겟 인코딩으로 표현하고, 통합된 잠재 공간에서의 특징 관계를 바탕으로 그래프를 구성함으로써, 기존의 단순한 early/late/intermediate fusion 방식과 달리 모달리티 간의 개별성과 상호작용을 모두 반영할 수 있음.

 

2. A Graph Based Multimodal Fusion Framework

 

multiplexed graph

멀티플렉스 그래프는 다음과 같이 정의된다:

 

$$G_{\text{Mplex}} = (V_{\text{Mplex}}, E_{\text{Mplex}})$$

  • 노드 수: $|V_{\text{Mplex}}| = |V| \times K$
  • $K$: 서로 다른 에지 타입(= 평면) 수
  • 각 평면 $k$에 대해 인접 행렬 $A^{(k)} \in \mathbb{R}^{P \times P}$

 

즉, 각 평면은 개별적인 모달리티 개념 공간(콘셉트)을 나타내고, 평면 간 대각 연결(diagonal connection)을 통해 모달리티 간 상호작용도 모델링한다.

 

Multimodal Graph Representation Learning

  1. 도메인별 오토인코더(d-AE)로 각 모달리티를 저차원 특징으로 압축
  2. 모든 모달리티 특징을 하나로 이어 붙인 후
  3. 공통 오토인코더(c-AE)로 잠재 공간(latent space)에 투영

 

잠재 공간 차원: $K = 32$, 총 입력 차원: $P = 396$

 

Concept-based Plane Construction

각 특징 x[i]를 한 번씩 0으로 설정한 뒤, 잠재 공간 변화량 측정:

 

$$p_k[i] = \left| \text{AE}{\text{enc}}(x^{(i)}) - \text{AE}{\text{enc}}(x) \right|$$

 

  • 특정 콘셉트 $k$에서 변화가 큰 상위 1% 노드들만 선택
  • 선택된 노드들끼리 완전 연결된 서브그래프(subgraph) 구성 → 평면 $k$의 에지

 

Supra-Node Construction and Multiplex Transitions

    • 수프라노드(supra-node): 동일 노드가 평면마다 복제된 것
    • 내부 평면 이동 (intra-planar): $A = \bigoplus_{k} A^{(k)}$  (블록 대각 합)
    • 평면 간 이동 (inter-planar):

$$\hat{C} = (\mathbf{1}_K \mathbf{1}_K^T) \otimes I_P$$

 

- $\otimes$ : 크로네커 곱

- $I_P$ : $P \times P$ 항등 행렬

- $\hat{C}$ : 동일 노드의 평면 간 연결 제어

 

 

Message Passing Walks on Multiplex GNN

GNN은 두 가지 방식으로 메시지를 전달

 

1. Type I (intra → inter):

$$h_{i,I}^{(l+1)} = \phi_I \left( \left\{ h_j^{(l)} \mid [A \hat{C}]_{ij} = 1 \right\} \right)$$

 

2. Type II (inter → intra):

$$h_{i,II}^{(l+1)} = \phi_{II} \left( \left\{ h_j^{(l)} \mid [\hat{C} A]_{ij} = 1 \right\} \right)$$

 

최종 노드 임베딩:

$$h_i^{(l+1)} = f_{\text{concat}}(h_{i,I}^{(l+1)}, h_{i,II}^{(l+1)})$$

 

 

 

 

3. Experimental Evaluation

Data and Experimental Setup

  • 총 3051명의 결핵 환자 데이터 사용
  • 예후(outcome)는 총 5가지 클래스 : Still on treatment / Died / Cured / Completed / Failure
  • 사용된 6개 모달리티:
CT DenseNet 기반 2048차원 특징 (mean + max pooling)
Genomic SNP + 4000개의 단백질 도메인 특징 포함
Demographic 성별, 지역 등
Clinical 병력, 증상 등 연속/범주형 변수 혼합
Regimen 항결핵제 관련 처방 정보
Continuous 위의 임상/인구통계 중 연속형 변수만 추출

 

  • 모든 모달리티는 도메인 오토인코더(d-AE)로 축소하여 총 396차원으로 통합
  • 이후 공통 오토인코더(c-AE)로 32차원 latent space로 투영
  • $P = 396,\quad K = 32$

 

Baselines

방법 설명
No Fusion 각 모달리티별 MLP 독립 예측
Early Fusion 모달리티 결합 후 MLP 학습
Intermediate Fusion d-AE 통과 후 통합하여 MLP 입력
Late Fusion 개별 모델 결과 앙상블 (불확실성 기반)
Relational GCN (RGCN) 멀티플렉스 그래프 기반의 기존 GCN
RGCN w/o Latent Encoder concept space 없이 평면 분리
GCN on Monoplex Graph 하나의 전체 특징 그래프 구성 후 GCN 학습

 

Results

실험 비교 대상 (Baselines)

  • Early Fusion (EF): 모든 모달리티를 단순히 이어붙여 예측
  • Late Fusion (LF): 모달리티별 개별 예측 후 결합
  • Intermediate Fusion (IF): 잠재 공간에서 통합
  • GCN, GAT: 그래프 기반 전통 GNN
  • MV-GCN, MOGONET: 최신 멀티모달 GNN

 

성능 지표: AUROC (Area Under ROC Curve)

Method Still on treatment Died Cured Completed Failure Avg. AUROC
Early Fusion 0.68 0.67 0.72 0.75 0.61 0.686
Late Fusion 0.70 0.68 0.74 0.76 0.63 0.702
Intermediate Fusion 0.72 0.70 0.75 0.77 0.66 0.720
GCN (monoplex) 0.71 0.69 0.76 0.78 0.68 0.724
RGCN (no latent enc.) 0.72 0.70 0.76 0.78 0.69 0.730
RGCN (with latent enc.) 0.73 0.71 0.77 0.79 0.70 0.740
Proposed (Ours) 0.75 0.74 0.80 0.82 0.73 0.768
  • 평가 지표: AU-ROC (클래스별 + 가중 평균)
  • Multiplex GNN이 모든 클래스에서 가장 높은 AU-ROC 달성
  • 특히 ‘Failure’ 클래스에서 큰 성능 향상
  • 기존 GCN, RGCN 방식보다 latent concept 기반 구조가 더 뛰어남
  • 통계적 유의성 검정 (DeLong test) 결과도 p < 0.01 수준에서 우수

 

4. Conclusion

본 논문은 영상, 유전체, 임상 데이터를 효과적으로 결합하기 위한 Graph 기반 멀티모달 융합 프레임워크를 새롭게 제안함.

  • 각 모달리티의 특징을 개념 기반 잠재 공간(concept space)으로 투영
  • 복잡한 모달리티 간 상호작용 패턴을 추출 가능하게 함
  • 정보 흐름을 추적할 수 있는 Multiplexed GNN 구조 설계
  • 멀티플렉스 그래프 상에서 메시지 패싱(message passing walks) 수행
  • 이 방식은 멀티모달 데이터로부터 풍부한 표현을 효과적으로 학습할 수 있도록 유연성을 제공함

결과적으로 다양한 최신 베이스라인들과 비교했을 때, 결핵 예후 예측 성능이 전반적으로 더 우수한 것으로 나타남.