Processing math: 47%

논문요약

[논문 요약 5일차] Heterogeneous Graph Attention Network

wony-wony 2025. 4. 29. 15:24

 

 

 

 

0.1 HAN 모델 개요

HAN은 이질 그래프(heterogeneous graph)에 적합한 그래프 신경망(GNN)으로,
(1) Node-level Attention(2) Semantic-level Attention계층적(hierarchical) 구조를 통해 노드와 메타패스(Meta-path) 중요도를 모두 학습한다.

  • Node-level Attention : 주어진 메타패스 하에서 이웃 노드들 중 중요한 노드를 구별하고 가중치를 부여한다.
  • Semantic-level Attention : 여러 메타패스 중 어떤 메타패스가 작업(task)에 더 중요한지를 학습하여, 다양한 의미(semantic)를 통합한다.

이를 통해 단순히 구조 정보만 반영하는 기존 GNN과 달리, 구조적 + 의미적 정보를 함께 고려할 수 있다.

 

0.2  HAN의 주요 특징

  • 효율성 (Efficiency) : 메타패스 기반 이웃 노드 쌍(node pairs)의 수에 대해 선형 복잡도를 가진다. 따라서 대규모 이질 그래프에도 적용 가능하다.
  • 확장성 (Inductive Capability) : 학습한 계층적 어텐션 구조가 그래프 크기에 의존하지 않기 때문에, 새로운 노드나 그래프에도 적용할 수 있다.
  • 해석 가능성 (Interpretability) : 학습된 어텐션 값을 통해 어떤 노드와 메타패스가 예측에 중요했는지 설명할 수 있어, 모델 해석이 가능하다.

 

 

 

 

 

 

 

전체적인 과정 : Node-level Attention -> Semantic-level Attention -> Prediction

 

1. Node-level Attention

각 노드에 대한 메타패스 기반 이웃의 중요도를 학습한다. -> 이것을 aggregate(집계)하여 노드 임베딩을 형성한다.

 

 

① 노드의 이질성으로, 다양한 유형의 노드는 서로 다른 특징 공간을 가지고 있다.

따라서, 유형별 변환행렬 Mphii 를 통해 서로 다른 유형의 노드의 특징을 통일한 특징 공간에 투영한다.

 

hi=MΦihi

 

 

② self-attention을 이용하여 다양한 종류의 노드 간의 가중치를 학습한다.

eΦij=attnode(hi,hj;Φ) 

 

위 식은 ϕ라는 관계에 있어서, node i 에 대해 node j 가 얼마나 중요한지 학습한다.(metapath 기반)

 

-> metapath의 weight는 각 노드의 특징에 따라 달라진다는 것을 보여준다.

즉, $ e_{ij}^{\phi} $ 는 비대칭적이라는 말이다. (i -> j 중요성과 j-> i 중요성은 다를 수 있음)

⇒ 그래프의 중요한 속성인 비대칭성 유지

 

 

③ 모델이 그래프의 구조적인 정보를 잘 반영할 수 있도록 Masked Attention을 사용한다.


αΦij=softmaxj(eΦij)=exp(σ((aΦ)T[hihj]))kNΦiexp(σ((aΦ)T[hihk]))  

-> node i 에 대해 metapath를 통해 연결된 노드들만 포함한다.(자기자신도 포함)

-> 단순한 거리나 연결여부가 아니라, 노드들의 특징(feature) 기반의 중요도를 반영하는 값이다.

 

즉  αΦij란, 노드 i 에 대한 node j 의 중요도를 softmax 함수를 통해 정규화한 것이다.

노드 i 에 연결된 node의 수(메타패스 수)만큼 αij를 생성한다.

 

 

④ 앞서 구한 가중치 αij를 적용하여 metapath 기반 임베딩을 계산한다.


zΦi=σ(jNΦiαΦijhj)

 

                                                             ↓    multi-head attention으로 확장하여 훈련과정 안정화

 

zΦi= 

 

 

 

 

 

2. Semantic -level Attention

Input : 노드 수준 attention으로부터 학습된 의미 특정 노드 임베딩의 P 그룹

-> 각 metapath의 학습된 가중치 (\beta_{\Phi_1}, \dots, \beta_{\Phi_P})= \operatorname{attsem}\bigl(Z_{\Phi_1}, \dots, Z_{\Phi_P}\bigr)\,.

 

 

① 각 메타패스(\phi)의 중요도(가중치 학습)

따라서, 유형별 변환행렬 M_{phi_i} 를 통해 서로 다른 유형의 노드의 특징을 통일한 특징 공간에 투영한다.

 

w_{\Phi_p}= \frac{1}{|V|}\sum_{i \in V}q^{\mathsf{T}} \cdot \tanh\bigl(W \cdot z_i^{\Phi_p} + b\bigr)\,.

 

-> w(가중치 행렬), b(bias vector), q(semantic level attention vector)은 모든 메타패스와 임베딩에 대해 동일한 파라미터를 사용한다.

 

 

위의 식을 softmax 함수를 통해 정규화한다.

 

\beta_{\Phi_p}= \frac{ \exp\bigl(w_{\Phi_p}\bigr)}{\displaystyle\sum_{p=1}^{P} \exp\bigl(w_{\Phi_p}\bigr)}\

 

 

② 학습된 가중치 \beta_{\phi_p}로 임베딩을 융합하여 최종 임베딩 z를 얻는다.

Z = \sum_{p=1}^{P} \beta_{\Phi_p} \cdot Z_{\Phi_p}\

 

⇒ 최종 임베딩 z를 작업에 적용하고 다양한 손실 합수 설계가 가능하다.

 

 

 

 

 

 

 

3. 실험 결과 요약

  • DBLP, ACM, IMDB 데이터셋에서 HAN은 기존 방법들(DeepWalk, ESim, metapath2vec, HERec, GCN, GAT 등)보다 노드 분류(Macro/Micro F1)클러스터링(NMI, ARI) 성능이 우수했다.
  • 특히, 노드 수준 어텐션만 제거하거나, 메타패스 수준 어텐션만 제거한 모델 (HANnd_{nd}, HANsem_{sem}) 대비 완전한 HAN 모델이 가장 좋은 성능을 보였다.
  • 메타패스별 중요도를 학습한 결과, 특정 작업에 유리한 메타패스를 올바르게 높은 가중치로 반영하는 것을 확인했다.

 

 

 

<참고문헌>

Xiao Wang, Houye Ji, Chuan Shi, Bai Wang, Peng Cui, P. Yu, and Yanfang Ye, "Heterogeneous Graph Attention Network," Proceedings of the Web Conference (WWW), pp. 1–11, 2019.