논문요약

[논문 요약 5일차] Heterogeneous Graph Attention Network

wony-wony 2025. 4. 29. 15:24

 

 

 

 

0.1 HAN 모델 개요

HAN은 이질 그래프(heterogeneous graph)에 적합한 그래프 신경망(GNN)으로,
(1) Node-level Attention(2) Semantic-level Attention계층적(hierarchical) 구조를 통해 노드와 메타패스(Meta-path) 중요도를 모두 학습한다.

  • Node-level Attention : 주어진 메타패스 하에서 이웃 노드들 중 중요한 노드를 구별하고 가중치를 부여한다.
  • Semantic-level Attention : 여러 메타패스 중 어떤 메타패스가 작업(task)에 더 중요한지를 학습하여, 다양한 의미(semantic)를 통합한다.

이를 통해 단순히 구조 정보만 반영하는 기존 GNN과 달리, 구조적 + 의미적 정보를 함께 고려할 수 있다.

 

0.2  HAN의 주요 특징

  • 효율성 (Efficiency) : 메타패스 기반 이웃 노드 쌍(node pairs)의 수에 대해 선형 복잡도를 가진다. 따라서 대규모 이질 그래프에도 적용 가능하다.
  • 확장성 (Inductive Capability) : 학습한 계층적 어텐션 구조가 그래프 크기에 의존하지 않기 때문에, 새로운 노드나 그래프에도 적용할 수 있다.
  • 해석 가능성 (Interpretability) : 학습된 어텐션 값을 통해 어떤 노드와 메타패스가 예측에 중요했는지 설명할 수 있어, 모델 해석이 가능하다.

 

 

 

 

 

 

 

전체적인 과정 : Node-level Attention -> Semantic-level Attention -> Prediction

 

1. Node-level Attention

각 노드에 대한 메타패스 기반 이웃의 중요도를 학습한다. -> 이것을 aggregate(집계)하여 노드 임베딩을 형성한다.

 

 

① 노드의 이질성으로, 다양한 유형의 노드는 서로 다른 특징 공간을 가지고 있다.

따라서, 유형별 변환행렬 $M_{phi_i}$ 를 통해 서로 다른 유형의 노드의 특징을 통일한 특징 공간에 투영한다.

 

$ h'_i = M_{\Phi_i} \cdot h_i$

 

 

② self-attention을 이용하여 다양한 종류의 노드 간의 가중치를 학습한다.

$ e_{ij}^{\Phi} = \operatorname{attnode}\bigl(h'_i, h'_j\,;\,\Phi\bigr)\ $

 

위 식은 $\phi$라는 관계에 있어서, node i 에 대해 node j 가 얼마나 중요한지 학습한다.(metapath 기반)

 

-> metapath의 weight는 각 노드의 특징에 따라 달라진다는 것을 보여준다.

즉, $ e_{ij}^{\phi} $ 는 비대칭적이라는 말이다. (i -> j 중요성과 j-> i 중요성은 다를 수 있음)

⇒ 그래프의 중요한 속성인 비대칭성 유지

 

 

③ 모델이 그래프의 구조적인 정보를 잘 반영할 수 있도록 Masked Attention을 사용한다.


$ \alpha_{ij}^{\Phi} = \mathrm{softmax}_j\bigl(e_{ij}^{\Phi}\bigr) = \frac{
    \exp\bigl(\sigma\bigl((a^{\Phi})^{\mathsf{T}} [h'_i \parallel h'_j]\bigr)\bigr)}{\displaystyle\sum_{k \in \mathcal{N}_i^{\Phi}}\exp\bigl(\sigma\bigl((a^{\Phi})^{\mathsf{T}} [h'_i \parallel h'_k]\bigr)\bigr)}\ $ 

-> node i 에 대해 metapath를 통해 연결된 노드들만 포함한다.(자기자신도 포함)

-> 단순한 거리나 연결여부가 아니라, 노드들의 특징(feature) 기반의 중요도를 반영하는 값이다.

 

즉  $\alpha_{ij}^{\Phi}$란, 노드 i 에 대한 node j 의 중요도를 softmax 함수를 통해 정규화한 것이다.

노드 i 에 연결된 node의 수(메타패스 수)만큼 $\alpha_{ij}$를 생성한다.

 

 

④ 앞서 구한 가중치 $\alpha_{ij}$를 적용하여 metapath 기반 임베딩을 계산한다.


$ z_i^{\Phi}= \sigma\Bigl(\sum_{j \in \mathcal{N}_i^{\Phi}}\alpha_{ij}^{\Phi}\,h'_j\Bigr)\, $

 

                                                             ↓    multi-head attention으로 확장하여 훈련과정 안정화

 

$ z_i^{\Phi}= \big\Vert_{k=1}^{K} \sigma\!\Bigl(\sum_{j \in \mathcal{N}_i^{\Phi}} \alpha_{ij}^{\Phi}\,h'_j  \Bigr)\,$ 

 

 

 

 

 

2. Semantic -level Attention

Input : 노드 수준 attention으로부터 학습된 의미 특정 노드 임베딩의 P 그룹

-> 각 metapath의 학습된 가중치 $(\beta_{\Phi_1}, \dots, \beta_{\Phi_P})= \operatorname{attsem}\bigl(Z_{\Phi_1}, \dots, Z_{\Phi_P}\bigr)\,.$

 

 

① 각 메타패스($\phi$)의 중요도(가중치 학습)

따라서, 유형별 변환행렬 $M_{phi_i}$ 를 통해 서로 다른 유형의 노드의 특징을 통일한 특징 공간에 투영한다.

 

$w_{\Phi_p}= \frac{1}{|V|}\sum_{i \in V}q^{\mathsf{T}} \cdot \tanh\bigl(W \cdot z_i^{\Phi_p} + b\bigr)\,.$

 

-> w(가중치 행렬), b(bias vector), q(semantic level attention vector)은 모든 메타패스와 임베딩에 대해 동일한 파라미터를 사용한다.

 

 

위의 식을 softmax 함수를 통해 정규화한다.

 

$ \beta_{\Phi_p}= \frac{ \exp\bigl(w_{\Phi_p}\bigr)}{\displaystyle\sum_{p=1}^{P} \exp\bigl(w_{\Phi_p}\bigr)}\ $

 

 

② 학습된 가중치 $\beta_{\phi_p}$로 임베딩을 융합하여 최종 임베딩 $z$를 얻는다.

$ Z = \sum_{p=1}^{P} \beta_{\Phi_p} \cdot Z_{\Phi_p}\ $

 

⇒ 최종 임베딩 $z$를 작업에 적용하고 다양한 손실 합수 설계가 가능하다.

 

 

 

 

 

 

 

3. 실험 결과 요약

  • DBLP, ACM, IMDB 데이터셋에서 HAN은 기존 방법들(DeepWalk, ESim, metapath2vec, HERec, GCN, GAT 등)보다 노드 분류(Macro/Micro F1)클러스터링(NMI, ARI) 성능이 우수했다.
  • 특히, 노드 수준 어텐션만 제거하거나, 메타패스 수준 어텐션만 제거한 모델 (HANnd_{nd}, HANsem_{sem}) 대비 완전한 HAN 모델이 가장 좋은 성능을 보였다.
  • 메타패스별 중요도를 학습한 결과, 특정 작업에 유리한 메타패스를 올바르게 높은 가중치로 반영하는 것을 확인했다.

 

 

 

<참고문헌>

Xiao Wang, Houye Ji, Chuan Shi, Bai Wang, Peng Cui, P. Yu, and Yanfang Ye, "Heterogeneous Graph Attention Network," Proceedings of the Web Conference (WWW), pp. 1–11, 2019.