0.1 HAN 모델 개요
HAN은 이질 그래프(heterogeneous graph)에 적합한 그래프 신경망(GNN)으로,
(1) Node-level Attention 과 (2) Semantic-level Attention 의 계층적(hierarchical) 구조를 통해 노드와 메타패스(Meta-path) 중요도를 모두 학습한다.
- Node-level Attention : 주어진 메타패스 하에서 이웃 노드들 중 중요한 노드를 구별하고 가중치를 부여한다.
- Semantic-level Attention : 여러 메타패스 중 어떤 메타패스가 작업(task)에 더 중요한지를 학습하여, 다양한 의미(semantic)를 통합한다.
이를 통해 단순히 구조 정보만 반영하는 기존 GNN과 달리, 구조적 + 의미적 정보를 함께 고려할 수 있다.
0.2 HAN의 주요 특징
- 효율성 (Efficiency) : 메타패스 기반 이웃 노드 쌍(node pairs)의 수에 대해 선형 복잡도를 가진다. 따라서 대규모 이질 그래프에도 적용 가능하다.
- 확장성 (Inductive Capability) : 학습한 계층적 어텐션 구조가 그래프 크기에 의존하지 않기 때문에, 새로운 노드나 그래프에도 적용할 수 있다.
- 해석 가능성 (Interpretability) : 학습된 어텐션 값을 통해 어떤 노드와 메타패스가 예측에 중요했는지 설명할 수 있어, 모델 해석이 가능하다.
전체적인 과정 : Node-level Attention -> Semantic-level Attention -> Prediction
1. Node-level Attention
각 노드에 대한 메타패스 기반 이웃의 중요도를 학습한다. -> 이것을 aggregate(집계)하여 노드 임베딩을 형성한다.
① 노드의 이질성으로, 다양한 유형의 노드는 서로 다른 특징 공간을 가지고 있다.
따라서, 유형별 변환행렬 $M_{phi_i}$ 를 통해 서로 다른 유형의 노드의 특징을 통일한 특징 공간에 투영한다.
$ h'_i = M_{\Phi_i} \cdot h_i$
② self-attention을 이용하여 다양한 종류의 노드 간의 가중치를 학습한다.
$ e_{ij}^{\Phi} = \operatorname{attnode}\bigl(h'_i, h'_j\,;\,\Phi\bigr)\ $
위 식은 $\phi$라는 관계에 있어서, node i 에 대해 node j 가 얼마나 중요한지 학습한다.(metapath 기반)
-> metapath의 weight는 각 노드의 특징에 따라 달라진다는 것을 보여준다.
즉, $ e_{ij}^{\phi} $ 는 비대칭적이라는 말이다. (i -> j 중요성과 j-> i 중요성은 다를 수 있음)
⇒ 그래프의 중요한 속성인 비대칭성 유지
③ 모델이 그래프의 구조적인 정보를 잘 반영할 수 있도록 Masked Attention을 사용한다.
$ \alpha_{ij}^{\Phi} = \mathrm{softmax}_j\bigl(e_{ij}^{\Phi}\bigr) = \frac{
\exp\bigl(\sigma\bigl((a^{\Phi})^{\mathsf{T}} [h'_i \parallel h'_j]\bigr)\bigr)}{\displaystyle\sum_{k \in \mathcal{N}_i^{\Phi}}\exp\bigl(\sigma\bigl((a^{\Phi})^{\mathsf{T}} [h'_i \parallel h'_k]\bigr)\bigr)}\ $
-> node i 에 대해 metapath를 통해 연결된 노드들만 포함한다.(자기자신도 포함)
-> 단순한 거리나 연결여부가 아니라, 노드들의 특징(feature) 기반의 중요도를 반영하는 값이다.
즉 $\alpha_{ij}^{\Phi}$란, 노드 i 에 대한 node j 의 중요도를 softmax 함수를 통해 정규화한 것이다.
노드 i 에 연결된 node의 수(메타패스 수)만큼 $\alpha_{ij}$를 생성한다.
④ 앞서 구한 가중치 $\alpha_{ij}$를 적용하여 metapath 기반 임베딩을 계산한다.
$ z_i^{\Phi}= \sigma\Bigl(\sum_{j \in \mathcal{N}_i^{\Phi}}\alpha_{ij}^{\Phi}\,h'_j\Bigr)\, $
↓ multi-head attention으로 확장하여 훈련과정 안정화
$ z_i^{\Phi}= \big\Vert_{k=1}^{K} \sigma\!\Bigl(\sum_{j \in \mathcal{N}_i^{\Phi}} \alpha_{ij}^{\Phi}\,h'_j \Bigr)\,$
2. Semantic -level Attention
Input : 노드 수준 attention으로부터 학습된 의미 특정 노드 임베딩의 P 그룹
-> 각 metapath의 학습된 가중치 $(\beta_{\Phi_1}, \dots, \beta_{\Phi_P})= \operatorname{attsem}\bigl(Z_{\Phi_1}, \dots, Z_{\Phi_P}\bigr)\,.$
① 각 메타패스($\phi$)의 중요도(가중치 학습)
따라서, 유형별 변환행렬 $M_{phi_i}$ 를 통해 서로 다른 유형의 노드의 특징을 통일한 특징 공간에 투영한다.
$w_{\Phi_p}= \frac{1}{|V|}\sum_{i \in V}q^{\mathsf{T}} \cdot \tanh\bigl(W \cdot z_i^{\Phi_p} + b\bigr)\,.$
-> w(가중치 행렬), b(bias vector), q(semantic level attention vector)은 모든 메타패스와 임베딩에 대해 동일한 파라미터를 사용한다.
위의 식을 softmax 함수를 통해 정규화한다.
$ \beta_{\Phi_p}= \frac{ \exp\bigl(w_{\Phi_p}\bigr)}{\displaystyle\sum_{p=1}^{P} \exp\bigl(w_{\Phi_p}\bigr)}\ $
② 학습된 가중치 $\beta_{\phi_p}$로 임베딩을 융합하여 최종 임베딩 $z$를 얻는다.
$ Z = \sum_{p=1}^{P} \beta_{\Phi_p} \cdot Z_{\Phi_p}\ $
⇒ 최종 임베딩 $z$를 작업에 적용하고 다양한 손실 합수 설계가 가능하다.
3. 실험 결과 요약
- DBLP, ACM, IMDB 데이터셋에서 HAN은 기존 방법들(DeepWalk, ESim, metapath2vec, HERec, GCN, GAT 등)보다 노드 분류(Macro/Micro F1) 및 클러스터링(NMI, ARI) 성능이 우수했다.
- 특히, 노드 수준 어텐션만 제거하거나, 메타패스 수준 어텐션만 제거한 모델 (HANnd_{nd}, HANsem_{sem}) 대비 완전한 HAN 모델이 가장 좋은 성능을 보였다.
- 메타패스별 중요도를 학습한 결과, 특정 작업에 유리한 메타패스를 올바르게 높은 가중치로 반영하는 것을 확인했다.
<참고문헌>
Xiao Wang, Houye Ji, Chuan Shi, Bai Wang, Peng Cui, P. Yu, and Yanfang Ye, "Heterogeneous Graph Attention Network," Proceedings of the Web Conference (WWW), pp. 1–11, 2019.
'논문요약' 카테고리의 다른 글
[논문 요악 4일차] Graph neural networks: A review of methods and applications (1) (7) | 2024.10.02 |
---|---|
[논문 요약 3일차] Propensity score matching method의 소개 (0) | 2024.09.27 |
[논문 요약 2일차] PSM 분석을 활용한 적정 급식비 인식분석 (2) | 2024.09.17 |
[논문 요약 1일차] 기계학습 모형을 이용한 악취의 요인 파악 (2) | 2024.09.17 |