논문요약

[논문 요약 1일차] 기계학습 모형을 이용한 악취의 요인 파악

wony-wony 2024. 9. 17. 01:58

01. 서론

악취로 인한 여러 사회적 문제 해결을 위해 다양한 연구들이 개발되어 왔다.

악취는 다양한 물질들이 혼합되어 있기 때문에 악취 문제를 해결하기 위해선 악취를 예측하는 것뿐만 아니라 악취에 영향을 주는 물질들을 찾고 영향력을 분석하여 합리적인 방안을 마련하는 것이 중요하다.

본 논문에서는 복합 악취를 예측하는 기계 학습 모형들을 비교하고 복합 악취에 영향을 많이 미치는 인자들을 찾고자 한다.

더 나아가, 양계 농장의 위치에 따른 주요 인자들의 차이를 보기 위해 분산 분석을 실시하고자 한다.

 

 

 

02. 연구문제 및 방법

기계 학습 알고리즘 및 통계 모형을 수행한 후 결과 해석 및 분산 분석(analysis of variance)과 같은 추가 분석을 실시하였다.

 

1. 복합 악취(종속변수)와 악취 구성 요소들(독립변수)에 대해 상관 분석을 실시하여 종속변수에 영향을 주는 변수 확인 

2. 데이터를 훈련 데이터(80%)와 시험 데이터(20%)로 나누고, 훈련 데이터를 이용해 하이퍼파라미터 최적화 실시

    -> 최적화 방법 : 그리드 서치 방법 -> 검증 : 10-fold 교차 검증법

3. 시험 데이터를 이용해 모형 성능 측정, 성능이 가장 좋은 모형 이용해 변수 중요도 파악

4. 분산 분석을 이용해 각 위치별 악취 인자들의 평균 차이 검정

 

 

02-01. 모형

 

1. Elastic net

L1(LASSO 회귀) 또는 L2 규제화(ridge 회귀)을 활용하여 회귀계수를 0으로 축소하거나 0에 가깝게 축소 시킨다.

각 규제화의 정도를 제어할 수 있는 $\lambda$가 클수록 계수 추정치를 0에 수렴시킨다.

 

  • 과적합 방지
  • 독립변수 간의 다중공선성 문제 해소

 

 

2. Random forest

  • 분류 또는 예측을 위해 사용되는 앙상블 기법 중 하나로, 의사결정나무와 같은 간단한 모형들의 결과 평균을 예측값으로 이용한다.

-> 성능 향상(개별 보형보다 예측값의 분산을 작게 만든다.)

  • Random forest는 독립 변수들의 수를 고정하여 고정된 수 만큼 임의의 독립 변수들을 추출하여 개별 모형을 추정한다.

-> 성능 향상(개별 모형들의 상관성을 낮춘다.)

 

 

 

3. ExtraTree (extremely randomized tree)

고전적인 하향식 절차에 따라 가지치기가 되지 않는 의사결정나무 모형에 앙상블 방법을 적용한 방법론

 

  • 노드 분할 기준을 완전히 무작위로 선택
  • 데이터의 표본 수 무작위로 선택
  • 무작위 노드 분할 및 학습에 사용할 데이터를 무작위로 추출(편향과 분산 감소)
Random forest와의 차이점
- Random forest : 최적화된 노드 분할 
- Extratree : 무작위로 노드 분할

 

 

 

4. XGBoost (extreme gradient boosting)

gradient boosting과 동일한 알고리즘을 사용하지만. 과대적합 문제를 해결하기 위한 규제항이 추가되면서 학습 속도가 훨씬 빠르다.

 

 

02-02. 모형 검증 측도

 

1. 평균 제곱근 오차(root mean squared error; RMSE)

  • MSE(예측 모형에서 예측한 값 $\hat{Y_{i}}$과 실제값 $Y_{i}$의 차이를 제곱한 뒤 평균)에 루트를 씌운다.

2. 평균 절대 오차(mean absolute error; MAE)

  • 실제값 $Y_{i}$과 예측값 $Y_{i}$ 의 차이를 절댓값으로 변환한 뒤 합산하여 평균을 구한다.

 

3. 결정계수(coefficient of determination, $R^{2}$)

  • 예측 모형이 실제값을 얼마나 설명해줄 수 있는지를 측정한다.

 

 

02-03. 변수 중요도

 

학습된 기계학습 모형을 통해 계산된 예측값에 각 독립 변수들이 미치는 영향력(또는 중요도)을 수치화한 방법이다.

 

본 논문에서는 순열 변수 중요도(permutation variable importance; PVI)를 활용하였다.

  • 각 변수별 오차 차이 또는 비율의 크기를 상대적으로  비교하여 각 변수의 중요도를 확인할 수 있다.
  • 이를 종속변수 예측에 대한 기여도라고 판단할 수 있다.

 

 

 

 

03. 연구결과 및 해석

 

03-01. 상관관계 분석

 

악취 구성 인자들과 복합 악취 사이의 관계를 분석하기 위해 상관 분석을 사용하였다.

 

 

03-02. 기계 학습 비교 결과

 

  • $ R^2 $ 평과 결과 : Elastic net < Extratree < Random forest < XGBoost
  • RMSE 평과 결과 : Elastic net < Extratree < Random forest < XGBoost
  • MAE 평가 결과 : Elastic net < Extratree < Random forest < XGBoost

 

최종적으로, XGBoost는 모든 평가 측도에서 가장 좋은 성능을 보였다.

평가 측도 결과에서 가장 좋은 성능을 보였던 XGBoost를 이용하여 변수 중요도를 계산하였다.

 

 

03-03. 분산 분석 결과

  • Kruskal-Wallis 분산 분석을 실시하였다.
  • Kruskal-Wallis 분산 분석의 사후 분석으로는 Dunn 사후 분석을 실시하였다.

 

 

 

04. 결론 및 제언

  • 암모니아는 악취에 크게 영향을 미치는 구성 인자라는 것이 밝혀졌으며, 암모니아를 제어하는 데 많은 노력을 들일 필요가 있을 것으로 판단된다.
  • 인근 지역에 피해를 줄이기 위해 다이메틸다이설파이드의 농도를 조절할 수 있는 방법을 고안하는 것이 중요하다고 판단된다.
  • 악취에 영향을 미치는 인자들을 감시하는 센서를 개발하여 실시간 모니터링을 통해 악취에 대한 이상 징후 포착 및 추가 구성 인자 조사 등을 수행해볼 수 있을 것으로 판단된다.

 

 

 

<참고문헌>

김도윤, 김재훈, 박준수, 서시영, 김재은, 양병준, 허태영. (2024). 기계학습 모형을 이용한 양계 복합 악취의 요인 파악에 대한 연구. 응용통계연구, 37(4), 485-497.