Notice
Recent Posts
Recent Comments
«   2025/10   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

Hello Potato World

[포테이토 스터디] Global Surrogate 본문

Study/XAI

[포테이토 스터디] Global Surrogate

Heosuab 2021. 5. 24. 01:06

 

⋆ 。 ˚ ☁︎ ˚ 。 ⋆ 。 ˚ ☽ ˚ 。 ⋆ 

[XAI study_ Interpretable Machine Learning]

 

 

 


5.6 Global Surrogate


 

Global Surrogate Model이란? Black box model의 예측에 근사하도록 학습된 interpretable model

 

아래와 같은 다양한 이름으로도 통한다

Surrogate(대체) Model = Approximation model = metamodel = response surgace model = emulator = ...

  • Blackbox 모델, Surrogate 모델 둘 다 Machine Learning model
  • Blackbox 모델의 예측에 최대한 근사
  • Surrogate 모델은 해석가능하여야 함

 

 


5.6.1 Theory


 

Black box 예측 함수를 f, 해석 가능한 Surrogate model 예측함수를 g라고 하면,

Training a Surrogate model : g를 f에 가능한 한 가깝게 근사하고자 함

  • Black box model의 내부 작업에 대한 정보 필요 없음
  • Data와 Prediction 함수에 대한 정보만 필요
  • Black box 모델이 바뀌더라도 Surrogate 함수는 그대로 사용 가능
  • Black box 함수의 모델 종류와 Surrogate 함수의 모델 종류 무관

Steps to obtain a Surrogate Model :

 

  1. Dataset X선택.

       - Black box model training에 사용한 같은 Dataset
       - 같은 Distribution만 가지는 새로운 Dataset
       - Subset으로 이루어진 Dataset

  2. Dataset X에 대한 Black box model의 예측값 구하기

  3. 해석 가능한 Surrogate 함수의 모델 타입 선택

  4. Dataset X와 Black box model의 예측값을 사용하여 Surrogate 모델 학습

  5. Black box model의 예측값을 잘 반영했는지 측정하고, Surrogate 모델의 결과값 해석

 

 

 

 

Measurement for Surrogate Model

=> R-squared measure 사용

  • R-square값이 1에 가까우면
    = Low Sum of Squares error
    = Surrogate model이 Blackbox model에 잘 근사
  • R-square값이 0에 가까우면
    = High Sum of Squares error
    = Surrogate model이 Blackbox model을 잘 설명하지 못함

 

- Surrogate Training을 할 때에 Blackbox 모델의 성능은 고려하지 않음

=>Blackbox model의 성능은 Surrogate model을 학습하는 데 영향을 주지 않지만, Blackbox model의 성능이 매우 나쁘다면 Surrogate model을 해석하는 것이 무의미해짐

 

 

- Surrogate model의 input dataset의 분포를 바꿀 수 있음

  • 원본 데이터의 subset
  • 각 instance의 reweight
    => Interpretation의 초점을 바꿈(더이상 Global하지 않음)
    Local Surrogate Model : 특성 instance들에 가중치를 크게 두는 Local방식

 

 


5.6.2 Example


1. Regression

  • Black Box Model : 일별 자전거 대여 수를 예측하는 SVM 모델
  • Surrogate Model : CART decision tree

SVM의 예측에 근사학습한 Tree model의 terminal node

  • Temparature 13도 이상일 경우
  • 2년 후

와 같은 feature 조건 내에서 자전거 대여 수가 더 많을 것으로 예측

 

이 때 R-squared값이 0.77으로 Blackbox model을 꽤 잘 반영했으므로 위와 같은 Surrogate model의 해석을 Blackbox model의 해석처럼 사용 가능

 

 

 

 

2. Classification

  • Black Box Model : 자궁경부암 확률을 예측하는 Random Forest
  • Surrogate Model : Decision Tree

Random Forest의 예측에 근사학습한 Decision Tree

 

이 때 R-squared값이 0.19으로 Blackbox model을 반영하지 못했으므로 Surrogate model을 해석해도 Blackbox model의 해석처럼 사용하지 못한다.

 

 

 


5.6.3 Advantages


  • 해석가능한 모든 종류의 모델을 사용할 수 있기 때문에 flexible
    (ex) 복잡한 모델을 만들어 두 회사에 설명하려고 하는 경우
    (1) 선형 모델이 익숙한 회사에게는 선형 모델을 사용하여 해석
    (2) 결정 트리가 익숙한 회사에게는 결정 트리를 사용하여 해석
  • 직관적이고 간단하며 구현이 쉬움
  • R-square를 통해 잘 근접했는지 성능 쉽게 측정 가능

 

 


5.6.4 Disadvantages


  • Data가 아니라 Model에 대한 결론을 도출해야 함
  • R-square의 cut-off 기준이 불분명함
  • 모든 data point에 동일한 해석력을 갖지 못할 수 있음
    일부 subset에는 매우 잘 fit, 일부 subset에서는 divergent

 

 

 

 

 


References


[1] Interpretable Machine Learning, Christoph Molnar

Comments