Hello Potato World
[ํฌํ ์ดํ ์คํฐ๋] Global Surrogate ๋ณธ๋ฌธ
โ ๏ฝก ห โ๏ธ ห ๏ฝก โ ๏ฝก ห โฝ ห ๏ฝก โ
[XAI study_ Interpretable Machine Learning]
5.6 Global Surrogate
Global Surrogate Model์ด๋? Black box model์ ์์ธก์ ๊ทผ์ฌํ๋๋ก ํ์ต๋ interpretable model
์๋์ ๊ฐ์ ๋ค์ํ ์ด๋ฆ์ผ๋ก๋ ํตํ๋ค
Surrogate(๋์ฒด) Model = Approximation model = metamodel = response surgace model = emulator = ...
- Blackbox ๋ชจ๋ธ, Surrogate ๋ชจ๋ธ ๋ ๋ค Machine Learning model
- Blackbox ๋ชจ๋ธ์ ์์ธก์ ์ต๋ํ ๊ทผ์ฌ
- Surrogate ๋ชจ๋ธ์ ํด์๊ฐ๋ฅํ์ฌ์ผ ํจ
5.6.1 Theory
Black box ์์ธก ํจ์๋ฅผ f, ํด์ ๊ฐ๋ฅํ Surrogate model ์์ธกํจ์๋ฅผ g๋ผ๊ณ ํ๋ฉด,
Training a Surrogate model : g๋ฅผ f์ ๊ฐ๋ฅํ ํ ๊ฐ๊น๊ฒ ๊ทผ์ฌํ๊ณ ์ ํจ
- Black box model์ ๋ด๋ถ ์์ ์ ๋ํ ์ ๋ณด ํ์ ์์
- Data์ Prediction ํจ์์ ๋ํ ์ ๋ณด๋ง ํ์
- Black box ๋ชจ๋ธ์ด ๋ฐ๋๋๋ผ๋ Surrogate ํจ์๋ ๊ทธ๋๋ก ์ฌ์ฉ ๊ฐ๋ฅ
- Black box ํจ์์ ๋ชจ๋ธ ์ข ๋ฅ์ Surrogate ํจ์์ ๋ชจ๋ธ ์ข ๋ฅ ๋ฌด๊ด
Steps to obtain a Surrogate Model :
1. Dataset X์ ํ.
- Black box model training์ ์ฌ์ฉํ ๊ฐ์ Dataset
- ๊ฐ์ Distribution๋ง ๊ฐ์ง๋ ์๋ก์ด Dataset
- Subset์ผ๋ก ์ด๋ฃจ์ด์ง Dataset
2. Dataset X์ ๋ํ Black box model์ ์์ธก๊ฐ ๊ตฌํ๊ธฐ
3. ํด์ ๊ฐ๋ฅํ Surrogate ํจ์์ ๋ชจ๋ธ ํ์ ์ ํ
4. Dataset X์ Black box model์ ์์ธก๊ฐ์ ์ฌ์ฉํ์ฌ Surrogate ๋ชจ๋ธ ํ์ต
5. Black box model์ ์์ธก๊ฐ์ ์ ๋ฐ์ํ๋์ง ์ธก์ ํ๊ณ , Surrogate ๋ชจ๋ธ์ ๊ฒฐ๊ณผ๊ฐ ํด์
Measurement for Surrogate Model
=> R-squared measure ์ฌ์ฉ
- R-square๊ฐ์ด 1์ ๊ฐ๊น์ฐ๋ฉด
= Low Sum of Squares error
= Surrogate model์ด Blackbox model์ ์ ๊ทผ์ฌ - R-square๊ฐ์ด 0์ ๊ฐ๊น์ฐ๋ฉด
= High Sum of Squares error
= Surrogate model์ด Blackbox model์ ์ ์ค๋ช ํ์ง ๋ชปํจ
- Surrogate Training์ ํ ๋์ Blackbox ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ณ ๋ คํ์ง ์์
=>Blackbox model์ ์ฑ๋ฅ์ Surrogate model์ ํ์ตํ๋ ๋ฐ ์ํฅ์ ์ฃผ์ง ์์ง๋ง, Blackbox model์ ์ฑ๋ฅ์ด ๋งค์ฐ ๋์๋ค๋ฉด Surrogate model์ ํด์ํ๋ ๊ฒ์ด ๋ฌด์๋ฏธํด์ง
- Surrogate model์ input dataset์ ๋ถํฌ๋ฅผ ๋ฐ๊ฟ ์ ์์
- ์๋ณธ ๋ฐ์ดํฐ์ subset
- ๊ฐ instance์ reweight
=> Interpretation์ ์ด์ ์ ๋ฐ๊ฟ(๋์ด์ Globalํ์ง ์์)
Local Surrogate Model : ํน์ฑ instance๋ค์ ๊ฐ์ค์น๋ฅผ ํฌ๊ฒ ๋๋ Local๋ฐฉ์
5.6.2 Example
1. Regression
- Black Box Model : ์ผ๋ณ ์์ ๊ฑฐ ๋์ฌ ์๋ฅผ ์์ธกํ๋ SVM ๋ชจ๋ธ
- Surrogate Model : CART decision tree
SVM์ ์์ธก์ ๊ทผ์ฌํ์ตํ Tree model์ terminal node
- Temparature 13๋ ์ด์์ผ ๊ฒฝ์ฐ
- 2๋ ํ
์ ๊ฐ์ feature ์กฐ๊ฑด ๋ด์์ ์์ ๊ฑฐ ๋์ฌ ์๊ฐ ๋ ๋ง์ ๊ฒ์ผ๋ก ์์ธก
์ด ๋ R-squared๊ฐ์ด 0.77์ผ๋ก Blackbox model์ ๊ฝค ์ ๋ฐ์ํ์ผ๋ฏ๋ก ์์ ๊ฐ์ Surrogate model์ ํด์์ Blackbox model์ ํด์์ฒ๋ผ ์ฌ์ฉ ๊ฐ๋ฅ
2. Classification
- Black Box Model : ์๊ถ๊ฒฝ๋ถ์ ํ๋ฅ ์ ์์ธกํ๋ Random Forest
- Surrogate Model : Decision Tree
Random Forest์ ์์ธก์ ๊ทผ์ฌํ์ตํ Decision Tree
์ด ๋ R-squared๊ฐ์ด 0.19์ผ๋ก Blackbox model์ ๋ฐ์ํ์ง ๋ชปํ์ผ๋ฏ๋ก Surrogate model์ ํด์ํด๋ Blackbox model์ ํด์์ฒ๋ผ ์ฌ์ฉํ์ง ๋ชปํ๋ค.
5.6.3 Advantages
- ํด์๊ฐ๋ฅํ ๋ชจ๋ ์ข
๋ฅ์ ๋ชจ๋ธ์ ์ฌ์ฉํ ์ ์๊ธฐ ๋๋ฌธ์ flexible
(ex) ๋ณต์กํ ๋ชจ๋ธ์ ๋ง๋ค์ด ๋ ํ์ฌ์ ์ค๋ช ํ๋ ค๊ณ ํ๋ ๊ฒฝ์ฐ
(1) ์ ํ ๋ชจ๋ธ์ด ์ต์ํ ํ์ฌ์๊ฒ๋ ์ ํ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ํด์
(2) ๊ฒฐ์ ํธ๋ฆฌ๊ฐ ์ต์ํ ํ์ฌ์๊ฒ๋ ๊ฒฐ์ ํธ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ ํด์ - ์ง๊ด์ ์ด๊ณ ๊ฐ๋จํ๋ฉฐ ๊ตฌํ์ด ์ฌ์
- R-square๋ฅผ ํตํด ์ ๊ทผ์ ํ๋์ง ์ฑ๋ฅ ์ฝ๊ฒ ์ธก์ ๊ฐ๋ฅ
5.6.4 Disadvantages
- Data๊ฐ ์๋๋ผ Model์ ๋ํ ๊ฒฐ๋ก ์ ๋์ถํด์ผ ํจ
- R-square์ cut-off ๊ธฐ์ค์ด ๋ถ๋ถ๋ช ํจ
- ๋ชจ๋ data point์ ๋์ผํ ํด์๋ ฅ์ ๊ฐ์ง ๋ชปํ ์ ์์
์ผ๋ถ subset์๋ ๋งค์ฐ ์ fit, ์ผ๋ถ subset์์๋ divergent
References
'Study๐ฅ > XAI' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ํฌํ ์ดํ ์คํฐ๋] Influential Instances (0) | 2021.06.22 |
---|---|
[ํฌํ ์ดํ ์คํฐ๋] Prototypes and Criticisms (0) | 2021.06.22 |
[ํฌํ ์ดํ ์คํฐ๋] Local Surrogate(LIME) (0) | 2021.05.24 |
[ํฌํ ์ดํ ์คํฐ๋] Permutation Feature Importance (0) | 2021.05.22 |
[ํฌํ ์ดํ ์คํฐ๋] Feature Interaction (0) | 2021.05.22 |