Notice
Recent Posts
Recent Comments
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

Hello Potato World

[포테이토 스터디] Feature Interaction 본문

Study🥔/XAI

[포테이토 스터디] Feature Interaction

Heosuab 2021. 5. 22. 03:33

 

⋆ 。 ˚ ☁︎ ˚ 。 ⋆ 。 ˚ ☽ ˚ 。 ⋆ 

[XAI study_ Interpretable Machine Learning]

 

 

 


5.4 Feature Interaction


prediction model 내에서 feature들이 상호작용하는 경우 각각의 feature effect의 합만으로는 예측을 표현할 수 없다.

Linear Regression에서의 예시를 들어 확인해보자.

 

  1. 두 개의 feature를 사용하는 linear regression 모델에서 feature interaction이 존재하지 않는 경우

X_1=1, X_2=1일 때의 data를 제외한 나머지 3개의 data를 사용하여 위와 같은 Linear Regression Function의 regression coefficient를 구해보면(error term=0이라고 가정),

  • β0=150000, β1=50000, β2=100000

와 같이 구할 수 있고, X_1=1, X_2=1을 적용해보면 300000의 정확한 prediction을 얻을 수 있다. 즉, 단일 특성 효과들의 합만으로 완벽하게 decomposition 가능하다.

 

 

 

  2. feature interaction이 존재하는 경우

1번 경우와 동일하게 X_1=1, X_2=1일 때의 data를 제외한 나머지 3개의 data를 사용하여 Linear Regression Function의 regression coefficient를 구해보면(error term=0이라고 가정),

  • β0=150000, β1=50000, β2=100000, β3=100000

즉, 각각의 단일 특성 효과들만 적용했을때는 X_1=1, X_2=1일 때의 prediction이 400000이기 때문에 완벽하게 decomposition할 수 없다는 걸 알 수 있고, X_1과 X_2의 interaction term인 β3(X1*X2)가 추가되어야 정확한 예측을 만들 수 있다.

 

 


Theory: Friedman's H-statistic


Interaction Strength, 즉 feature interaction이 예측 변동에 얼마나 영향을 주는지 측정하는 측정법

 

  1. 두 특성이 서로 상호작용하는지 여부와 정도를 알려주는 Two-way Interaction measure

 

  • 두 특성이 상호작용하지 않는 경우

  • 특성 j와 k 사이의 H-statistic

     관찰된 PD값과 상호작용 없는 분해된 PD값의 차이를 측정

 

 

  2. 한 특성이 다른 모든 특성과 상호작용하는지 여부와 정도를 알려주는 Total Interaction Measure

 

  • 한 특성이 다른 특성들과 상호작용하지 않는 경우

  • 특성 j와 나머지 특성들 사이의 H-statistic

 

 


Example Results


Example : 자궁경부암의 확률을 예측하는 Random Forest model의 H-statistic

다른 모든 특성들과 높은 상호작용을 가지는 특성 (Top2)

  • 호르몬 피임약의 복용 연수(Hormonal Contraceptives years)
  • 임신 횟수(Number of Pregnancies)

이후 임신 횟수(Number of Pregnancies)과 다른 특성들 사이의 1:1 상호작용 H-statistic을 분석해보면

임신 횟수 특성과 가장 높은 상호작용을 가지는 특성

  • 나이(Age)

 


Advantages


  • 차원과 관계없는 statistic이라서 특성 뿐만 아니라 모델 사이의 interaction도 비교할 수 있음
  • 형식에 관계없이 모든 종류의 interaction을 탐지할 수 있음
  • 3개 이상의 특성 간의 interaction등의 높은 interaction도 분석할 수 있음

 


DisAdvantages


  • 모든 data에 대해 반복되므로 계산 비용이 큼
  • Model-agnostic version 사용 불가능
  • H-statistic값이 1보다 크게 나올수 있기 때문에 해석이 어려움
    • H-statistic=1인 경우는, single feature PD가 일정하고 prediction이 feature간의 interaction에게만 영향을 받는 경우

 

 


References


[1] Interpretable Machine Learning, Christoph Molnar

 

 

 

 

 

 

 

감자같은 학부생이 일부만 정리하는 리뷰입니다. 더 궁금한 점은 댓글로 물어봐주세요🥔

 

Comments