Data Science/Machine Learning 5

[Machine Learning] eXplainable AI - LIME

LIME의 정의Local : 특정 Y란 종속변수 Y가 가질 수 있는 특정 값. 예를 들어 Classification이라면 A,B,C 중 특정 값인 AModel-agnostic : 알고리즘이 아니라 Method이기 때문에 모든 모델에 적용 가능 LIME의 기본 개념1) ImageModel에서 알아내고 싶은 것 : 이미지에서 어떤 부분을 보고 frog라고 예측한 걸까?LIME ProcessOriginal Image를 Model에 넣었을 때 54% 확률로 frog라고 예측함Purturbed InstancesOriginal Image를 특정 부분만 남겨놓고 마스킹 같은 Noise를 준다Purturbed Instance를 모델에 넣어 예측 확률을 기록함Original Image 보다 높은 확률로 frog로 예측한..

[Machine Learning] eXplainable Method

OverviewDeep Learning, Ensemble 계열은 Model Complexity가 높은만큼 성능이 좋다.Linear Model, Decision Tree는 Model Complexity가 낮아 성능은 떨어지지만 설명력이 좋다.RF 등 Tree 앙상블 모델은 Feature Importance Score는 구할 수 있지만, Decision Tree처럼 Input에 대한 예측값이 나오는 규칙은 해석할 수 없다.Deep Explnation : Deep Learning Model의 신경망 네트워크 안에서 무엇이 일어나는지를 떼어서 생각할 수 있게끔 하는 설명가능 AI를 구축하는 방법Interpretable Models : 해석 가능한 모델들. Decision Tree 등Model Induction ..

[Machine Learning] Tree 계열 알고리즘 - XGBoost

1. XGBoost 기본 개념앙상블 알고리즘 발전의 역사Boosting에서는 Adaboost가 초기 모델이다XGBoostOptimized Gradient Boosting algorithm : Gradient Boosting(GBM)을 최적화한 것 (알고리즘적 차이 없음)through parallel processing : Sequential하게 학습하는 Boosting 모델이지만 병렬 처리가 가능! (학습속도 획기적 감소)handling missing value : missing value가 있어도 학습 가능XGBoost부터 현업에서 많이 사용하는 알고리즘Computing 적으로 병렬 학습이 지원되도록 구현함강사가 잘 모르고 설명하는듯XGBoost와 GBM 비교항목GBMXGBoost정규화 (Regular..

[Machine Learning] AdaBoost

PreviewAdaBoost = Adaptive + BoostingBoosting 기법의 초기 모델이며 Overfitting의 문제로 좋은 성능을 내지는 못함. 이후로 발전된 GBM(Gradient Boostring Machine) 패밀리 알고리즘(XGBoost, LightGBM 등)의 시초 역할을 함AdaBoost도 Feature Importance score가 나옴 Boosting은 Bias를 줄여주는 것Boosting : 잘못 맞춘 데이터(mis-classified records)에 집중하여 training data의 분배를 변경하는 것Sequential한 과정(그림)INITIAL DATASET, TREE : 최초 데이터로 학습NEW SET OF DATA, ANOTHER TREE : 학습된 트리로 ..

[Classification] Random Forest

1. Random Forest 원리1.1. 개념2001년도에 만들어진 Random Forest가 현재 우리가 학습하는 모델Two ways to increase the diversity of ensemble다양성을 높이기 위해 두 가지 방법을 사용함Randomly sample the training data D with replacement to produce DiBootstrap 기법을 의미함(복원 추출)Randomly select x% of the possible splitting features in N변수 N개 중 x% 개수 만큼 랜덤하게 추출함x = 하이퍼 파라미터Tree는 작은 Bias와 큰 Variance를 갖기 때문에작은 Bias = Decision Tree는 순도 100%를 만들 수 있기 ..