2020.09.24
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 46회차 미션
45회차에서는 lasso와 Ridge의 알고리즘 다 사용한 poly ElasticNet 를 실습해보았고, 확실히 라쏘와 릿지보다 더 낮은 오차가 있고 성능이 좋음을 알 수 있었다. 그 다음에는 앙상블에 대한 개념을 배웠는데, 앙상블의 4가지 종류 중 하나인 보팅을 배웠다.
베깅은 샘플에 대한 다양한 그룹군을 만든다음에, 그 것에 대한 각각의 알고리즘을 예측한다음에 결과값을 토대로 앙상블한다. 사용하기 편하고 성능이 좋아서 많은 사람들이 사용하지만, 역시 단일모델을 사용하는 것에 한계가 있다. 수학시간에 배운 조합..? 과 비슷한 것 같다. 이전에 배웠던 디시젼 트리도 이 베깅 앙상블을 기반으로 했다.
rfr_pred = rfr.predict(x_test)
mse_eval('RandomForest Ensemble', rfr_pred, y_test)
MSE error을 통해 성능을 측정해보면, Poly Elastic Net보다는 성능이 떨어졌지만, Voting Ensemble과 Linear Regression보다 낮은 오차를 보여주는 것으로 나타났다.
부스팅은 weak learners 를 먼저 학습한 뒤 오차가 있으면 가중치를 부여해서 계속 개선해가면서 성능을 보완해가는 앙상블이다.. 성능이 매우 우수하고 사용법이 간단해서 요즘 많은 주목을 받고 있지만 학습시간이 오래걸린다는 단점이 있다.
from sklearn.ensemble import GradientBoostingRegressor, GradientBoostingClassifier
gbr = GradientBoostingRegressor(random_state=42)
gbr.fit(x_train, y_train)
gbr_pred = gbr.predict(x_test)
mse_eval('GradientBoost Ensemble', gbr_pred, y_test)
따로 설정을 해주지 않아도 우리가 넘지 못했던 poly ElasticNet 이걸 확 넘어버렸다.
learning rate : 너무 큰 학습율은 정교하게 튜닝이 안되고, 작은 것은 업데이트가 느리기 때문에 적절한 값을 찾아야한다. 몇번 실험을 통해서 적절한 값을 찾아야한다.
learning rate와 estimate를 같이 튜닝을 해줘서 최고 모델이 나올수 있도록 찾아야한다.
베깅
그라디언트 부스팅
04. Part1 43강부터 46번까지 수강완료!✊
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 48회차 미션 (0) | 2020.09.26 |
---|---|
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 47회차 미션 (0) | 2020.09.25 |
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 45회차 미션 (0) | 2020.09.23 |
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 44회차 미션 (0) | 2020.09.22 |
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 43회차 미션 (0) | 2020.09.21 |
댓글 영역