상세 컨텐츠

본문 제목

[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 46회차 미션

본문

반응형

2020.09.24

[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 46회차 미션

45회차에서는 lasso와 Ridge의 알고리즘 다 사용한 poly ElasticNet 를 실습해보았고, 확실히 라쏘와 릿지보다 더 낮은 오차가 있고 성능이 좋음을 알 수 있었다. 그 다음에는 앙상블에 대한 개념을 배웠는데, 앙상블의 4가지 종류 중 하나인 보팅을 배웠다.

 

📍 베깅

베깅은 샘플에 대한 다양한 그룹군을 만든다음에, 그 것에 대한 각각의 알고리즘을 예측한다음에 결과값을 토대로 앙상블한다. 사용하기 편하고 성능이 좋아서 많은 사람들이 사용하지만, 역시 단일모델을 사용하는 것에 한계가 있다. 수학시간에 배운 조합..? 과 비슷한 것 같다. 이전에 배웠던 디시젼 트리도 이 베깅 앙상블을 기반으로 했다.

패스트캠퍼스 데이터분석1
강의 캡처

rfr_pred = rfr.predict(x_test) 
mse_eval('RandomForest Ensemble', rfr_pred, y_test)

패스트캠퍼스 데이터분석2
강의 캡처

MSE error을 통해 성능을 측정해보면, Poly Elastic Net보다는 성능이 떨어졌지만, Voting Ensemble과 Linear Regression보다 낮은 오차를 보여주는 것으로 나타났다.

 

📍 부스팅

부스팅은 weak learners 를 먼저 학습한 뒤 오차가 있으면 가중치를 부여해서 계속 개선해가면서 성능을 보완해가는 앙상블이다.. 성능이 매우 우수하고 사용법이 간단해서 요즘 많은 주목을 받고 있지만 학습시간이 오래걸린다는 단점이 있다.

 

📍 그라디언트 부스팅

from sklearn.ensemble import GradientBoostingRegressor, GradientBoostingClassifier 
gbr = GradientBoostingRegressor(random_state=42) 
gbr.fit(x_train, y_train) 
gbr_pred = gbr.predict(x_test) 
mse_eval('GradientBoost Ensemble', gbr_pred, y_test)

 

패스트캠퍼스 데이터분석3
강의 캡처

따로 설정을 해주지 않아도 우리가 넘지 못했던 poly ElasticNet 이걸 확 넘어버렸다.

learning rate : 너무 큰 학습율은 정교하게 튜닝이 안되고, 작은 것은 업데이트가 느리기 때문에 적절한 값을 찾아야한다. 몇번 실험을 통해서 적절한 값을 찾아야한다.

learning rate와 estimate를 같이 튜닝을 해줘서 최고 모델이 나올수 있도록 찾아야한다.

 

💡 오늘 배운 내용 복습

  1. 베깅

  2. 그라디언트 부스팅

04. Part1 43강부터 46번까지 수강완료!✊

https://bit.ly/3imy2uN

 

직장인을 위한 파이썬 데이터분석 올인원 패키지 Online. | 패스트캠퍼스

왕초보도 진짜 데이터 분석을 하는 마법의 커리큘럼으로 파이썬 기초부터 다양한 예제를 활용한 분석까지 모두 배울 수 있는 온라인 과정입니다.

www.fastcampus.co.kr

 

반응형

관련글 더보기

댓글 영역