2020.09.22
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 44회차 미션
43회차에서는 42회차에서 배운 '규제'를 바탕으로 릿지, 라쏘, Elastic Net그래프를 출력해서 규제정도를 어떻게 줬을 때 모델의 성능이 높은지 판단하는지 강의를 통해서 배웠다. 오늘은 3가지 스케일러에 대해서 배웠는데, 머신러닝 전처리에서 훑어보고 지나간 것이라 복습하는 느낌으로 강의를 들었다.
먼저 from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler 으로 임포팅주고!
👉Standard Scale
Standard Scale은, 평균(mean)을 0, 표준편차(std)를 1로 만들어 주는 스케일러!
std_scaler = StandardScaler()
std_scaled = std_scaler.fit_transform(x_train)
round(pd.DataFrame(std_scaled).describe(), 2)
👉MinMax Scaler
min값과 max값을 0~1사이로 정규화!
minmax_scaler = MinMaxScaler()
minmax_scaled = minmax_scaler.fit_transform(x_train)
round(pd.DataFrame(minmax_scaled).describe(), 2)
👉Robust Scaler
Robust Scaler은 중앙값이 0, IQR이 1이 되도록 변환하는 것으로 아웃라이어 값을 처리해주는데 유용하다.
robust_scaler = RobustScaler()
robust_scaled = robust_scaler.fit_transform(x_train)
round(pd.DataFrame(robust_scaled).median(), 2)
→ 주택가격을 예측한다고 했을때, 주택가격이 5억 6억정도의 집이 많은데 200억 300억하는 갑툭튀하는 값이 있는경우, 즉 아웃라이어로 판단되는 데이터가 있는경우 이 데이터를 제거해줘야할 때 러부스트 스케일러를 선언해줄 수 있다.
스케일러들을 모델 예측할 때 적용할껀데, 지난시간에 해봤던 것처럼 코딩식으로 값들을 변화해준다음에 모델에 넣어줘야하는 것이 귀찮다..
그래서 나온게 '파이프라인'!!
파이프라인을 사용해서 간단하고 빠르게 해줄 수 있다.
from sklearn.pipeline import make_pipeline
elasticnet_pipeline = make_pipeline(StandardScaler(),ElasticNet(alpha=0.1, l1_ratio=0.2))
elasticnet_pred = elasticnet_pipeline.fit(x_train, y_train).predict(x_test)
스케일러
파이프라인
04. Part1 38강부터 39강까지 수강완료!✊
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 46회차 미션 (0) | 2020.09.24 |
---|---|
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 45회차 미션 (0) | 2020.09.23 |
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 43회차 미션 (0) | 2020.09.21 |
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 42회차 미션 (0) | 2020.09.20 |
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 41회차 미션 (0) | 2020.09.19 |
댓글 영역