2020.09.14
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 36회차 미션
머신러닝을 실행하기 전에 필요한 데이터 클렌징? 전처리 할 때 필요한 label encoding, one hot encoding, 결측값 제거 그리고 정규화와 표준화를 배웠다.
⏪복습
👆 label encoding : 문자형 데이터를 수치화!
👆 one hot encoding: 데이터 독립화!( 더미 밸류)
👆 표준화: column 간에 최소, 최대값이 다른 경우, 최소치/ 최대값의 척도를 맞추어 주는 것!
👆 정규화: 평균이 0과 표준편차가 1이 되도록 변환!
iris는 꽃 종류를 분류하기 위한 데이터 세트로,
의 다양한 정보가 포함된 데이터가 한번에 출력이 된다.
iris=load_iris()
의 코딩식으로 iris 데이터세트를 먼저 로드해주고,
print(iris['DESCR'])
를하면,
간단한 통계값(최대, 최소, 표준편차 등), 출처, 소개글이 한번에 출력된다.
sns.scatterplot(x축,y축,hue 다른색을 가진 점들,palette=muted, data=df_iris )를 하면, 해당 그래프를 출력할 수 있다.
import matplotlib.pyplot as plt
import seaborn as sns
sns.scatterplot('sepal width (cm)', 'sepal length (cm)', hue='target', palette='muted', data=df_iris) plt.title('Sepal')
plt.show()
실습 예제로 시각화를 해봤더니..
마지막 클래스가 첫번째, 두번째 클래스보다 더 적게 데이터 수집이 된 것을 볼 수 있다. 이경우, 샘플이 1,2에서 많이 추출되기 때문에, 모델 성능에 영향을 줄 수가 있기 때문에
그래서
label의 클래스의 분포를 균등하게 배분해주는게, stratify이다!
Iris 데이터 세트
iris 데이터 시각화
stratify
04. Part 1 9.10.11.12 수강완료!✊
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 38회차 미션 (0) | 2020.09.16 |
---|---|
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 37회차 미션 (0) | 2020.09.15 |
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 35회차 미션 (0) | 2020.09.13 |
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 34회차 미션 (0) | 2020.09.12 |
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 33회차 미션 (0) | 2020.09.11 |
댓글 영역