상세 컨텐츠

본문 제목

[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 36회차 미션

본문

반응형

2020.09.14

[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 36회차 미션

머신러닝을 실행하기 전에 필요한 데이터 클렌징? 전처리 할 때 필요한 label encoding, one hot encoding, 결측값 제거 그리고 정규화와 표준화를 배웠다.

 

⏪복습

👆 label encoding : 문자형 데이터를 수치화!

👆 one hot encoding: 데이터 독립화!( 더미 밸류)

👆 표준화: column 간에 최소, 최대값이 다른 경우, 최소치/ 최대값의 척도를 맞추어 주는 것!

👆 정규화: 평균이 0과 표준편차가 1이 되도록 변환!

 

🌻 Iris 데이터 세트

iris는 꽃 종류를 분류하기 위한 데이터 세트로,

패스트캠퍼스 데이터분석1
강의 캡처

  • DESCR: 데이터셋의 정보를 보여줍니다.
  • data: feature data.
  • feature_names: feature data의 컬럼 이름
  • target: label data (수치형)
  • target_names: label의 이름 (문자형)

의 다양한 정보가 포함된 데이터가 한번에 출력이 된다.

iris=load_iris()

의 코딩식으로 iris 데이터세트를 먼저 로드해주고,

print(iris['DESCR'])

를하면,

간단한 통계값(최대, 최소, 표준편차 등), 출처, 소개글이 한번에 출력된다.

 

📊  시각화

sns.scatterplot(x축,y축,hue 다른색을 가진 점들,palette=muted, data=df_iris )를 하면, 해당 그래프를 출력할 수 있다.

패스트캠퍼스 데이터분석2
강의 캡처

import matplotlib.pyplot as plt
import seaborn as sns 
sns.scatterplot('sepal width (cm)', 'sepal length (cm)', hue='target', palette='muted', data=df_iris) plt.title('Sepal') 
plt.show()

 

실습 예제로 시각화를 해봤더니..

패스트캠퍼스 데이터분석3
강의 캡처

마지막 클래스가 첫번째, 두번째 클래스보다 더 적게 데이터 수집이 된 것을 볼 수 있다. 이경우, 샘플이 1,2에서 많이 추출되기 때문에, 모델 성능에 영향을 줄 수가 있기 때문에

그래서

label의 클래스의 분포를 균등하게 배분해주는게, stratify이다!

 

 

💡오늘 배운 내용 복습

  1. Iris 데이터 세트

  2. iris 데이터 시각화

  3. stratify

04. Part 1 9.10.11.12 수강완료!✊

bit.ly/3imy2uN

 

직장인을 위한 파이썬 데이터분석 올인원 패키지 Online. | 패스트캠퍼스

왕초보도 진짜 데이터 분석을 하는 마법의 커리큘럼으로 파이썬 기초부터 다양한 예제를 활용한 분석까지 모두 배울 수 있는 온라인 과정입니다.

www.fastcampus.co.kr

 

반응형

관련글 더보기

댓글 영역