상세 컨텐츠

본문 제목

[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 35회차 미션

본문

반응형

2020.09.13

[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 35회차 미션

어제는 전처리의 종류, 그리고 순서을 잘 맞춰줘야하는 머신러닝에서 return 하는 방법을 배우고 타이타닉 예제로 실습을 해봤는데, 오늘은 예전 pandas 에서 했었던 것 같은 encoding방법을 배워 데이터를 정리해주는 것을 배웠다.

 

📍 label encoding

문자형데이터에서 수치형 데이터로!

문자형 데이터가 바로 머신러닝으로 들어갈 수 없기 때문에 문자형 데이터를 반드시 수치로 변환해야한다. male을 1로, female을 0으로 수치화 시켜주고 싶으면!

def convert(data): 
if data == 'male': 
return 1 
elif data == 'female': 
return 0 
train['Sex'].apply(convert)

 

 

inverse_transform으로 하면 다시 문자형으로 변환시킬 수 있다.

 

추가로, NaN 값 (결측값)이 있는 경우 오류가 나기 때문에 결측값을 제거해야한다.

패스트캠퍼스 데이터분석1
실습 캡처

📍 원핫 인코딩 One Hot Encoding

데이터를 독립화 시켜주는 것!

데이터 프레임이었나? pandas 에서 에서 더미 벨류를 설정해서 변환시켰던 것 같은데 머신러닝에서도 똑같은 코딩이 나왔다.

 

머신러닝에서도 pandas와 마찬가지로, 데이터를 독립화하지 않고 그대로 기계학습을 시키면, 기계는 데이터 안에서 관계를 학습하기 때문에 예를들면, 'S' = 2, 'Q' = 1 이라고 되어 있는데, Q + Q = S 가 된다 라고 학습해버린다. 따라서 컴퓨터가 독립적이지 않은 똑같은 문제가 발생하기 때문에 원핫 인코딩을 해 각각의 데이터에 독립성을 부여해야한다.

패스트캠퍼스 데이터분석2
강의 캡처

원핫인코딩을 해주면 자기가 해당하는 컬럼에서만 true로 표시가 되고 나머지 컬럼에서는 false로 표기된다.

📍 정규화

넷플릭스에서 5점 만점에 5점 을 받았는데, 네이버에서는 10점 만점에 6점을 받았을때, 각기 다른 플랫폼에서 그 정도?을 맞춰주고싶을때 쓰는 것으로 이해했다.

패스트캠퍼스 데이터분석3
강의 캡처

 

 

💡오늘 배운 내용 복습

  1. label encoding

  2. one hot encoding

  3. 정규화

04. Part1 09강부터 12강까지 수강완료!✊

https://bit.ly/3imy2uN

 

직장인을 위한 파이썬 데이터분석 올인원 패키지 Online. | 패스트캠퍼스

왕초보도 진짜 데이터 분석을 하는 마법의 커리큘럼으로 파이썬 기초부터 다양한 예제를 활용한 분석까지 모두 배울 수 있는 온라인 과정입니다.

www.fastcampus.co.kr

 

반응형

관련글 더보기

댓글 영역