2020.09.13
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 35회차 미션
어제는 전처리의 종류, 그리고 순서을 잘 맞춰줘야하는 머신러닝에서 return 하는 방법을 배우고 타이타닉 예제로 실습을 해봤는데, 오늘은 예전 pandas 에서 했었던 것 같은 encoding방법을 배워 데이터를 정리해주는 것을 배웠다.
문자형데이터에서 수치형 데이터로!
문자형 데이터가 바로 머신러닝으로 들어갈 수 없기 때문에 문자형 데이터를 반드시 수치로 변환해야한다. male을 1로, female을 0으로 수치화 시켜주고 싶으면!
def convert(data):
if data == 'male':
return 1
elif data == 'female':
return 0
train['Sex'].apply(convert)
inverse_transform으로 하면 다시 문자형으로 변환시킬 수 있다.
추가로, NaN 값 (결측값)이 있는 경우 오류가 나기 때문에 결측값을 제거해야한다.
데이터를 독립화 시켜주는 것!
데이터 프레임이었나? pandas 에서 에서 더미 벨류를 설정해서 변환시켰던 것 같은데 머신러닝에서도 똑같은 코딩이 나왔다.
머신러닝에서도 pandas와 마찬가지로, 데이터를 독립화하지 않고 그대로 기계학습을 시키면, 기계는 데이터 안에서 관계를 학습하기 때문에 예를들면, 'S' = 2, 'Q' = 1 이라고 되어 있는데, Q + Q = S 가 된다 라고 학습해버린다. 따라서 컴퓨터가 독립적이지 않은 똑같은 문제가 발생하기 때문에 원핫 인코딩을 해 각각의 데이터에 독립성을 부여해야한다.
원핫인코딩을 해주면 자기가 해당하는 컬럼에서만 true로 표시가 되고 나머지 컬럼에서는 false로 표기된다.
넷플릭스에서 5점 만점에 5점 을 받았는데, 네이버에서는 10점 만점에 6점을 받았을때, 각기 다른 플랫폼에서 그 정도?을 맞춰주고싶을때 쓰는 것으로 이해했다.
label encoding
one hot encoding
정규화
04. Part1 09강부터 12강까지 수강완료!✊
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 37회차 미션 (0) | 2020.09.15 |
---|---|
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 36회차 미션 (0) | 2020.09.14 |
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 34회차 미션 (0) | 2020.09.12 |
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 33회차 미션 (0) | 2020.09.11 |
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 32회차 미션 (0) | 2020.09.10 |
댓글 영역