2020.08.26
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 17회차 미션
16회차에서는 데이터 타입을 변경하는 법, 날짜를 datetime타입으로 변경하는 법 그리고 문자열을 apply함수를 이용하여 숫자열로 바꾸는 법을 배웠다. 오늘은 dataframe을 가지고 사칙연산하는 방법, 문자열과 산술연산이 가능한 숫자열을 분리시키는 법 그리고 원핫인코딩을 배웠다. 사칙연산은 +-*/와 같은 일반 수학기호를 쓰는 거라 굉장히 간단했다.
column과 column 간 연산, 즉 시리즈와 시리즈끼리 연산하려면, df['column 이름'] +-*/% df['column 이름']을 하면 된다.
모든 시리즈의 값에 똑같은 값을 더하거나, 빼거나, 나누거나, 곱해주고싶으면 간단하게 df['column 이름'] +-*/% 숫자로 하면된다.
df['통계미술합계'] = df['통계'] + df['미술'] + 10 하면, 새로운 시리즈가 만들어지면서 계산이 된다.
실습하고 보니까 데이터 정리할때 굉장히 유용하게 쓰일것 같네요!
통계값을 알고 싶으면, df.sum/mean/min ..(axis=0)을 하면, 시리즈의 통계값을 출력할 수 있다.
다만 결측값이 포함된 경우에는 계산이 되지 않은채 NaN 값으로 남지만, 문자열이 포함된 dataframe을 계산할 경우에는, 오류🚫라고 뜨면서 계산이 되지 않는다.
select_dtypes를 이용해서 object 일반 문자열 타입을 빼고exclude 숫자열만 출력하거나 일반 문자열 타입을 포함include 시켜 문자열만 따로 출력할 수 있다. 실습예제를 예로 들면,
num_cols =df.select_dtypes(exclude='object').columns
👉문자형(object)를 제거(exclude)하고 숫자형 컬럼만 출력.
obj_cols =df.select_dtypes(include='object').columns
👉문자형(object)만 포함(include)시키고 문자형 컬럼만 출력.
정리하고 보니 문자그대로 코딩식을 쓰면 됐다~
원핫인코딩은 문자형 데이터를 숫자로 대치시켜줬을 때, 컴퓨터가 잘못 판단하여 데이터를 출력할 수 있기 때문에 dummies를 사용해서 문자형이 각각 독립적인 데이터임을 표시해주는 것이라고 이해했다. 학교 통계학시간에 dummy variable을 배운 적이 있어서 바로 이해할 수 있었다. 강의의 예시를 들면, 만약 A형을 0, B형은 1, AB형은 2, O형을 3라는 값으로 정하여 데이터를 예측하라고 지시한다면, 컴퓨터는 B형 + AB형 = O형이다라고 잘못 관계를 맺을 수 있게 된다. 따라서, dummies를 정해서 A, B, AB, O형의 관계는 독립적이다를 표현해줘 A, B, AB, O형의 관계가 독립적이다하고 표시해주는 것이 원핫인코딩!!
pd.get_dummies(df[''])
오늘도 쉬운 개념이라 간단하게 02. 파트1 25부터 27번까지 수강완료!✊
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 19회차 미션 (0) | 2020.08.28 |
---|---|
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 18회차 미션 (0) | 2020.08.27 |
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 16회차 미션 (0) | 2020.08.25 |
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 15회차 미션 (0) | 2020.08.24 |
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 14회차 미션 (0) | 2020.08.23 |
댓글 영역