상세 컨텐츠

본문 제목

[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 17회차 미션

본문

반응형

2020.08.26

[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 17회차 미션

16회차에서는 데이터 타입을 변경하는 법, 날짜를 datetime타입으로 변경하는 법 그리고 문자열을 apply함수를 이용하여 숫자열로 바꾸는 법을 배웠다. 오늘은 dataframe을 가지고 사칙연산하는 방법, 문자열과 산술연산이 가능한 숫자열을 분리시키는 법 그리고 원핫인코딩을 배웠다. 사칙연산은 +-*/와 같은 일반 수학기호를 쓰는 거라 굉장히 간단했다.

 

🔢dataframe의 사칙연산

column과 column 간 연산, 즉 시리즈와 시리즈끼리 연산하려면, df['column 이름'] +-*/% df['column 이름']을 하면 된다.

모든 시리즈의 값에 똑같은 값을 더하거나, 빼거나, 나누거나, 곱해주고싶으면 간단하게 df['column 이름'] +-*/% 숫자로 하면된다.

df['통계미술합계'] = df['통계'] + df['미술'] + 10 하면, 새로운 시리즈가 만들어지면서 계산이 된다.

실습하고 보니까 데이터 정리할때 굉장히 유용하게 쓰일것 같네요!

통계값을 알고 싶으면, df.sum/mean/min ..(axis=0)을 하면, 시리즈의 통계값을 출력할 수 있다.

다만 결측값이 포함된 경우에는 계산이 되지 않은채 NaN 값으로 남지만, 문자열이 포함된 dataframe을 계산할 경우에는, 오류🚫라고 뜨면서 계산이 되지 않는다.

 

📁문자의 컬럼, 숫자의 컬럼 따로 뽑기(select_dtypes)

select_dtypes를 이용해서 object 일반 문자열 타입을 빼고exclude 숫자열만 출력하거나 일반 문자열 타입을 포함include 시켜 문자열만 따로 출력할 수 있다. 실습예제를 예로 들면,

 

num_cols =df.select_dtypes(exclude='object').columns

👉문자형(object)를 제거(exclude)하고 숫자형 컬럼만 출력.

obj_cols =df.select_dtypes(include='object').columns

👉문자형(object)만 포함(include)시키고 문자형 컬럼만 출력.

패스트캠퍼스 데이터분석1
실습 캡처

정리하고 보니 문자그대로 코딩식을 쓰면 됐다~

📍원핫인코딩(One-hot-encoding)

패스트캠퍼스 데이터분석2
강의 캡처

원핫인코딩은 문자형 데이터를 숫자로 대치시켜줬을 때, 컴퓨터가 잘못 판단하여 데이터를 출력할 수 있기 때문에 dummies를 사용해서 문자형이 각각 독립적인 데이터임을 표시해주는 것이라고 이해했다. 학교 통계학시간에 dummy variable을 배운 적이 있어서 바로 이해할 수 있었다. 강의의 예시를 들면, 만약 A형을 0, B형은 1, AB형은 2, O형을 3라는 값으로 정하여 데이터를 예측하라고 지시한다면, 컴퓨터는 B형 + AB형 = O형이다라고 잘못 관계를 맺을 수 있게 된다. 따라서, dummies를 정해서 A, B, AB, O형의 관계는 독립적이다를 표현해줘 A, B, AB, O형의 관계가 독립적이다하고 표시해주는 것이 원핫인코딩!!

 

pd.get_dummies(df[''])

패스트캠퍼스 데이터분석3
실습 캡처

💡오늘 배운 내용 복습

  1. dataframe 사칙연산하기
  2. 문자열과 숫자열 분리시키기
  3. 원핫인코딩(One-hot-encoding)

오늘도 쉬운 개념이라 간단하게 02. 파트1 25부터 27번까지 수강완료!✊

 

https://bit.ly/3imy2uN

 

직장인을 위한 파이썬 데이터분석 올인원 패키지 Online. | 패스트캠퍼스

왕초보도 진짜 데이터 분석을 하는 마법의 커리큘럼으로 파이썬 기초부터 다양한 예제를 활용한 분석까지 모두 배울 수 있는 온라인 과정입니다.

www.fastcampus.co.kr

 

반응형

관련글 더보기

댓글 영역