상세 컨텐츠

본문 제목

[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 14회차 미션

본문

반응형

2020.08.23

[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 14회차 미션

 

13회차에서는 컴퓨터활용 능력 시험을 준비하면서 이해도 되지않고, 지긋지긋했던 개념인 피벗테이블을 배웠는데, 강사님 설명도 듣고, 실제 예제를 가지고 실습해보니 그렇게 어렵지도 않은 개념이고, 엑셀을 하면서 생겼던 '피벗테이블 공포증'을 해소할 수 있었다. 오늘은 데이터파일에 없는 데이터, 중복된 데이터를 처리하는 방법을 배웠다.

 

📍결측값 채우기

지지난 시간에 결측값이라고 해서, NoN 'not a number'인 값만 출력하는 방법을 배웠었는데, 오늘은 데이터가 누락된 경우, 사고로 데이터가 누락되었을 경우와 같이 데이터에 결측값이 존재하는 경우, 이를 다른 통계값이나 숫자로 대치하는 방법을 배웠다.

df['행']fillna(바꾸고 싶은 값)을 이용해서 nan 값을 바꾸고싶은 값으로 대치시키거나, nan 값이 -1로 바뀜.

패스트캠퍼스 데이터분석1
강의 캡처

df2=df.fillna(-1,inplace=true) 를 하거나 다시 대입하는 방법이 있다. 평균값, 최빈값, 등등을 넣어줄 수 있다.

패스트캠퍼스 데이터분석2
강의 캡처

복습

Boolean인덱싱을 활용하거나

isnull 와 isna : NaN 값만 색출해내기

notnull : NaN이 아닌 값만 색출해내기.

 

📝행과 열 제거

그 다음에 결측값을 색출해내기 위해서는

결측값을 제거하는 방법으로는, 간단하게 df.dropna()을 하면된다. 결측값이 있는 행 즉,nan값이 있는 행을 다 빼버리고 싶으면, axis=0을 붙여주고, 열을 날려버리고 싶으면, axis=1을 붙여준다.

df.dropna(axis=0 or 1, )

 

how='any' nan값이 하나라도 있으면 날려라, 그리고 how='all'은 행이 모두 nan이면 날려버린다.

패스트캠퍼스 데이터분석3
강의 캡처

 

📁중복된 값을 제거

df[행 이름].drop_duplicates(keep='first'/'last') 중복된 값을 제거해주는 것이다. 같은 값이 나왔을때, 처음에 나온 값을 놔두고 그 다음에 오는 값을 제거하는 것이다. 만약, 맨 뒤에 나오는 값을 유지시키고 싶다면, (keep='last') 뒤에 나온 값을 유지시킨다.

행, 열 데이터를 제거하는 것은 저번 numpy시간에 배운 것과 비슷하게 index와 list을 이용해서 코딩해서 넣으면 되서 쉬웠다.

 

 

💡오늘 배운 내용 복습

  1. 결측값 대치 및 제거
  2. 중복되는 값 제거
  3. dataframe에서 행/열 제거

오늘은 여러개 코딩 입력 방식을 배웠지만, 말그대로 입력하고 출력할 수 있는 거라 간단하게 클리어할 수 있었다! 02. 파트1 16부터 18번까지 수강완료!✊

 

https://bit.ly/3imy2uN

 

직장인을 위한 파이썬 데이터분석 올인원 패키지 Online. | 패스트캠퍼스

왕초보도 진짜 데이터 분석을 하는 마법의 커리큘럼으로 파이썬 기초부터 다양한 예제를 활용한 분석까지 모두 배울 수 있는 온라인 과정입니다.

www.fastcampus.co.kr

 

반응형

관련글 더보기

댓글 영역