2020.08.23
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 14회차 미션
13회차에서는 컴퓨터활용 능력 시험을 준비하면서 이해도 되지않고, 지긋지긋했던 개념인 피벗테이블을 배웠는데, 강사님 설명도 듣고, 실제 예제를 가지고 실습해보니 그렇게 어렵지도 않은 개념이고, 엑셀을 하면서 생겼던 '피벗테이블 공포증'을 해소할 수 있었다. 오늘은 데이터파일에 없는 데이터, 중복된 데이터를 처리하는 방법을 배웠다.
지지난 시간에 결측값이라고 해서, NoN 'not a number'인 값만 출력하는 방법을 배웠었는데, 오늘은 데이터가 누락된 경우, 사고로 데이터가 누락되었을 경우와 같이 데이터에 결측값이 존재하는 경우, 이를 다른 통계값이나 숫자로 대치하는 방법을 배웠다.
df['행']fillna(바꾸고 싶은 값)을 이용해서 nan 값을 바꾸고싶은 값으로 대치시키거나, nan 값이 -1로 바뀜.
df2=df.fillna(-1,inplace=true) 를 하거나 다시 대입하는 방법이 있다. 평균값, 최빈값, 등등을 넣어줄 수 있다.
⏪복습
Boolean인덱싱을 활용하거나
isnull 와 isna : NaN 값만 색출해내기
notnull : NaN이 아닌 값만 색출해내기.
그 다음에 결측값을 색출해내기 위해서는
결측값을 제거하는 방법으로는, 간단하게 df.dropna()을 하면된다. 결측값이 있는 행 즉,nan값이 있는 행을 다 빼버리고 싶으면, axis=0을 붙여주고, 열을 날려버리고 싶으면, axis=1을 붙여준다.
df.dropna(axis=0 or 1, )
how='any' nan값이 하나라도 있으면 날려라, 그리고 how='all'은 행이 모두 nan이면 날려버린다.
df[행 이름].drop_duplicates(keep='first'/'last') 중복된 값을 제거해주는 것이다. 같은 값이 나왔을때, 처음에 나온 값을 놔두고 그 다음에 오는 값을 제거하는 것이다. 만약, 맨 뒤에 나오는 값을 유지시키고 싶다면, (keep='last') 뒤에 나온 값을 유지시킨다.
행, 열 데이터를 제거하는 것은 저번 numpy시간에 배운 것과 비슷하게 index와 list을 이용해서 코딩해서 넣으면 되서 쉬웠다.
오늘은 여러개 코딩 입력 방식을 배웠지만, 말그대로 입력하고 출력할 수 있는 거라 간단하게 클리어할 수 있었다! 02. 파트1 16부터 18번까지 수강완료!✊
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 16회차 미션 (0) | 2020.08.25 |
---|---|
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 15회차 미션 (0) | 2020.08.24 |
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 13회차 미션 (0) | 2020.08.22 |
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 12회차 미션 (0) | 2020.08.21 |
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 11회차 미션 (0) | 2020.08.20 |
댓글 영역