2020.08.21
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 12회차 미션
어제 df.loc 수업을 듣고, 생소한 개념이라 실습을 하느라 시간이 걸렸는데 오늘 수업을 듣고 보니 df.loc가 안쓰이는 부분이 없었다.
학교에서 전공수업을 들으면서 null hypothesis라는 '영가설'을 질리도록 많이 썼는데.. null을 파이썬에서도 보게되었다...😅 null은 NaN은 Not a number의 줄임말로, 빠진 데이터 값의 경우 NaN로 표기가 된다.
결측값이 있는지 확인해보려면 어제 공부했었던 df.info()를 확인하면 데이터가 어느정도 빠졌는지 쉽게 알수 있었다.
그 다음에 결측값을 색출해내기 위해서는
👉Boolean인덱싱을 활용하거나
👉isnull 와 isna : NaN 값만 색출해내기
👉notnull : NaN이 아닌 값만 색출해내기.
의 코딩을 활용할 수 있었다.
Boolean 인덱싱에 울렁증이 생겼나.. 뭔가 모르게 손이 안가서.. 난 오히려 isnull, isna, notnull이 더 편했다.
df.loc를 응용해서 df.loc[df[그룹],isnull(),[보고싶은 데이터만 입력]로,
데이터가 없는 값만 따로 출력할도 수 있다
row와 column을 추가하는 방법은 확실히 코딩하는 방법이 귀찮고, 손이 많이 가서 이 부분은 엑셀이 더 편한 것 같다.
column 추가는 그냥 새로운 column을 만들고 값을 대입해주면 되지만 raw를 추가하는 방법은 'ignore_index=True'도 따로 써줘야하고, 각 데이터를 입력해야하기때문에 특히 더 손이 많이 갔다..
지난 시간에 배운 df.describe를 하면 산술 연산이 가능한 데이터의 통계값을 보여준다고 배웠었는데, 이번 시간에는 이 통계값이 무엇을 뜻하는 지 하나하나 자세히 배워봤다. 경제학 전공이기도 하고, 엑셀이나 다른 통계 프로그램에서 많이 다룬 개념이라 비교적 긴 12강였지만 간단하게 쉬어가며 들을 수 있었다.
결측값 색출하기
통계값 출력
파트1 09부터 12번까지 수강완료!✊
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 14회차 미션 (0) | 2020.08.23 |
---|---|
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 13회차 미션 (0) | 2020.08.22 |
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 11회차 미션 (0) | 2020.08.20 |
[패스트캠퍼스 수강 후기] 데이터분석 인강 100% 환급 챌린지 10회차 미션 (0) | 2020.08.19 |
[패스트캠퍼스 수강 후기]데이터분석 인강 100% 환급 챌린지 9회차 미션 (0) | 2020.08.18 |
댓글 영역