상세 컨텐츠

본문 제목

[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 12회차 미션

본문

반응형

2020.08.21

[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 12회차 미션

 

어제 df.loc 수업을 듣고, 생소한 개념이라 실습을 하느라 시간이 걸렸는데 오늘 수업을 듣고 보니 df.loc가 안쓰이는 부분이 없었다.

 

📍 결측값 색인

학교에서 전공수업을 들으면서 null hypothesis라는 '영가설'을 질리도록 많이 썼는데.. null을 파이썬에서도 보게되었다...😅 null은 NaN은 Not a number의 줄임말로, 빠진 데이터 값의 경우 NaN로 표기가 된다.

결측값이 있는지 확인해보려면 어제 공부했었던 df.info()를 확인하면 데이터가 어느정도 빠졌는지 쉽게 알수 있었다.

패스트 캠퍼스 데이터분석 1
강의 캡처

그 다음에 결측값을 색출해내기 위해서는

👉Boolean인덱싱을 활용하거나

👉isnull 와 isna : NaN 값만 색출해내기

👉notnull : NaN이 아닌 값만 색출해내기.

의 코딩을 활용할 수 있었다.

Boolean 인덱싱에 울렁증이 생겼나.. 뭔가 모르게 손이 안가서.. 난 오히려 isnull, isna, notnull이 더 편했다.

 

df.loc를 응용해서 df.loc[df[그룹],isnull(),[보고싶은 데이터만 입력]로,

데이터가 없는 값만 따로 출력할도 수 있다

 

📝row column 추가하는 방법

row와 column을 추가하는 방법은 확실히 코딩하는 방법이 귀찮고, 손이 많이 가서 이 부분은 엑셀이 더 편한 것 같다.

패스트 캠퍼스 데이터분석 2
실습캡처

column 추가는 그냥 새로운 column을 만들고 값을 대입해주면 되지만 raw를 추가하는 방법은 'ignore_index=True'도 따로 써줘야하고, 각 데이터를 입력해야하기때문에 특히 더 손이 많이 갔다..

 

🔢 통계값

패스트 캠퍼스 데이터분석 3
실습캡처

지난 시간에 배운 df.describe를 하면 산술 연산이 가능한 데이터의 통계값을 보여준다고 배웠었는데, 이번 시간에는 이 통계값이 무엇을 뜻하는 지 하나하나 자세히 배워봤다. 경제학 전공이기도 하고, 엑셀이나 다른 통계 프로그램에서 많이 다룬 개념이라 비교적 긴 12강였지만 간단하게 쉬어가며 들을 수 있었다.

 

💡오늘 배운 내용 복습

  1. 결측값 색출하기

  2. 통계값 출력

  3. 파트1 09부터 12번까지 수강완료!✊

https://bit.ly/3imy2uN

 

직장인을 위한 파이썬 데이터분석 올인원 패키지 Online. | 패스트캠퍼스

왕초보도 진짜 데이터 분석을 하는 마법의 커리큘럼으로 파이썬 기초부터 다양한 예제를 활용한 분석까지 모두 배울 수 있는 온라인 과정입니다.

www.fastcampus.co.kr

 

반응형

관련글 더보기

댓글 영역