상세 컨텐츠

본문 제목

[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 18회차 미션

본문

반응형

2020.08.27

[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 18회차 미션

17회차에서 어제 dataframe 사칙연산, 문자열 숫자열의 분리 그리고 원핫인코딩까지 배우는 동안 pandas 개념강의가 끝나가는지도 몰랐는데.. 오늘은 강사님께서 정부사이트에서 실제 '민간아파트 동향'이라는 데이터를 가지고 오셨다. 4500개의 데이터 파일이 담겨있었고, 주신 실습용 파일에는 코딩식 없이 출력된 값만 있었는데, 강사님께서 출력 된 값이 나올 수 있는 식을 스스로 실습을 먼저 해보라고 하셨다.

 

실습 예제를 켜보고 하는데... df.describe, df.info, df.columns와 같은 간단한 건 기억나는데, 그동안 배운 코딩식이 머리속에서 뒤죽박죽😵 섞여있었다. 그날그날 배운 내용을 실습하는 건 그날 배운 개념만 적용해보면 되어서 문제가 없었는데, 실습파일이 주어지고 내가 아는 코딩식에서 골라서 사용해야하니 막막했다..😳!

패스트캠퍼스 데이터분석1
실습 캡처

그래서 먼저 그동안 배운 코딩식들을 정리해보았다...

제목붙여주기
👉df. columns=[' 제목',,] 데이터 타입 확인하기 df.info()

데이터 통계값 확인하기
👉df.describe()

상위/하위 데이터 값 뽑기
👉df.head & df.tail

데이터 정렬
👉df.sort_values(by='벨류 이름', ascending=True오름차순,False내림차순)

데이터 가져오기
👉df.loc[행,열]

인덱스 번호 기준으로 데이터 가져오기
👉df.iloc[행 인덱스번호, 열 인덱스번호]

조건에 맞는 데이터 뽑기
👉df.loc[df['키']>조건,[뽑고 싶은 열,,]

NaN 값만 색출해내기
👉df.loc[df[그룹],isnull(),[]

피벗테이블
👉pd.pivot_table(df,index="행 인덱스",columns='열 인덱스',values='조회하고 싶은 값')

그룹별 나열
👉df.groupby('그룹 명').

통계값 결측값 채워주기
👉df2=df.fillna(-1,inplace=true)

결측값을 제거
👉df.dropna(axis=0 or 1, )

반복되는 값 하나만
👉df[행 이름].drop_duplicates(keep='first'/'last')

데이터 파일 합치기
👉pd.concat([df 이름,df 이름],sort=False)

병합
👉pd.merge(left Df파일, right Df파일, on='병합의 기준이 되는 column', how='left'/right)

데이터 타입 바꾸기
👉df['시리즈 이름'].astype(바꾸고 싶은 데이터 타입) num_cols =df.select_dtypes(exclude='object').columns

더미 데이터
👉pd.get_dummies(df[''])]

실습해보고 모르겠는 건 강사님 해설를 보면서 아~ 이해했는데.. 스스로 하다 또 막히고.. 오류 메세지나올때마다... 노트북 날아갈 뻔했다..

 

📎까먹었던 내용 추가적으로 정리

column의 문자열에 strip을 실행하고자 할 때는 df. str.strip()

df['분양가격']=df['분양가격'].fillna(0)

패스트캠퍼스 데이터분석2
강의 캡처

 

패스트캠퍼스 데이터분석3
강의 캡처

💡오늘 배운 내용 복습

  1. Pandas에서 배운 코딩 정리

  2. 실습 파일 해보고 확인

  3. 먼저 결측값, 콤마, 쉼표 등 깔끔하지(?)않은 데이터 없애고 데이터 분석

  4. 파트1 28강부터 29강번까지 수강완료!✊

https://bit.ly/3imy2uN

 

직장인을 위한 파이썬 데이터분석 올인원 패키지 Online. | 패스트캠퍼스

왕초보도 진짜 데이터 분석을 하는 마법의 커리큘럼으로 파이썬 기초부터 다양한 예제를 활용한 분석까지 모두 배울 수 있는 온라인 과정입니다.

www.fastcampus.co.kr

 

반응형

관련글 더보기

댓글 영역