상세 컨텐츠

본문 제목

[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 48회차 미션

본문

반응형

2020.09.26

[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 48회차 미션

코딩- 파이썬- 머신러닝의 개념을 배우고 이를 토대로 연습예제를 해보고 마케팅, 유튜브, 헬스케어, 비즈니스 금융의 실전예제를 가지고 직접 데이터를 시각화해봤다. 이 다섯가지 중에 '국내 유튜브 인기채널 순위'가 가장 흥미로워보이고 배워보고 싶었던 것이라 유튜브 실전예제부터 강의를 들었다ㅎㅎ

 

실전예제부터 강사분이 바꼈는데, 유튜브 동영상으로 봤던 '조코딩'분이 강의를 진행하셔서 신기하고 반가웠다. 이번 실전예제에서 우리가 국내 유튜브 데이터파일을 가지고 알아보고 싶은 것은 국내 인기채널 순위를 순서대로 시각화, 인기영상들의 제목을 분석하고, 많은 조회수를 부르는 키워드는 어떤건지? 활용하는 것이었다.

 

데이터를 불러오기 앞서, Colaboratory 사용의 편의를 위해 한글 폰트를 설치하고 경고창 무시하도록 설정을 했다. 예전에 개념을 배울 때는 코딩식을 강사님께서 주셨기때문에 Ctrl + Shift 해서 한글폰트를 설정할 수 있었지만, 이번엔 실습예제이기 때문에 코딩식을 직접 찾아야했다. 구글에 '파이썬 한글폰트'를 입력하면 친절하게 코딩식을 올려주신 분이 계셔서 쉽게 설정할 수 있었다.

패스트캠퍼스 데이터분석1
강의 캡처

한글 폰트가 안나올때는 런타임에서 세팅해주면 된다!

 

그리고 경고창을 무시하도록 설정해주려면

import warnings
warnings.filterwarnings("ignore")

으로!

 

그다음, 데이터는 예전에 타이타닉 데이터를 가지고 왔었던 kaggle이라는 사이트에서 불러와서 시각화를 하기위해 데이터 파일에서 필요한 데이터만 추출하고, 빠진 데이터, 중복된 데이터들을 다 정리해줘야하는 전처리?를 했다.

 

👉 결측값 정리

KRvideo.isnull().sum()

결측값을 보니, 이 데이터에는 결측값이 없어서 결측값을 따로 정리해줄 필요 없이 데이터만 추출할 수 있었다.

 

👉필요한 데이터 추출하기

df = KRvideo[['title','channel_title','views']]

우리가 보고 싶은 건, 채널 별로 조회수를 합해서 조회수 높은 비디오가 무엇인 지 볼것이기 때문에 필요한 컬럼 ' title', 'channel_title', 'views' 만 따로 추려냈다.

 

👉조회수를 내림차순으로 정렬

df_sorted = df.sort_values(by='views', ascending=False)
df_sorted

ascending=False을 해줘 조회수가 높은 것부터 → 낮은 순으로 정렬했다.

패스트캠퍼스 데이터분석2
강의 캡처

 

👉중복된 열 제거

df_drop_sorted = df_sorted.drop_duplicates(['title','channel_title'],keep="first")

데이터가 일별로 조회수가 측정되었기 때문에 중복된 열이 있어 이걸 다 제거해줬다.

이렇게 데이터 정리 끝-

패스트캠퍼스 데이터분석3
강의 캡처

💡오늘 배운 내용 복습

  1. 데이터 시각화를 위한 환경 설정
  2. 데이터 클렌징
  3. 필요한 데이터만 추출

07. Part4 01강부터 03강까지 수강완료!✊

https://bit.ly/3imy2uN

 

직장인을 위한 파이썬 데이터분석 올인원 패키지 Online. | 패스트캠퍼스

왕초보도 진짜 데이터 분석을 하는 마법의 커리큘럼으로 파이썬 기초부터 다양한 예제를 활용한 분석까지 모두 배울 수 있는 온라인 과정입니다.

www.fastcampus.co.kr

 

반응형

관련글 더보기

댓글 영역