상세 컨텐츠

본문 제목

[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 40회차 미션

본문

반응형

ad2020.09.18

[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 40회차 미션

39회차에 이어 정확도의 함정을 보완하기 위한 몇가지 지표를 사이킬런에서 제공해주는데 오늘은 그 중에 오차 행렬과 정밀도,재현율, F1 스코어를 배웠다.

 

📎 오차행렬

실습 예제 캡처

2 X 2 메트릭스는 TP, FP, TN, FN으로 나눌 수 는데

TP는 positive로 예측하고 실제값도 positive일때!

FP positve로 예측했지만 실제값이 negative일때!

TN negative로 예측하고 실제값도 negative일때!

FN negative로 예측했지만 실제값이 postive일때!

를 뜻한다.

실습 캡처

예제로 유방암 환자의 데이터로 예측을 진행했는데, 1로 예측했을 때 실제값이 1인 경우가 88%이고, 1로 예측했으나 실제 값이 0인 경우가 1%인 것을 알 수 있었다.

from sklearn.metrics import confusion_matrix 
sns.heatmap(confusion_matrix(y_test, pred), annot=True, cmap='Reds', ) 
plt.xlabel('Predict') 
plt.ylabel('Actual')
plt.show()

 

 

📎 정밀도

양성 예측 정확도라고도 하는 이 정밀도의 포뮬라는

TP/(TP+FP)!

하지만, 하나하나 계산할 필요 없이

precision_score(y_test, pred)

 

정밀도에도 오류가 있는데, 무조건 positive로 예측해서 좋은 정밀도를 얻기때문에 유용하지 않다.

 

📎 재현율

민감도 (sensitivity) 혹은 진짜 양성 샘플의 비율을 계산한다고 해서 True Positive Rate (TPR)이라고도 불리우는 재현율의 포뮬라는

TP/(TP+FN)!!

하나하나 계산할 필요 없이

recall_score(y_test, pred)

 

📎 f1 스코어

강의 캡처

정밀도와 재현율을 같이 보는 지표로,

from sklearn.metrics import f1_score 
f1_score(y_test, pred)

 

실제 모델을 실생활에 적용했을 때 더 좋은 성능이 나올 수 있고 정확도의 오류에 빠지지 않게금 보완해주기 때문에 많이 쓰인다.

 

💡오늘 배운 내용 복습

  1. 정밀도

  2. 재현도

  3. F1 스코어

04. Part 1 26강부터 28강까지 수강완료!✊

https://bit.ly/3imy2uN

 

직장인을 위한 파이썬 데이터분석 올인원 패키지 Online. | 패스트캠퍼스

왕초보도 진짜 데이터 분석을 하는 마법의 커리큘럼으로 파이썬 기초부터 다양한 예제를 활용한 분석까지 모두 배울 수 있는 온라인 과정입니다.

www.fastcampus.co.kr

 

반응형

관련글 더보기

댓글 영역