ad2020.09.18
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 40회차 미션
39회차에 이어 정확도의 함정을 보완하기 위한 몇가지 지표를 사이킬런에서 제공해주는데 오늘은 그 중에 오차 행렬과 정밀도,재현율, F1 스코어를 배웠다.
2 X 2 메트릭스는 TP, FP, TN, FN으로 나눌 수 는데
TP는 positive로 예측하고 실제값도 positive일때!
FP positve로 예측했지만 실제값이 negative일때!
TN negative로 예측하고 실제값도 negative일때!
FN negative로 예측했지만 실제값이 postive일때!
를 뜻한다.
예제로 유방암 환자의 데이터로 예측을 진행했는데, 1로 예측했을 때 실제값이 1인 경우가 88%이고, 1로 예측했으나 실제 값이 0인 경우가 1%인 것을 알 수 있었다.
from sklearn.metrics import confusion_matrix
sns.heatmap(confusion_matrix(y_test, pred), annot=True, cmap='Reds', )
plt.xlabel('Predict')
plt.ylabel('Actual')
plt.show()
양성 예측 정확도라고도 하는 이 정밀도의 포뮬라는
TP/(TP+FP)!
하지만, 하나하나 계산할 필요 없이
precision_score(y_test, pred)
정밀도에도 오류가 있는데, 무조건 positive로 예측해서 좋은 정밀도를 얻기때문에 유용하지 않다.
민감도 (sensitivity) 혹은 진짜 양성 샘플의 비율을 계산한다고 해서 True Positive Rate (TPR)이라고도 불리우는 재현율의 포뮬라는
TP/(TP+FN)!!
하나하나 계산할 필요 없이
recall_score(y_test, pred)
정밀도와 재현율을 같이 보는 지표로,
from sklearn.metrics import f1_score
f1_score(y_test, pred)
실제 모델을 실생활에 적용했을 때 더 좋은 성능이 나올 수 있고 정확도의 오류에 빠지지 않게금 보완해주기 때문에 많이 쓰인다.
정밀도
재현도
F1 스코어
04. Part 1 26강부터 28강까지 수강완료!✊
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 42회차 미션 (0) | 2020.09.20 |
---|---|
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 41회차 미션 (0) | 2020.09.19 |
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 39회차 미션 (0) | 2020.09.17 |
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 38회차 미션 (0) | 2020.09.16 |
[패스트캠퍼스 수강 후기] 데이터분석 강의 100% 환급 챌린지 37회차 미션 (0) | 2020.09.15 |
댓글 영역