정확도와 재현율 (Precision and Recall)에 대하여~
정보검색이나 패턴인식에서 정확도(Precision)과 재현율(Recall)이라는 용어를 자주 사용한다.
기계학습에서도 정확도와 재현율에 기반해서 예측의 정확성을 검증하기도 하므로 기본적인 개념을 살펴보도록 한다.
정보검색에서의 정확도와 재현율
만약 정보검색을 위해 100개의 문서를 색인한 "미니" 검색엔진이 있다고 가정해 보자.
여기에 "빅데이터"란 키워드로 검색을 했는데, 검색 결과로 20개의 문서가 나왔다.
20개의 문서 중 16개의 문서가 실제로 "빅데이터"와 관련된 문서였고,
전체 100개의 문서 중 "빅데이터"와 관련된 문서는 총 32개라고 하자.
이 경우, 정확도(precision)와 재현율(recall)은 어떻게 될까?
정확도는 검색 결과로 가져온 문서 중 실제 관련된 문서의 비율로 나타낸다.
그리고 재현율은 관련된 문서 중 검색된 문서의 비율로 나타낸다.
위 예제에 이 식을 적용하면, 정확도와 재현율은 다음과 같다.
정확도 = 16/20 = 0.8
재현율 = 16/32 = 0.5
기계학습에서의 정확도와 재현율
통계에 기반을 둔 기계학습에서도 모델이나 패턴을 통한 예측을 수행할 때, 정확도와 재현율을 활용한다.
실험 결과와 실제 정답 사이의 관계를 아래와 같이 나타낼 수 있다.
True Positive와 True Negative는 실험 결과 정답을 맞춘 것이고,
False Positive는 True로 예측했지만 False 경우이고, False Negative는 False로 예측했지만 True인 경우를 나타낸다.
이 경우의 정확도와 재현율은 다음과 같다.
정확도는 True로 예측한 것 중에서 실제 True인 것의 비율로 보면 되고,
재현율은 실제 True인 것 중에서 True로 예측한 것의 비율로 보면 된다.
위의 정보검색에서 분모가 검색된 문서(정확도)와 관련된 문서(재현율)에 따라 다르듯이,
통계에서도 분모가 예측한 결과 True인 것(정확도)인지 실제 True인 것(재현율)인지에 따라 다른 것이다.
그러나 정확도와 재현율의 두 가지 값으로 예측 결과의 정확성을 나타내면 복잡하므로
이 둘의 비율을 조합한 하나의 새로운 값이 필요하게 되었다.
그것이 바로 F-Measure이다.
다음에는 이 F-Measure에 대해 세부적으로 정리해 보기로 한다.