리프트차트 (문단 편집)

== 개요 ==
어떤 개인이나 [[모델링|모델]], 검사도구, [[알고리즘]]의 [[확률]] 예측 능력을 시각적으로 평가하는 그래프. 하술될 이익차트(gain chart) 또는 향상도차트 등의 다른 표현들과 혼용된다.

어떤 마케팅 담당자가 있고, 자사의 고객들에게 마케팅 메일을 발송해야 하는 상황에서 고객 호응을 예측하는 로봇을 활용해야 한다고 가정하자. 이제 이 로봇은 각 고객들의 데이터들을 검토하게 되며, 고객의 연령과 성별, 거주지역, 구매패턴, 선호하는 디자인 등을 종합적으로 고려하여, 최종적으로 로봇은 각 고객마다 '마케팅 메일에 호응할 [[확률]]' 을 일일이 계산해 보여준다. 호응 확률이 높은 고객들일수록 실제로 그 메일을 받으면 흥미를 보이고 새 프로모션을 이용하게 되겠지만, 호응 확률이 낮은 고객들은 [[스팸|길길이 뛰면서 찌라시 좀 그만 보내라고 따질 것이다.]] 그렇다면 이 로봇의 성능이 얼마나 좋은지, 다시 말해 로봇이 계산한 확률이 얼마나 믿을 만한지는 어떻게 평가할 수 있을까?

실제로 메일을 발송했다면, 고객 데이터마다 각각 '로봇이 산출한 호응의 확률', 그리고 '실제로 고객이 반응한 호응 또는 거부' 의 두 가지 데이터가 확보될 것이다. 이상적인 로봇이라면, 확률이 높게 산출된 고객들일수록 하나같이 호응하는 반응을 보이고, 확률이 낮은 고객들은 하나같이 거부하는 반응을 보일 것이다. 그렇다면 다음과 같이 접근할 수 있다. 로봇이 산출한 '''확률을 기준으로''' 하여 모든 고객 데이터를 '''내림차순 정렬'''했을 때, 실제로 호응한 고객들은 정렬된 스프레드시트의 위쪽에 깔끔하게 모이고, 실제로 거부한 고객들은 아래쪽으로 깔끔하게 모여야 한다. 물론 현실적으로는 위쪽에도 거부 고객들이 섞일 수 있고 아래쪽에도 호응 고객들이 섞일 수는 있다. 하지만 그런 사례가 많아질수록 그 로봇은 못써먹을 고철이 된다.

논의를 간편하게 하기 위해, 내림차순 정렬된 전체 데이터를 10개의 통(bin) 혹은 분위(percentile)로 균등하게 쪼개서 생각해 보자. 로봇의 성능이 좋다면 최상위 1~2분위, 적어도 3분위 정도까지는 실제로 호응한 고객들을 대부분 담아내고 있어야 한다. 실제로 호응한 고객들이 5분위 이하에 생뚱맞게 담겨 있다거나, 상위 분위에서 실제로 거부한 고객들이 섞여 있다면 그 로봇이 적용한 확률계산의 근거가 뭔가 잘못됐다는 얘기다. 그런 상황이 많아지면 많아질수록 최상위 분위만으로는 실제로 호응한 고객들을 담아낼 수 없게 된다. 극단적으로 보자면, 실제로 호응한 고객들이 모든 분위의 '통' 속에 10분의 1씩 똑같은 빈도로 담겨 있다는 랜덤모델(random model)의 가정보다 더 나은 게 뭐냐는 의심도 할 수 있다.

이상의 논리가 바로 리프트차트의 평가 논리다. 리프트차트는 예측 모델의 데이터가 확률의 형태로 제시될 때 그 모델이 얼마나 좋은 성능을 갖고 있는지를 '''실제로 확보된 데이터에 비추어''' 평가할 수 있다. 고객이 상품을 구매할 확률이나 자사의 서비스를 해지할 확률 등, 여러모로 [[경영학]] 및 실무 현장에서 적용하기 간편하다. 특히 일단 확률을 산출하는 [[모델링]]이 만들어져 있다면 그 모델링의 성능을 평가하는 계산 자체는 굉장히 단순하다. 계산기로도 금방 할 수 있고, 엑셀을 쓸 경우 기초함수만 활용해도 금방 결과가 나온다. 물론 실제 데이터가 확보되기 전까지는 리프트차트를 활용할 수 없고, 더 많은 정보량을 위해 10분위가 아니라 그 이상으로 분위를 쪼개거나, 심지어는 연속형 자료의 형태로 관리하기도 하는데 이때는 그만큼 더 고급스러운 평가기법이 된다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

리프트차트 (문단 편집)

캡챠