Log Loss (Kaggle 번역)

GRoovAllstar·2020년 5월 23일
0

ref.
https://www.kaggle.com/dansbecker/what-is-log-loss

Introduction

Log Loss is the most important classification metric based on probabilities.
It's hard to interpret raw log-loss values, but log-loss is still a good metric for comparing models. For any given problem, a lower log-loss value means better predictions.

Log Loss is a slight twist on something called the Likelihood Function. In fact, Log Loss is -1 * the log of the likelihood function. So, we will start by understanding the likelihood function.

The likelihood function answers the question "How likely did the model think the actually observed set of outcomes was." If that sounds confusing, an example should help.

Log Loss는 확률을 기반으로 가장 중요한 분류 지표입니다.
raw Log Loss 값을 해석하기는 어렵지만 Log Loss는 여전히 ​​모델을 비교하기에 좋은 지표입니다. 주어진 문제에 대해 Log Loss 값이 낮을수록 더 나은 예측을 의미합니다.

Log Loss는 가능도 (likelihood) 함수라고 불리는 것에 약간의 왜곡이 있습니다. 실제로 Log Loss 는 가능도 (likelihood) 함수의 log * -1 입니다. 따라서 가능도 (likelihood) 함수를 이해하는 것으로 시작하겠습니다.

가능도 (likelihood) 함수는 "모델이 실제로 예측된 결과 셋을 어느 정도 생각 했는가?"라는 질문에 대답합니다. 혼란스럽게 들리면 예제가 도움이 될 것입니다.

Example

A model predicts probabilities of [0.8, 0.4, 0.1] for three houses. The first two houses were sold, and the last one was not sold. So the actual outcomes could be represented numeically as [1, 1, 0]. Let's step through these predictions one at a time to iteratively calculate the likelihood function.

The first house sold, and the model said that was 80% likely. So, the likelihood function after looking at one prediction is 0.8.

The second house sold, and the model said that was 40% likely. There is a rule of probability that the probability of multiple independent events is the product of their individual probabilities. So, we get the combined likelihood from the first two predictions by multiplying their associated probabilities. That is 0.8 * 0.4, which happens to be 0.32.

모델은 3가지 집에 대해 [0.8, 0.4, 0.1]의 확률을 예측합니다. 처음 두 집은 팔렸고 마지막 집은 팔리지 않았습니다. 따라서 실제 결과는 수치 적으로 [1, 1, 0]으로 표시될 수 있습니다. 가능도 (likelihood) 함수를 반복적으로 계산하기 위해 이러한 예측을 한 번에 하나씩 살펴보겠습니다.

첫 번째 집이 팔렸고, 모델은 80% 가능성이라고 예측했습니다. 따라서 가능도 (likelihood) 함수의 예측값은 0.8입니다.

두 번째 집도 팔렸고, 모델은 40% 가능성이 있다고 말했다. 여러 독립적인 사건의 확률은 개별 확률의 곱이라는 규칙이 있습니다. 따라서 우리는 관련된 두 확률을 곱하여 처음 두 예측에서 결합된 가능성을 얻습니다. 0.8 * 0.4 = 0.32입니다.

Now we get to our third prediction. That home did not sell. The model said it was 10% likely to sell. That means it was 90% likely to not sell. So, the observed outcome of not selling was 90% likely according to the model. So, we multiply the previous result of 0.32 by 0.9.

We could step through all of our predictions. Each time we'd find the probability associated with the outcome that actually occurred, and we'd multiply that by the previous result. That's the likelihood.

이제 세 번째 예측에 도달했습니다. 그 집은 팔리지 않았고, 모델은 팔릴 가능성이 10%라고 밝혔습니다. 즉, 팔리지 않을 확률이 90%라는 것을 의미합니다. 따라서 팔리지 않는다는 모델의 예측 결과는 90%가 될 수 있습니다. 그래서 이전 결과 0.32 * 0.9를 합니다.
모든 예측을 단계별로 진행할 수 있습니다. 실제로 발생한 결과와 관련된 확률을 찾을 때마다 이전 결과와 곱할 수 있습니다. 이것이 가능도(likelihood) 값입니다.

From Likelihood to Log Loss

Each prediction is between 0 and 1. If you multiply enough numbers in this range, the result gets so small that computers can't keep track of it. So, as a clever computational trick, we instead keep track of the log of the Likelihood. This is in a range that's easy to keep track of. We multiply this by negative 1 to maintain a common convention that lower loss scores are better.

각 예측은 0과 1 사이입니다. 이 범위에 충분한 수를 곱하면 결과가 너무 작아서 컴퓨터가 이를 추적할 수 없습니다. 따라서 현명한 계산 기법으로 가능도 (likelihood) 값의 로그를 추적합니다. 추적하기 쉬운 범위에 있습니다. Loss 점수가 낮을수록 일반적인 관례를 유지하기 위해 -1을 곱합니다.

profile
Keep on eye on the future :)

0개의 댓글