MJay

딥러닝 손실함수 MSE(Mean Squared Error), CEE(Cross Entropy Error) 본문

Cloud Computing/Machine Learning

딥러닝 손실함수 MSE(Mean Squared Error), CEE(Cross Entropy Error)

MJSon 2017. 10. 17. 20:46

Machine Learning

딥러닝 손실함수 MSE(Mean Squared Error), CEE(Cross Entropy Error)

2017. 6. 10. 2:04


손실함수는 정답에 대한 오류를 숫자로 나타내는 것으로

오답에 가까울수록 큰 값이 나온다. 반대로 정답에 가까울수록 작은 값이 나온다.


가장 많이 사용하는 손실함수 MSE(Mean Squared Error), CEE(Cross Entropy Error)에 대해

알아보고 구현해보고 실행해보도록 하자.



yi는 신경망의 출력, ti는 정답 레이블(One-Hot 인코딩되어 있다. 즉 정답만 1로 표시 나머진 0)


1) 평균 제곱 오차, MSE(Mean Squared Error)

 



2) 교차 엔트로피 오차, CEE(Cross Entropy Error)



CEE식에서 사용하는 ln(x)와 -ln(x) 그래프를 그려보자. 참고로 ln(x) = log(x)이다.

log(0)은 무한대이니 log(1e-7)를 계산해보면 -16정도 된다. log(1)은 0이다.


 

위 그래프에서 X값이 0.0 ~ 1.0사이일 때를 확대해보면 -log(x)는 아래 그래프와 같다.

즉 X값이 클수록 1.0에 가까울수록 결과값은 0에 가까워지고 오류가 거의 없다는 것을 의미한다.

 


그럼 파이썬 코드로 구현해보자.


아래 CEE(Cross Entropy Error)에서 delta로 아주 작은 값을 사용하는 이유는

y값이 0이 나오면 log의 결과 음수 무한대를 예방하기 위해 아주 작은 값을 더했다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
import numpy as np
 
 
# MSE(Mean Squared Error) : (오차)값이 작을수록  정답에 가깝다.
# yi는 신경망의 출력, ti는 정답 레이블(One-Hot인코딩)
def mean_squared_error(y, t):
    return ((y-t)**2).mean(axis=None)
# with axis=0 the average is performed along the row, for each column, returning an array
# with axis=1 the average is performed along the column, for each row, returning an array
# with axis=None the average is performed element-wise along the array, returning a single value
 
# def mean_squared_error(y, t):     # same code
#     return np.sum((y-t)**2)/y.shape[0]
 
 
# CEE(Cross Entropy Error) : (오차)값이 작을수록  정답에 가깝다.
# yi는 신경망의 출력, ti는 정답 레이블(One-Hot인코딩)
def cross_entropy_error(y, t):
    if 1 == y.ndim: # y의 차원수가 1이면 1차원이면 2차원으로 변환
        y = y.reshape(1, y.size)
        t = t.reshape(1, t.size)
    delta = 1e-7
    return -np.sum(np.log(y+delta) * t)/y.shape[0]
 
 
 
= [0.150.300.45]
= [[100], [010], [001]]
 
= []
for i in range(len(t)):
    S.append(mean_squared_error(np.array(y), np.array(t[i])))
 
print(S)
print("np.min(S)   : " + str(np.min(S)))
print("np.argmin(S): " + str(np.argmin(S)))
print("np.max(S)   : " + str(np.max(S)))
print("np.argmax(S): " + str(np.argmax(S)))
 
# [0.33833333333333332, 0.23833333333333331, 0.13833333333333334]
 
# np.min(S)   : 0.138333333333  --> 오차가 가장 작다.
# np.argmin(S): 2               --> t가 정답지 0,1,2라 가정하면 인덱스 2 정답지일때 오차가 가장 적다.
# np.max(S)   : 0.338333333333  --> 오차가 가장 크다.
# np.argmax(S): 0               --> t가 정답지 0,1,2라 가정하면 인덱스 0 정답지일때 오차가 가장 크다.
 
print("---------------------------------------------")
 
= []
for i in range(len(t)):
    S.append(cross_entropy_error(np.array(y), np.array(t[i])))
 
print(S)
print("np.min(S)   : " + str(np.min(S)))
print("np.argmin(S): " + str(np.argmin(S)))
print("np.max(S)   : " + str(np.max(S)))
print("np.argmax(S): " + str(np.argmax(S)))
 
# [1.8971193182194368, 1.2039724709926583, 0.79850747399557409]
# np.min(S)   : 0.798507473996  --> 오차가 가장 작다.
# np.argmin(S): 2               --> t가 정답지 0,1,2라 가정하면 인덱스 2 정답지일때 오차가 가장 적다.
# np.max(S)   : 1.89711931822   --> 오차가 가장 크다.
# np.argmax(S): 0               --> t가 정답지 0,1,2라 가정하면 인덱스 0 정답지일때 오차가 가장 크다.
 
cs


[결과]

 


끝.

이 블로그  인기글