본문 바로가기

딥러닝 & 머신러닝/강연 & 수업

20200929 머신러닝 수업

반응형

목적 함수의 3가지 조건:

- J(w) >= 0, 목적 함수의 값이 항상 0보다 크거나 같아야 함. distance 같은 개념.

- w가 최적이면, 즉 모든 샘플을 맞히면 J(w) = 0이다. ( = Y를 w가 틀리는 샘플의 집합이라고 한다면 Y = ø)

- 틀리는 샘플이 많은 w일수록 큰 J(w)를 가진다. 즉, 제대로 예측하지 못할수록 J(w)의 값이 커진다.

 

목적 함수한테 있으면 좋은 2가지 조건:

- 미분 가능하다. 미분 가능하면 최적화가 쉽고, 목적 함수의 gradient를 이용해서 GD를 쓸 수 있음.

- 아래로 볼록(convex)하다. 아래로 볼록, 즉 convex하면 최솟값 찾는게 가능하다.

 

퍼셉트론의 목적 함수:

 

델타 규칙의 메커니즘:

델타 규칙 = 퍼셉트론의 학습 규칙

 

 

: 입력값 x_ki와 경향이 같은 출력값 y_k가 내적되면 가중치 w_i가 커지는 방향으로 업데이트 된다. 즉, 중요한 특징일수록 더 큰 가중치를 부여한다. → 가중치 = 입력값이 얼마나 중요한지를 알려주는 지표

 

다층 퍼셉트론의 특징: 한 층짜리 퍼셉트론을 가로로 여러 개, 세로로 여러 층을 쌓으면 굉장히 분류하기 좋은 특징 공간이 만들어지고, XOR 문제같은 비선형 문제도 쉽게 해결할 수 있다.

 

- 은닉층을 둔다: 은닉층은 원래 특징 공간을, 분류하는데 훨씬 유리한 특징 공간 즉, 선형 직선으로 분리가 잘 되는 공간으로 변환한다.

 

- 시그모이드 활성화 함수 사용: 퍼셉트론은 '모 아니면 도'식의 경성(hard) 의사결정을 하는 계단 함수를 활성화 함수로 사용함. 다층 퍼셉트론은 '0~1 사이의 값', 즉 확률, 신뢰도를 줌으로써 연성(soft) 의사결정을 하는 시그모이드를 활성화 함수로 사용함.

 

- 오류 역전파 알고리즘 사용:

목적 함수의 gradient를 통해 가중치를 갱신하는 알고리즘을 도입함

→ 활성화 함수로 시그모이드를 사용해서 가능한 일. 원래 계단 함수는 미분 불가능하고, 그걸 무시하고 미분해도 gradient는 항상 0.

→ 그러나 시그모이드는 모든 구간에서 미분 가능해 gradient가 항상 존재함. 이를 이용해 오류 역전파가 가능해지고, 따라서 학습도 가능해진다.

반응형