목적 함수의 3가지 조건:
- J(w) >= 0, 목적 함수의 값이 항상 0보다 크거나 같아야 함. distance 같은 개념.
- w가 최적이면, 즉 모든 샘플을 맞히면 J(w) = 0이다. ( = Y를 w가 틀리는 샘플의 집합이라고 한다면 Y = ø)
- 틀리는 샘플이 많은 w일수록 큰 J(w)를 가진다. 즉, 제대로 예측하지 못할수록 J(w)의 값이 커진다.
목적 함수한테 있으면 좋은 2가지 조건:
- 미분 가능하다. 미분 가능하면 최적화가 쉽고, 목적 함수의 gradient를 이용해서 GD를 쓸 수 있음.
- 아래로 볼록(convex)하다. 아래로 볼록, 즉 convex하면 최솟값 찾는게 가능하다.
퍼셉트론의 목적 함수:
델타 규칙의 메커니즘:
델타 규칙 = 퍼셉트론의 학습 규칙
: 입력값 x_ki와 경향이 같은 출력값 y_k가 내적되면 가중치 w_i가 커지는 방향으로 업데이트 된다. 즉, 중요한 특징일수록 더 큰 가중치를 부여한다. → 가중치 = 입력값이 얼마나 중요한지를 알려주는 지표
다층 퍼셉트론의 특징: 한 층짜리 퍼셉트론을 가로로 여러 개, 세로로 여러 층을 쌓으면 굉장히 분류하기 좋은 특징 공간이 만들어지고, XOR 문제같은 비선형 문제도 쉽게 해결할 수 있다.
- 은닉층을 둔다: 은닉층은 원래 특징 공간을, 분류하는데 훨씬 유리한 특징 공간 즉, 선형 직선으로 분리가 잘 되는 공간으로 변환한다.
- 시그모이드 활성화 함수 사용: 퍼셉트론은 '모 아니면 도'식의 경성(hard) 의사결정을 하는 계단 함수를 활성화 함수로 사용함. 다층 퍼셉트론은 '0~1 사이의 값', 즉 확률, 신뢰도를 줌으로써 연성(soft) 의사결정을 하는 시그모이드를 활성화 함수로 사용함.
- 오류 역전파 알고리즘 사용:
목적 함수의 gradient를 통해 가중치를 갱신하는 알고리즘을 도입함
→ 활성화 함수로 시그모이드를 사용해서 가능한 일. 원래 계단 함수는 미분 불가능하고, 그걸 무시하고 미분해도 gradient는 항상 0.
→ 그러나 시그모이드는 모든 구간에서 미분 가능해 gradient가 항상 존재함. 이를 이용해 오류 역전파가 가능해지고, 따라서 학습도 가능해진다.
'딥러닝 & 머신러닝 > 강연 & 수업' 카테고리의 다른 글
머신러닝 과제 (옵티마이저, 파이토치 기능 조사) (0) | 2020.12.21 |
---|---|
20201112 머신러닝 수업 (0) | 2020.11.12 |
20200924 머신러닝 수업 (0) | 2020.10.17 |
20200922 머신러닝 수업 (0) | 2020.10.17 |
20200917 머신러닝 수업 (0) | 2020.10.17 |