본문 바로가기

딥러닝 & 머신러닝/[2020-2] 머신러닝 수업

20200922 머신러닝 수업

사후 확률 (posterior): P(y|x), 사건 발생 후의 확률. 사후 확률 추정 → 관측된 특징(x)이 나오기 위한 클래스(y)를 유추하는 것. 사후 확률 추정은 매우 어려워서 베이즈 정리를 이용해 추정.

 

우도 (likelihood): P(x|y), 특정 분포(파라미터) y에서 x가 발생할 확률. 즉, 우도는 기존에 있는 데이터의 각 클래스(y)별로 어떤 특징(x)에 대한 분포를 의미. 즉, 우도(P(x|y))를 이용하면 어떤 샘플(x)이 들어왔을 때 그 입력이 어떤 분포에 가깝냐(P(y|x))에 따라서 한 클래스(y)로 분류 가능

 

사전확률 (prior): P(y), 어떤 샘플 x와 무관하게 미리 알 수 있는 확률. 즉 '전체' 데이터의 각각의 클래스의 분포

ex) 전체 데이터 중 P(y=여) = 0.9, P(y=남) = 0.1

 

최대 우도 추정 (maximum likelihood estimation)

 

 

P(X|θ)가 최대가 되도록 만들어주는 파라미터 θ(=y)를 찾는 것.

= 데이터 X가 주어졌을 때 X를 발생시켰을 가능성을 최대로 하는 파라미터 θ를 찾는 것.

= 관측된 분포의 확률을 최대화시키는 파라미터 θ 찾기

= 우도는 주어진 파라미터 y에서 X가 나올 확률을 구하는 것이고, 최대 우도 추정은 그 확률을 최대화시키는 파라미터 y를 찾는 것.

 

만약 딥러닝 모델이라면 P(X|y)에서 y는 learning rate, 레이어 갯수같은 어떠한 파라미터도 될 수 있음. X는 실제값과 일치하는 예측값들의 분포.

 

최대 우도 대신 최대 로그 우도를 사용하는 이유: 확률을 곱할수록 0에 가까워지는 수치 문제를 해결하기 위해서.

 

공분산 행렬로 알 수 있는 데이터의 정보: 각각의 특징들에 대한 상관관계를 알 수 있고, 하나의 특징 자기 자신에 대한 분산(얼마나 값이 퍼져있는지, 얼마나 값이 다양하게 나오는지)을 알 수 있다.

 

'정보가 많다'를 확률적으로 표현하면?: 정보가 많을수록 확률이 낮은 것.

 

엔트로피가 가장 높은 확률 분포: uniform 분포. 정보가 없는거나 마찬가지이므로 불확실성이 크다 → 엔트로피도 크다

 

KL 다이버전스의 의미: 두 분포 간의 유사도. H(P,Q) = H(P) + KL(P||Q) → P와 Q의 크로스 엔트로피 = P의 엔트로피 + P와 Q의 KL 다이버전스

'딥러닝 & 머신러닝 > [2020-2] 머신러닝 수업' 카테고리의 다른 글

20200929 머신러닝 수업  (0) 2020.10.17
20200924 머신러닝 수업  (0) 2020.10.17
20200917 머신러닝 수업  (0) 2020.10.17
20200915 머신러닝 수업  (0) 2020.10.17
20200910 머신러닝 수업  (0) 2020.10.17