본문 바로가기

딥러닝 & 머신러닝/강연 & 수업

20200908 머신러닝 수업

반응형

목적함수 (비용함수): 실제값과 모델의 예측값 사이의 차이를 계산해주는 함수. 모델의 오류율, 즉 성능을 보여줌. 모델이 줄여야 할 '목표'

 

: 목적함수 J가 최소화되었을 때의 θ

 

과소적합: 훈련 집합 데이터에 대해 모델이 충분히 학습되지 않은 상태

 

과대적합: 훈련 집합 데이터에 대해 모델이 과도하게 학습되어 새로운 데이터가 들어왔을 때 목표값을 잘 예측하지 못하는 상태. 너무 노이즈까지 학습을 해버린 상태

 

바이어스-분산 트레이드 오프: 바이어스와 분산은 둘 다 같이 좋아질 수 없다는 관계. 두 개를 보고 어떤 모델을 고를지 결정함.

ex) 바이어스가 크고, 분산이 작다 → 단순한 모델일수록 이렇다. 데이터 분포와 그에 맞는 모델 사이의 차이는 크지만, 훈련 집합이 바뀌더라도 나오는 모델의 모양은 비슷하다.

바이어스가 작고, 분산이 크다 → 복잡한 모델일수록 이렇다. 데이터 분포와 그에 맞는 모델 사이의 차이는 작지만, 훈련 집합이 바뀌면 그에 따른 모델들의 모양이 다양하다.

 

편향(Bias)과 분산(Variance)은 기계학습에서 가장 중요한 통계 개념 중 하나다. 편향과 분산에 대한 정의를 기반으로, 기계학습 분야에서는 알고리즘으로부터 도출된 데이터에 대한 가정(Assumption)과 데이터가 가지는 관계를  편향과 분산으로 설명합니다. 모델이 데이터에 대해 가지게 되는 오류를 편향과 분산으로 나누어 설명할 수 있기 때문이다.

 

검증 집합: 여러 가지 하이퍼 파라미터로 학습된 수많은 종류의 모델이 있을때, 그 중 최적의 모델을 선택하기 위해 사용하는 데이터 집합. 즉 최적의 하이퍼 파라미터를 찾기 위한 데이터 집합.

 

교차 검증: 훈련 집합을 k개의 그룹으로 등분하고, k-1개의 그룹으로 모델을 학습시킨 후, 학습된 모델의 성능을 i번째 그룹으로 측정하는 방법. k개 성능을 평균해서 해당 모델의 성능으로 취한다.

 

부트스트랩: 훈련 집합에서 데이터를 랜덤 샘플링하여 (무작위로 몇 개를 뽑아) 검증 집합으로 사용하는 것.

반응형