바이어스(Bias)와 분산(Variance)은 머신러닝에서 가장 중요한 통계 개념 중 하나입니다. 바이어스와 분산에 대한 정의를 기반으로, 머신러닝 모델이 데이터에 대해 가지게 되는 오류를 바이어스와 분산으로 나누어 설명할 수 있기 때문입니다.
바이어스란 머신러닝 모델이 잘못된 가정을 함으로써 생기는 오차입니다. 즉 바이어스가 크다는 것은 실제 데이터 분포와 모델이 예측한 데이터 분포 사이의 차이가 크다는 것입니다. 따라서 바이어스가 클수록 모델이 과소적합(underfitting)될 가능성이 높습니다.
분산이란 훈련용 데이터에 내재된 변동(fluctuation) 때문에 발생하는 오차입니다. 즉 훈련용 데이터 사이사이의 차이가 커서 값이 일정한 패턴을 보이지 않고 제멋대로 튄다면, 즉, '퍼진 정도'를 나타내는 분산이 크다면 해당 데이터에 잘 훈련된 모델이라 할 지라도 새로운 데이터가 들어오면 잘 예측하지 못할 가능성이 큽니다. 따라서 분산이 클수록 모델이 과대적합(overfitting)될 가능성이 높습니다.
바이어스-분산 트레이드 오프란 바이어스와 분산은 둘 다 같이 좋아질 수 없다는 관계입니다. 둘을 보고 어떤 모델을 고를지 결정합니다.
- 바이어스가 크고, 분산이 작다 → 단순한 모델일수록 이렇습니다. 데이터 분포와 그에 맞는 모델 사이의 차이는 크지만, 훈련용 데이터가 바뀌더라도 나오는 모델의 모양은 비슷합니다.
- 바이어스가 작고, 분산이 크다 → 복잡한 모델일수록 이렇습니다. 데이터 분포와 그에 맞는 모델 사이의 차이는 작지만, 훈련용 데이터가 바뀌면 그에 따른 모델들의 모양이 다양합니다.
'딥러닝 & 머신러닝 > 머신러닝 지식' 카테고리의 다른 글
나이브 베이즈 분류기 (Naive Bayes Classifier) (0) | 2021.01.15 |
---|---|
예측 모델 : 회귀(Regression) (0) | 2020.12.08 |
선형 함수 (linear function) (0) | 2020.11.12 |
L1, L2 Norm & L1, L2 loss & L1, L2 규제 (2) | 2020.08.08 |
교차 검증 (Cross Validation) & 훈련/검증/테스트 데이터 (0) | 2020.08.05 |