본문 바로가기

딥러닝 & 머신러닝/머신러닝 지식

바이어스와 분산 트레이드 오프 (bias and variance trade-off)

바이어스(Bias)와 분산(Variance)은 머신러닝에서 가장 중요한 통계 개념 중 하나입니다. 바이어스와 분산에 대한 정의를 기반으로, 머신러닝 모델이 데이터에 대해 가지게 되는 오류를 바이어스와 분산으로 나누어 설명할 수 있기 때문입니다.

 

바이어스머신러닝 모델이 잘못된 가정을 함으로써 생기는 오차입니다. 즉 바이어스가 크다는 것은 실제 데이터 분포와 모델이 예측한 데이터 분포 사이의 차이가 크다는 것입니다. 따라서 바이어스가 클수록 모델이 과소적합(underfitting)될 가능성이 높습니다.

 

분산이란 훈련용 데이터에 내재된 변동(fluctuation) 때문에 발생하는 오차입니다. 즉 훈련용 데이터 사이사이의 차이가 커서 값이 일정한 패턴을 보이지 않고 제멋대로 튄다면, 즉, '퍼진 정도'를 나타내는 분산이 크다면 해당 데이터에 잘 훈련된 모델이라 할 지라도 새로운 데이터가 들어오면 잘 예측하지 못할 가능성이 큽니다. 따라서 분산이 클수록 모델이 과대적합(overfitting)될 가능성이 높습니다.

 

 

 

바이어스-분산 트레이드 오프란 바이어스와 분산은 둘 다 같이 좋아질 수 없다는 관계입니다. 둘을 보고 어떤 모델을 고를지 결정합니다.

 

- 바이어스가 크고, 분산이 작다 → 단순한 모델일수록 이렇습니다. 데이터 분포와 그에 맞는 모델 사이의 차이는 크지만, 훈련용 데이터가 바뀌더라도 나오는 모델의 모양은 비슷합니다.

- 바이어스가 작고, 분산이 크다 → 복잡한 모델일수록 이렇습니다. 데이터 분포와 그에 맞는 모델 사이의 차이는 작지만, 훈련용 데이터가 바뀌면 그에 따른 모델들의 모양이 다양합니다.