다항회귀를 이용한 과소적합(underfitting)과 과대적합(overfitting)에 대해 정리해보려한다.
과소적합(Underfitting)이란?
과소적합은 모델이 주어진 데이터를 충분히 학습하지 못해 훈련 데이터와 테스트 데이터 모두에서 성능이 낮은 상태를 의미한다.
위의 그래프를 보면 알 수 있듯이 모델이 훈련 세트의 규칙에 잘 찾지 못하는 것을 알 수 있다.
과소적합이 위험한 이유?
모델이 데이터의 복잡한 패턴을 파악하지 못하고 간단한 모델로 표현하려는 경향이 있다. 이러한 경우, 모델은 훈련 데이터에 대한 오차도 크고, 새로운 데이터에 대한 예측 역시 부정확할 수 있다.
과대적합(Overfitting)이란?
과대적합은 모델이 훈련 데이터에 너무 맞춰져서 훈련 데이터에 대해서는 높은 정확도를 보이지만, 새로운 데이터나 테스트 데이터에 대해서는 성능이 나빠지는 현상을 의미한다.
위의 그래프를 보면 모델이 훈련세트에 과적합된 모습을 볼 수 있다.
과대적합이 위험한 이유?
모델이 데이터와 다른 새로운 데이터에 대한 예측을 진행하려할때 새로운 데이터에 대한 예측이 부정확할 가능성이 크다.
편향-분산 트레이드 오프 (Bias-Variance Trade off)
위의 4개의 과녁판에 분산 크기에 따라 좌우, 편향의 크기에 따라 위아래로 구분할 수 있다.
좌측 상단 과녁판 : 좌측 상단의 과녁판을 보면 데이터가 빨간 점(target)에 모여있는데 이것을 최적의(optimal) 솔루션이라고 나타낼 수 있다.
좌측 하단 과녁판 : 좌측 하단에는 데이터가 모여있긴 하지만 target에서 멀어진 것을 확인할 수 있는데 분산의 크기가 작고 편향의 크기가 큰 것을 확인할 수 있다. 우리는 이것을 과대적합이라고 표현할 수 있다.
우측 상단 과녁판 : 우측 상단 과녁판을 보면 데이터들이 target에 가까운 것을 확인할 수 있지만, 데이터들이 퍼져있는 것 또한 확인할 수 있다. 즉, 분산의 크기가 크고 편향의 크기가 작은 것을 확인할 수 있다. 우리는 이것을 과소적합이라고 표현할 수 있다.
우측 하단 과녁판 : 우측 하단 과녁판을 보면 분산의 크기와 편향 모두 큰 것을 확인 할 수 있다. 우리는 이것을 과소적합이라고 표현할 수 있다.
위의 사진은 편향-분산 트레이드 오프 (Bias-Variance Trade off)에 대해 알기 쉽도록 표현해준다.
느낀점
처음에는 왜 테스트 데이터 셋에 과대적합된 모델이 왜 위험한 줄 몰랐지만 과대적합, 과소적합을 배워보면서 둘의 위험성을 잘 알게 되었다. 앞으로 AI 모델을 개발할 때 과대, 과소적합을 고려하면서 개발을 해야겠다고 느꼈다.