본문 바로가기
Dot/ML

Validation Dataset

by jum0 2020. 10. 7.

그림 1. Dataset 구성

Validation Dataset 이란?

Validation dataset 이란 validation이라는 목적을 위해서 training dataset에서 따로 나눈 dataset을 일컫는다.

 

그림 2. Dataset을 이용한 학습 과정

Validation Dataset을 사용하는 이유

그럼 Validation dataset 은 왜 사용하는 걸까? 이유는 간단하다. "모델의 성능을 평가하기 위해서"이다. Training을 거쳐 만들어진 모델이 잘 예측하는지 그 성능을 평가하기 위해서 사용된다.

 

Validation Dataset 의 특징

Validation Dataset은 Test Dataset과 차이를 보인다. Validation Set은 여러 모델 중에서 최종 모델을 선정하기 위한 성능 평가에 쓰이는 반면, Test Dataset은 모델의 '최종 성능'을 평가하기 위해 사용된다. 만약 Test Dataset이 모델을 개선하기 위해 쓰인다면, 그것은 Testing Set이 아니라 Validation Set이다.

Traing dataset과 Validation dataset, Test dataset의 특징을 표로 정리하면 다음과 같다.

  Training dataset Validation dataset Test dataset
학습 과정 중 이용할 수 있는지? O O X
모델의 인자가 (가중치) 설정에 이용되는지? O X X
모델의 성능 평가에 이용되는지? X O O
  • Training dataset은 모델의 인자 값 (인공신경망에서 가중치)를 결정하는데 이용되지만, Validation dataset은 이용되지 않는다. Validation dataset은 오직 언제 학습을 멈출지를 판단하기 위해 이용된다.
  • Validation dataset과 test dataset은 모두 모델의 성능 평가를 위해 이용된다. 그러나, Validation dataset은 학습을 중단하기 위한 시점을 결정하기 위해 이용되고, test dataset은 모델의 최종 성능(정확도)을 평가하기 위해 이용된다.

참고 자료

[1] 블로그 1 - 3months.tistory.com/118

[2] 블로그 2 - untitledtblog.tistory.com/158


수정해야 할 부분이 있다면 알려주세요!

감사합니다!

반응형

'Dot > ML' 카테고리의 다른 글

원-핫 인코딩 (One-Hot Encoding)  (0) 2020.10.07

댓글