본문 바로가기

Dot/ML2

Validation Dataset Validation Dataset 이란? Validation dataset 이란 validation이라는 목적을 위해서 training dataset에서 따로 나눈 dataset을 일컫는다. Validation Dataset을 사용하는 이유 그럼 Validation dataset 은 왜 사용하는 걸까? 이유는 간단하다. "모델의 성능을 평가하기 위해서"이다. Training을 거쳐 만들어진 모델이 잘 예측하는지 그 성능을 평가하기 위해서 사용된다. Validation Dataset 의 특징 Validation Dataset은 Test Dataset과 차이를 보인다. Validation Set은 여러 모델 중에서 최종 모델을 선정하기 위한 성능 평가에 쓰이는 반면, Test Dataset은 모델의 '최종 .. 2020. 10. 7.
원-핫 인코딩 (One-Hot Encoding) 오디오와 이미지는 숫자로 이루어져 있다. 반면 텍스트는 문자다. 0과 1만을 인식하는 컴퓨터가 어떤 단어를 이해하도록 하려면 이 텍스트를 숫자로 변환해야 한다. 그러나 이 작업은 쉽지 않다. 그래서 이런 자연어를 컴퓨터가 잘 이해하도록 하고자 생겨난 연구 분야 중 하나가 바로 자연어 처리(natural language processing, NLP)다. 원-핫 인코딩(One-Hot Encoding) 원-핫 인코딩은 텍스트를 유의미한 숫자(벡터)로 바꾸는 가장 손쉬운 방법으로 N개의 단어를 각각 N차원의 벡터로 표현하는 방식이다. 단어가 포함되는 자리엔 1을 넣고 나머지에는 0을 넣는다. 사전이 ['나', '는', '자연어', '처리', '를', '배운다']라면 자연어를 표현하는 벡터는 [0, 0, 1, 0.. 2020. 10. 7.