머신러닝의 종류

먼저, 머신러닝의 종류들에 대해 알아보자.

머신러닝은 크게 학습하는 방법에 따라 Supervised 방식과 Unsupervised방식으로 나뉜다.

학습시키는 컨셉이 2가지라는 말.

Supervised 는 말그대로 지도방식으로 답을 알려줘서 학습시키는 것이고,

Unsupervised 는 비지도 방식으로 답을 알려주지 않고 학습시키는 것이다.

Supervised 컨셉

학습을 시켜 Model을 만들어내는데, 이 Model은 데이터가 들어오면 학습 처리된대로 예측 정답값을 알려준다.

Supervised 컨셉에서 학습을 시키는 방식은 Label을 주는 방법이 있는데,

예로, 이미지에서 고양이를 찾도록 하고 싶을 때, 각 이미지 마다 고양이가 있는 영역(좌표)에 고양이라는 Label(Tag)을 줌으로써 학습 시킬 수 있다.

그리고 Label 처리 된 데이터들을 훈련데이터와 학습데이터로 나눠서 (대부분 7:3) 훈련하고 테스트 한다.

UnSupervised 컨셉

UnSupervised는 Label없이 학습데이터를 주면 알아서 데이터를 보고 분석하며 스스로 학습한다. 대체로, Clustering으로 많이 쓰이는 것 같다.

예로, 무작위로 뉴스에 대한 데이터들을 준다면, 단어와 문장을 분석해 비슷한 뉴스를 찾고 나아가, 뉴스에 대한 그루핑, 카테고리로 분류시킬 수 있다. (정치/스포츠/경제 등…)

Supervised/Unsupervised

Supervised Unsupervised
cat, dog가 달린 label을 줘서 학습 un-labeled data
데이터에 label처리를 해야됨 데이터를 보고 스스로 학습
label을 줄 수 있음 label을 주지 못하는 경우

Supervised Learning

아마도, 우리가 앞으로 머신러닝을 한다면 결과값을 뽑아내야 되는 모델을 만들어야 될 것이기 때문에, 주로 Supervised Learning을 하게 될 것이다.

Supervised Learing으로 할 수 있는 것

  • 이미지 인식 : Label(Tag)처리 된 이미지를 통해 학습
  • Email Spam Filter : Label처리 된 Email을 통해 학습
  • 시험 성적 예측 : 이전 시험, 공부시간 등의 데이터를 통해 학습

Supervised Learning Type

그리고 Supervised Learning에서도 여러가지 타입이 있는데,

  • Regression (회귀)
  • Classification (분류)
  • Multi-Label Classification (다중분류)

좀 더 쉽게 예시를 들기 위해 시험성적에 대하여 예시를 들어보자.

  • 시험 점수 (1~100) 예측 -> Regression
  • Pass / Non-pass -> Classification (binary)
  • 등급결정(A, B, C, D, F) -> Multi-Label Classification

Classification/Regression

즉, Regression란 분류되어지는 것이 아닌 선형의 값을 예측하는 것이고,

Classification은 분류되어지는 정답의 종류가 정해진 값을 예측하는 것이다.