머신러닝의 종류
먼저, 머신러닝의 종류들에 대해 알아보자.
머신러닝은 크게 학습하는 방법에 따라 Supervised 방식과 Unsupervised방식으로 나뉜다.
학습시키는 컨셉이 2가지라는 말.
Supervised 는 말그대로 지도방식으로 답을 알려줘서 학습시키는 것이고,
Unsupervised 는 비지도 방식으로 답을 알려주지 않고 학습시키는 것이다.
Supervised 컨셉
학습을 시켜 Model을 만들어내는데, 이 Model은 데이터가 들어오면 학습 처리된대로 예측 정답값을 알려준다.
Supervised 컨셉에서 학습을 시키는 방식은 Label을 주는 방법이 있는데,
예로, 이미지에서 고양이를 찾도록 하고 싶을 때, 각 이미지 마다 고양이가 있는 영역(좌표)에 고양이라는 Label(Tag)을 줌으로써 학습 시킬 수 있다.
그리고 Label 처리 된 데이터들을 훈련데이터와 학습데이터로 나눠서 (대부분 7:3) 훈련하고 테스트 한다.
UnSupervised 컨셉
UnSupervised는 Label없이 학습데이터를 주면 알아서 데이터를 보고 분석하며 스스로 학습한다. 대체로, Clustering으로 많이 쓰이는 것 같다.
예로, 무작위로 뉴스에 대한 데이터들을 준다면, 단어와 문장을 분석해 비슷한 뉴스를 찾고 나아가, 뉴스에 대한 그루핑, 카테고리로 분류시킬 수 있다. (정치/스포츠/경제 등…)
Supervised | Unsupervised |
---|---|
cat, dog가 달린 label을 줘서 학습 | un-labeled data |
데이터에 label처리를 해야됨 | 데이터를 보고 스스로 학습 |
label을 줄 수 있음 | label을 주지 못하는 경우 |
Supervised Learning
아마도, 우리가 앞으로 머신러닝을 한다면 결과값을 뽑아내야 되는 모델을 만들어야 될 것이기 때문에, 주로 Supervised Learning을 하게 될 것이다.
Supervised Learing으로 할 수 있는 것
- 이미지 인식 : Label(Tag)처리 된 이미지를 통해 학습
- Email Spam Filter : Label처리 된 Email을 통해 학습
- 시험 성적 예측 : 이전 시험, 공부시간 등의 데이터를 통해 학습
Supervised Learning Type
그리고 Supervised Learning에서도 여러가지 타입이 있는데,
- Regression (회귀)
- Classification (분류)
- Multi-Label Classification (다중분류)
좀 더 쉽게 예시를 들기 위해 시험성적에 대하여 예시를 들어보자.
- 시험 점수 (1~100) 예측 -> Regression
- Pass / Non-pass -> Classification (binary)
- 등급결정(A, B, C, D, F) -> Multi-Label Classification
즉, Regression란 분류되어지는 것이 아닌 선형의 값을 예측하는 것이고,
Classification은 분류되어지는 정답의 종류가 정해진 값을 예측하는 것이다.