2022. 2. 9. 11:18ㆍData Analysis/Machine Learning
안녕하세요.
데이터 분석하는 랩장 대학원생, 석사 3학기 고니입니다.
이번 시간에는 분류와 예측에 대해 이야기를 나누어보려고 합니다. 지난 포스팅에서 머신러닝은 타겟변수 즉, 정답이 존재하는지 여부에 따라서 크게 지도학습, 비지도학습으로 나눌 수 있다고 말씀드렸던거 기억나시나요? 분류와 예측은 바로 지도학습과 관련된 개념입니다.
지도학습을 타겟변수의 속성에 따라 두 가지로 나누면 분류와 예측으로 나눌 수 있습니다. 머신러닝 모델마다 어떤 것은 분류에 적합하고, 어떤 것은 예측에 적합하기 때문에 우리는 타겟변수의 속성을 고려하여 어떠한 모델을 사용할지를 선정해야 합니다. 그렇다면 타겟변수의 속성이 무엇을 의미하는지부터 살펴봅시다.
분류와 예측을 구분하기 위해서는 범주형 변수와 연속형 변수라는 개념을 알아야 합니다. 범주형 변수란 동물, 호랑이, 대학생, 대한민국, 컴퓨터와 같은 값을 갖는 변수를 의미합니다. 연속형 변수란 키, 몸무게 등과 같이 연속된 숫자로 표현되는 변수를 의미합니다. 그렇다면 키와 몸무게와 같이 연속된 숫자를 측정하기 위한 체중계, 줄자 등은 어디에 속하는 변수일까요? 맞습니다. 체중계와 줄자는 값이 아니라 값을 측정하기 위한 사물이므로 범주형 변수입니다. 이제 범주형 변수와 연속형 변수의 차이가 이해되셨나요?
자, 범주형 변수와 연속형 변수가 무엇인지를 알았으니 이제 분류와 예측에 대해서 이야기해봅시다. 분류는 말 그대로 어떠한 데이터가 어느 범주에 속하는지 알맞게 분류하는 것이고, 예측은 어떠한 데이터가 어떠한 값을 가지는지에 대해 예측하는 것입니다. 따라서 분류는 범주형 변수를 타겟변수로 가져야하고, 예측은 연속형 변수를 타겟변수로 가져야 합니다. 아직도 잘 이해가 되지 않으신다고요? 이번에도 간단한 예시를 통해 살펴보겠습니다!
# 분류(Classification)
호랑이는 사람과 동물 중에 동물에 속해.
분류는 위와 같은 것을 의미합니다. 어떠한 데이터가 두 개 혹은 그 이상의 집단 중 어느 범주에 속하는지를 분류하는 과정입니다. 지도학습은 정답이 있는 학습이라고 말씀드렸습니다. 분류 문제에서 우리가 맞춰야하는 정답은 주어진 데이터가 어느 범주에 속하는지입니다. 다시 말해 분류 문제에서의 정답은 데이터가 속하는 "범주"가 됩니다. 그렇다면 타겟변수는 어떠한 속성을 지녀야할까요? 타겟변수는 범주를 나타내야 하므로 범주형 변수여야 합니다. 분류를 수행하는 대표적인 머신러닝 모델로는 로지스틱 회귀분석, 분류나무, KNN 등이 있습니다.
그렇다면 분류 모델의 성능은 어떻게 평가할 수 있을까요?
얼마나 올바르게 잘 분류했느냐를 살펴보면 되겠죠? 분류 모델의 대표적인 성능 평가 지표로는 정확도(Accuracy), 재현율(Recall), 정밀도(Precision), F1-Score 등이 있습니다. 아래와 같은 표를 오차 행렬(Confusion Matrix)이라고 합니다. 오차 행렬을 통해 성능 평가 지표를 하나씩 살펴보겠습니다.
1) 정확도(Accuracy) : TP+TN / TP+TN+FP+FN
전체 데이터 중에 정확하게 예측한 데이터의 수
2) 재현율(Recall) : TP / TP+FN
실제 Positive인 것 중에서 모델이 Positive로 예측한 비율
3) 정밀도(Precision) : TP / TP+FP
모델이 Positive로 예측한 것 중에서 실제로 Positive인 것의 비율
4) F1 score : 2*Precision*Recall / (Precision+Recall)
정밀도와 재현율의 조화평균
# 예측(Regression)
남학생의 키는 175cm, 여학생의 키는 165cm야.
예측은 위와 같은 것을 의미합니다. 어떠한 데이터가 어느 범주에 속하는지를 분류하는 것이 아니라, 어떠한 값을 가지는지를 맞추는 것이 바로 예측입니다. 예측 문제에서 우리가 맞춰야 하는 정답은 연속된 값들 중에 어떠한 값을 가지는지입니다. 키를 맞춘다던지, 혹은 주식 가격을 예측한다던지 하는 문제가 바로 예측 문제입니다. 다시 말해 예측 문제에서의 정답은 데이터가 가지는 "값"이 됩니다. 그렇다면 타겟변수는 어떠한 속성을 지녀야할까요? 타겟변수는 연속형 변수여야 합니다. 예측을 수행하는 대표적인 머신러닝 모델로는 회귀분석, 회귀나무등이 있습니다.
그렇다면 예측 모델의 성능은 어떻게 평가할 수 있을까요?
얼마나 실제 값과 근사하게 잘 예측했느냐를 살펴보면 되겠죠? 예측 모델의 대표적인 성능 평가 지표로는 RMSE, MAPE 등이 있습니다. 모두 실제 값과 예측 값 사이의 차이를 통해 계산되는 값들입니다. 따라서 값이 작을수록 좋은 성능을 가진 모델이라고 할 수 있습니다.
1) RMSE(Root Mean Squared Error)
2) MAPE(Mean Absolute Percentage Error)
이번 포스팅에서는 분류와 예측에 대해 알아보았습니다. 제 글에 대해 추가로 궁금하신 점이나 지적해주실 부분이 있으시다면 언제든지 댓글 부탁드립니다!
'Data Analysis > Machine Learning' 카테고리의 다른 글
의사결정나무(Decision Tree) (0) | 2022.02.24 |
---|---|
Over-Sampling & Under-Sampling & SMOTE (0) | 2022.02.09 |
지도학습 vs 비지도학습 (0) | 2022.02.08 |
인공지능 vs 머신러닝 vs 딥러닝 (0) | 2022.02.07 |