2022. 2. 8. 21:00ㆍData Analysis/Machine Learning
안녕하세요.
데이터 분석하는 랩장 대학원생, 석사 3학기 고니입니다.
이번 시간에는 지도학습과 비지도학습에 대해 이야기를 나누어보려고 합니다. 머신러닝은 크게 지도학습, 비지도학습으로 나눌 수 있습니다. 무엇을 지도하고 무엇을 지도하지 않길래 지도학습과 비지도학습이라는 이름이 붙여졌을까요? 지도학습과 비지도학습의 차이점은 인공지능에게 정답을 지도 즉, 정답을 학습시켜주었느냐입니다. 정답을 지도하면 지도학습, 지도하지 않으면 비지도학습이겠죠?
# 지도학습(Supervised Learning)
정답을 학습시킨다.
정답을 학습시킨다. 이게 도대체 무슨 말인지 잘 이해가 되지 않으신다고요? 간단한 예시를 통해 살펴보겠습니다. 아마 예시를 함께 살펴보시고나면 한 번에 이해가 되실겁니다. 아래 그림과 같이 두 집단이 존재한다고 생각해봅시다. 하나의 집단은 사람 집단이고, 다른 하나의 집단은 동물 집단입니다. (물론 엄밀히 말하면 사람도 동물이지만 여기서는 사람은 동물이 아니라고 생각합시다!😛)
자, 인공지능에게 정답을 학습시켜봅시다.
인공지능아! 왼쪽은 "사람"이라는 집단이고 오른쪽은 "동물"이라는 집단이야! 알았지?
우리는 인공지능에게 정답을 학습시켜주었습니다. 여기서 말하는 정답이란 사람이냐 혹은 동물이냐입니다. 인공지능은 우리가 사람이라고 알려준 집단의 특징과 동물이라고 알려준 집단의 특징을 학습합니다. 예를 들어 "아! 두 발로 걸으면 사람 집단이고 네 발로 걸으면 동물 집단이구나!"처럼 말입니다. 학습을 조금만 시키면 이처럼 몇 개의 발로 걷느냐와 같이 단순한 특징만을 학습하게 되고, 학습을 많이 시키면 몇 개의 발로 걷느냐와 더불어 머리카락의 유무, 옷을 입었는지, 이목구비의 생김새 등 더 많은 특징을 학습하게 됩니다. 이렇게 학습된 인공지능에게 새로운 데이터를 주면 인공지능은 새로 받은 데이터의 특징을 살피고 그 데이터의 정답이 무엇인지를 예측합니다.
만약 인공지능이 두 발로 걸으면 사람 집단이고 네 발로 걸으면 동물 집단이라는 단순한 특징만을 학습했다고 가정해봅시다. 한 번 새로운 데이터를 줘볼까요? 첫 번째로 아래와 같은 데이터를 줘봅시다. 귀여운 웰시코기 사진입니다. 인공지능은 네 발로 걸어다니는 웰시코기를 보고 "동물" 집단으로 분류해낼 것입니다. 아주 잘했죠?
그럼 이번에는 아래와 같은 데이터를 줘봅시다. 짱구의 동생 짱아입니다. 인공지능은 짱아를 어느 집단에 속한다고 분류할까요? 네 발로 기어다니는 짱아를 보고는 동물 집단에 분류할 것입니다. 이처럼 인공지능이라고 해서 항상 정답을 맞추는 것은 아닙니다. 어떠한 특징을 얼마나 잘 학습하였느냐에 따라 좋은 모델이 될 수도 있고 나쁜 모델이 될 수도 있습니다.
이처럼 정답이 무엇인지를 인공지능에게 학습시켜주는 것을 지도학습이라고 합니다. 이러한 특징을 가진 데이터는 A고, 이러한 특징을 가진 데이터는 B라는 정답을 인공지능에게 알려주어 학습할 수 있도록 하는 것입니다. 마치 사람이 시험 공부를 하는 것과 유사합니다. 정답이 있기 때문에 채점도 할 수 있습니다.
짱아는 사람이야 인공지능 녀석아!!!🤣
# 비지도학습(Unsupervised Learning)
그러면 비지도학습은 무엇일까요? 맞습니다. 인공지능에게 정답을 알려주지 않으면 그것이 바로 비지도학습입니다. 정답을 알려주지 않는다는 것은 어떤 의미일까요? 마찬가지로 간단한 예시와 함께 살펴보겠습니다. 아래와 같이 귀여운 동물 친구들이 있다고 생각해봅시다.
이번에는 인공지능에게 정답을 알려주지 않을 것입니다. 아니 정답을 안알려주면 어떡하냐고요? 자, 우리의 똑똑한 인공지능이 정답 없이 어떻게 하는지 함께 살펴봅시다. 우리의 똑똑한 인공지능은 주어진 데이터들의 특징을 스스로 파악하고 비슷한 특징을 가진 것들끼리 그룹을 형성합니다.
1. 만약 인공지능이 귀의 유무를 기준으로 그룹을 형성한다면
- 펭귄, 병아리
- 사자, 호랑이, 토끼, 원숭이
2. 혹은 수염의 유무를 기준으로 그룹을 형성한다면
- 펭귄, 병아리, 호랑이, 원숭이
- 사자, 토끼
위와 같은 형태로 그룹을 형성할 수 있습니다. 물론 실제로는 호랑이도 수염이 있지만 위의 그림 상에는 수염이 없으므로 수염이 없다고 하겠습니다!
이처럼 데이터의 특징을 살펴서 유사한 특징을 지닌 데이터끼리 집단을 형성하는 분석 방법을 군집분석이라고 합니다. 군집분석은 비지도학습의 대표적인 예시로, 정답이 없습니다. 정답 없이 단지 유사한 특징을 가진 데이터끼리 집단을 형성한 것이므로 틀리고 맞고의 문제도 없습니다. 펭귄과 호랑이가 같은 집단에 묶였다고 하더라도 이것이 틀렸다고 이야기할 수 없습니다. 수염의 유무를 기준으로 그룹을 형성했을 때는 펭귄과 호랑이가 같은 집단에 묶이는게 맞으니까요!
지도학습과 비지도학습이 무엇인지 이해가 되셨나요? 다시 한 번 정리하자면, 지도학습과 비지도학습의 가장 큰 차이점은 정답의 존재여부라고 할 수 있습니다.
Q. 호랑이는 동물이게 사람이게? 맞춰봐!
(정답이 있으므로 지도학습)
Q. 호랑이, 사자, 토끼, 원숭이, 사람이 있어. 비슷한 것끼리 묶어서 두 개의 그룹을 만들어봐!
(정답이 없으므로 비지도학습)
머신러닝에서는 이 정답을 의미하는 변수를 "타겟변수"라고 부릅니다. 다시 말해, 타겟변수가 존재하는 것은 지도학습이고, 타겟변수가 존재하지 않는 것은 비지도학습이라고 생각하시면 되겠습니다. 지도학습과 비지도학습에 해당하는 다양한 모델들은 이제부터 하나씩 다뤄보도록 하겠습니다. 제 글에 대해 추가로 궁금하신 점이나 지적해주실 부분이 있으시다면 언제든지 댓글 부탁드립니다!
'Data Analysis > Machine Learning' 카테고리의 다른 글
의사결정나무(Decision Tree) (0) | 2022.02.24 |
---|---|
Over-Sampling & Under-Sampling & SMOTE (0) | 2022.02.09 |
분류 vs 예측 (2) | 2022.02.09 |
인공지능 vs 머신러닝 vs 딥러닝 (0) | 2022.02.07 |