IT

[Machine Learning] 머신러닝 개요 본문

개발

[Machine Learning] 머신러닝 개요

abcee 2019. 2. 16. 22:08

Machine Learning 빅피처

Machine Learning은 방대한 데이터를 Machine이 학습하고 학습 결과를 만드는 큰 흐름을 가진다.

예를 들어 꽃에 대한 어떤 데이터가 있을 때 Machine은 해당 데이터들을 학습하여 최적화를 한다. 그 뒤 새로운 꽃에 대한 데이터가 Machine에 입력되면 어떤 종류의 꽃인지 알려준다.


 

Machine Learning Detail

데이터

Machine Learning에서 사용되는 데이터 하나는 여러 feature를 수치화해서 가지고 있다. 예를 들어 꽃 하나를 꽃잎의 길이, 꽃잎의 폭, 꽃의 종류 세가지 feature로 표현할 수 있다.

파란색 붓꽃을 1, 빨간색 붓꽃을 2라고 할 때

index

꽃잎의 길이(cm)

꽃잎의 폭(cm)

꽃의 종류

1번꽃

0.2

0.5

1

2번꽃

0.3

0.4

2

3번꽃

0.2

0.55

1

 


 

학습

Machine Learning에서 학습은 다음 단계를 거친다.

l  1번 데이터에 대해 Perceptron을 통한 예측값 도출

l  1번 데이터의 실제 목표값과 예측값 사이의 오류 계산

l  Perceptron에 반영

l  2번 데이터에 대해 Perceptron을 통한 예측값 도출

l  2번 데이터의 실제 목표값과 예측값 사이의 오류 계산

l  Perceptron에 반영

l  .... (반복)

여기서 Perceptron은 신경 세포로 우리 데이터를 입력했을 때 연산을 해서 특정 결과를 만들어낸다.

예를 들어 1번 꽃에 대한 데이터를 Perceptron에 집어넣으면 0.7이라는 예측값이 나온다. 이때 실제 1번꽃은 파란색 붓꽃인 1의 값이 목표값이므로 0.3이라는 오차가 생긴다. 0.3 이라는 오차를 Perceptron에 반영한다. 2번 꽃 이후의 데이터들도 모두 이와 같은 방식으로 진행하여 Perceptron을 학습시킨다.



 

Overfit

이때 오차를 Perceptron에 반영할 때 0~100%의 값을 반영하는데 해당 데이터에 대해 0에 가까울 수록 학습율이 낮아지고 100에 가까울 수록 학습율이 높아진다. 학습율이 높으면 지금 학습한 데이터를 많이 반영하겠다는 것으로 너무 학습율이 높을 시 우리가 가지고 있는 데이터에만 최적화되는 overfit이 발생할 수 있다. overfit이 발생하면 새로운 데이터에 대한 예측이 어려워진다.

예를 들어 아래 사진과 같이 주황색 선분을 기준으로 선분 위에는 파란 꽃, 아래에는 빨간 꽃으로 구별되며, 오른쪽 빨간 점은 빨간 꽃이라 하자.

왼쪽 사진은 학습율을 적당히 낮추어 Machine Learning 한 결과 빨간 꽃으로 제대로 구별된다.

하지만 오른쪽 사진은 학습율을 100%로 하여 overfit이 발생한 경우로 왼쪽 사진과 달리 마지막 빨간색 점으로 표현된 꽃이 파란 꽃으로 구별됨을 알 수 있다.


 

검증

우리가 학습시킨 Machine Learning이 잘 동작하는지 확인하기 위해 가지고 있는 데이터의 70%만 학습용으로 사용하고 나머지 30%는 검증용으로 사용한다. 검증용 데이터로 Machine Learning에게 결과를 물어보고 적중률이 얼마나 되는지 확인한다. 적중율이 높을 수록 최적화가 잘된 Machine Learning이다.

 


Comments