[인공지능] 기계 학습

Sunday. April 21, 2019 - 6 mins

AI notes

기계 학습

경험(data)을 통해 시스템의 구조나 파라미터를 바꾸는것 파라미터(가중치)가 많을수록 DATA가 많이 필요하다
일반화 능력이 좋은것이 이상적인 프로그램이다.

귀납적 학습 : 사례(data)들을 일반화 하여 패턴 or 모델추출 <-> Overfitting (데이터를 외워버림)

오컴의 면도날 : 1. h(x,y) = x+y 2.h(x,y) = (2x+3y)(2x+2y)y/(4xy+6y^2)
1과 2식이 같은 결과값을 나오게 할때 가장 간단한 형태로 표현

1. 지도학습

입력과 출력이 있는 데이터로 부터 패턴추출

분류

출력이, 정해진 class 중의 하나로 결정 결정 경계를 찾아내는 함수를 찾는 문제이다.
분류기 : 결정경계를 이용하여 데이터 분류하는 프로그램 !기본적으로 분류 문제에선 각 class 마다 데이터 갯수가 같아야 한다.

데이터

학습 데이터 : 학습에 사용되는 데이터
테스트 데이터 : 학습된 모델을 평가하기위한 unseen data
검증 데이터 : 학습과정중 학습을 중단할 시점을 결정하기위한 데이터 (오버피팅 방지) 학습과정중에서 검증데이터를 통해서 test를 실행하고 (학습에 관여하지는 않는다)
tensorboard를 이용해 검증데이터 오류가 증가하는 시점에 학습 중단 시점을 파악한다.

Overfitting

학습데이터에 대해서 지나치게 학습됨 (데이터를 외워버림)
데이터는 오류나 잡음을 포함하기 쉽기에 오버피팅시 일반화가 되지 않는다, unseen한 데이터에 대해 성능이 좋지않다

K-fold cross-validation

데이터가 부족한 경우에 성능평가 방식이다.
테스트 데이터도 학습을 시킨다.

전체 데이터를 k 등분
각 등분을 한번씩 테스트 데이터로 사용하여 성능평가하고 평균값 선택

위의 사진과 같이 1개의 data set으로 부터 4가지의 다른 영역의 학습데이터/테스트데이터 를 준비하고 각각 개별로 다른 데이터셋 (다르게 학습/테스트 셋을 구분한) 을 가지고 학습 및 평가 한후 metric의 평균값을 통해 어느정도 성능을 낼것이다 판단.
그후 최종 모델 을 만들때 전체 dataset을 가지고 학습을 시킨다 (data가 적기 때문에)

불균형 데이터 문제

정확도에 의한 성능 평가는 무의미 할수 있다
왜냐? A,B class 문제 에서A class 데이터가 99프로 인경우 분류기가 항상 A class로 분류하더라도 전체 성능은 99%이다
해결

많은쪽에서 재표본 추출(re-sampling,under smapling) 못하거나
적은쪽에서 인공적인 데이터를 생성한다.
또는 class별 가중치를 두어 정확도 계산한다

인공적으로 데이터를 만들어 내는 방법
SMOTE(Synthetic Minority Over-sampling Technique) 알고리즘

임의로 낮은 빈도 부류의 학습데이터 선택
x의 k-근접이웃 인 같은 부류의 데이터 선택
k-근접이웃중 무작위로 하나 y 선택
x와 y를 연결하는 직선상의 무작위 위치에 새로운 데이터 생성 k의미 : 근접이웃 직선 만드는 갯수

이진분류 metric

정확도 : (TP+TN) /(TP+FP+TN+FN) (전체중에 제대로 예측한 비율)
민감도 : (TP) / (TP+FN) (전체 P중 제대로 P로 맞춘 비율) (sensivity, true positive rate)
특이도 : (TN) / (TN + FP) (전체 N중 제대로 N을 맞춘 비율) (specificity, true negative rate)
정밀도 : TP / (TP+FP) (P로 예측한것중에 진짜로 P인 비율) (precison)
음성 예측도 : TN / (TN+FN) (N으로 예측한것중 진짜로 N인 비율)
위양성율 : FP / (TN + FP) = 1-특이도
위발견율 : FP / (TP+FP) = 1-정밀도
F1측도 = 2((정밀도재현율) / (정밀도 + 재현율))