머신러닝 학습 시스템의 종류...
파이썬과 SQL을 배우며 이제 막 일어나려는 참에 딥러닝에 진입하게되었다...
할건 많고.. 너무나 빠른 진도...
오늘은 머신러닝의 이해와 활용에 필요한 이론적인 부분을 학습하였고
그 중 가장 기억에 남는 파트는 다양한 머신러닝의 학습 시스템이었다.
가볍게 이해한 내용은 학습 시스템 시스템이란말이
인공지능이 다양한 상황에 맞게 학습 하는것을 말 하는 것 같다.
머신러닝의 학습 방법에는 크게 3가지가 있다
- 지도 학습
- 비지도 학습
- 강화 학습
<-- 지도 학습(Supervised Learning) -->
지도학습이란 정답이 있는 (레이블)데이터를 활용하여 데이터를 학습시키는 것 입니다.
우리가 예측하려는 값의 종류에 따라 '분류' 와 '회귀'로 구분할 수 있다.
1) 분류(Classification)
분류는 데이터를 정해진 카테고리(라벨) 에 따라 분류하는 문제를 말한다.
분류에도 크게 두가지로 나뉘는데
- 이진 분류 : ex) 스팸문자인가? or 스팸이 아닌가?
- 다중 분류 : 자동차, 비행기, 자전거를 분류하는 (자동차, 비행기, 자전거)레이블의 범주를 클래스(Class)라고 부른다.
2)회기(Regression)
- 정해진 데이터가 없이 예측해야하는 연속값의 데이터이면 회귀 로 해결해야한다.
ex) 일산의 30평대 아파트 집값 가격, 40평대 아파트 가격, 50평대 아파트 가격,
지방의 30평대 아파트 집값 가격, 40평대 아파트 가격 등을 입력 데이터로 주고 결과를 확인하면
보통 어느지역의 40평대 아파트가 가격이 어느정도인지 예측 할 수 있게 됩니다.
쉽게 구분하자면
예측하려는 값이 연속 값이면 회귀 문제,
예측하려는 값이 이산 값이면 분류 문제이다.
<-- 비지도 학습 (Unsupervised Learning) -->
지도 학습과 달리 정답 정해진 레이블 이 없는 데이터를 비슷한 특징끼리 군집화 하여
새로운 데이터에 대한 결과를 예측하는 방법.
어떠한 형태나 패턴이 없이 라벨링이 되어있지 않은 데이터이기 때문에 지도학습보다 조금 난이도가 있고 어렵다.
비지도학습의 종류에는
<군집(Clustering)>
- 군집이란???
동일한 성격을 가진 여러개의 그룹으로 대상을 분류하는 것을 말한다.
군집화 혹은 군집분석이라고 말하는 분석 방법은 대상 개체를 관련있는 항목끼리 묶어서
여러개의 집단으로 그룹화 하거나 각 집단의 성격을 파악함으로써 데이터 전체의 구조에 대한 이해를 돕고자 하는
탐색적 분석 방법이다.
ex) 스팸 메일을 분류하는 예시에서 군집화를 하게 되면
(스팸이 아닌 메일) / (스팸인 메일)
두 그룹으로 군집이되어 분리해나는것이 목표일 것이다.
- k - 평균(k-means)
- DBSCAN
- 계층 군집
- 이상치 탐지
<시각화 차원 축소>
- 차원 축소는 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해
새로운 차원의 데이터 세트를 생성하는 것입니다.
- 주성분 분석
- t- SNE
<연관 규칙 학습>
- 데이터 사이의 연관된 규칙을 찾는 방법
특정 사건 발생 시 함께 자주 발생하는 다른 사건(조건부 확률)의 규칙(Rule) if? -> Then 의 구조?
ex) 삼겹살을 구매한 고객이 상추를 구매할 확률 확인
편의점에 방문한 고객별 장바구니 내 품목간 관계를 분석
- 어프라이어리
- 이클렛