카테고리 없음

머신러닝 모델들

seunng 2024. 1. 8. 15:43
반응형
SMALL

 

< Lasso, Ridge, Elastic Net >

규제선형 회귀모델
경사하강법에서 weight를 업데이트를 할 때 알파 값으로 패널티를 부여하여 회귀계수의 값을 의도적으로 감소시켜 오버피팅을 포함한 회귀분석의 문제점을 보완할 수 있다.

 

<Lasso>
L1이라는 규제를 선형회귀식에 추가하여 
-   예측영향력이 적은 설명변수들의 회귀 계수값을 0으로 만듬.
<Ridge>
: L2 규제를 선형회귀식에 추가
-   상대적으로 큰 회귀 계수 값들을 통제하여 회귀 계수값을 작게 구성합니다.
<Elastic Net>  
: L1 과 L2규제를 함께 결합하여 
예측영향력이 적은 설명변수를 제거하고, 회귀계수값이 너무 큰 설명변수는 작은 회귀계수값으로 계산되도록 통제

 

-   2가지 규제 방식
-   L1 규제 : weight 값에 절대값을 씌운 패널티 -라쏘
-   L2 규제 : weight 값에 제곱을 한 패널티 -릿지

 

 

 

 

 

 

<Random Forest>

트리모델의 단점인 오버피팅의 한계를 극복하기 위한 앙상블 기법이다. 
여러개의 decision tree들로 구성된 분류기로서, 다수의 나무를 기반으로 예측하기 때문에 그 오버피팅된 몇몇의 나무의 영향력이 줄어들어 좋은 일반화 성능을 보인다. 학습데이터 셋에서 랜덤하게 중복을 허용하여 임의로 행을 선택해 의사결정 트리를 만드는 배깅을 통해 이루어진다. 최종적으로 투표(voting)를 통해 하나의 결정을 내린다. 

 

 

<xgboost와 랜포 차이>

가장 큰 차이점은 배깅과 부스팅에 있다. 
이때 부스팅은 샘플을 뽑을 때 잘못 분류된 data 재학습 시키거나, 가중치를 부여하여 목적함수를 최소화 하는 방향으로 모델을 결정한다.


문제를 푸는 상황에 비유를 한다면 랜덤포레스트는 랜덤하게 문제를 풀지만 xgboost는 틀린문제를 집중적으로 푼다고 생각을 할 수 있다. 그렇기 때문에 xgboost의 경우, 틀린 케이스에 가중치를 부여하여 모델을 학습시켜, 오차를 줄일 수 있다.

 

 

<lightgbm>


보통의 GBM모델들은 level-wise의 방식으로 돌아가는 반면에 lightgbm은 leaf-wise 방식으로 더 빠르게 optimal을 찾을 수 있다는 장점이 있다. 전체 loss가 줄어드는 방향으로 노드를 선정해서 split을 하고, 이때 level을 유지하려는 경향을 포기한다는 특징이 있다.

하지만 다른 GBM들에 비해 하이퍼파이미터에 대해 민감하다 (특히 max_depth)

반응형
LIST