본문 바로가기
데이터 마이닝

다중 선형 회귀(Multiple Leaner Regression, MLR)

by 킹차니 2022. 12. 17.

다중 선형 회귀 분석 모델은 여러 개의 독립 변수와 하나의 종속 변수의 선형 관계를 모델링 하는 것.

 예측을 위해 사용되는 가장 유명한 모델 중 하나이다. 

 Y를 종족 변수( 혹은 반응 변수, 대상 변수), x를 독립 변수 (혹은 입력 변수, 회귀 분석기 또는 공변량) 이라고 한다면 식은 아래와 같다.

Y =   β0  +  β1 * x1  +  β2 * x2  +  ....  +  βp * xp  +  ε(error, noise)
(β는 계수, coefficient)

(만약 위의 식을 사용하여 와인의 품질을 예측한다고 해보자. 즉 와인의 품질이 종속 변수(Y)가 되는 것이다. 그렇다면 이때 β가 양수이면 와인의 품질에 긍정적인 영향을 미치고, β가 음수이면 부정적인 영향을 미친다.)

 

Data are then used to estimate the coefficients and to quantify the noise. (데이터를 사용하여 계수를 추정하고, 노이즈를 정량화한다.)

In predictive modeling, the data are also used to evaluate model performance (예측 모델링에서 데이터는 모델의 성능을 평가하는데도 사용된다.)

( +

• 어떤 두 데이터 사이의 관계가 없다가 로그를 씌워서 집어넣으면 관계가 보일 수 있음. 

• bin 씌워서 것이냐 등을 도메인 지식을 기반에 의해 결정해야 한다. 또한 얼마나 정확도가 높은 모델을 만들어야 하는지를 고려해야       한다.

)

 

 

다중 회귀 분석 모델을 사용할 때는 아래와 같은 가정들이 필요하다.

1. 각각의 독립 변수는 종속변수와 선형 관계가 존재한다.

2. 독립 변수 사이에서는 높은 수준의 상관관계는 없어야 한다.

3. 추정된 종속 변수의 값과 실제로 관찰된 종속 변수의 값과의 차이(잔차, residual)가 정규 분포를 이루어야 한다.

 

 

다중 선형 회귀 모델에는 또 두가지 모델로 나뉜다.

1. Explanatory Modeling

2. Predictive Modeling

 

 

 

Explanatory Modeling

• 예측 변수 사이간의 관계를 설명하기 위한 모델

 고전적 통계 접근법
더 많은 모집단의 평균 관계 캡처
 데이터 분석에서 회귀 분석의 친숙한 사용
데이터를 잘 적합시키고 모형에 대한 설명 변수의 기여도를 이해합니다.

적합도: R2, 잔차 분석, p-값

 

Predictive Modeling

• 예측 변수는 가지고 있지만 종속 변수(target variable)은 없는 데이터의 target value 값을 예측하는 것.

기존 데이터 마이닝 컨텍스트

모델 목표: 예측 정확도 최적화

Train model on training data

검증(hold-out) 데이터에 대한 성능 평가

Explaining role of predictors is not primary purpose

 

 

Main Difference in Two Model(explanatory VS predictive)

 

• 좋은 explanatory model은 데이터에 잘 맞는 모델이고, 좋은 predictive model은 새로운 records를 정확하게 예측하는 모델이다. (이렇게 목적이 다른 만큼 모델의 형태도 달라질 수 있다.)

 

 In explanatory model, the entire dataset is used for estimating the best fit model, to maximize the amount of information that we have about the hypothesized relationship in the population (설명 모델은 데이터 셋은 가장 적합한 모델을 측정하기 위해 사용된다.)

 

 When the goal is to predict outcomes of new individual records, the data are typically split into a training and validation sets.(예측 모델은 데이터를 training, validation set으로 나눠야 한다.)

 

 Performance measures for explanatory models measure how close the data fit the model (how well the model approximates the data) and how strong the average relationship is (설명 모델의 성능 척도는 데이터들 간의 관계가 얼마나 긴밀한지와 평 균 관계가 얼마나 강한지를 측정한다.)

 

 

 

 

Selecting Subsets of Predictors

목적: Find parsimonious model (the simplest model that performs sufficiently well)

--> More robust, Higher predictive accuracy

 

• 미래 예측을 위해 예측 변수의 전체 보완을 수집하는 데 비용이 많이 들거나 실현 가능성이 없음
 더 적은 수의 예측 변수를 더 정확하게 측정할 수 있음(예: 설문 조사)
예측 변수가 많을수록 데이터에 결측값이 있을 가능성이 높아집니다(기록 삭제 또는 귀속 비율이 높아짐)
Parsimony는 좋은 모델들의 중요한 재산이다. 매개 변수가 적은 모델에서 예측 변수의 영향에 대한 더 많은 통찰력을 얻는다.

* Parsimony : 날씬함, 딱 들어맞는 것 (적은 변수를 알차게 사용하는 것이 좋다는 의미.)
회귀 계수의 추정치는 변수가 많은 모형에서 다중 공선성으로 인해 불안정할 수 있습니다.
결과 변수와 상관없는 예측 변수를 사용하면 예측의 분산이 증가함을 알 수 있습니다. (너무 많은 predicator들이 있으면 outcome과 거의 상관 없는 predicator들로 인해 예측의 variance가 커질 수 있다. 들쑥날쑥해진다.)
결과 변수와 실제로 상관 관계가 있는 예측 변수를 삭제하면 예측의 평균 오차(편향)가 증가할 수 있음을 알 수 있습니다. (좋은 predicator들을 짤라내면 당연히 error율은 올라간다.)
 위의 마지막 두 가지 점: 너무 적은 예측 변수와 너무 많은 예측 변수 간의 치우침-분산 균형

--> 변수를 너무 많이 사용한다면 예측 변수들 사이의 관계를 파악하기 힘들고, 변수가 많으면 결과 변수와 관계가 없는 예측 변수가 들어갈 확률 역시 자연히 커진다. 물론 예측 변수가 너무 적어도 좋지 않다. 하여 이들은 트레이드 오프 관계로, 적절한 양의 변수를 사용하는 것이 좋다.(허나 만약 변수의 개수가 적은 모델과 변수의 개수가 많은 모델의 퍼포먼스가 비슷하다면 변수의 개수가 적은 모델을 선택하라)

 

subset을 선택하기 위한 단계:

1. using Domain Knowledge

2-1. Exhaustive Search

2-2. Partial Search Algorithms

 

subset을 선택하기 위한 2번째 단계에는 Exhaustive Search와 Partial Search Algorithms로 나뉜다.

 

Exhaustive Search

지칠정도로 철저한 서치, but 효율성은 떨어짐. 왜냐하면 모든 것을 다 해보고 일일히 확인하기 때문이다. 이렇게 하면 당연히 최고의 서브셋이 나올 수 밖에 없음. 즉 모든 가능한 subset을 모두 뽑아서 하나씩 적용해보는 것이다.

* R 스퀘어 : 모델의 분산 설명력. 즉 모델이 얼마나 데이터를 잘 설명했는지를 의미. (R스퀘어가 높을수록, 좋음. 물론 반드시 그런 것만은 또 아니다.)

 

Partial Search Algorithms

partial search 알고리즘은 3가지로 나뉜다.

 

1.Forward selection (Backward 보다 cheap)

2.Backward elimination

3.Stepwise regression

 

* This approach is computationally cheaper, but it has the potential of missing “good” combinations of predictors.

* Reasonable methods for situations with a large number of predictors

 

 

 

 

 

 


 

 

 

참고:

https://rebro.kr/187

 

[머신러닝] 다중 선형 회귀(Multiple Linear Regression)

[목차] 1. 다중 선형 회귀 2. 다중 선형 회귀 실습 1. 다중 선형 회귀 다중 선형 회귀(Multiple Linear Regression, MLR)는 여러 개의 독립 변수와 하나의 종속 변수의 선형 관계를 모델링하는 것이다. 독립

rebro.kr