Statistics/An Introduction to Statistical Learning

3.2 다중선형회귀

jenyy 2020. 11. 28. 22:33

단순선형회귀는 단일 설명변수를 기반으로 반응변수를 예측합니다.

하지만 실제 상황에서는 보통 하나보다 많은 설명변수가 관련됩니다.

단순선형회귀 포스팅에서 사용한 advertising데이터 역시 라디오, 신문광고 지출에 대한 데이터가 있으며,

이들 두 매체가 판매량과 상관성이 있는지 알고 싶을 수 있습니다. 

이 경우 단순선형회귀모델을 확장하여 하나의 모델에서 각 설명변수에 다른 기울기 계수를 할당하는

다중선형회귀 모델을 고려할 수 있습니다. 

 

1. 회귀계수의 추정

est = smf.ols('Sales ~ TV+Radio+Newspaper', ad).fit()
est.summary()

est = smf.ols('Sales ~ TV', ad).fit()
est.summary().tables[1]

est = smf.ols('Sales ~ Radio', ad).fit()
est.summary().tables[1]

est = smf.ols('Sales ~ Newspaper', ad).fit()
est.summary().tables[1]

 

가장 위의 결과는 TV, 라디오,신문 광고 예산을 사용하여 제품판매량을 예측할 때의 다중회귀계수 추정값을 보여줍니다. 이 계수 추정값을 각각의 단순선형회귀의 계수추정값들과 비교해봅시다. 

 

TV 및 라디오에 대한 다중회귀계수 추정값들은 단순선형회귀의 계수추정값과 아주 유사합니다. 

하지만 newspaper에 대한 다중회귀모델의 계수 추정값은 0에 가깝고 p-value가 0.86으로 유의하지 않습니다.

이것은 단순회귀계수와 다중회귀계수는 상당히 다를 수 있다는 것을 보여줍니다. 

 

이러한 차이는 단순회귀의 경우 기울기 항이 TV와 radio 같은 다른 설명변수의 고려없이

신문광고 지출의 1,000달러 증가에 대한 평균 효과를 나타내기 떄문에 발생됩니다.

반면 다중회귀의 경우 newspaper에 대한 계수는 TV와 radio의 광고 지출은 변하지 않을 때

신문광고 지출 증가에 따른 평균 효과를 나타냅니다. 

 

 

그럼 단순회귀, 다중회귀의 결과가 다른것이 왜 가능한걸까요

여기서 세 설명변수와 반응변수에 대한 상관행렬을 고려해봅시다. 

라디오와 뉴스사이의 상관성을 0.35이고

이것은 라디오 광고에 지출을 많이 하는 마켓일수록 신문 광고에도 더 많이 지출하는 경향이 있다는 것을 보여줍니다. 

비록 신문광고가 실질적으로는 판매량에 아무 영향을 주지 않더라도

sales와 신문사이의 관계만을 검사하는 단순회귀에서는 신문값이 클수록 sales가 높게 나오는 상관성을 보일 것입니다.

따라서 신문 광고에 의한 판매량은 실제로는 라디오 관고에 의한 것이며

신문은 라디오가 판매에 미치는 효과를 가져가는 것입니다. 

 

 

'Statistics > An Introduction to Statistical Learning' 카테고리의 다른 글

3.1 단순선형회귀  (0) 2020.11.22