Statistics/An Introduction to Statistical Learning

3.1 단순선형회귀

jenyy 2020. 11. 22. 14:44

단순선형회귀는 하나의 설명변수 X에 기초해 양적 반응변수인 Y를 예측합니다.

이번 포스팅에서는 캐글에 advertising데이터로 선형회귀에서 고려해야 할 부분들을 하나씩 짚어봅시다. 

데이터는 특정 제품에 대한 TV, radio, newspaper 광고 예산과 그에 따른 sales(1천 유닛)를 나타냅니다.

 


1. 계수 추정

특정 TV광고 값으로 판매량을 예측한다면 sales와 TV의 관계를 다음처럼 표현할 수 있고 이는 최소제곱선을 표현합니다

실제로 β0과 β1은 알려져 있지 않아

advertising데이터가 가지는 n=200개 관측치를 이용해 회귀 계수를 추정해야 합니다.

이때 결과 직선이 200개 데이터 포인트에 가능한 가깝게 되도록 하는 절편 β0과 기울기 β1를 찾는것입니다

 

그럼 그 가까움은 어떻게 측정할까요?

흔히 최소제곱 기준을 최소화합니다.

i번째 관측된 반응변수 값과 선형모델에 의해 예측된 i번째 반응변수 값 사이의 차이의 합을

잔차제곱합(residual sum of squares)라고 하고

이 RSS를 최소화하는 β0과  β1를 선택합니다.

 

from statsmodels.formula.api import ols

res = ols('Sales ~ TV', data=ad).fit()
res.summary()

단순선형회귀적합을 수행해보면 y절편은 대략 7, 기울기는 0.056입니다. 

즉. TV광고에 1천 달러를 더 사용하면 제품 판매는 대략 56유닛 늘어난다고 해석할 수 있습니다.

 

 

2. 계수 추정값의 정확도 평가

 X와 Y가 선형함수로 근사된다면 다음과 같이 나타낼 수 있습니다.

ϵ은 오차항으로 단순한 모델로 나타낼 때 수반되는 여러 가지 한계를 위한 것입니다. 

예를 들어 X와 Y의 실제 관계는 선형적이지 않을 수 있고, Y값의 변화를 초래하는 다른 변수들이 있을 수 있습니다.

위와 같은 모델을 모회귀선(population regression line)을 정의하는 것이고 

X,Y의 실제 상관관계에 가장 잘 맞는 선형 근사입니다.

 

이쯤되면 회귀계수 관련 식이 묘하게 달라서 헷갈리는 분들이 계실텐데 

실재하는 데이터의 경우, 실제 상관관계는 일반적으로 알려져 있지 않지만

위에서 최소제곱선을 구한 것처럼 계수를 추정해 계산할 수 있습니다.

다시말하면, 실제 응용에서는 관측자료를 사용하여 최소제곱선을 계산할 수 있지만 모회귀선은 관측되지 않는것입니다.

 

 

근본적으로 이 두 직선의 개념은 표본의 정보를 사용해 큰 모집단의 특징을 추정하는 표쥰통계적 방법의 확장입니다.

통계 어느부분에서도 빠지지 않는 개념같네요

선형회귀의 알려지지 않은 계수 β0와 β1은 모회귀선을 정의합니다. 

이러한 알려지지 않은 계수를 

이처럼 기울기와 절편을 추정해 최소제곱선을 정의하는 것입니다.

 

 

 

그럼

이 모회귀선의 β0와 β1에 얼마나 근접하는지는 표준오차를 통해 알 수 있습니다. 

여기서 σ2은 Var(ϵ)입니다

이러한 표준오차는 신뢰구간을 계산하는데 사용됩니다. 

95%의 신뢰구간은 "이 값의 범위가 95%확률로 파라미터의 알려지지 않은 실제값을 포함하게 될 것이다"

선형회귀의 경우 β1에 대한 대략적인 95%신뢰구간은 다음과 같습니다.

앞의 광고 데이터에서 β0에 대한 95% 신뢰구간은 [6.339, 7.611] 이고, 

β1에 대한 신뢰구간은 [0.052, 0.059]임을 알 수 있습니다. 

그러므로, 광고를 전혀 하지 않으면 평균 판매량은 6,339와 7,940대 사이의 어떤 값으로 떨어진다고 할 수 있겠죠

 

 

표준오차는 또한 계수들에 대한 가설검정을 하는데 사용될 수 있습니다.

H0 : X와 Y 사이에 상관관계가 없다. (β1 = 0)

H1 : X와 Y 사이에 어떤 상관관계가 있다. (β1 ≠ 0)

β1이 0이 아니라고 확신 할 수 있을만큼 β1추정값이 0과 충분히 다른지를 결정해야 합니다. 

만약 β1에 대한 표준오차가 작으면  β1이 작아도 β1 ≠ 0이고 X와Y는 상관되어 있다는 강한 증거가 될 수 있습니다.

 

실제로는 이때 t-통계량을 계산합니다.

t-분포는 종모양을 가지며 n이 대략 30보다 크면 정규분포와 아주 유사합니다.

따라서 β1 = 0이라고 가정하면 어떤 값이 |t| 와 같거나 큰 경우를 관측할 확률을 계산하는 것은 간단합니다.

이 확률을 p-값이라고 하는데 p-값이 작다는 것은 설명변수와 반응변수 사이에 아무런 상관성이 없는데도

우연에 의해 의미있는 상관성이 관측될 가능성이 거의 없음을 나타냅니다. 

 

위의 advertising자료에서 각 계수들은 그들의 표준오차에 비해 상당히 큰 값이고, t-통계량도 큽니다.

p-값도 0이기 때문에 귀무가설을 기각하고  β0 ≠ 0, β1 ≠ 0이라는 결론을 내릴 수 있습니다. 

 

 

 

3. 모델의 정확도 평가

선형회귀적합의 질(quality)는 보통 잔차표준오차(RSE)와 R2통계량을 사용해 평가합니다. 

 

 

잔차표준오차

RSE는 ϵ의 표준편차에 대한 추정값으로, 대략 반응변수 값이 실제 회귀선으로부터 벗어나게 될 평균값을 의미합니다. 

R2 통계량

RSE는 데이터에 대한 모델의 적합성결여를 나타내는 절대적 측도입니다.

하지만 이것은 Y의 단위로 측정되므로 적정한 RSE가 무엇인지 항상 명확한 것은 아닙니다.

R2통계량은 설명된 분산의 비율 형태를 취하므로 항상 0과 1사이의 값을 가지며 Y의 크기와는 무관합니다.

TSS는 total sum of squares, 총제곱합이고

반응변수 Y의 총분산을 측정하며 회귀가 수행되기 전에 반응변수에 내재하는 변동량으로 생각할 수 있습니다. 

이에 반해 RSS는 회귀가 수행된 후에 설명되지 않고 남아있는 변동량을 측정합니다. 

그러므로 TSS-RSS는 회귀를 수행함으로써 설명된 반응변수의 변동량을 측정하고

R2는 X를 사용하여 설명될 수 있는 Y의 변동비율을 측정하는 것입니다.

R2 통계량이 1에 가까우면 반응변수의 변동 중 많은 부분이 회귀에 의해 설명되었다는 것을 의미하는거죠

 

R2통계량은 X와 Y사이의 선형상관관계에 대한 측도이기 때문에 사실, 상관계수의 제곱과 R2통계량은 동일합니다.

 

'Statistics > An Introduction to Statistical Learning' 카테고리의 다른 글

3.2 다중선형회귀  (0) 2020.11.28