Statistics 6

파이썬으로하는 교차분석(Chisquare)

1. 교차분석¶ 교차분석은 두 범주 변인 간 관계가 상호 독립 관계인지 아니면 상호 연관성을 맺고 있는지를 검증하는 방법 적합도 검정, 독립성 검정, 동일성 검정에 사용된다. 카이제곱 검정 통계량을 이용 이 중 카이제곱 교차분석은 실제로 나온 관찰빈도(observed frequency)와 각 셀에서 통계적으로 기대할 수 있는 빈도, 즉 기대빈도(expected frequency) 간에 얼마만큼의 차이가 있는지를 카이제곱 분포(chi-squared distribution)를 참조해 통계적으로 검증하는 통계 기법이다. 여기서 기대빈도는 모집단의 빈도 모수(parameter)와 일치하는 값이다. 2. 적합도 검정¶ k개의 범주 (혹은 계급)을 가지는 한 개의 요인(factor)에 대해서 어떤 이론적 분포를 따..

Statistics 2021.08.03

파이썬으로하는 이원배치 분산분석 (Two-way ANOVA)

1. 이원배치 분산분석 (Two-way ANOVA)¶ 독립변인의 수가 두 개 이상일 때 집단 간 차이가 유의한지를 검증하는 데 사용 상호작용효과(Interaction effect), 한 변수의 변화가 결과에 미치는 영향이 다른 변수의 수준에 따라 달라지는지를 확인하기 위해 사용 2. Example¶ 태아의 머리 둘레 측정 데이터. 4명의 관측자가 3명의 태아를 대상으로 측정. 이를 통해서 초음파로 태아의 머리 둘레측정 데이터가 재현성이 있는지를 조사 In [1]: import pandas as pd import numpy as np import urllib import matplotlib.pyplot as plt inFile = 'altman_12_6.txt' url_base = 'https://raw...

Statistics 2021.08.03

파이썬으로하는 일원배치 분산분석 (one-way ANOVA)

1. 일원배치 분산분석 (one-way ANOVA)¶ 분산분석은 두 개이상의 집단에서 그룹 평균 간 차이를 그룹 내 변동에 비교하여 살펴보는 데이터 분석방법 : 여러 그룹간의 평균의 차이가 통계적으로 유의미 한지를 판단하기 위한 시험법 일원배치 분산분석은 반응값에 대해 하나의 범주형 변수의 영향을 알아보기 위해 사용되는 검증방법 : 한가지 변수의 변화가 결과 변수에 미치는 영향을 보기 위해 사용 F 검정 통계량을 이용 각 집단의 측정치는 서로 독립적이며 정규분포를 따른다.(정규성 가정) / 각 집단 측정치의 분산은 같다. (등분산 가정) 2. Example 1¶ 22명의 심장 수술을 받은 환자를 3가지 그룹으로 나누고 적혈구의 엽산 수치를 24시간 이후에 측정하였음. In [1]: import numpy..

Statistics 2021.08.03

파이썬으로하는 T 검정(T-test)

1. T - 검정¶ 1.1 일표본 t-검정 (one sample t-test)¶ 단일모집단에서 관심이 있는 연속형 변수의 평균값을 특정 기준값과 비교하고자할 때 일표본t검정에서는 모집단의 구성요소들이 정규분포를 이룬다는 가정하에 검정통계량 값을 계산/ 종속변수는 연속형 변수여야 하며 검증하고자 하는 기준값이 있어야 한다. 단일 모집단에서 알고자하는 값이 종속변수가 되며, 설정한 기준값과 종속변수의 평균값 사이의 차이가 통계적으로 유의하다면 두 값이 다르다고 결론을 내릴 수 있음 Example¶ A과수원에서 생산된 사과의 평균무게는 200g으로 알려져있다. 실제로도 그러한지 알아보기 위해 과수원에서 생산되는 사과15개를 임의로 뽑아서 무게를 측정. 해당 데이터를 가지고 A과수원에서 생산되는 전체사과 무게의..

Statistics 2021.08.03

3.2 다중선형회귀

단순선형회귀는 단일 설명변수를 기반으로 반응변수를 예측합니다. 하지만 실제 상황에서는 보통 하나보다 많은 설명변수가 관련됩니다. 단순선형회귀 포스팅에서 사용한 advertising데이터 역시 라디오, 신문광고 지출에 대한 데이터가 있으며, 이들 두 매체가 판매량과 상관성이 있는지 알고 싶을 수 있습니다. 이 경우 단순선형회귀모델을 확장하여 하나의 모델에서 각 설명변수에 다른 기울기 계수를 할당하는 다중선형회귀 모델을 고려할 수 있습니다. 1. 회귀계수의 추정 est = smf.ols('Sales ~ TV+Radio+Newspaper', ad).fit() est.summary() est = smf.ols('Sales ~ TV', ad).fit() est.summary().tables[1] est = smf..

3.1 단순선형회귀

단순선형회귀는 하나의 설명변수 X에 기초해 양적 반응변수인 Y를 예측합니다. 이번 포스팅에서는 캐글에 advertising데이터로 선형회귀에서 고려해야 할 부분들을 하나씩 짚어봅시다. 데이터는 특정 제품에 대한 TV, radio, newspaper 광고 예산과 그에 따른 sales(1천 유닛)를 나타냅니다. 1. 계수 추정 특정 TV광고 값으로 판매량을 예측한다면 sales와 TV의 관계를 다음처럼 표현할 수 있고 이는 최소제곱선을 표현합니다 실제로 β0과 β1은 알려져 있지 않아 advertising데이터가 가지는 n=200개 관측치를 이용해 회귀 계수를 추정해야 합니다. 이때 결과 직선이 200개 데이터 포인트에 가능한 가깝게 되도록 하는 절편 β0과 기울기 β1를 찾는것입니다 그럼 그 가까움은 어떻..