제17장 단순회귀분석의 통계적 추론 종속변수 Y의 평균에 대한 신뢰

제17장 단순회귀분석의 통계적 추론
종속변수 Y의 평균에 대한 신뢰구간 추정
{
단순선형회귀모형
Yi = β 0 + β1 X i + ε i
{
i = 1, 2, L, n
X=Xh일 때 Yh의 기대치는 다음과 같다.
E (Yh ) = E ( β 0 + β1 X h + ε i ) = β 0 + β1 X h
{
또한 E(Yh)의 점추정량 Yˆh 는 다음과 같다.
Yˆh = b0 + b1 X h
{
표본에 따라 b0과 b1 값이 달라지기 때문에 Yˆh 값
도 표본에 따라 달라질 것이다. 따라서 E(Yh)의
신뢰구간을 추정하기 위해서는 Yˆh 가 어떤 분포
를 이루는가를 알아야 한다.
Yˆh 의 표본분포
{
단순회귀분석에서 X=Xh 일 때 Yˆh의 표본분포
1. 분포의 형태 : 정규분포
2. 평균 : E (Yˆh ) = β 0 + β1 X h = E (Yh )
⎡1
( X h − X )2 ⎤
3. 분산 : δ 2 (Yˆh ) = δ 2 ⎢ +
2⎥
⎢⎣ n ∑ ( X i − X ) ⎥⎦
Yˆh는 E (Yh )에 대한 불편추정량이고, Yˆh의 분산은 δ 2을 포함하고 있는데
δ 2은 오차항 ε i의 분산이며 일반적으로 알려져 있지 않다. 따라서 잔차
ei의 분산에 의하여 추정, 잔차 ei의 분산은 MSE (error mean square)이다.
SSE
e2
=∑ i
n−2
n−2
따라서 Yˆh의 추정분산 s 2 (Yˆh )는 다음과 같다.
MSE =
⎡ 1 ( X h − X )2 ⎤
s 2 (Yˆh ) = MSE ⎢ +
2⎥
⎣⎢ n ∑ ( X i− X ) ⎦⎥
{
P.391 예제 17.1
E(Yh)의 신뢰구간추정
{
단순선형회귀모형
Yˆh − E (Yh )
= t ( n − 2)
s (Yˆh )
{
{
여기에서 t분포의 자유도 n-2는 MSE의
자유도와 관련
E(Yh)에 대한 1-α 신뢰귀간
⎛ α
⎞
Yˆh ± t ⎜1 − ; n − 2 ⎟ s (Yˆh )
2
⎝
⎠
{
P.392 예제 17.2
회귀계수 β1에 대한 통계적 추정(1)
{
{
{
β1은 회귀식의 기울기: 독립변수 X가 한
단위 증가함에 따라 종속변수 Y가 달라지
는 비율, 즉 E(Y)의 변화율
일반적으로 β1의 값이 알려져 있지 않기
때문에 표본정보에 의존한다.
종속변수와 독립변수간의 회귀관계의 성
립여부에 대하여도 β1이 이용된다.
회귀계수 β1에 대한 통계적 추정(2)
{
{
b1의 표본분포
단순성형회귀모형에서 b1의 표본분포는
다음과 같은 성질을 가진다.
1. 분포의 형태 : 정규분포
2. 평균 : E (b1 ) = β1
3. 분산 : δ (b1 ) =
2
s 2 (b1 ) =
{
δ2
∑(X
MSE
∑ ( X i − X )2
P.394 예제 17.3
i
− X )2
β1에 대한 신뢰구간추정
{
단순선형회귀모형
b1 − β1
= t ( n − 2)
s (b1 )
{
β1에 대한 1-α 신뢰구간
⎛ α
⎞
b1 ± t ⎜1 − ; n − 2 ⎟ s (b1 )
2
⎝
⎠
{
P.395 예제 17.4
β1에 대한 가설검정
H 0 : β1 = 0
H 1 : β1 ≠ 0
α위험을 통제하기 위한 결정규칙은 다음과 같다.
만약 A1 ≤ b1 ≤ A2 , H 0 채택
만약 b1 < A1 또는 b1 > A2 , H1 채택
여기에서
⎛ α
⎞
A1 = 0 − t ⎜1 − ; n − 2 ⎟ s (b1 )
2
⎝
⎠
⎛ α
⎞
A2 = 0 + t ⎜1 − ; n − 2 ⎟ s (b1 )
2
⎝
⎠
{
{
P.396 예제 17.5
P.397 예제 17.6, 17.7
회귀계수 β0에 대한 통계적 추정
{
단순선형회귀모형에서 b0의 표본분포
1. 분포의 형태 : 정규분포
2. 평균 : E (b0 ) = β 0
⎡1
⎤
X2
3. 분산 : δ 2 (b0 ) = δ 2 ⎢ +
2⎥
⎣⎢ n ∑ ( X i − X ) ⎦⎥
⎡1
⎤
X2
4. 표본분산 : s 2 (b0 ) = MSE ⎢ +
2⎥
⎣⎢ n ∑ ( X i − X ) ⎦⎥
또한
b0 − β 0
= t (n − 2)
s(b0 )
따라서 β 0에 대한 1 − α 신뢰구간은 다음과 같다.
⎛ α
⎞
b0 ± t ⎜1 − ; n − 2 ⎟ s(b0 )
2
⎝
⎠
{
P.398 예제 17.8
회귀모형의 유의성 검정(1)
{
{
{
제 2절에서 β1=0에 대한 가설을 t분포를 이용하여 검정하
였는데 이 검정이 독립변수 X가 종속변수 Y에 영향을 미
치는지 여부를 검정하는 것으로 회귀모형의 유의성
(significance)을 검정하는 것이다.
이번 절에서는 분산분석표를 이용하여 검정하는데 그 결
과도 t분포를 이용했을 때와 동일하나 독립변수가 둘 이
상일 때의 다중회귀분석에서의 회귀모형의 유의성 검정
은 이 방법을 이용할 수 밖에 없기 때문에, 이 방법을 알
아둘 필요가 있다.
가설은 앞과 동일
z
z
{
H0: β1=0
H1: β1≠0
분산분석에서는 MSE와 MSR을 계산하는데, 만약 MSR이
MSE에 비해 상대적으로 작다면 회귀식이 Y의 총변동을
줄이는데 별 도움이 되지 않았다는 사실을 의미하고 이때
에는 β1=0의 가능성이 커지게 된다.
회귀모형의 유의성 검정(2)
{
단순선형회귀모형
MSR
= F (1, n − 2)
MSE
F분포의 분자자유도는 MSR과 관련, 분모자유도는
MSE와 관련
MSR
F* =
MSE
따라서 통계적 결정규칙은
z
만약 F * ≤ F (1 − α ; 1, n − 2), H 0을 채택
만약 F * > F (1 − α ; 1, n − 2), H1을 채택
{
P.400 예제 17.9
회귀모형의 검토(1)
{
{
{
{
샘플 자료를 이용하여 실제 회귀분석을 사용하
려고 할 때에는 사용하려고 하는 회귀식이 과연
적절한지를 검토한 후에 사용하여야 한다.
회귀모형의 타당성을 검토하는 데에는 잔차가
가장 많이 이용된다.
만약 모형이 타당하다면 ei는 앞 장의(16.1)에
언급된 εi의 기본가정을 만족하여야 한다.
회귀모형에서 εi에 대한 기본가정은 다음과 같
다.
z
z
z
z
εi는 정규분포의 형태를 이룬다.
εi의 기대치는 0이다.
εi의 분산은 모든 X값에서 동일하다.
εi들은 서로 독립적이다.
회귀모형의 검토(2)
{
선형회귀식의 타당성
z
z
{
등분산의 가정
z
z
{
εi들의 분산이 모두 같은지를 보기 위하여 잔차의 산포도 모양을 검토
P.403 그림 17.4 참조
정규성의 가정
z
z
{
선형성이 있는지 알아보기 위하여 산포도와 잔차의 산포도를 그려본다.
P.402 그림 17.2, 그림 17.3 참조
εi들이 정규분포를 이루고 있어야 하는데 엄격한 방법은 21장의 적합도 검
정이 있으며, 자료가 정규분포가 아니더라도 정규분포에서 크게 벗어나지
않으면 신뢰계수나 α위험에 크게 문제가 생기지 않으므로 잔차를 계략적으
로 살펴보아도 무방하다.(잔차를 크기순으로 배열하는 그림표를 보고)
P.404 그림 17.5 참조
독립성의 가정
z
z
z
z
선형회귀모형이 적용되기 위해서는 εi들이 서로 독립적이어야 한다.
자료가 시간간격을 두고 얻어지는 경우 εi들이 독립적이지 않고 자기상관성
(autocorrelation)을 가질 수 있다.
자기상관성은 어떤 시점의 εi가 양수(또는 음수)이면 일정 시점 후(이를 때
면 j 시점 후)의 εi+j도 양수(또는 음수)일 가능성이 클 때 일어난다.(주기성
이 있는 경우)
P.404 그림 17.6 참조
컴퓨터 이용사례
{
참고자료
z
regression.sav 참조