티스토리 뷰
1. 회귀분석(Regression Analysis)
- 하나의 변수를 설명하는데 있어 이에 영향을 주는 다른 변수들과의 관계를 함수식으로 표현
- 각 변수의 영향력을 조사하여 영향 변수들의 변화에 따른 관심변수의 변화를 예측하는데 사용
- 영국의 우생학자 Francis Galton(1985) 아들의 키는 아버지의 키에 비례하여 자란다.
- 원인의 역할을 하는 변수를 독립변수(Independent variable) 또는 (Predictor variable)
- 결과를 관측하는 변수를 종속변수(Dependent variable) 또는(Response variable)
2. 다중회귀 모형(Multiple liner regression)
- 종속 변수 Y를 설명하는데 k개의 독립변수인 x1,x2,⋯,xk를 사용할때 다중회귀 모형은 아래와 같이 정의 된다.
Yi=β0+β1xi1+β2xi2+⋯+βkxik+εi
i=1,2,⋯,n
- 다중 회귀 모형은 행렬로 표현함으로써 간단한 형태로 표현 가능
Yi=β0+β1x11+β2x12+⋯+βkx1k+ε1
Yi=β0+β1x21+β2x22+⋯+βkx2k+ε2
⋮
Yi=β0+β1xn1+β2xn2+⋯+βkxnk+εn
- Y항, x항, 회귀계수, 오차항을 벡터와 행렬로 정의
X=(1x11x12⋯x1k1x21x22⋯x2k⋮⋮⋮⋱⋮1xn1xn2⋯xnk)
Y=(Y1Y2⋮Yn)
β=(β0β1⋮βk)
ε=(ε1ε2⋮εn)
- 행렬을 기초한 회귀 모델
Y=Xβ+ε
- 오차항 ε∼ 정규 분포 : N(0,σ2)
Var[ε]=(σ20⋯00σ2⋯0⋮⋮⋱⋮00⋯σ2)=σ2I
3. 회귀 계수의 추정
- 회귀 계수의 β의 추정은 최소자승법(Least square Method)을 기초로 하여 계산
MinQ=∑[Yi−^Yi]2=∑[Yi−(β0+β1xi1+β2xi2+⋯+βkxik)]2
- 최소 자승법에 의한 회귀 계수의 추정은 제곱합 Q를 각 βj에 대하여 편미분하고 이를 0으로 하는 연립방정식을 풀면 ^βj 값을 구할 수 있음
∂Q∂β0=−2∑[Yi−(β0+β1xi1+β2xi2+⋯+βkxik)]=0
∂Q∂β1=−2∑xi1[Yi−(β0+β1xi1+β2xi2+⋯+βkxik)]=0
⋮
∂Q∂βk=−2∑xik[Yi−(β0+β1xi1+β2xi2+⋯+βkxik)]=0
- 위 연립 방정식을 풀면 ˆβ 값들이 추정이 될 수 있음
^β0n+^β1∑xi1+⋯+^βk∑xik=∑Yi
^β0∑xi1+^β1∑x2i1+⋯+^βk∑xi1xik=∑xi1Yi
⋮
^β0xk1+^β1∑xikxi1+⋯+^βk∑x2ik=∑xikYi
- 위 정규 방정식을 벡터 - 행렬식으로 표현하면
X′X=(n∑xi1∑xi2⋯∑xik∑xi1∑x2i1∑xi1xi2⋯∑xi1xik⋮⋮⋮⋱⋮∑xik∑xikxi1∑xikxi2⋯∑x2ik)
- Y=Xˆβ 식으로 ˆβ공식 유도
- 양변에 X′을 곱하라
X′Y=X′Xˆβ
- 양변에 X′X에 대한 역행렬을 곱하라
(X′X)−1X′Y=(X′X)−1(X′X)ˆβ
- 따라서
ˆβ=(X′X)−1X′Y
- 우측에 있는 행렬X와 열벡터Y는 이미 알고 있는 값
단, 역행렬(Inverse matrix)가 존재한다고 가정
- 변수들 간의 선형 관계가 존재한다면 역행력이 존재하지 않을 수 도 있음 ( 변수간 독립이어야 한다. )
3. 단순 회귀 모형
Yi=β0+β1xi+ε,i=1,2,⋯,n
X=(1x11x2⋮⋮1xn)
β=(β0β1)
X′X=(n∑xi∑xi∑x2i)
(X′X)−1=1∑(xi−ˉx)2(1n∑x2i−ˉx−ˉx1)
X′Y=(∑Yi∑XiYi)
따라서
ˆβ=(^β0^β1)=1∑(xi−ˉx)2(1n∑x2i−ˉx−ˉx1)(∑Yi∑xiYi)=1∑(xi−ˉx)2(ˉY∑x2i−ˉx∑xiYi∑xiYi−nˉxˉy)
따라서
^β0=ˉY−^β1ˉX
^β1=∑xiYi−nˉxˉy∑(xi−ˉx)2
'R Language' 카테고리의 다른 글
[R] 4. 행렬 기초 이론 (0) | 2020.04.19 |
---|---|
[R] 3. R을 이용한 데이터 관리 (0) | 2020.03.31 |
[R] 2. R 데이터 구조 (0) | 2020.03.29 |
[R] 1. R Program Install (0) | 2020.03.29 |