4.3. Least Squres Approximations
1. 핵심 주제
이번 강의의 핵심은 다음 세 가지이다.
-
프로젝션 행렬
P=A(ATA)−1AT
의 의미를 기하적으로 이해하는 것이다.
-
해가 정확히 존재하지 않는 연립방정식 Ax=b 에 대해, 가장 좋은 근사해를 구하는 최소제곱법을 이해하는 것이다.
-
최소제곱법의 핵심 방정식인 정규방정식
ATAx^=ATb
이 왜 나오는지, 그리고 왜 ATA 가 가역이 되는지를 이해하는 것이다.
2. 프로젝션 행렬의 의미
스트랭 교수는 먼저 다음 공식을 다시 상기시킨다.
P=A(ATA)−1AT
이 행렬은 임의의 벡터 b 를 A 의 column space로 정사영(projection)한다. 즉,
Pb
는 b 를 column space 위로 내린 가장 가까운 점이다.
즉, Pb 는 다음 의미를 가진다.
- b 의 column space 성분은 그대로 남긴다.
- column space에 수직인 성분은 제거한다.
3. 극단적 두 경우로 보는 프로젝션
스트랭 교수는 공식을 외우는 대신, 극단적인 두 경우를 통해 공식이 정말 맞는지 확인한다.
3.1 b 가 이미 column space 안에 있는 경우
만약 b∈C(A) 이면, b 는 이미 투영하려는 공간 안에 있으므로 투영 결과는 자기 자신이다.
Pb=b
왜 그런가?
b∈C(A) 이면 어떤 x 가 존재해서
b=Ax
로 쓸 수 있다. 그러면
Pb=A(ATA)−1AT(Ax)
이고, 가운데의 ATA 와 (ATA)−1 가 상쇄되어
Pb=Ax=b
가 된다.
즉, column space 안의 벡터는 프로젝션해도 바뀌지 않는다는 것이다.
3.2 b 가 column space에 수직인 경우
이번에는 b 가 column space 전체에 수직이라고 하자. 그러면 b 는 AT 의 null space에 있다.
b⊥C(A)⟺b∈N(AT)
따라서
ATb=0
이고,
Pb=A(ATA)−1ATb=A(ATA)−10=0
가 된다.
즉, column space에 수직인 성분은 프로젝션하면 완전히 사라진다는 뜻이다.
4. 벡터의 분해: projection part와 error part
임의의 벡터 b 는 두 부분으로 분해된다.
b=p+e
여기서
- p=Pb 는 column space 안의 성분이다.
- e=b−p 는 column space에 수직인 성분이다.
따라서
e=b−Pb=(I−P)b
이다.
즉, I−P 역시 하나의 프로젝션 행렬이며, 이것은 C(A) 에 수직인 공간인 N(AT) 로의 프로젝션이다.
스트랭 교수의 핵심 해석은 다음과 같다.
- P 는 column space 방향만 남긴다.
- I−P 는 perpendicular space 방향만 남긴다.
그리고 이 두 조각은 서로 직교한다.
p⊥e
5. 최소제곱법(Least Squares)의 등장
이제 스트랭 교수는 대표적 응용 예제로 best straight line fitting 을 설명한다.
주어진 데이터 점은 다음과 같다.
- t=1 일 때 높이 1
- t=2 일 때 높이 2
- t=3 일 때 높이 2
즉, 세 점은
(1,1), (2,2), (3,2)
이다.
이 세 점을 모두 정확히 지나는 직선은 존재하지 않으므로, 가장 잘 맞는 직선을 찾는다.
직선의 형태를
y=C+Dt
라고 두면, 각 점을 통과시키려는 식은 다음과 같다.
C+D=1
C+2D=2
C+3D=2
하지만 이 세 식은 동시에 정확히 만족할 수 없다.
6. 행렬 형태로 쓰기
이 식을 행렬로 쓰면
Ax=b
이며,
A=111123,x=[CD],b=122
이다.
이때 b 는 일반적으로 A 의 column space에 없으므로 정확한 해는 없다.
그래서 Ax 가 b 에 가장 가까워지도록 하는 x^ 를 찾는다.
7. 최소제곱의 의미
오차 벡터를
e=b−Ax
라고 하면, 최소제곱법은 이 오차 벡터의 길이를 최소화하는 방법이다.
즉,
∥b−Ax∥
를 최소화한다.
보통 계산 편의를 위해 제곱을 취하여
∥b−Ax∥2
를 최소화한다.
이 값은 각 점에서의 오차를 제곱해서 더한 값과 같다.
즉,
e12+e22+e32
이다.
스트랭 교수는 이것이 통계학에서 매우 중요한 방법이며, 특히 linear regression 의 기본이라고 강조한다.
8. 왜 제곱을 쓰는가, 그리고 outlier 문제
제곱을 쓰면 미분했을 때 식이 깔끔해져서 선형 방정식으로 정리된다. 이것이 최소제곱법이 널리 쓰이는 큰 이유이다.
하지만 스트랭 교수는 동시에 주의점도 말한다.
어떤 점 하나가 아주 멀리 떨어져 있으면, 그 오차를 제곱했을 때 지나치게 크게 반영된다. 이런 점을 통계에서는 outlier 라고 부른다.
즉, 최소제곱법은 매우 강력하지만, 이상치에 민감하다는 한계가 있다.
9. 정규방정식(normal equations)
최소제곱해 x^ 는 다음 정규방정식을 만족한다.
ATAx^=ATb
스트랭 교수는 이것을 통계와 추정 문제에서 가장 중요한 방정식이라고까지 말한다.
이 식의 의미는 다음과 같다.
오차 벡터를
e=b−Ax^
라고 하면, 최소제곱해에서는 오차가 column space에 직교한다. 즉,
ATe=0
이다.
이를 쓰면
AT(b−Ax^)=0
이고 정리하면
ATAx^=ATb
가 된다.
즉, 최소제곱의 핵심 조건은 오차 벡터가 column space 전체에 수직이라는 것이다.
10. 예제 계산
10.1 ATA 와 ATb
먼저
A=111123
이므로,
ATA=[111213]111123=[36614]
또한
ATb=[111213]122=[511]
이다.
따라서 정규방정식은
[36614][CD]=[511]
가 된다.
10.2 해 구하기
연립방정식은
3C+6D=5
6C+14D=11
이다.
이를 풀면
D=21,C=32
를 얻는다.
따라서 최적의 직선은
y=32+21t
이다.
11. 프로젝션 벡터 p=Ax^
이제 각 t 에서 예측값을 구하면 다음과 같다.
11.1 t=1
p1=32+21=64+63=67
11.2 t=2
p2=32+1=35
11.3 t=3
p3=32+23=64+69=613
따라서 프로젝션 벡터는
p=7/65/313/6
이다.
이 벡터는 b 를 column space 위로 내린 가장 가까운 점이다.
즉,
p=Ax^
이다.
12. 오차 벡터 e=b−p
원래 벡터는
b=122
이므로,
e=b−p=122−7/65/313/6=−1/61/3−1/6
이다.
즉,
b=p+e
이며,
122=7/65/313/6+−1/61/3−1/6
이다.
13. 오차 벡터의 중요한 성질
스트랭 교수는 계산을 끝낸 뒤, 오차 벡터 e 에 대해 반드시 확인해야 할 사실을 강조한다.
13.1 e 는 p 와 직교한다
p⋅e=0
즉, projection part와 error part는 서로 수직이다.
13.2 더 강하게, e 는 column space 전체에 직교한다
e 는 단지 p 에만 수직인 것이 아니라, C(A) 전체에 수직이다.
A 의 column은
111,123
이므로, 이 둘과 내적해 보면
−1/61/3−1/6⋅111=−1/6+1/3−1/6=0
또한
−1/61/3−1/6⋅123=−1/6+2/3−3/6=0
이다.
즉,
ATe=0
가 실제 숫자 계산으로도 확인된다.
이것이 바로 최소제곱의 본질이다.
14. calculus로도 같은 식이 나온다
스트랭 교수는 선형대수로 정규방정식을 얻은 뒤, 미적분으로도 똑같은 결과가 나온다고 보여준다.
최소화할 함수는
f(C,D)=(C+D−1)2+(C+2D−2)2+(C+3D−2)2
이다.
이를 C, D 에 대해 각각 편미분해서 0으로 두면, 결국 아까와 똑같은 정규방정식이 나온다.
즉, 최소제곱법은
- 선형대수적으로 보면 직교 조건
- 미적분적으로 보면 극값 조건
으로 이해할 수 있으며, 둘은 완전히 같은 내용을 말하고 있다.
15. 왜 ATA 는 가역인가
정규방정식을 풀려면 ATA 가 가역이어야 한다.
스트랭 교수는 다음 사실을 강조한다.
A 의 columns가 independent이면, ATA 는 invertible이다.
증명 아이디어
가정:
ATAx=0
이때 양변 왼쪽에 xT 를 곱하면
xTATAx=0
인데 이것은
(Ax)T(Ax)=0
와 같다.
그런데 (Ax)T(Ax) 는 ∥Ax∥2 이므로, 0이 되려면
Ax=0
이어야 한다.
이제 A 의 columns가 independent라는 가정을 쓰면,
Ax=0⟹x=0
이다.
따라서 ATA 의 null space는 0벡터만 가지므로, ATA 는 invertible이다.
16. 이 강의에서 꼭 기억할 핵심 문장
16.1 프로젝션 공식
P=A(ATA)−1AT
16.2 최소제곱해의 정규방정식
ATAx^=ATb
16.3 프로젝션 벡터
p=Ax^
16.4 오차 벡터
e=b−p
16.5 직교 조건
ATe=0
16.6 벡터 분해
b=p+e
여기서
- p∈C(A)
- e∈N(AT)
이다.
17. 스트랭 교수가 특히 강조한 포인트
17.1 “column space에 있는 벡터는 Ax 꼴이다”
이것은 퀴즈나 시험에 꼭 나온다고 직접 말할 정도로 강조하였다.
즉,
b∈C(A)⟺b=Ax for some x
이다.
17.2 최소제곱은 “가장 가까운 점”을 찾는 문제이다
해가 없는 Ax=b 에 대해 억지로 푸는 것이 아니라, b 를 column space 위로 내려서 가장 가까운 벡터 p 를 찾는 것이다.
17.3 오차는 column space에 직교한다
최소제곱해에서 오차는 임의의 column과 모두 직교해야 한다.
즉,
AT(b−Ax^)=0
이 식이 핵심이다.
17.4 least squares는 통계에서 가장 중요한 방정식 중 하나이다
스트랭 교수는
ATAx^=ATb
를 통계와 estimation에서 가장 중요한 식이라고 강하게 강조한다.
18. 다음 강의로 이어지는 내용: orthonormal vectors
강의 마지막에는 다음 사실로 넘어간다.
열벡터들이 서로 수직이고 길이가 1이면, 즉 orthonormal 이면 상황이 훨씬 좋아진다.
이 경우
ATA=I
가 된다.
즉, 가장 이상적인 basis는 orthonormal basis라는 것이다.
예를 들어 2차원에서
[cosθsinθ],[−sinθcosθ]
는 서로 직교하고 길이가 1인 대표적 orthonormal pair이다.
다음 강의의 핵심은 다음이다.
- 왜 orthonormal columns가 가장 좋은가
- 임의의 basis를 어떻게 orthonormal basis로 바꾸는가
19. 정리
해가 없는 Ax=b 에서는 b 를 C(A) 위로 정사영한 벡터 p=Ax^ 를 구하고, 그때의 오차 e=b−p 는 C(A) 전체에 직교한다.
즉, 최소제곱법은
column space로의 projection 이라는 기하적 해석을 가진다.