4.3. Least Squres Approximations

1. 핵심 주제

이번 강의의 핵심은 다음 세 가지이다.

  1. 프로젝션 행렬

    P=A(ATA)1ATP = A(A^TA)^{-1}A^T

    의 의미를 기하적으로 이해하는 것이다.

  2. 해가 정확히 존재하지 않는 연립방정식 Ax=bAx=b 에 대해, 가장 좋은 근사해를 구하는 최소제곱법을 이해하는 것이다.

  3. 최소제곱법의 핵심 방정식인 정규방정식

    ATAx^=ATbA^TA\hat{x} = A^Tb

    이 왜 나오는지, 그리고 왜 ATAA^TA 가 가역이 되는지를 이해하는 것이다.


2. 프로젝션 행렬의 의미

스트랭 교수는 먼저 다음 공식을 다시 상기시킨다.

P=A(ATA)1ATP = A(A^TA)^{-1}A^T

이 행렬은 임의의 벡터 bbAA 의 column space로 정사영(projection)한다. 즉,

PbPb

bb 를 column space 위로 내린 가장 가까운 점이다.

즉, PbPb 는 다음 의미를 가진다.

  • bb 의 column space 성분은 그대로 남긴다.
  • column space에 수직인 성분은 제거한다.

3. 극단적 두 경우로 보는 프로젝션

스트랭 교수는 공식을 외우는 대신, 극단적인 두 경우를 통해 공식이 정말 맞는지 확인한다.

3.1 bb 가 이미 column space 안에 있는 경우

만약 bC(A)b \in C(A) 이면, bb 는 이미 투영하려는 공간 안에 있으므로 투영 결과는 자기 자신이다.

Pb=bPb = b

왜 그런가?

bC(A)b \in C(A) 이면 어떤 xx 가 존재해서

b=Axb = Ax

로 쓸 수 있다. 그러면

Pb=A(ATA)1AT(Ax)Pb = A(A^TA)^{-1}A^T(Ax)

이고, 가운데의 ATAA^TA(ATA)1(A^TA)^{-1} 가 상쇄되어

Pb=Ax=bPb = Ax = b

가 된다.

즉, column space 안의 벡터는 프로젝션해도 바뀌지 않는다는 것이다.


3.2 bb 가 column space에 수직인 경우

이번에는 bb 가 column space 전체에 수직이라고 하자. 그러면 bbATA^T 의 null space에 있다.

bC(A)bN(AT)b \perp C(A) \quad \Longleftrightarrow \quad b \in N(A^T)

따라서

ATb=0A^Tb = 0

이고,

Pb=A(ATA)1ATb=A(ATA)10=0Pb = A(A^TA)^{-1}A^Tb = A(A^TA)^{-1}0 = 0

가 된다.

즉, column space에 수직인 성분은 프로젝션하면 완전히 사라진다는 뜻이다.


4. 벡터의 분해: projection part와 error part

임의의 벡터 bb 는 두 부분으로 분해된다.

b=p+eb = p + e

여기서

  • p=Pbp = Pb 는 column space 안의 성분이다.
  • e=bpe = b - p 는 column space에 수직인 성분이다.

따라서

e=bPb=(IP)be = b - Pb = (I - P)b

이다.

즉, IPI-P 역시 하나의 프로젝션 행렬이며, 이것은 C(A)C(A) 에 수직인 공간인 N(AT)N(A^T) 로의 프로젝션이다.

스트랭 교수의 핵심 해석은 다음과 같다.

  • PP 는 column space 방향만 남긴다.
  • IPI-P 는 perpendicular space 방향만 남긴다.

그리고 이 두 조각은 서로 직교한다.

pep \perp e

5. 최소제곱법(Least Squares)의 등장

이제 스트랭 교수는 대표적 응용 예제로 best straight line fitting 을 설명한다.

주어진 데이터 점은 다음과 같다.

  • t=1t=1 일 때 높이 11
  • t=2t=2 일 때 높이 22
  • t=3t=3 일 때 높이 22

즉, 세 점은

(1,1), (2,2), (3,2)(1,1),\ (2,2),\ (3,2)

이다.

이 세 점을 모두 정확히 지나는 직선은 존재하지 않으므로, 가장 잘 맞는 직선을 찾는다.

직선의 형태를

y=C+Dty = C + Dt

라고 두면, 각 점을 통과시키려는 식은 다음과 같다.

C+D=1C + D = 1 C+2D=2C + 2D = 2 C+3D=2C + 3D = 2

하지만 이 세 식은 동시에 정확히 만족할 수 없다.


6. 행렬 형태로 쓰기

이 식을 행렬로 쓰면

Ax=bAx = b

이며,

A=[111213],x=[CD],b=[122]A = \begin{bmatrix} 1 & 1 \\ 1 & 2 \\ 1 & 3 \end{bmatrix}, \quad x = \begin{bmatrix} C \\ D \end{bmatrix}, \quad b = \begin{bmatrix} 1 \\ 2 \\ 2 \end{bmatrix}

이다.

이때 bb 는 일반적으로 AA 의 column space에 없으므로 정확한 해는 없다.

그래서 AxAxbb 에 가장 가까워지도록 하는 x^\hat{x} 를 찾는다.


7. 최소제곱의 의미

오차 벡터를

e=bAxe = b - Ax

라고 하면, 최소제곱법은 이 오차 벡터의 길이를 최소화하는 방법이다.

즉,

bAx\|b - Ax\|

를 최소화한다.

보통 계산 편의를 위해 제곱을 취하여

bAx2\|b - Ax\|^2

를 최소화한다.

이 값은 각 점에서의 오차를 제곱해서 더한 값과 같다.

즉,

e12+e22+e32e_1^2 + e_2^2 + e_3^2

이다.

스트랭 교수는 이것이 통계학에서 매우 중요한 방법이며, 특히 linear regression 의 기본이라고 강조한다.


8. 왜 제곱을 쓰는가, 그리고 outlier 문제

제곱을 쓰면 미분했을 때 식이 깔끔해져서 선형 방정식으로 정리된다. 이것이 최소제곱법이 널리 쓰이는 큰 이유이다.

하지만 스트랭 교수는 동시에 주의점도 말한다.

어떤 점 하나가 아주 멀리 떨어져 있으면, 그 오차를 제곱했을 때 지나치게 크게 반영된다. 이런 점을 통계에서는 outlier 라고 부른다.

즉, 최소제곱법은 매우 강력하지만, 이상치에 민감하다는 한계가 있다.


9. 정규방정식(normal equations)

최소제곱해 x^\hat{x} 는 다음 정규방정식을 만족한다.

ATAx^=ATbA^TA\hat{x} = A^Tb

스트랭 교수는 이것을 통계와 추정 문제에서 가장 중요한 방정식이라고까지 말한다.

이 식의 의미는 다음과 같다.

오차 벡터를

e=bAx^e = b - A\hat{x}

라고 하면, 최소제곱해에서는 오차가 column space에 직교한다. 즉,

ATe=0A^Te = 0

이다.

이를 쓰면

AT(bAx^)=0A^T(b - A\hat{x}) = 0

이고 정리하면

ATAx^=ATbA^TA\hat{x} = A^Tb

가 된다.

즉, 최소제곱의 핵심 조건은 오차 벡터가 column space 전체에 수직이라는 것이다.


10. 예제 계산

10.1 ATAA^TAATbA^Tb

먼저

A=[111213]A = \begin{bmatrix} 1 & 1 \\ 1 & 2 \\ 1 & 3 \end{bmatrix}

이므로,

ATA=[111123][111213]=[36614]A^TA = \begin{bmatrix} 1 & 1 & 1 \\ 1 & 2 & 3 \end{bmatrix} \begin{bmatrix} 1 & 1 \\ 1 & 2 \\ 1 & 3 \end{bmatrix} = \begin{bmatrix} 3 & 6 \\ 6 & 14 \end{bmatrix}

또한

ATb=[111123][122]=[511]A^Tb = \begin{bmatrix} 1 & 1 & 1 \\ 1 & 2 & 3 \end{bmatrix} \begin{bmatrix} 1 \\ 2 \\ 2 \end{bmatrix} = \begin{bmatrix} 5 \\ 11 \end{bmatrix}

이다.

따라서 정규방정식은

[36614][CD]=[511]\begin{bmatrix} 3 & 6 \\ 6 & 14 \end{bmatrix} \begin{bmatrix} C \\ D \end{bmatrix} = \begin{bmatrix} 5 \\ 11 \end{bmatrix}

가 된다.


10.2 해 구하기

연립방정식은

3C+6D=53C + 6D = 5 6C+14D=116C + 14D = 11

이다.

이를 풀면

D=12,C=23D = \frac{1}{2}, \quad C = \frac{2}{3}

를 얻는다.

따라서 최적의 직선은

y=23+12ty = \frac{2}{3} + \frac{1}{2}t

이다.


11. 프로젝션 벡터 p=Ax^p = A\hat{x}

이제 각 tt 에서 예측값을 구하면 다음과 같다.

11.1 t=1t=1

p1=23+12=46+36=76p_1 = \frac{2}{3} + \frac{1}{2} = \frac{4}{6} + \frac{3}{6} = \frac{7}{6}

11.2 t=2t=2

p2=23+1=53p_2 = \frac{2}{3} + 1 = \frac{5}{3}

11.3 t=3t=3

p3=23+32=46+96=136p_3 = \frac{2}{3} + \frac{3}{2} = \frac{4}{6} + \frac{9}{6} = \frac{13}{6}

따라서 프로젝션 벡터는

p=[7/65/313/6]p = \begin{bmatrix} 7/6 \\ 5/3 \\ 13/6 \end{bmatrix}

이다.

이 벡터는 bb 를 column space 위로 내린 가장 가까운 점이다.

즉,

p=Ax^p = A\hat{x}

이다.


12. 오차 벡터 e=bpe = b - p

원래 벡터는

b=[122]b = \begin{bmatrix} 1 \\ 2 \\ 2 \end{bmatrix}

이므로,

e=bp=[122][7/65/313/6]=[1/61/31/6]e = b - p = \begin{bmatrix} 1 \\ 2 \\ 2 \end{bmatrix} - \begin{bmatrix} 7/6 \\ 5/3 \\ 13/6 \end{bmatrix} = \begin{bmatrix} -1/6 \\ 1/3 \\ -1/6 \end{bmatrix}

이다.

즉,

b=p+eb = p + e

이며,

[122]=[7/65/313/6]+[1/61/31/6]\begin{bmatrix} 1 \\ 2 \\ 2 \end{bmatrix} = \begin{bmatrix} 7/6 \\ 5/3 \\ 13/6 \end{bmatrix} + \begin{bmatrix} -1/6 \\ 1/3 \\ -1/6 \end{bmatrix}

이다.


13. 오차 벡터의 중요한 성질

스트랭 교수는 계산을 끝낸 뒤, 오차 벡터 ee 에 대해 반드시 확인해야 할 사실을 강조한다.

13.1 eepp 와 직교한다

pe=0p \cdot e = 0

즉, projection part와 error part는 서로 수직이다.


13.2 더 강하게, ee 는 column space 전체에 직교한다

ee 는 단지 pp 에만 수직인 것이 아니라, C(A)C(A) 전체에 수직이다.

AA 의 column은

[111],[123]\begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix}, \quad \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix}

이므로, 이 둘과 내적해 보면

[1/61/31/6][111]=1/6+1/31/6=0\begin{bmatrix} -1/6 \\ 1/3 \\ -1/6 \end{bmatrix} \cdot \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix} = -1/6 + 1/3 - 1/6 = 0

또한

[1/61/31/6][123]=1/6+2/33/6=0\begin{bmatrix} -1/6 \\ 1/3 \\ -1/6 \end{bmatrix} \cdot \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix} = -1/6 + 2/3 - 3/6 = 0

이다.

즉,

ATe=0A^Te = 0

가 실제 숫자 계산으로도 확인된다.

이것이 바로 최소제곱의 본질이다.


14. calculus로도 같은 식이 나온다

스트랭 교수는 선형대수로 정규방정식을 얻은 뒤, 미적분으로도 똑같은 결과가 나온다고 보여준다.

최소화할 함수는

f(C,D)=(C+D1)2+(C+2D2)2+(C+3D2)2f(C,D) = (C+D-1)^2 + (C+2D-2)^2 + (C+3D-2)^2

이다.

이를 CC, DD 에 대해 각각 편미분해서 0으로 두면, 결국 아까와 똑같은 정규방정식이 나온다.

즉, 최소제곱법은

  • 선형대수적으로 보면 직교 조건
  • 미적분적으로 보면 극값 조건

으로 이해할 수 있으며, 둘은 완전히 같은 내용을 말하고 있다.


15. 왜 ATAA^TA 는 가역인가

정규방정식을 풀려면 ATAA^TA 가 가역이어야 한다.

스트랭 교수는 다음 사실을 강조한다.

AA 의 columns가 independent이면, ATAA^TA 는 invertible이다.

증명 아이디어

가정:

ATAx=0A^TAx = 0

이때 양변 왼쪽에 xTx^T 를 곱하면

xTATAx=0x^TA^TAx = 0

인데 이것은

(Ax)T(Ax)=0(Ax)^T(Ax) = 0

와 같다.

그런데 (Ax)T(Ax)(Ax)^T(Ax)Ax2\|Ax\|^2 이므로, 0이 되려면

Ax=0Ax = 0

이어야 한다.

이제 AA 의 columns가 independent라는 가정을 쓰면,

Ax=0    x=0Ax = 0 \implies x = 0

이다.

따라서 ATAA^TA 의 null space는 0벡터만 가지므로, ATAA^TA 는 invertible이다.


16. 이 강의에서 꼭 기억할 핵심 문장

16.1 프로젝션 공식

P=A(ATA)1ATP = A(A^TA)^{-1}A^T

16.2 최소제곱해의 정규방정식

ATAx^=ATbA^TA\hat{x} = A^Tb

16.3 프로젝션 벡터

p=Ax^p = A\hat{x}

16.4 오차 벡터

e=bpe = b - p

16.5 직교 조건

ATe=0A^Te = 0

16.6 벡터 분해

b=p+eb = p + e

여기서

  • pC(A)p \in C(A)
  • eN(AT)e \in N(A^T)

이다.


17. 스트랭 교수가 특히 강조한 포인트

17.1 “column space에 있는 벡터는 AxAx 꼴이다”

이것은 퀴즈나 시험에 꼭 나온다고 직접 말할 정도로 강조하였다.

즉,

bC(A)    b=Ax for some xb \in C(A) \iff b = Ax \text{ for some } x

이다.


17.2 최소제곱은 “가장 가까운 점”을 찾는 문제이다

해가 없는 Ax=bAx=b 에 대해 억지로 푸는 것이 아니라, bb 를 column space 위로 내려서 가장 가까운 벡터 pp 를 찾는 것이다.


17.3 오차는 column space에 직교한다

최소제곱해에서 오차는 임의의 column과 모두 직교해야 한다.

즉,

AT(bAx^)=0A^T(b-A\hat{x}) = 0

이 식이 핵심이다.


17.4 least squares는 통계에서 가장 중요한 방정식 중 하나이다

스트랭 교수는

ATAx^=ATbA^TA\hat{x} = A^Tb

를 통계와 estimation에서 가장 중요한 식이라고 강하게 강조한다.


18. 다음 강의로 이어지는 내용: orthonormal vectors

강의 마지막에는 다음 사실로 넘어간다.

열벡터들이 서로 수직이고 길이가 1이면, 즉 orthonormal 이면 상황이 훨씬 좋아진다.

이 경우

ATA=IA^TA = I

가 된다.

즉, 가장 이상적인 basis는 orthonormal basis라는 것이다.

예를 들어 2차원에서

[cosθsinθ],[sinθcosθ]\begin{bmatrix} \cos\theta \\ \sin\theta \end{bmatrix}, \quad \begin{bmatrix} -\sin\theta \\ \cos\theta \end{bmatrix}

는 서로 직교하고 길이가 1인 대표적 orthonormal pair이다.

다음 강의의 핵심은 다음이다.

  1. 왜 orthonormal columns가 가장 좋은가
  2. 임의의 basis를 어떻게 orthonormal basis로 바꾸는가

19. 정리

해가 없는 Ax=bAx=b 에서는 bbC(A)C(A) 위로 정사영한 벡터 p=Ax^p=A\hat{x} 를 구하고, 그때의 오차 e=bpe=b-pC(A)C(A) 전체에 직교한다.

즉, 최소제곱법은 column space로의 projection 이라는 기하적 해석을 가진다.