Jun 11, 2025

4.3. Least Squres Approximations

1. 핵심 주제

이번 강의의 핵심은 다음 세 가지이다.

프로젝션 행렬
$P = A(A^TA)^{-1}A^T$
의 의미를 기하적으로 이해하는 것이다.
해가 정확히 존재하지 않는 연립방정식 $Ax=b$ 에 대해, 가장 좋은 근사해를 구하는 최소제곱법을 이해하는 것이다.
최소제곱법의 핵심 방정식인 정규방정식
$A^TA\hat{x} = A^Tb$
이 왜 나오는지, 그리고 왜 $A^TA$ 가 가역이 되는지를 이해하는 것이다.

2. 프로젝션 행렬의 의미

스트랭 교수는 먼저 다음 공식을 다시 상기시킨다.

P = A(A^TA)^{-1}A^T

이 행렬은 임의의 벡터 $b$ 를 $A$ 의 column space로 정사영(projection)한다. 즉,

Pb

는 $b$ 를 column space 위로 내린 가장 가까운 점이다.

즉, $Pb$ 는 다음 의미를 가진다.

$b$ 의 column space 성분은 그대로 남긴다.
column space에 수직인 성분은 제거한다.

3. 극단적 두 경우로 보는 프로젝션

스트랭 교수는 공식을 외우는 대신, 극단적인 두 경우를 통해 공식이 정말 맞는지 확인한다.

3.1 $b$ 가 이미 column space 안에 있는 경우

만약 $b \in C(A)$ 이면, $b$ 는 이미 투영하려는 공간 안에 있으므로 투영 결과는 자기 자신이다.

Pb = b

왜 그런가?

$b \in C(A)$ 이면 어떤 $x$ 가 존재해서

b = Ax

로 쓸 수 있다. 그러면

Pb = A(A^TA)^{-1}A^T(Ax)

이고, 가운데의 $A^TA$ 와 $(A^TA)^{-1}$ 가 상쇄되어

Pb = Ax = b

가 된다.

즉, column space 안의 벡터는 프로젝션해도 바뀌지 않는다는 것이다.

3.2 $b$ 가 column space에 수직인 경우

이번에는 $b$ 가 column space 전체에 수직이라고 하자. 그러면 $b$ 는 $A^T$ 의 null space에 있다.

b \perp C(A) \quad \Longleftrightarrow \quad b \in N(A^T)

따라서

A^Tb = 0

이고,

Pb = A(A^TA)^{-1}A^Tb = A(A^TA)^{-1}0 = 0

가 된다.

즉, column space에 수직인 성분은 프로젝션하면 완전히 사라진다는 뜻이다.

4. 벡터의 분해: projection part와 error part

임의의 벡터 $b$ 는 두 부분으로 분해된다.

b = p + e

여기서

$p = Pb$ 는 column space 안의 성분이다.
$e = b - p$ 는 column space에 수직인 성분이다.

따라서

e = b - Pb = (I - P)b

이다.

즉, $I-P$ 역시 하나의 프로젝션 행렬이며, 이것은 $C(A)$ 에 수직인 공간인 $N(A^T)$ 로의 프로젝션이다.

스트랭 교수의 핵심 해석은 다음과 같다.

$P$ 는 column space 방향만 남긴다.
$I-P$ 는 perpendicular space 방향만 남긴다.

그리고 이 두 조각은 서로 직교한다.

p \perp e

5. 최소제곱법(Least Squares)의 등장

이제 스트랭 교수는 대표적 응용 예제로 best straight line fitting 을 설명한다.

주어진 데이터 점은 다음과 같다.

$t=1$ 일 때 높이 $1$
$t=2$ 일 때 높이 $2$
$t=3$ 일 때 높이 $2$

즉, 세 점은

(1,1),\ (2,2),\ (3,2)

이다.

이 세 점을 모두 정확히 지나는 직선은 존재하지 않으므로, 가장 잘 맞는 직선을 찾는다.

직선의 형태를

y = C + Dt

라고 두면, 각 점을 통과시키려는 식은 다음과 같다.

C + D = 1

C + 2D = 2

C + 3D = 2

하지만 이 세 식은 동시에 정확히 만족할 수 없다.

6. 행렬 형태로 쓰기

이 식을 행렬로 쓰면

Ax = b

이며,

A = \begin{bmatrix} 1 & 1 \\ 1 & 2 \\ 1 & 3 \end{bmatrix}, \quad x = \begin{bmatrix} C \\ D \end{bmatrix}, \quad b = \begin{bmatrix} 1 \\ 2 \\ 2 \end{bmatrix}

이다.

이때 $b$ 는 일반적으로 $A$ 의 column space에 없으므로 정확한 해는 없다.

그래서 $Ax$ 가 $b$ 에 가장 가까워지도록 하는 $\hat{x}$ 를 찾는다.

7. 최소제곱의 의미

오차 벡터를

e = b - Ax

라고 하면, 최소제곱법은 이 오차 벡터의 길이를 최소화하는 방법이다.

즉,

\|b - Ax\|

를 최소화한다.

보통 계산 편의를 위해 제곱을 취하여

\|b - Ax\|^2

를 최소화한다.

이 값은 각 점에서의 오차를 제곱해서 더한 값과 같다.

즉,

e_1^2 + e_2^2 + e_3^2

이다.

스트랭 교수는 이것이 통계학에서 매우 중요한 방법이며, 특히 linear regression 의 기본이라고 강조한다.

8. 왜 제곱을 쓰는가, 그리고 outlier 문제

제곱을 쓰면 미분했을 때 식이 깔끔해져서 선형 방정식으로 정리된다. 이것이 최소제곱법이 널리 쓰이는 큰 이유이다.

하지만 스트랭 교수는 동시에 주의점도 말한다.

어떤 점 하나가 아주 멀리 떨어져 있으면, 그 오차를 제곱했을 때 지나치게 크게 반영된다. 이런 점을 통계에서는 outlier 라고 부른다.

즉, 최소제곱법은 매우 강력하지만, 이상치에 민감하다는 한계가 있다.

9. 정규방정식(normal equations)

최소제곱해 $\hat{x}$ 는 다음 정규방정식을 만족한다.

A^TA\hat{x} = A^Tb

스트랭 교수는 이것을 통계와 추정 문제에서 가장 중요한 방정식이라고까지 말한다.

이 식의 의미는 다음과 같다.

오차 벡터를

e = b - A\hat{x}

라고 하면, 최소제곱해에서는 오차가 column space에 직교한다. 즉,

A^Te = 0

이다.

이를 쓰면

A^T(b - A\hat{x}) = 0

이고 정리하면

A^TA\hat{x} = A^Tb

가 된다.

즉, 최소제곱의 핵심 조건은 오차 벡터가 column space 전체에 수직이라는 것이다.

10. 예제 계산

10.1 $A^TA$ 와 $A^Tb$

먼저

A = \begin{bmatrix} 1 & 1 \\ 1 & 2 \\ 1 & 3 \end{bmatrix}

이므로,

A^TA = \begin{bmatrix} 1 & 1 & 1 \\ 1 & 2 & 3 \end{bmatrix} \begin{bmatrix} 1 & 1 \\ 1 & 2 \\ 1 & 3 \end{bmatrix} = \begin{bmatrix} 3 & 6 \\ 6 & 14 \end{bmatrix}

또한

A^Tb = \begin{bmatrix} 1 & 1 & 1 \\ 1 & 2 & 3 \end{bmatrix} \begin{bmatrix} 1 \\ 2 \\ 2 \end{bmatrix} = \begin{bmatrix} 5 \\ 11 \end{bmatrix}

이다.

따라서 정규방정식은

\begin{bmatrix} 3 & 6 \\ 6 & 14 \end{bmatrix} \begin{bmatrix} C \\ D \end{bmatrix} = \begin{bmatrix} 5 \\ 11 \end{bmatrix}

가 된다.

10.2 해 구하기

연립방정식은

3C + 6D = 5

6C + 14D = 11

이다.

이를 풀면

D = \frac{1}{2}, \quad C = \frac{2}{3}

를 얻는다.

따라서 최적의 직선은

y = \frac{2}{3} + \frac{1}{2}t

이다.

11. 프로젝션 벡터 $p = A\hat{x}$

이제 각 $t$ 에서 예측값을 구하면 다음과 같다.

11.1 $t=1$

p_1 = \frac{2}{3} + \frac{1}{2} = \frac{4}{6} + \frac{3}{6} = \frac{7}{6}

11.2 $t=2$

p_2 = \frac{2}{3} + 1 = \frac{5}{3}

11.3 $t=3$

p_3 = \frac{2}{3} + \frac{3}{2} = \frac{4}{6} + \frac{9}{6} = \frac{13}{6}

따라서 프로젝션 벡터는

p = \begin{bmatrix} 7/6 \\ 5/3 \\ 13/6 \end{bmatrix}

이다.

이 벡터는 $b$ 를 column space 위로 내린 가장 가까운 점이다.

즉,

p = A\hat{x}

이다.

12. 오차 벡터 $e = b - p$

원래 벡터는

b = \begin{bmatrix} 1 \\ 2 \\ 2 \end{bmatrix}

이므로,

e = b - p = \begin{bmatrix} 1 \\ 2 \\ 2 \end{bmatrix} - \begin{bmatrix} 7/6 \\ 5/3 \\ 13/6 \end{bmatrix} = \begin{bmatrix} -1/6 \\ 1/3 \\ -1/6 \end{bmatrix}

이다.

즉,

b = p + e

이며,

\begin{bmatrix} 1 \\ 2 \\ 2 \end{bmatrix} = \begin{bmatrix} 7/6 \\ 5/3 \\ 13/6 \end{bmatrix} + \begin{bmatrix} -1/6 \\ 1/3 \\ -1/6 \end{bmatrix}

이다.

13. 오차 벡터의 중요한 성질

스트랭 교수는 계산을 끝낸 뒤, 오차 벡터 $e$ 에 대해 반드시 확인해야 할 사실을 강조한다.

13.1 $e$ 는 $p$ 와 직교한다

p \cdot e = 0

즉, projection part와 error part는 서로 수직이다.

13.2 더 강하게, $e$ 는 column space 전체에 직교한다

$e$ 는 단지 $p$ 에만 수직인 것이 아니라, $C(A)$ 전체에 수직이다.

$A$ 의 column은

\begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix}, \quad \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix}

이므로, 이 둘과 내적해 보면

\begin{bmatrix} -1/6 \\ 1/3 \\ -1/6 \end{bmatrix} \cdot \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix} = -1/6 + 1/3 - 1/6 = 0

또한

\begin{bmatrix} -1/6 \\ 1/3 \\ -1/6 \end{bmatrix} \cdot \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix} = -1/6 + 2/3 - 3/6 = 0

이다.

즉,

A^Te = 0

가 실제 숫자 계산으로도 확인된다.

이것이 바로 최소제곱의 본질이다.

14. calculus로도 같은 식이 나온다

스트랭 교수는 선형대수로 정규방정식을 얻은 뒤, 미적분으로도 똑같은 결과가 나온다고 보여준다.

최소화할 함수는

f(C,D) = (C+D-1)^2 + (C+2D-2)^2 + (C+3D-2)^2

이다.

이를 $C$ , $D$ 에 대해 각각 편미분해서 0으로 두면, 결국 아까와 똑같은 정규방정식이 나온다.

즉, 최소제곱법은

선형대수적으로 보면 직교 조건
미적분적으로 보면 극값 조건

으로 이해할 수 있으며, 둘은 완전히 같은 내용을 말하고 있다.

15. 왜 $A^TA$ 는 가역인가

정규방정식을 풀려면 $A^TA$ 가 가역이어야 한다.

스트랭 교수는 다음 사실을 강조한다.

$A$ 의 columns가 independent이면, $A^TA$ 는 invertible이다.

증명 아이디어

가정:

A^TAx = 0

이때 양변 왼쪽에 $x^T$ 를 곱하면

x^TA^TAx = 0

인데 이것은

(Ax)^T(Ax) = 0

와 같다.

그런데 $(Ax)^T(Ax)$ 는 $\|Ax\|^2$ 이므로, 0이 되려면

Ax = 0

이어야 한다.

이제 $A$ 의 columns가 independent라는 가정을 쓰면,

Ax = 0 \implies x = 0

이다.

따라서 $A^TA$ 의 null space는 0벡터만 가지므로, $A^TA$ 는 invertible이다.

16. 이 강의에서 꼭 기억할 핵심 문장

16.1 프로젝션 공식

P = A(A^TA)^{-1}A^T

16.2 최소제곱해의 정규방정식

A^TA\hat{x} = A^Tb

16.3 프로젝션 벡터

p = A\hat{x}

16.4 오차 벡터

e = b - p

16.5 직교 조건

A^Te = 0

16.6 벡터 분해

b = p + e

여기서

$p \in C(A)$
$e \in N(A^T)$

이다.

17. 스트랭 교수가 특히 강조한 포인트

17.1 “column space에 있는 벡터는 $Ax$ 꼴이다”

이것은 퀴즈나 시험에 꼭 나온다고 직접 말할 정도로 강조하였다.

즉,

b \in C(A) \iff b = Ax \text{ for some } x

이다.

17.2 최소제곱은 “가장 가까운 점”을 찾는 문제이다

해가 없는 $Ax=b$ 에 대해 억지로 푸는 것이 아니라, $b$ 를 column space 위로 내려서 가장 가까운 벡터 $p$ 를 찾는 것이다.

17.3 오차는 column space에 직교한다

최소제곱해에서 오차는 임의의 column과 모두 직교해야 한다.

즉,

A^T(b-A\hat{x}) = 0

이 식이 핵심이다.

17.4 least squares는 통계에서 가장 중요한 방정식 중 하나이다

스트랭 교수는

A^TA\hat{x} = A^Tb

를 통계와 estimation에서 가장 중요한 식이라고 강하게 강조한다.

18. 다음 강의로 이어지는 내용: orthonormal vectors

강의 마지막에는 다음 사실로 넘어간다.

열벡터들이 서로 수직이고 길이가 1이면, 즉 orthonormal 이면 상황이 훨씬 좋아진다.

이 경우

A^TA = I

가 된다.

즉, 가장 이상적인 basis는 orthonormal basis라는 것이다.

예를 들어 2차원에서

\begin{bmatrix} \cos\theta \\ \sin\theta \end{bmatrix}, \quad \begin{bmatrix} -\sin\theta \\ \cos\theta \end{bmatrix}

는 서로 직교하고 길이가 1인 대표적 orthonormal pair이다.

다음 강의의 핵심은 다음이다.

왜 orthonormal columns가 가장 좋은가
임의의 basis를 어떻게 orthonormal basis로 바꾸는가

19. 정리

해가 없는 $Ax=b$ 에서는 $b$ 를 $C(A)$ 위로 정사영한 벡터 $p=A\hat{x}$ 를 구하고, 그때의 오차 $e=b-p$ 는 $C(A)$ 전체에 직교한다.

즉, 최소제곱법은 column space로의 projection 이라는 기하적 해석을 가진다.

4.3. Least Squres Approximations

1. 핵심 주제

2. 프로젝션 행렬의 의미

3. 극단적 두 경우로 보는 프로젝션

3.1 bbb 가 이미 column space 안에 있는 경우

3.2 bbb 가 column space에 수직인 경우

4. 벡터의 분해: projection part와 error part

5. 최소제곱법(Least Squares)의 등장

6. 행렬 형태로 쓰기

7. 최소제곱의 의미

8. 왜 제곱을 쓰는가, 그리고 outlier 문제

9. 정규방정식(normal equations)

10. 예제 계산

10.1 ATAA^TAATA 와 ATbA^TbATb

10.2 해 구하기

11. 프로젝션 벡터 p=Ax^p = A\hat{x}p=Ax^

11.1 t=1t=1t=1

11.2 t=2t=2t=2

11.3 t=3t=3t=3

12. 오차 벡터 e=b−pe = b - pe=b−p

13. 오차 벡터의 중요한 성질

13.1 eee 는 ppp 와 직교한다

13.2 더 강하게, eee 는 column space 전체에 직교한다

14. calculus로도 같은 식이 나온다

15. 왜 ATAA^TAATA 는 가역인가

증명 아이디어

16. 이 강의에서 꼭 기억할 핵심 문장

16.1 프로젝션 공식

16.2 최소제곱해의 정규방정식

16.3 프로젝션 벡터

16.4 오차 벡터

16.5 직교 조건

16.6 벡터 분해

17. 스트랭 교수가 특히 강조한 포인트

17.1 “column space에 있는 벡터는 AxAxAx 꼴이다”

17.2 최소제곱은 “가장 가까운 점”을 찾는 문제이다

17.3 오차는 column space에 직교한다

17.4 least squares는 통계에서 가장 중요한 방정식 중 하나이다

18. 다음 강의로 이어지는 내용: orthonormal vectors

19. 정리

3.1 $b$ 가 이미 column space 안에 있는 경우

3.2 $b$ 가 column space에 수직인 경우

10.1 $A^TA$ 와 $A^Tb$

11. 프로젝션 벡터 $p = A\hat{x}$

11.1 $t=1$

11.2 $t=2$

11.3 $t=3$

12. 오차 벡터 $e = b - p$

13.1 $e$ 는 $p$ 와 직교한다

13.2 더 강하게, $e$ 는 column space 전체에 직교한다

15. 왜 $A^TA$ 는 가역인가

17.1 “column space에 있는 벡터는 $Ax$ 꼴이다”