Jun 10, 2025

4.2. Projection

1. 프로젝션의 핵심 개념

프로젝션이란 어떤 벡터 $b$ 를 어떤 부분공간 위로 가장 가깝게 내리는 것이라고 볼 수 있다.
가장 먼저 1차원 부분공간, 즉 $\mathbf{a}$ 가 만드는 직선 위로 $\mathbf{b}$ 를 내리는 경우를 생각할 수 있다.

이때 목표는 $b$ 와 가장 가까운 직선 위의 점 $p$ 를 찾는 것이다.
이 $p$ 를 $b$ 의 $a$ 위로의 프로젝션이라고 한다.

핵심은 오차 벡터가 수직이라는 점이다.

왜냐하면 부분공간 $W$ 위의 벡터 $p$ 를 잡으면 원래 벡터 $b$ 는 $b=p+e$ 로 나타낼 수 있고, 이때 $e=b-p$ 는 $p$ 에서 $b$ 로 가는 오차벡터이며 프로젝션에서는 이 $e$ 가 벡터 $p$ 자체가 아니라 부분공간 $W$ 전체에 수직이기 때문이다.

e = b - p

이때 최적의 점 $p$ 에서는 오차 $e$ 가 직선 방향 벡터 $a$ 에 수직이어야 한다.
즉,

a^\top e = 0

이어야 한다.

이것이 프로젝션 문제 전체의 출발점이다.

2. 직선 위로의 프로젝션

직선은 $a$ 가 생성하므로, 직선 위의 모든 점은 $a$ 의 스칼라배로 표현된다.
따라서 프로젝션 $p$ 는 어떤 스칼라 $x$ 에 대해

p = ax

의 형태이다.

그러면 오차는

e = b - ax

가 된다.

최적 조건은 $e$ 가 $a$ 에 수직이라는 것이므로,

a^\top(b-ax)=0

이다.

이를 정리하면,

a^\top b - a^\top a \, x = 0

즉,

(a^\top a)x = a^\top b

가 되고, 따라서

x = \frac{a^\top b}{a^\top a}

이다.

그러므로 프로젝션 벡터는

p = ax = a\frac{a^\top b}{a^\top a}

이다.

3. 직선 프로젝션의 해석

이 식은 삼각함수 없이도 아주 깔끔하게 프로젝션을 구하게 해준다.
기하적으로는 각도 $\theta$ , $\cos\theta$ 등을 생각할 수 있지만, 선형대수에서는 내적 조건 하나로 끝난다.

즉, 프로젝션의 본질은 다음 한 문장으로 요약된다.

가장 가까운 점을 찾는 문제는 오차가 부분공간에 수직이라는 조건으로 바뀌는 것이다.

4. 직선 프로젝션에서의 성질

4.1 $b$ 를 두 배 하면 프로젝션도 두 배가 된다

프로젝션 공식이

p = a\frac{a^\top b}{a^\top a}

이므로, $b$ 를 $2b$ 로 바꾸면

p = a\frac{a^\top(2b)}{a^\top a} = 2a\frac{a^\top b}{a^\top a}

가 된다.

따라서 프로젝션도 정확히 두 배가 된다.
즉, 입력 벡터 $b$ 에 대해 선형적으로 반응하는 것이다.

4.2 $a$ 를 두 배 해도 프로젝션은 바뀌지 않는다

프로젝션은 벡터 $a$ 자체가 아니라, $a$ 가 만드는 직선에 대한 것이기 때문이다.

실제로 $a$ 를 $2a$ 로 바꾸면

p = (2a)\frac{(2a)^\top b}{(2a)^\top(2a)}

가 된다.

분자를 보면 2가 한 번 더 붙어 총 4배가 되고, 분모도 4배가 되므로 서로 약분된다.
따라서 결과는 변하지 않는다.

즉, 프로젝션은 방향이 같은 벡터의 크기 변화에는 영향을 받지 않는 것이다.

5. 프로젝션 행렬

프로젝션은 벡터 $b$ 를 입력받아 그 프로젝션 $p$ 를 출력하는 선형변환으로 볼 수 있다.
따라서 어떤 행렬 $P$ 가 존재하여

p = Pb

라고 쓸 수 있다.

직선 위로의 프로젝션 공식

p = a\frac{a^\top b}{a^\top a}

를 보면, $b$ 에 곱해지는 부분은

P = \frac{aa^\top}{a^\top a}

이다.

이 $P = \frac{aa^\top}{a^\top a}$ 를 프로젝션 행렬이라고 한다.

6. 프로젝션 행렬의 성질

6.1 열공간(column space)

P = \frac{aa^\top}{a^\top a}

의 열공간은 항상 $a$ 가 만드는 직선이다.
왜냐하면 임의의 벡터 $b$ 에 대해 $Pb$ 는 언제나 그 직선 위에 놓이기 때문이다.

따라서 이 행렬의 열공간은 $\text{span}(a)$ 이다.

6.2 랭크(rank)

열공간의 차원이 1이므로,

\operatorname{rank}(P)=1

이다.

즉, 직선 위로의 프로젝션 행렬은 랭크 1 행렬이다.

6.3 대칭성(symmetric)

프로젝션 행렬은 대칭이다.

P^\top = P

이다.

왜냐하면 $aa^T$ 는 전치해도 그대로이고, 분모 $a^T a$ 는 스칼라이기 때문이다.

6.4 멱등성(idempotent)

프로젝션을 한 번 한 뒤 다시 해도 결과는 변하지 않는다.

즉,

P^2 = P

이다.

기하적으로는 이미 직선 위에 있는 점을 다시 직선 위로 내리면 그대로라는 뜻이다.
이 성질은 프로젝션 행렬의 가장 중요한 특징 중 하나이다.

7. 더 높은 차원으로의 일반화

이제 직선이 아니라 평면 또는 일반적인 부분공간으로 프로젝션하는 경우를 생각한다.

예를 들어 평면이 두 벡터 $a_1, a_2$ 에 의해 생성된다고 하자.
그러면 평면 위의 모든 벡터는 이 둘의 선형결합이다.

즉 프로젝션 $p$ 는

p = x_1 a_1 + x_2 a_2

와 같이 쓸 수 있다.

이를 행렬로 쓰면 훨씬 간단하다.
행렬 $A$ 를

A = \begin{bmatrix} a_1 & a_2 \end{bmatrix}

라고 두면,

p = A\hat{x}

이다.

여기서 $\hat{x}$ 는 프로젝션을 만드는 최적의 계수 벡터 이다.

8. 일반 부분공간에서의 핵심 조건

오차 벡터를

e = b - A\hat{x}

라고 하자.

최적의 프로젝션에서는 이 오차가 부분공간 전체에 수직이어야 한다.
즉, 부분공간을 생성하는 모든 벡터에 수직이어야 한다.

평면의 경우라면 $e$ 는 $a_1$ 과 $a_2$ 모두에 수직이다.
따라서

a_1^\top(b-A\hat{x})=0

a_2^\top(b-A\hat{x})=0

가 된다.

이를 한꺼번에 쓰면

A^\top(b-A\hat{x})=0

이다.

이 식이 일반 프로젝션 문제의 핵심 방정식이다.

9. 정규방정식(normal equations)

위 식을 정리하면

A^\top A \hat{x} = A^T b

를 얻는다.

이 식을 정규방정식이라고 한다.

여기서 $A^T A$ 가 가역이라면,

\hat{x} = (A^\top A)^{-1}A^\top b

이다.

그러므로 프로젝션 벡터는 $p = A\hat{x}$ 이므로,

p = A(A^\top A)^{-1}A^\top b

이다.

따라서 일반 부분공간으로의 프로젝션 행렬은

P = A(A^\top A)^{-1}A^\top

이다.

10. 일반 프로젝션 행렬의 성질

직선의 경우와 마찬가지로 일반 프로젝션 행렬도 다음 성질을 가진다.

10.1 대칭성

P^\top = P

이다.

10.2 멱등성

P^2 = P

이다.

즉, 한 번 프로젝션한 뒤 다시 프로젝션해도 결과는 같다.

11. 오차 벡터와 네 개의 기본 부분공간

오차 벡터 $e$ 는

e = b - A\hat{x}

이고, 정규방정식에서

A^\top e = 0

를 만족한다.

따라서 $e$ 는 $N(A^\top)$ 에 속한다.

즉,

e \in N(A^\top)

이다.

한편 선형대수의 네 개의 기본 부분공간 이론에 따르면 $C(A)$ 와 $N(A^\top)$ 는 서로 직교한다.
따라서 $e \in N(A^\top)$ 라는 것은 $e$ 가 $A$ 의 열공간에 수직이라는 뜻이다.

즉, 프로젝션의 기하학과 네 개의 기본 부분공간의 구조가 정확히 맞아떨어지는 것이다.

12. 왜 프로젝션이 중요한가

프로젝션이 중요한 이유는 방정식 $Ax=b$ 가 정확히 풀리지 않는 경우가 많기 때문이다.

특히 식의 개수가 미지수보다 많으면 보통 해가 존재하지 않는다.
즉, $b$ 가 $A$ 의 열공간에 없는 경우이다.

이때 정확한 해는 없지만, 가장 가까운 해는 구할 수 있다.
즉, $b$ 를 열공간 위로 프로젝션한 벡터 $p$ 를 써서

A\hat{x}=p

를 푸는 것이다.

여기서 $\hat{x}$ 는 정확한 해는 아니지만 최선의 해(best possible solution) 이다.

즉, 프로젝션은 해가 없는 문제를 가장 잘 푸는 방법과 연결된다.

13. 예시: 세 점에 가장 잘 맞는 직선 찾기

강의에서 제시된 대표 예시는 다음 세 점에 가장 잘 맞는 직선을 찾는 문제이다.

점들은

(1,1),\ (2,2),\ (3,2)

이다.

이 점들을 정확히 모두 지나는 직선은 존재하지 않는다.
따라서 가장 잘 맞는 직선, 즉 best fit line을 구해야 한다.

직선의 식을 $b = C + Dt$ 라고 두자.
그러면 각 점을 지나야 한다는 조건은 다음 세 식이 된다.

첫 번째 점 $(1,1)$ 에 대해

C + D = 1

두 번째 점 $(2,2)$ 에 대해

C + 2D = 2

세 번째 점 $(3,2)$ 에 대해

C + 3D = 2

이다.

이를 행렬식으로 쓰면

A= \begin{bmatrix} 1 & 1 \\ 1 & 2 \\ 1 & 3 \end{bmatrix}, \qquad x= \begin{bmatrix} C\\ D \end{bmatrix}, \qquad b= \begin{bmatrix} 1\\ 2\\ 2 \end{bmatrix}

이고,

Ax=b

의 형태가 된다.

즉,

\begin{bmatrix} 1 & 1 \\ 1 & 2 \\ 1 & 3 \end{bmatrix} \begin{bmatrix} C\\ D \end{bmatrix} = \begin{bmatrix} 1\\ 2\\ 2 \end{bmatrix}

이다.

이 문제는 방정식 3개, 미지수 2개이므로 보통 정확히 풀 수 없다.
그래서 정규방정식

A^\top A \hat{x} = A^\top b

를 풀어서 $\hat{x}$ 를 구해야 한다.

즉, 이 예시는 최소제곱법(least squares) 의 가장 전형적인 예시이다.

14. 최종 요약

프로젝션의 핵심은 다음과 같다.

14.1 직선 위로의 프로젝션

프로젝션 벡터는

p = ax

이고, 최적 조건은

a^\top(b-ax)=0

이다.

따라서

x = \frac{a^\top b}{a^\top a}

이며,

p = a\frac{a^\top b}{a^\top a}

이다.

프로젝션 행렬은

P = \frac{aa^\top}{a^\top a}

이다.

14.2 일반 부분공간으로의 프로젝션

프로젝션 벡터는

p = A\hat{x}

이고, 오차는

e = b - A\hat{x}

이다.

최적 조건은

A^\top(b-A\hat{x})=0

이며, 이것은

A^\top A \hat{x} = A^T b

가 된다.

따라서

\hat{x} = (A^\top A)^{-1}A^\top b

이고,

p = A(A^\top A)^{-1}A^\top b

이다.

프로젝션 행렬은

P = A(A^\top A)^{-1}A^\top

이다.

14.3 프로젝션 행렬의 두 핵심 성질

프로젝션 행렬 $P$ 는 항상

P^\top = P

를 만족하는 대칭행렬이며,

P^2 = P

를 만족하는 멱등행렬이다.

14.4 프로젝션의 의미

프로젝션은 해가 없는 연립방정식 $Ax=b$ 를 가장 잘 푸는 방법의 핵심이다.

즉, $b$ 를 $A$ 의 열공간 위로 가장 가깝게 내린 뒤, 그 프로젝션 벡터에 대해 해를 구하는 것이 최소제곱법의 본질이다.

4.2. Projection

1. 프로젝션의 핵심 개념

2. 직선 위로의 프로젝션

3. 직선 프로젝션의 해석

4. 직선 프로젝션에서의 성질

4.1 bbb를 두 배 하면 프로젝션도 두 배가 된다

4.2 aaa를 두 배 해도 프로젝션은 바뀌지 않는다

5. 프로젝션 행렬

6. 프로젝션 행렬의 성질

6.1 열공간(column space)

6.2 랭크(rank)

6.3 대칭성(symmetric)

6.4 멱등성(idempotent)

7. 더 높은 차원으로의 일반화

8. 일반 부분공간에서의 핵심 조건

9. 정규방정식(normal equations)

10. 일반 프로젝션 행렬의 성질

10.1 대칭성

10.2 멱등성

11. 오차 벡터와 네 개의 기본 부분공간

12. 왜 프로젝션이 중요한가

13. 예시: 세 점에 가장 잘 맞는 직선 찾기

14. 최종 요약

14.1 직선 위로의 프로젝션

14.2 일반 부분공간으로의 프로젝션

14.3 프로젝션 행렬의 두 핵심 성질

14.4 프로젝션의 의미

4.1 $b$ 를 두 배 하면 프로젝션도 두 배가 된다

4.2 $a$ 를 두 배 해도 프로젝션은 바뀌지 않는다