Jun 12, 2025

4.4. Orthonormal Bases and Gram-Schmidt

1. 핵심 주제

이번 강의는 다음을 다룬다.

직교기저와 정규직교기저
직교행렬
정규직교기저를 사용하면 투영과 최소제곱 계산이 왜 쉬워지는지
일반 독립 벡터들을 정규직교 벡터들로 바꾸는 그람-슈미트 과정
그람-슈미트 과정을 행렬 언어로 표현한 QR 분해

2. 직교기저와 정규직교기저

벡터들이 서로 직교한다는 것은 서로 다른 두 벡터의 내적이 0이라는 뜻이다.

벡터들을 다음과 같이 두자.

q_1, q_2, \dots, q_n

여기서 문자 $q$ 를 쓰는 이유는, 일반 벡터가 아니라 직교성을 가진 벡터를 나타내기 위해서이다.

서로 다른 두 벡터 $q_i$ , $q_j$ 에 대해 다음이 성립하면 이들은 직교한다.

q_i^T q_j = 0 \quad (i \neq j)

하지만 벡터는 자기 자신과 직교하지 않는다.

자기 자신과의 내적은 길이의 제곱이다.

q_i^T q_i = \|q_i\|^2

여기서 각 벡터의 길이를 1로 만들면 다음이 된다.

q_i^T q_i = 1

즉, 서로 다른 벡터끼리는 내적이 0이고, 자기 자신과의 내적은 1이다.

이를 한 번에 쓰면 다음과 같다.

q_i^T q_j = \begin{cases} 1 & i = j \\ 0 & i \neq j \end{cases}

이런 벡터들의 집합을 정규직교 집합이라고 한다.

직교: 서로 수직이다.
정규화: 길이가 1이다.
정규직교: 서로 수직이고, 각 벡터의 길이가 1이다.

따라서 정규직교기저는 다음 조건을 만족하는 기저이다.

모든 벡터가 서로 직교한다.
모든 벡터의 길이가 1이다.
벡터들이 어떤 공간을 생성하는 기저이다.

3. 정규직교 벡터를 행렬로 모으기

정규직교 벡터들을 행렬의 열벡터로 모은다.

Q = \begin{bmatrix} | & | & & | \\ q_1 & q_2 & \cdots & q_n \\ | & | & & | \end{bmatrix}

이제 $Q^TQ$ 를 계산해보자.

$Q^T$ 의 행들은 다음과 같다.

Q^T = \begin{bmatrix} q_1^T \\ q_2^T \\ \vdots \\ q_n^T \end{bmatrix}

따라서 $Q^TQ$ 는 모든 열벡터들 사이의 내적을 모은 행렬이다.

Q^TQ = \begin{bmatrix} q_1^T q_1 & q_1^T q_2 & \cdots & q_1^T q_n \\ q_2^T q_1 & q_2^T q_2 & \cdots & q_2^T q_n \\ \vdots & \vdots & \ddots & \vdots \\ q_n^T q_1 & q_n^T q_2 & \cdots & q_n^T q_n \end{bmatrix}

정규직교 벡터들이므로 대각성분은 1이고, 나머지는 0이다.

따라서 다음이 성립한다.

Q^TQ = I

이것이 정규직교 열벡터를 가진 행렬의 핵심 성질이다.

4. $Q^TQ = I$ 의 의미

일반 행렬 $A$ 에 대해 $A^TA$ 는 열벡터들 사이의 모든 내적을 모은 행렬이다.

하지만 $Q$ 의 열벡터들이 정규직교이면 내적들이 매우 단순해진다.

같은 벡터끼리의 내적은 1
다른 벡터끼리의 내적은 0

그래서 다음이 된다.

Q^TQ = I

즉, 정규직교 벡터를 열로 가진 행렬은 계산을 극도로 단순하게 만든다.

수치선형대수에서 정규직교 벡터가 중요한 이유도 여기에 있다.

정규직교 벡터들은 길이가 1이기 때문에 계산 과정에서 값이 지나치게 커지거나 작아지는 문제가 줄어든다.

5. 직교행렬

행렬 $Q$ 가 정사각행렬이고, 열벡터들이 정규직교이면 $Q$ 를 직교행렬이라고 부른다.

정확히는 다음 조건이다.

Q^TQ = I

그리고 $Q$ 가 정사각행렬이면 다음도 성립한다.

Q^T = Q^{-1}

왜냐하면 역행렬은 곱했을 때 항등행렬을 만드는 행렬이기 때문이다.

Q^TQ = I

따라서 $Q^T$ 는 $Q$ 의 왼쪽 역행렬이다.

정사각행렬에서는 이것이 역행렬이 되므로 다음이 된다.

Q^{-1} = Q^T

즉, 직교행렬은 역행렬을 구할 필요가 없다.

그냥 전치하면 역행렬이 된다.

6. 예제 1: 순열행렬

다음 행렬을 보자.

Q = \begin{bmatrix} 0 & 0 & 1 \\ 1 & 0 & 0 \\ 0 & 1 & 0 \end{bmatrix}

이 행렬의 열벡터는 각각 다음과 같다.

q_1 = \begin{bmatrix} 0 \\ 1 \\ 0 \end{bmatrix}, \quad q_2 = \begin{bmatrix} 0 \\ 0 \\ 1 \end{bmatrix}, \quad q_3 = \begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix}

각 열벡터의 길이는 1이다.

또 서로 다른 열벡터끼리 내적하면 0이다.

예를 들어,

q_1^Tq_2 = \begin{bmatrix} 0 & 1 & 0 \end{bmatrix} \begin{bmatrix} 0 \\ 0 \\ 1 \end{bmatrix} = 0

q_1^Tq_3 = \begin{bmatrix} 0 & 1 & 0 \end{bmatrix} \begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix} = 0

q_2^Tq_3 = \begin{bmatrix} 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix} = 0

따라서 이 행렬은 직교행렬이다.

또한 다음이 성립한다.

Q^TQ = I

순열행렬은 직교행렬의 가장 쉬운 예이다.

왜냐하면 각 열에 1이 하나씩만 있고, 그 위치가 서로 다르기 때문이다.

7. 예제 2: 회전행렬 형태의 직교행렬

다음 행렬을 보자.

Q = \begin{bmatrix} \cos \theta & -\sin \theta \\ \sin \theta & \cos \theta \end{bmatrix}

첫 번째 열벡터는 다음과 같다.

q_1 = \begin{bmatrix} \cos \theta \\ \sin \theta \end{bmatrix}

두 번째 열벡터는 다음과 같다.

q_2 = \begin{bmatrix} -\sin \theta \\ \cos \theta \end{bmatrix}

먼저 각 벡터의 길이를 확인한다.

q_1^Tq_1 = \cos^2 \theta + \sin^2 \theta = 1

q_2^Tq_2 = (-\sin \theta)^2 + \cos^2 \theta = \sin^2 \theta + \cos^2 \theta = 1

두 벡터의 내적은 다음과 같다.

q_1^Tq_2 = \cos\theta(-\sin\theta) + \sin\theta(\cos\theta)

= -\cos\theta\sin\theta + \sin\theta\cos\theta = 0

따라서 이 행렬은 직교행렬이다.

이 행렬은 평면에서의 회전행렬로 볼 수 있다.

8. 예제 3: 정규화가 필요한 행렬

다음 행렬을 보자.

\begin{bmatrix} 1 & 1 \\ 1 & -1 \end{bmatrix}

이 행렬의 두 열벡터는 다음과 같다.

a_1 = \begin{bmatrix} 1 \\ 1 \end{bmatrix}, \quad a_2 = \begin{bmatrix} 1 \\ -1 \end{bmatrix}

두 벡터의 내적은 다음과 같다.

a_1^Ta_2 = \begin{bmatrix} 1 & 1 \end{bmatrix} \begin{bmatrix} 1 \\ -1 \end{bmatrix} = 1 - 1 = 0

따라서 두 벡터는 직교한다.

하지만 길이는 1이 아니다.

\|a_1\|^2 = 1^2 + 1^2 = 2

\|a_1\| = \sqrt{2}

마찬가지로,

\|a_2\| = \sqrt{2}

따라서 각 열벡터를 $\sqrt{2}$ 로 나누어야 정규직교 벡터가 된다.

그래서 직교행렬은 다음과 같다.

Q = \frac{1}{\sqrt{2}} \begin{bmatrix} 1 & 1 \\ 1 & -1 \end{bmatrix}

이제 각 열벡터의 길이는 1이고, 서로 직교한다.

따라서 $Q^TQ = I$ 이다.

9. 예제 4: 하다마드 행렬 형태

다음 행렬을 보자.

H = \begin{bmatrix} 1 & 1 & 1 & 1 \\ 1 & -1 & 1 & -1 \\ 1 & 1 & -1 & -1 \\ 1 & -1 & -1 & 1 \end{bmatrix}

이 행렬의 열벡터들은 성분이 모두 $1$ 또는 $-1$ 이다.

서로 다른 열벡터들의 내적을 보면, $+1$ 이 나오는 항과 $-1$ 이 나오는 항이 서로 상쇄되어 0이 된다.

예를 들어 첫 번째 열과 두 번째 열의 내적은 다음과 같다.

\begin{bmatrix} 1 \\ 1 \\ 1 \\ 1 \end{bmatrix}^T \begin{bmatrix} 1 \\ -1 \\ 1 \\ -1 \end{bmatrix} = 1 - 1 + 1 - 1 = 0

첫 번째 열의 길이는 다음과 같다.

\sqrt{1^2 + 1^2 + 1^2 + 1^2} = \sqrt{4} = 2

따라서 각 열벡터를 길이 1로 만들려면 전체 행렬에 $\frac{1}{2}$ 를 곱하면 된다.

Q = \frac{1}{2} \begin{bmatrix} 1 & 1 & 1 & 1 \\ 1 & -1 & 1 & -1 \\ 1 & 1 & -1 & -1 \\ 1 & -1 & -1 & 1 \end{bmatrix}

그러면 $Q$ 는 직교행렬이 된다.

이런 종류의 행렬은 하다마드 행렬이라고 부른다.

하다마드 행렬은 성분이 $1$ 과 $-1$ 로만 이루어져 있고, 열벡터들이 서로 직교하는 행렬이다.

강의에서는 크기 $2$ , $4$ , $16$ , $64$ 등에서는 이런 행렬을 만들 수 있지만, 어떤 크기에서 항상 가능한지는 완전히 알려져 있지 않다고 설명한다.

예를 들어 $5 \times 5$ 크기의 하다마드 행렬은 존재할 수 없다고 언급한다.

10. 직사각형 행렬도 정규직교 열벡터를 가질 수 있다

직교행렬이라는 말은 보통 정사각행렬에만 사용한다.

하지만 정사각행렬이 아니더라도 열벡터들이 정규직교일 수 있다.

예를 들어 다음 행렬을 보자.

Q = \frac{1}{3} \begin{bmatrix} 1 & -2 \\ 2 & -1 \\ 2 & 2 \end{bmatrix}

첫 번째 열벡터는 다음과 같다.

q_1 = \frac{1}{3} \begin{bmatrix} 1 \\ 2 \\ 2 \end{bmatrix}

두 번째 열벡터는 다음과 같다.

q_2 = \frac{1}{3} \begin{bmatrix} -2 \\ -1 \\ 2 \end{bmatrix}

먼저 정규화 전의 첫 번째 벡터 길이를 보자.

\left\| \begin{bmatrix} 1 \\ 2 \\ 2 \end{bmatrix} \right\| = \sqrt{1^2 + 2^2 + 2^2} = \sqrt{1 + 4 + 4} = 3

두 번째 벡터도 길이가 3이다.

\left\| \begin{bmatrix} -2 \\ -1 \\ 2 \end{bmatrix} \right\| = \sqrt{(-2)^2 + (-1)^2 + 2^2} = \sqrt{4 + 1 + 4} = 3

두 벡터의 내적은 다음과 같다.

1(-2) + 2(-1) + 2(2) = -2 - 2 + 4 = 0

따라서 $\frac{1}{3}$ 을 곱한 두 열벡터는 정규직교이다.

이 행렬은 $3 \times 2$ 행렬이다.

정사각행렬은 아니므로 보통 직교행렬이라고 부르지는 않는다.

하지만 열벡터들은 정규직교이므로 다음은 성립한다.

Q^TQ = I_2

주의할 점은, 이 경우 $QQ^T$ 는 $I_3$ 가 아니다.

$Q$ 가 정사각행렬이 아니기 때문이다.

11. 정규직교 열벡터가 있을 때 투영행렬

일반적으로 행렬 $A$ 의 열공간으로의 투영행렬은 다음과 같다.

P = A(A^TA)^{-1}A^T

이제 $A$ 대신 정규직교 열벡터를 가진 행렬 $Q$ 를 사용한다고 하자.

그러면 투영행렬은 다음과 같다.

P = Q(Q^TQ)^{-1}Q^T

그런데 정규직교 열벡터에 대해 다음이 성립한다.

Q^TQ = I

따라서,

(Q^TQ)^{-1} = I^{-1} = I

그래서 투영행렬은 매우 단순해진다.

P = QQ^T

즉, 정규직교기저를 사용하면 투영행렬에서 역행렬 계산이 사라진다.

12. $Q$ 가 정사각행렬일 때의 투영

만약 $Q$ 가 정사각행렬이고 열벡터들이 정규직교이면, 열벡터들이 전체 공간의 기저가 된다.

예를 들어 $n \times n$ 행렬 $Q$ 의 열벡터들이 독립이면, 그 열공간은 전체 $\mathbb{R}^n$ 이다.

따라서 전체 공간으로의 투영은 아무것도 바꾸지 않는다.

즉, 투영행렬은 항등행렬이다.

P = I

그리고 정사각 직교행렬에서는 다음이 성립한다.

QQ^T = I

Q^TQ = I

따라서 정사각 직교행렬의 경우,

P = QQ^T = I

이다.

13. 투영행렬의 두 가지 성질

투영행렬 $P$ 는 중요한 두 가지 성질을 가진다.

13.1 대칭성

투영행렬은 대칭행렬이다.

P^T = P

정규직교 열벡터를 가진 $Q$ 에 대해 $P = QQ^T$ 라고 하면,

P^T = (QQ^T)^T

전치의 성질에 의해 순서가 바뀐다.

(QQ^T)^T = (Q^T)^T Q^T

= QQ^T

따라서,

P^T = P

이다.

13.2 멱등성

투영행렬은 두 번 적용해도 한 번 적용한 것과 같다.

P^2 = P

정규직교 열벡터를 가진 $Q$ 에 대해 $P = QQ^T$ 이면,

P^2 = (QQ^T)(QQ^T)

= Q(Q^TQ)Q^T

그런데,

Q^TQ = I

이므로,

P^2 = QIQ^T

= QQ^T

= P

따라서 $QQ^T$ 는 투영행렬의 성질을 만족한다.

14. 정규직교기저와 정규방정식

일반적인 최소제곱 문제에서 정규방정식은 다음과 같다.

A^TA\hat{x} = A^Tb

그런데 $A$ 의 열벡터들이 정규직교라면 $A$ 대신 $Q$ 라고 쓸 수 있다.

그러면 정규방정식은 다음과 같다.

Q^TQ\hat{x} = Q^Tb

하지만 정규직교 열벡터에 대해 다음이 성립한다.

Q^TQ = I

따라서,

I\hat{x} = Q^Tb

즉,

\hat{x} = Q^Tb

이다.

이 식은 매우 중요하다.

일반적인 경우에는 $A^TA$ 를 계산하고, 역행렬 또는 연립방정식 풀이를 통해 $\hat{x}$ 를 구해야 한다.

하지만 정규직교기저를 쓰면 해는 단순히 내적들의 모음이 된다.

15. 정규직교기저에서 좌표는 내적이다

\hat{x} = Q^Tb

라고 하자.

$Q$ 의 열벡터가 $q_1, q_2, \dots, q_n$ 이면,

Q^T = \begin{bmatrix} q_1^T \\ q_2^T \\ \vdots \\ q_n^T \end{bmatrix}

따라서,

\hat{x} = \begin{bmatrix} q_1^T b \\ q_2^T b \\ \vdots \\ q_n^T b \end{bmatrix}

즉, $b$ 를 정규직교기저 방향으로 분해할 때 각 성분은 단순히 $b$ 와 해당 기저벡터의 내적이다.

$i$ 번째 성분은 다음과 같다.

\hat{x}_i = q_i^Tb

이것이 정규직교기저의 가장 강력한 장점이다.

16. 그람-슈미트 과정의 목적

이제 문제는 다음과 같다.

처음부터 정규직교기저가 주어지면 계산이 매우 쉽다.

하지만 실제로는 보통 독립 벡터들만 주어진다.

예를 들어 다음과 같은 독립 벡터들이 주어진다고 하자.

a, b

이 벡터들은 서로 직교하지 않을 수 있다.

그람-슈미트 과정은 이런 독립 벡터들을 정규직교 벡터들로 바꾸는 절차이다.

즉, 입력은 일반 독립 벡터들이고,

a, b, c, \dots

출력은 정규직교 벡터들이다.

q_1, q_2, q_3, \dots

핵심 아이디어는 다음과 같다.

첫 번째 벡터 방향은 그대로 사용한다.
두 번째 벡터에서 첫 번째 벡터 방향 성분을 제거한다.
세 번째 벡터에서 첫 번째, 두 번째 방향 성분을 제거한다.
이렇게 얻은 직교 벡터들을 마지막에 길이 1로 정규화한다.

17. 두 벡터에 대한 그람-슈미트

두 독립 벡터 $a$ , $b$ 가 있다고 하자.

목표는 직교 벡터 $A$ , $B$ 를 만드는 것이다.

첫 번째 벡터는 그대로 둔다.

A = a

두 번째 벡터 $b$ 는 $A$ 방향 성분을 제거해야 한다.

$b$ 를 $A$ 방향으로 투영한 벡터는 다음과 같다.

\text{proj}_A b = \frac{A^Tb}{A^TA}A

따라서 $b$ 에서 이 투영 성분을 빼면 $A$ 에 수직인 성분만 남는다.

B = b - \frac{A^Tb}{A^TA}A

이 $B$ 는 $A$ 와 직교한다.

즉,

A^TB = 0

이다.

18. 왜 $B$ 가 $A$ 와 직교하는가

정의에 의해,

B = b - \frac{A^Tb}{A^TA}A

양쪽에 $A^T$ 를 곱한다.

A^TB = A^T \left( b - \frac{A^Tb}{A^TA}A \right)

분배하면,

A^TB = A^Tb - \frac{A^Tb}{A^TA}A^TA

오른쪽 두 번째 항에서 $A^TA$ 가 약분된다.

A^TB = A^Tb - A^Tb

따라서,

A^TB = 0

이다.

즉, $B$ 는 $A$ 와 직교한다.

이것이 그람-슈미트의 핵심이다.

$b$ 에서 $A$ 방향의 성분을 빼면, $A$ 에 수직인 오차 성분만 남는다.

이때 $B$ 는 앞에서 투영 단원에서 본 오차벡터 $e$ 와 같은 역할을 한다.

19. 정규화 단계

그람-슈미트 과정에서 먼저 직교 벡터 $A$ , $B$ 를 만든다.

그 다음 이 벡터들을 길이로 나누어 단위벡터로 만든다.

q_1 = \frac{A}{\|A\|}

q_2 = \frac{B}{\|B\|}

이렇게 하면 $q_1$ , $q_2$ 는 정규직교 벡터가 된다.

즉,

q_1^Tq_1 = 1

q_2^Tq_2 = 1

q_1^Tq_2 = 0

이다.

20. 세 벡터에 대한 그람-슈미트

세 독립 벡터 $a$ , $b$ , $c$ 가 있다고 하자.

목표는 직교 벡터 $A$ , $B$ , $C$ 를 만드는 것이다.

첫 번째 벡터는 그대로 둔다.

A = a

두 번째 벡터는 $A$ 방향 성분을 제거한다.

B = b - \frac{A^Tb}{A^TA}A

세 번째 벡터 $c$ 에서는 이미 만든 두 방향 $A$ , $B$ 의 성분을 모두 제거해야 한다.

C = c - \frac{A^Tc}{A^TA}A - \frac{B^Tc}{B^TB}B

이렇게 하면 $C$ 는 $A$ 와도 직교하고, $B$ 와도 직교한다.

즉,

A^TC = 0

B^TC = 0

이다.

마지막으로 정규화한다.

q_1 = \frac{A}{\|A\|}

q_2 = \frac{B}{\|B\|}

q_3 = \frac{C}{\|C\|}

그러면 $q_1$ , $q_2$ , $q_3$ 는 정규직교 벡터가 된다.

21. 그람-슈미트 일반형

독립 벡터들이 다음과 같이 주어졌다고 하자.

a_1, a_2, \dots, a_n

그람-슈미트 과정은 다음과 같이 진행된다.

첫 번째 직교 벡터는 다음과 같다.

A_1 = a_1

두 번째 직교 벡터는 첫 번째 방향 성분을 제거한다.

A_2 = a_2 - \frac{A_1^Ta_2}{A_1^TA_1}A_1

세 번째 직교 벡터는 첫 번째와 두 번째 방향 성분을 제거한다.

A_3 = a_3 - \frac{A_1^Ta_3}{A_1^TA_1}A_1 - \frac{A_2^Ta_3}{A_2^TA_2}A_2

일반적으로,

A_k = a_k - \sum_{j=1}^{k-1} \frac{A_j^Ta_k}{A_j^TA_j}A_j

이다.

그리고 정규화하면,

q_k = \frac{A_k}{\|A_k\|}

이다.

22. 수치 예제: 두 벡터의 그람-슈미트

강의에서 사용한 예제는 다음 두 벡터이다.

a = \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix}, \quad b = \begin{bmatrix} 1 \\ 0 \\ 2 \end{bmatrix}

이 두 벡터는 직교하지 않는다.

내적을 계산하면,

a^Tb = \begin{bmatrix} 1 & 1 & 1 \end{bmatrix} \begin{bmatrix} 1 \\ 0 \\ 2 \end{bmatrix} = 1 + 0 + 2 = 3

따라서 직교가 아니다.

23. 첫 번째 직교 벡터 구하기

첫 번째 벡터는 그대로 둔다.

A = a = \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix}

24. 두 번째 직교 벡터 구하기

공식은 다음과 같다.

B = b - \frac{A^Tb}{A^TA}A

여기서 $A = a$ 이다.

먼저 $A^Tb$ 를 계산한다.

A^Tb = \begin{bmatrix} 1 & 1 & 1 \end{bmatrix} \begin{bmatrix} 1 \\ 0 \\ 2 \end{bmatrix} = 3

다음으로 $A^TA$ 를 계산한다.

A^TA = \begin{bmatrix} 1 & 1 & 1 \end{bmatrix} \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix} = 1 + 1 + 1 = 3

따라서 계수는 다음과 같다.

\frac{A^Tb}{A^TA} = \frac{3}{3} = 1

그러므로,

B = b - 1A

= \begin{bmatrix} 1 \\ 0 \\ 2 \end{bmatrix} - \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix}

= \begin{bmatrix} 0 \\ -1 \\ 1 \end{bmatrix}

따라서 두 번째 직교 벡터는 다음과 같다.

B = \begin{bmatrix} 0 \\ -1 \\ 1 \end{bmatrix}

25. 직교성 확인

이제 $A$ 와 $B$ 가 직교하는지 확인한다.

A^TB = \begin{bmatrix} 1 & 1 & 1 \end{bmatrix} \begin{bmatrix} 0 \\ -1 \\ 1 \end{bmatrix}

= 0 - 1 + 1 = 0

따라서 $A$ 와 $B$ 는 직교한다.

26. 정규화하기

이제 $A$ 와 $B$ 를 단위벡터로 만든다.

먼저 $A$ 의 길이는 다음과 같다.

\|A\| = \sqrt{1^2 + 1^2 + 1^2} = \sqrt{3}

따라서,

q_1 = \frac{A}{\|A\|} = \frac{1}{\sqrt{3}} \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix}

다음으로 $B$ 의 길이는 다음과 같다.

\|B\| = \sqrt{0^2 + (-1)^2 + 1^2} = \sqrt{2}

따라서,

q_2 = \frac{B}{\|B\|} = \frac{1}{\sqrt{2}} \begin{bmatrix} 0 \\ -1 \\ 1 \end{bmatrix}

그러므로 그람-슈미트로 얻은 정규직교 행렬 $Q$ 는 다음과 같다.

Q = \begin{bmatrix} \frac{1}{\sqrt{3}} & 0 \\ \frac{1}{\sqrt{3}} & -\frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{3}} & \frac{1}{\sqrt{2}} \end{bmatrix}

또는 열벡터 형태로 쓰면,

Q = \begin{bmatrix} | & | \\ q_1 & q_2 \\ | & | \end{bmatrix}

이다.

27. 원래 행렬과 새 행렬의 열공간 관계

처음 주어진 두 벡터를 열로 가진 행렬을 다음과 같이 두자.

A_{\text{original}} = \begin{bmatrix} 1 & 1 \\ 1 & 0 \\ 1 & 2 \end{bmatrix}

그람-슈미트로 얻은 행렬은 다음과 같다.

Q = \begin{bmatrix} \frac{1}{\sqrt{3}} & 0 \\ \frac{1}{\sqrt{3}} & -\frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{3}} & \frac{1}{\sqrt{2}} \end{bmatrix}

이 두 행렬의 열공간은 같다.

즉,

C(A_{\text{original}}) = C(Q)

이다.

왜냐하면 그람-슈미트 과정에서 새 벡터들은 원래 벡터들의 선형결합으로 만들어졌기 때문이다.

예를 들어,

B = b - A

였으므로 $B$ 는 $a$ 와 $b$ 의 선형결합이다.

또 $A = a$ 이다.

따라서 새로 만든 벡터 $A$ , $B$ 는 원래 벡터 $a$ , $b$ 가 만드는 평면 안에 있다.

반대로 원래 벡터들도 새 벡터들의 선형결합으로 표현할 수 있다.

따라서 열공간은 변하지 않는다.

그람-슈미트는 공간을 바꾸는 것이 아니라, 같은 공간 안에서 더 좋은 기저를 만드는 과정이다.

28. 그람-슈미트의 의미

그람-슈미트 과정은 다음과 같이 이해할 수 있다.

처음 주어진 벡터들은 어떤 부분공간의 기저이다.

하지만 그 기저는 계산하기에 좋지 않을 수 있다.

왜냐하면 벡터들이 서로 기울어져 있고, 길이도 제각각이기 때문이다.

그람-슈미트는 같은 부분공간을 생성하면서도 다음 성질을 가진 새 기저를 만든다.

서로 직교한다.
길이가 1이다.
따라서 투영, 최소제곱, 좌표 계산이 쉬워진다.

즉, 그람-슈미트는 일반 기저를 정규직교기저로 바꾸는 과정이다.

29. QR 분해

소거법을 행렬 언어로 표현하면 LU 분해가 된다.

A = LU

마찬가지로 그람-슈미트 과정을 행렬 언어로 표현하면 QR 분해가 된다.

A = QR

여기서,

$A$ 는 원래 독립 열벡터들을 가진 행렬이다.
$Q$ 는 정규직교 열벡터들을 가진 행렬이다.
$R$ 은 상삼각행렬이다.

즉, 그람-슈미트는 행렬 $A$ 를 정규직교 행렬 $Q$ 와 상삼각행렬 $R$ 의 곱으로 표현하는 과정이다.

30. 왜 $R$ 은 상삼각행렬인가

$A$ 와 $Q$ 의 열공간은 같다.

따라서 $A$ 의 각 열벡터는 $Q$ 의 열벡터들의 선형결합으로 표현될 수 있다.

즉,

A = QR

이다.

여기서 $R$ 의 성분들은 $Q$ 의 열벡터들과 $A$ 의 열벡터 사이의 내적에서 나온다.

두 열벡터만 있는 경우를 생각하자.

A = \begin{bmatrix} | & | \\ a_1 & a_2 \\ | & | \end{bmatrix}

Q = \begin{bmatrix} | & | \\ q_1 & q_2 \\ | & | \end{bmatrix}

그러면 $A = QR$ 에서 $R$ 은 대략 다음과 같은 형태를 가진다.

R = \begin{bmatrix} q_1^Ta_1 & q_1^Ta_2 \\ q_2^Ta_1 & q_2^Ta_2 \end{bmatrix}

그런데 그람-슈미트 과정에서 $q_2$ 는 첫 번째 원래 벡터 $a_1$ 에 수직이 되도록 만들어졌다.

따라서,

q_2^Ta_1 = 0

그래서 $R$ 은 다음과 같은 상삼각행렬이 된다.

R = \begin{bmatrix} q_1^Ta_1 & q_1^Ta_2 \\ 0 & q_2^Ta_2 \end{bmatrix}

일반적인 경우에도 같은 원리가 적용된다.

뒤에 만들어진 $q_j$ 는 앞선 원래 벡터들의 방향 성분을 제거해서 만들어졌기 때문에, 앞선 열벡터들과 직교한다.

따라서 $R$ 의 아래쪽 성분들이 0이 되고, $R$ 은 상삼각행렬이 된다.

31. 강의 예제를 QR 분해 관점에서 보기

원래 행렬은 다음과 같다.

A = \begin{bmatrix} 1 & 1 \\ 1 & 0 \\ 1 & 2 \end{bmatrix}

그람-슈미트로 얻은 $Q$ 는 다음과 같다.

Q = \begin{bmatrix} \frac{1}{\sqrt{3}} & 0 \\ \frac{1}{\sqrt{3}} & -\frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{3}} & \frac{1}{\sqrt{2}} \end{bmatrix}

$Q$ 의 열벡터들은 정규직교이므로,

Q^TQ = I

$A = QR$ 에서 양쪽에 $Q^T$ 를 곱하면,

Q^TA = Q^TQR

Q^TA = IR

따라서,

R = Q^TA

이제 $R$ 을 계산한다.

먼저,

q_1 = \frac{1}{\sqrt{3}} \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix}

q_2 = \frac{1}{\sqrt{2}} \begin{bmatrix} 0 \\ -1 \\ 1 \end{bmatrix}

그리고,

a_1 = \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix}, \quad a_2 = \begin{bmatrix} 1 \\ 0 \\ 2 \end{bmatrix}

$R$ 의 각 성분은 다음과 같다.

r_{11} = q_1^Ta_1

= \frac{1}{\sqrt{3}} \begin{bmatrix} 1 & 1 & 1 \end{bmatrix} \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix}

= \frac{3}{\sqrt{3}} = \sqrt{3}

다음으로,

r_{12} = q_1^Ta_2

= \frac{1}{\sqrt{3}} \begin{bmatrix} 1 & 1 & 1 \end{bmatrix} \begin{bmatrix} 1 \\ 0 \\ 2 \end{bmatrix}

= \frac{3}{\sqrt{3}} = \sqrt{3}

다음으로,

r_{21} = q_2^Ta_1

= \frac{1}{\sqrt{2}} \begin{bmatrix} 0 & -1 & 1 \end{bmatrix} \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix}

= \frac{0 - 1 + 1}{\sqrt{2}} = 0

마지막으로,

r_{22} = q_2^Ta_2

= \frac{1}{\sqrt{2}} \begin{bmatrix} 0 & -1 & 1 \end{bmatrix} \begin{bmatrix} 1 \\ 0 \\ 2 \end{bmatrix}

= \frac{0 + 0 + 2}{\sqrt{2}} = \sqrt{2}

따라서,

R = \begin{bmatrix} \sqrt{3} & \sqrt{3} \\ 0 & \sqrt{2} \end{bmatrix}

결국 QR 분해는 다음과 같다.

A = QR

\begin{bmatrix} 1 & 1 \\ 1 & 0 \\ 1 & 2 \end{bmatrix} = \begin{bmatrix} \frac{1}{\sqrt{3}} & 0 \\ \frac{1}{\sqrt{3}} & -\frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{3}} & \frac{1}{\sqrt{2}} \end{bmatrix} \begin{bmatrix} \sqrt{3} & \sqrt{3} \\ 0 & \sqrt{2} \end{bmatrix}

확인해보자.

첫 번째 열은,

\sqrt{3}q_1 + 0q_2 = \sqrt{3} \cdot \frac{1}{\sqrt{3}} \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix} = \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix}

두 번째 열은,

\sqrt{3}q_1 + \sqrt{2}q_2

= \sqrt{3} \cdot \frac{1}{\sqrt{3}} \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix} + \sqrt{2} \cdot \frac{1}{\sqrt{2}} \begin{bmatrix} 0 \\ -1 \\ 1 \end{bmatrix}

= \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix} + \begin{bmatrix} 0 \\ -1 \\ 1 \end{bmatrix}

= \begin{bmatrix} 1 \\ 0 \\ 2 \end{bmatrix}

따라서 실제로 $A = QR$ 이 성립한다.

32. 전체 흐름 요약

이번 강의의 핵심 흐름은 다음과 같다.

32.1 정규직교 열벡터

열벡터들이 정규직교이면,

Q^TQ = I

이다.

32.2 직교행렬

$Q$ 가 정사각행렬이고 정규직교 열벡터를 가지면 직교행렬이다.

이때,

Q^{-1} = Q^T

이다.

32.3 정규직교기저에서 투영

일반 투영행렬은 다음과 같다.

P = A(A^TA)^{-1}A^T

하지만 정규직교기저 $Q$ 를 쓰면,

P = QQ^T

이다.

32.4 정규직교기저에서 최소제곱

일반 정규방정식은 다음과 같다.

A^TA\hat{x} = A^Tb

하지만 정규직교기저 $Q$ 를 쓰면,

\hat{x} = Q^Tb

이다.

각 성분은 다음과 같다.

\hat{x}_i = q_i^Tb

즉, 좌표는 단순히 내적이다.

32.5 그람-슈미트

그람-슈미트는 일반 독립 벡터들을 정규직교 벡터들로 바꾸는 과정이다.

두 벡터의 경우,

A = a

B = b - \frac{A^Tb}{A^TA}A

그리고,

q_1 = \frac{A}{\|A\|}

q_2 = \frac{B}{\|B\|}

이다.

32.6 QR 분해

그람-슈미트 과정을 행렬로 표현하면 다음과 같다.

A = QR

여기서,

$Q$ 는 정규직교 열벡터를 가진 행렬이다.
$R$ 은 상삼각행렬이다.
$A$ 와 $Q$ 는 같은 열공간을 가진다.

33. 직관 정리

정규직교기저는 좌표계를 가장 깔끔하게 정리한 것이다.

일반 기저에서는 벡터들이 서로 기울어져 있기 때문에 좌표를 구하려면 연립방정식을 풀어야 한다.

하지만 정규직교기저에서는 각 방향이 서로 완전히 독립적이다.

그래서 한 방향의 성분을 구할 때 단순히 그 방향과 내적하면 된다.

\text{성분} = q_i^Tb

그람-슈미트는 기울어진 기저를 같은 공간 안에서 직각 기저로 바꾸는 과정이다.

QR 분해는 그 과정을 행렬 방정식으로 표현한 것이다.

A = QR

즉, $A$ 의 복잡한 열벡터 구조를 정규직교 구조 $Q$ 와 상삼각 구조 $R$ 로 분해하는 것이다.

34. 꼭 기억해야 할 공식

Q^TQ = I

Q^{-1} = Q^T \quad \text{if } Q \text{ is square}

P = A(A^TA)^{-1}A^T

P = QQ^T \quad \text{if columns of } Q \text{ are orthonormal}

A^TA\hat{x} = A^Tb

\hat{x} = Q^Tb \quad \text{if columns of } Q \text{ are orthonormal}

B = b - \frac{A^Tb}{A^TA}A

q_i = \frac{A_i}{\|A_i\|}

A = QR

35. 요약

정규직교기저를 쓰면 투영과 최소제곱 계산이 단순한 내적 계산으로 바뀌며, 그람-슈미트 과정은 일반 독립 벡터들을 이런 정규직교기저로 바꾸고, 그 결과를 행렬로 표현한 것이 QR 분해이다.

4.4. Orthonormal Bases and Gram-Schmidt

1. 핵심 주제

2. 직교기저와 정규직교기저

3. 정규직교 벡터를 행렬로 모으기

4. QTQ=IQ^TQ = IQTQ=I의 의미

5. 직교행렬

6. 예제 1: 순열행렬

7. 예제 2: 회전행렬 형태의 직교행렬

8. 예제 3: 정규화가 필요한 행렬

9. 예제 4: 하다마드 행렬 형태

10. 직사각형 행렬도 정규직교 열벡터를 가질 수 있다

11. 정규직교 열벡터가 있을 때 투영행렬

12. QQQ가 정사각행렬일 때의 투영

13. 투영행렬의 두 가지 성질

13.1 대칭성

13.2 멱등성

14. 정규직교기저와 정규방정식

15. 정규직교기저에서 좌표는 내적이다

16. 그람-슈미트 과정의 목적

17. 두 벡터에 대한 그람-슈미트

18. 왜 BBB가 AAA와 직교하는가

19. 정규화 단계

20. 세 벡터에 대한 그람-슈미트

21. 그람-슈미트 일반형

22. 수치 예제: 두 벡터의 그람-슈미트

23. 첫 번째 직교 벡터 구하기

24. 두 번째 직교 벡터 구하기

25. 직교성 확인

26. 정규화하기

27. 원래 행렬과 새 행렬의 열공간 관계

28. 그람-슈미트의 의미

29. QR 분해

30. 왜 RRR은 상삼각행렬인가

31. 강의 예제를 QR 분해 관점에서 보기

32. 전체 흐름 요약

32.1 정규직교 열벡터

32.2 직교행렬

32.3 정규직교기저에서 투영

32.4 정규직교기저에서 최소제곱

32.5 그람-슈미트

32.6 QR 분해

33. 직관 정리

34. 꼭 기억해야 할 공식

35. 요약

4. $Q^TQ = I$ 의 의미

12. $Q$ 가 정사각행렬일 때의 투영

18. 왜 $B$ 가 $A$ 와 직교하는가

30. 왜 $R$ 은 상삼각행렬인가