6.4. Symmetric Matrices

선형대수학 글 목록

연결 강의: MIT 18.06 Linear Algebra - Lecture 25: Symmetric Matrices and Positive Definiteness

1. 이번 강의의 위치

이번 강의는 symmetric matrix, 즉 대칭행렬을 다룬다.

대칭행렬은 선형대수에서 가장 중요한 행렬 종류 중 하나이다. 행렬 AA가 대칭행렬이라는 것은 다음을 의미한다.

A=ATA=A^T

즉 행과 열을 바꾸어도 행렬이 변하지 않는다는 뜻이다.

고유값과 고유벡터를 배운 뒤에는 행렬을 볼 때 자연스럽게 다음 질문을 하게 된다.

  1. 이 행렬의 고유값은 어떤 특징을 가지는가?
  2. 이 행렬의 고유벡터는 어떤 특징을 가지는가?

Markov matrix에서는 고유값 11이 항상 등장했다. 대칭행렬에서도 아주 강력한 성질이 등장한다.

대칭행렬의 핵심 성질은 다음 두 가지이다.

  1. 고유값이 모두 실수이다.
  2. 고유벡터를 서로 직교하도록 잡을 수 있다.

이 두 성질 때문에 대칭행렬은 고유값 분해가 가장 깔끔하게 작동하는 행렬이다.


2. 대칭행렬의 핵심 성질

실수 대칭행렬 A=ATA=A^T에 대해 다음이 성립한다.

2.1 고유값은 모두 실수이다

일반적인 실수 행렬은 복소수 고유값을 가질 수 있다.

예를 들어 90도 회전행렬은 실수 행렬이지만 고유값이 ii, i-i로 나온다.

하지만 대칭행렬에서는 이런 일이 일어나지 않는다.

A=ATλRA=A^T \quad \Longrightarrow \quad \lambda \in \mathbb{R}

즉 대칭행렬의 고유값은 모두 실수이다.

2.2 고유벡터는 서로 직교하도록 선택할 수 있다

대칭행렬의 서로 다른 고유값에 대응하는 고유벡터들은 서로 직교한다.

만약 고유값이 반복되면, 그 고유공간 안에서 직교하는 기저를 선택할 수 있다.

그래서 정확히는 다음처럼 말하는 것이 좋다.

대칭행렬의 고유벡터들은 서로 직교하도록 선택할 수 있다.

예를 들어 항등행렬 II는 모든 고유값이 11로 반복된다.

Ix=1xI x = 1x

항등행렬에서는 모든 벡터가 고유벡터이다. 이때 고유벡터가 자동으로 하나로 정해지는 것은 아니지만, 표준기저처럼 서로 직교하는 고유벡터들을 선택할 수 있다.


3. 일반적인 대각화와 대칭행렬의 대각화

일반적으로 행렬 AAnn개의 독립인 고유벡터를 가지면 다음처럼 대각화할 수 있다.

A=SΛS1A=S\Lambda S^{-1}

여기서 SS는 고유벡터들을 열벡터로 모은 행렬이고, Λ\Lambda는 고유값을 대각성분으로 가지는 대각행렬이다.

S=[x1x2xn]S= \begin{bmatrix} | & | & & | \\ x_1 & x_2 & \cdots & x_n \\ | & | & & | \end{bmatrix} Λ=[λ1000λ2000λn]\Lambda= \begin{bmatrix} \lambda_1 & 0 & \cdots & 0 \\ 0 & \lambda_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n \end{bmatrix}

그런데 AA가 대칭행렬이면 고유벡터를 orthonormal하게 잡을 수 있다.

즉 고유벡터 q1,q2,,qnq_1,q_2,\dots,q_n을 다음처럼 선택할 수 있다.

qiTqj={1,i=j0,ijq_i^T q_j= \begin{cases} 1, & i=j \\ 0, & i\neq j \end{cases}

이 고유벡터들을 열로 모은 행렬은 QQ라고 쓴다.

Q=[q1q2qn]Q= \begin{bmatrix} | & | & & | \\ q_1 & q_2 & \cdots & q_n \\ | & | & & | \end{bmatrix}

QQ는 orthogonal matrix이다.

따라서,

Q1=QTQ^{-1}=Q^T

이다.

그러므로 대칭행렬의 대각화는 다음처럼 더 깔끔해진다.

A=QΛQTA=Q\Lambda Q^T

이 식이 대칭행렬의 핵심 분해이다.


4. Spectral Theorem

대칭행렬에 대해 다음 정리가 성립한다.

A=ATA=QΛQTA=A^T \quad \Longrightarrow \quad A=Q\Lambda Q^T

여기서 QQ는 orthonormal eigenvectors를 열로 갖는 orthogonal matrix이고, Λ\Lambda는 실수 고유값을 대각성분으로 갖는 diagonal matrix이다.

이 정리를 spectral theorem이라고 한다.

spectral theorem은 대칭행렬을 고유값과 고유벡터로 완전히 분해할 수 있다는 뜻이다.

이 분해가 특별히 좋은 이유는 Q1Q^{-1} 대신 QTQ^T가 나오기 때문이다. 역행렬을 따로 계산할 필요 없이 전치만 하면 된다.

또 이 분해는 대칭성도 그대로 보여준다. 실제로,

(QΛQT)T=(QT)TΛTQT=QΛQT(Q\Lambda Q^T)^T = (Q^T)^T \Lambda^T Q^T = Q\Lambda Q^T

이다.

Λ\Lambda는 대각행렬이므로 ΛT=Λ\Lambda^T=\Lambda이고, 따라서 QΛQTQ\Lambda Q^T는 대칭행렬이다.


5. 왜 대칭행렬의 고유값은 실수인가

대칭행렬의 가장 중요한 성질 중 하나는 고유값이 모두 실수라는 점이다.

이를 보이기 위해 고유값 방정식에서 출발한다.

Ax=λxAx=\lambda x

여기서 xx는 0이 아닌 고유벡터이고, λ\lambda는 고유값이다.

처음에는 λ\lambdaxx가 복소수일 수도 있다고 생각하자. 실수 행렬이라도 복소수 고유값이 나올 수 있기 때문이다.

복소수 벡터를 다룰 때는 단순한 전치 xTx^T보다 켤레전치 xˉT\bar{x}^T가 자연스럽다. xˉ\bar{x}는 각 성분의 complex conjugate를 취한 벡터이다.

고유값 방정식의 양변 왼쪽에 xˉT\bar{x}^T를 곱하면 다음이 된다.

xˉTAx=λxˉTx\bar{x}^T A x = \lambda \bar{x}^T x

한편 이 식의 켤레전치 관점에서 보면, 대칭행렬에서는 AT=AA^T=A이므로 같은 왼쪽 항을 λˉ\bar{\lambda}와 연결할 수 있다.

핵심적으로 다음 관계가 나온다.

λxˉTx=λˉxˉTx\lambda \bar{x}^T x = \bar{\lambda} \bar{x}^T x

여기서 중요한 것은 xˉTx\bar{x}^T x가 0이 아니라는 점이다.

실제로,

xˉTx=xˉ1x1+xˉ2x2++xˉnxn\bar{x}^T x = \bar{x}_1x_1+\bar{x}_2x_2+\cdots+\bar{x}_nx_n

이고 각 항은 다음과 같다.

xˉixi=xi2\bar{x}_i x_i=|x_i|^2

따라서,

xˉTx=x12+x22++xn2\bar{x}^T x = |x_1|^2+|x_2|^2+\cdots+|x_n|^2

이다.

xx는 0벡터가 아니므로 이 값은 양수이다.

xˉTx>0\bar{x}^T x>0

따라서 양변에서 xˉTx\bar{x}^T x를 약분할 수 있다.

λ=λˉ\lambda=\bar{\lambda}

복소수가 자기 자신의 켤레와 같다는 것은 허수부가 0이라는 뜻이다.

따라서 λ\lambda는 실수이다.

이것이 대칭행렬의 고유값이 모두 실수인 이유이다.


6. 복소수 행렬에서는 무엇이 대칭행렬에 해당하는가

실수 행렬에서는 좋은 행렬의 조건이 다음이다.

A=ATA=A^T

즉 대칭행렬이다.

하지만 복소수 행렬에서는 단순히 전치만 하면 충분하지 않다. 복소수에서는 켤레도 함께 취해야 한다.

복소수 행렬에서 대칭행렬에 해당하는 좋은 조건은 다음이다.

A=AˉTA=\bar{A}^T

이런 행렬을 Hermitian matrix라고 한다.

Hermitian matrix도 대칭행렬처럼 좋은 성질을 가진다.

  1. 고유값이 실수이다.
  2. 고유벡터를 orthonormal하게 선택할 수 있다.

실수 행렬에서는 Aˉ=A\bar{A}=A이므로 Hermitian 조건은 그냥 대칭조건 A=ATA=A^T로 돌아온다.


7. 대칭행렬을 Projection Matrix들의 합으로 보기

spectral theorem은 다음과 같다.

A=QΛQTA=Q\Lambda Q^T

이를 더 풀어 쓰면 대칭행렬을 rank-one projection matrix들의 합으로 볼 수 있다.

QQ의 열벡터를 q1,q2,,qnq_1,q_2,\dots,q_n이라고 하면,

A=λ1q1q1T+λ2q2q2T++λnqnqnTA= \lambda_1 q_1q_1^T +\lambda_2 q_2q_2^T +\cdots +\lambda_n q_nq_n^T

여기서 qiqiTq_iq_i^Tqiq_i 방향으로의 projection matrix이다.

qiq_i가 단위벡터이므로,

qiTqi=1q_i^Tq_i=1

이고,

(qiqiT)2=qi(qiTqi)qiT=qiqiT(q_iq_i^T)^2 = q_i(q_i^Tq_i)q_i^T = q_iq_i^T

이다.

qiqiTq_iq_i^T는 제곱해도 자기 자신이 되는 projection matrix이다.

따라서 대칭행렬은 서로 직교하는 방향의 projection matrix들을 고유값만큼 가중합한 것으로 볼 수 있다.

이 관점은 대칭행렬이 왜 기하적으로 다루기 좋은지를 보여준다. 서로 직교하는 축 방향으로 분해되기 때문에, 축들이 서로 섞이지 않는다.


8. 대칭행렬에서 Pivot과 Eigenvalue의 부호

대칭행렬에서는 또 하나의 중요한 사실이 있다.

대칭행렬의 pivot 부호 개수와 eigenvalue 부호 개수는 같다.

즉 양수 pivot의 개수는 양수 eigenvalue의 개수와 같고, 음수 pivot의 개수는 음수 eigenvalue의 개수와 같다.

주의할 점은 pivot 자체가 eigenvalue와 같다는 뜻은 아니다.

다만 부호의 개수가 같다는 뜻이다.

예를 들어 어떤 대칭행렬의 pivot 50개 중 28개가 양수이고 22개가 음수라면, 그 행렬의 고유값도 28개가 양수이고 22개가 음수이다.

이 사실은 수치적으로도 중요하다.

고유값을 직접 구하려면 characteristic polynomial을 만들고 그 근을 찾아야 한다. 작은 2×22 \times 2, 3×33 \times 3 행렬에서는 가능하지만, 50×5050 \times 50 행렬에서는 매우 비효율적이고 수치적으로도 불안정하다.

반면 pivot은 elimination으로 훨씬 안정적으로 구할 수 있다.

그래서 pivot의 부호를 보면 고유값의 부호 정보를 알 수 있다.


9. Pivot 곱과 Eigenvalue 곱

pivot과 eigenvalue가 직접 같은 것은 아니다.

하지만 곱은 같다.

행 교환이 없다고 하면 pivot들의 곱은 determinant이다.

detA=d1d2dn\det A=d_1d_2\cdots d_n

여기서 did_i는 pivot이다.

또 eigenvalue들의 곱도 determinant이다.

detA=λ1λ2λn\det A=\lambda_1\lambda_2\cdots\lambda_n

따라서,

d1d2dn=λ1λ2λnd_1d_2\cdots d_n = \lambda_1\lambda_2\cdots\lambda_n

이다.

하지만 이것은 곱이 같다는 뜻이지, 각각의 pivot과 eigenvalue가 일대일로 같다는 뜻은 아니다.


10. Positive Definite Matrix

대칭행렬 중에서도 특히 중요한 하위 클래스가 positive definite matrix이다.

positive definite matrix는 대칭행렬이고, 모든 고유값이 양수인 행렬이다.

A=AT,λi>0(i=1,,n)A=A^T, \qquad \lambda_i>0 \quad (i=1,\dots,n)

대칭행렬의 고유값은 모두 실수이므로, 이제 그 실수들이 양수인지 음수인지가 중요해진다.

positive definite matrix는 미분방정식, 최적화, 최소제곱, 에너지 함수 등에서 매우 자주 등장한다.

positive definite matrix의 핵심 판별 조건은 다음과 같이 볼 수 있다.

  1. 모든 고유값이 양수이다.
  2. 모든 pivot이 양수이다.
  3. 모든 leading principal minor가 양수이다.

여기서 leading principal minor는 왼쪽 위에서부터 잡은 부분행렬의 determinant이다.


11. Positive Definite 예시

다음 행렬을 생각하자.

A=[5223]A= \begin{bmatrix} 5 & 2 \\ 2 & 3 \end{bmatrix}

이 행렬은 대칭행렬이다.

A=ATA=A^T

먼저 pivot을 보자.

첫 번째 pivot은 5이다.

d1=5d_1=5

두 번째 pivot은 determinant와 pivot 곱의 관계로 구할 수 있다.

행렬식은 다음이다.

detA=5322=154=11\det A=5\cdot 3-2\cdot 2=15-4=11

pivot 곱은 determinant와 같으므로,

d1d2=11d_1d_2=11

따라서,

d2=115d_2=\frac{11}{5}

두 pivot이 모두 양수이다.

5>0,115>05>0, \qquad \frac{11}{5}>0

따라서 이 행렬은 positive definite이다.

고유값도 실제로 모두 양수이다.

characteristic polynomial은 다음과 같다.

λ28λ+11=0\lambda^2-8\lambda+11=0

여기서 trace는 8이고 determinant는 11이다.

해는 다음이다.

λ=4±5\lambda = 4\pm\sqrt{5}

두 값은 모두 양수이다.

45>0,4+5>04-\sqrt{5}>0, \qquad 4+\sqrt{5}>0

따라서 pivot 판별과 eigenvalue 판별이 일치한다.


12. Determinant만 양수이면 충분하지 않다

positive definite인지 확인할 때 전체 determinant만 보면 안 된다.

예를 들어 다음 행렬을 보자.

B=[1003]B= \begin{bmatrix} -1 & 0 \\ 0 & -3 \end{bmatrix}

이 행렬의 determinant는 양수이다.

detB=(1)(3)=3>0\det B=(-1)(-3)=3>0

하지만 이 행렬은 positive definite가 아니다.

고유값은 다음과 같다.

λ1=1,λ2=3\lambda_1=-1, \qquad \lambda_2=-3

둘 다 음수이다.

pivot도 다음과 같다.

d1=1,d2=3d_1=-1, \qquad d_2=-3

따라서 pivot이 모두 양수가 아니다.

이 예시는 전체 determinant만 양수라고 해서 positive definite가 되는 것은 아님을 보여준다.

2×22 \times 2 대칭행렬에서는 다음 두 조건을 확인해야 한다.

  1. 왼쪽 위 첫 번째 성분이 양수이다.
  2. 전체 determinant가 양수이다.

즉 leading principal minors가 모두 양수여야 한다.

a11>0,detA>0a_{11}>0, \qquad \det A>0

일반적인 n×nn \times n 대칭행렬에서는 왼쪽 위 1×11\times 1, 2×22\times 2, \dots, n×nn\times n 부분행렬의 determinant가 모두 양수여야 한다.


13. 이번 강의의 핵심 정리

대칭행렬은 다음 조건을 만족하는 행렬이다.

A=ATA=A^T

대칭행렬의 가장 중요한 성질은 다음이다.

  1. 고유값이 모두 실수이다.
  2. 고유벡터를 orthonormal하게 선택할 수 있다.
  3. 따라서 A=QΛQTA=Q\Lambda Q^T로 분해된다.

이 분해를 spectral theorem이라고 한다.

A=QΛQTA=Q\Lambda Q^T

또 대칭행렬은 다음처럼 projection matrix들의 합으로도 볼 수 있다.

A=λ1q1q1T+λ2q2q2T++λnqnqnTA= \lambda_1q_1q_1^T +\lambda_2q_2q_2^T +\cdots +\lambda_nq_nq_n^T

대칭행렬에서는 pivot의 부호 개수와 eigenvalue의 부호 개수가 같다.

이 사실은 positive definite matrix와 연결된다.

positive definite matrix는 모든 고유값이 양수인 대칭행렬이다.

λi>0(i=1,,n)\lambda_i>0 \quad (i=1,\dots,n)

이를 확인하는 방법은 여러 가지이다.

  1. 모든 고유값이 양수인지 확인한다.
  2. 모든 pivot이 양수인지 확인한다.
  3. 모든 leading principal minor가 양수인지 확인한다.

결국 이번 강의는 선형대수의 여러 조각이 하나로 모이는 지점이다.

초반에 배운 pivot, 중간에 배운 determinant, 후반에 배운 eigenvalue가 대칭행렬과 positive definite matrix에서 서로 연결된다.