연결 강의: MIT 18.06 Linear Algebra - Lecture 33: Left and Right Inverses; Pseudoinverse
1. 이번 강의의 위치
이번 강의는 left inverse, right inverse, pseudoinverse를 다룬다.
표면적으로는 inverse 이야기이지만, 실제로는 선형대수의 핵심 그림인 네 기본 부분공간을 다시 보는 강의이다.
행렬 가 이고 rank가 라고 하자. 그러면 네 기본 부분공간은 다음과 같다.
- row space: , dimension
- null space: , dimension
- column space: , dimension
- left null space: , dimension
이 네 공간은 다음처럼 짝을 이룬다.
여기서 는 두 부분공간의 direct sum을 뜻한다. 즉 의 모든 벡터는 row space 성분과 null space 성분으로 나뉘고, 의 모든 벡터는 column space 성분과 left null space 성분으로 나뉜다.
inverse가 어려워지는 이유는 null space 때문이다. 어떤 벡터가 에 의해 으로 가면, inverse가 그 정보를 다시 살려낼 방법이 없다.
2. 완전한 Inverse: Square Full Rank
가장 좋은 경우는 가 square matrix이고 full rank인 경우이다.
즉
인 경우이다.
이때 는 양쪽 inverse를 가진다.
이 경우는 우리가 보통 말하는 invertible matrix이다. row space와 column space가 각각 전체 공간이고, null space와 left null space는 모두 zero vector만 가진다.
따라서 는 정보를 잃지 않는다. 를 로 보냈다가 다시 로 되돌릴 수 있다.
3. Full Column Rank와 Left Inverse
이제 가 rectangular matrix라고 하자.
먼저 full column rank인 경우를 보자.
이는 의 개 column이 independent라는 뜻이다. 보통 이 경우에는 row 수가 column 수보다 많다.
예를 들어 matrix가 rank 라면 full column rank이다.
이때 null space는 zero vector만 가진다.
왜냐하면 은 column들의 linear combination이 이 되는 식인데, column들이 independent이면 모든 coefficient가 이어야 하기 때문이다.
이 경우 는 항상 풀리지는 않는다. 가 column space 안에 있어야 해가 있다. 하지만 해가 있다면 그 해는 유일하다. null space에 더할 nonzero vector가 없기 때문이다.
정리하면 full column rank에서는 다음이 성립한다.
- columns are independent
- 는 해가 없거나 하나이다
- 가 invertible이다
4. 왜 가 중요해지는가
full column rank일 때 중요한 행렬은 이다.
가 이면 는 square matrix이다.
그리고 는 symmetric matrix이다.
또한 가 full column rank이면 는 invertible이다.
이 사실은 least squares에서 핵심이었다. least squares의 normal equation은 다음과 같았다.
가 invertible이면 최소제곱해는 다음처럼 주어진다.
여기서 등장하는
가 바로 full column rank matrix의 left inverse이다.
5. Left Inverse
full column rank인 matrix 에 대해 left inverse를 다음처럼 정의할 수 있다.
이 행렬의 크기는 이다.
이제 의 왼쪽에 곱하면 identity가 나온다.
그래서 이름이 left inverse이다. inverse 역할을 하려면 의 왼쪽에 있어야 한다.
하지만 반대 순서로 곱하면 identity가 나오지 않는다.
이 행렬은 우리가 projection에서 본 행렬이다.
즉
이고, 이 는 column space 로의 projection matrix이다.
full column rank에서 이지만, 은 이 아니라 column space로의 projection이다.
직관적으로 말하면, 는 에서 로는 정보를 잃지 않고 보내지만, 전체를 다 덮지는 못한다. 그래서 반대 방향에서는 column space 밖의 성분이 projection으로 사라진다.
6. Full Row Rank와 Right Inverse
이번에는 반대 경우를 보자.
가 full row rank이면
이다. 즉 개의 row가 independent이다. 보통 이 경우에는 column 수가 row 수보다 많다.
이때 left null space는 zero vector만 가진다.
row들이 independent이므로 elimination 과정에서 zero row가 생기지 않는다. 따라서 는 모든 에 대해 적어도 하나의 해를 가진다.
하지만 column이 더 많기 때문에 자유변수가 생긴다. null space의 dimension은 다음과 같다.
따라서 는 항상 풀리지만, 보통 해가 무한히 많다.
정리하면 full row rank에서는 다음이 성립한다.
- rows are independent
- 는 항상 해를 가진다
- 자유변수는 개이다
- 가 invertible이다
7. Right Inverse
full row rank인 matrix 에 대해 right inverse는 다음처럼 쓸 수 있다.
이 행렬의 크기는 이다.
이번에는 의 오른쪽에 곱하면 identity가 나온다.
그래서 right inverse이다.
하지만 반대 순서로 곱하면 identity가 나오지 않는다.
이 행렬은 row space 로의 projection이다.
full row rank에서 이지만, 는 이 아니라 row space로의 projection이다.
8. 세 가지 경우를 비교하기
지금까지 본 inverse의 종류를 정리하면 다음과 같다.
| 경우 | rank 조건 | 사라지는 null space | inverse |
|---|---|---|---|
| square full rank | , | two-sided inverse | |
| full column rank | left inverse | ||
| full row rank | right inverse |
문제는 가장 일반적인 경우이다.
이때는 도 있고, 도 있다. 따라서 left inverse도 right inverse도 완전한 의미로는 존재하지 않는다.
하지만 그래도 가장 좋은 inverse 비슷한 것을 만들 수 있다. 그것이 pseudoinverse이다.
9. 일반적인 경우: Pseudoinverse의 아이디어
일반적인 rank matrix에서는 null space들이 inverse를 방해한다.
만약 어떤 nonzero vector 가 에 있다면
이다. 가 를 으로 보내버렸기 때문에, inverse가 만 보고 원래 를 복원할 수 없다.
하지만 중요한 사실이 하나 있다.
를 row space에서 column space로 제한해서 보면, 는 완벽하게 invertible하게 행동한다.
즉
는 one-to-one이고 onto이다.
row space와 column space는 둘 다 dimension이 이다. 그리고 row space 안의 서로 다른 벡터는 에 의해 column space 안의 서로 다른 벡터로 간다.
이 대응을 거꾸로 돌리는 것이 pseudoinverse의 핵심이다.
여기서 가 pseudoinverse이다.
10. 왜 Row Space에서는 One-to-One인가
강의에서 강조한 핵심 증명을 정리하자.
와 가 row space 안의 서로 다른 벡터라고 하자.
우리는 와 도 서로 다르다는 것을 보이고 싶다.
반대로 라고 가정하자. 그러면
이다. 따라서 는 null space에 있다.
그런데 와 가 row space에 있으므로, 그 차이 도 row space에 있다.
따라서 는 row space와 null space의 교집합에 있다.
하지만 row space와 null space는 orthogonal complement이다. 둘의 교집합은 zero vector뿐이다.
그러므로
이고, 결국 이다.
즉 row space 안에서는 서로 다른 벡터가 에 의해 서로 다른 벡터로 간다. 이 말은 가 row space에서 column space로 가는 perfect mapping이라는 뜻이다.
11. Pseudoinverse가 하는 일
pseudoinverse 는 진짜 inverse가 할 수 없는 일을 최대한 잘 흉내 낸다.
는 row space에서 column space로 간다.
는 이 방향을 되돌린다.
반면 null space와 left null space의 성분은 되살릴 수 없다. 그래서 pseudoinverse는 그 성분들을 없애고, row space와 column space 사이의 invertible한 부분만 뒤집는다.
이 관점에서 보면 는 “진짜 inverse가 없는 행렬에 대해, 가능한 부분만 정확히 뒤집는 행렬”이다.
12. SVD로 Pseudoinverse 구하기
pseudoinverse를 가장 깔끔하게 구하는 방법은 SVD를 사용하는 것이다.
의 SVD를 다음처럼 쓰자.
여기서 와 는 orthogonal matrix이고, 는 diagonal 형태의 matrix이다.
rank가 이면 에는 개의 nonzero singular value가 있다.
여기서
이다.
문제의 핵심은 의 pseudoinverse를 만드는 것이다. nonzero singular value는 뒤집고, zero는 그대로 둔다.
주의할 점은 가 이면 는 이라는 것이다. 모양이 transpose처럼 바뀐다.
그러면 의 pseudoinverse는 다음이다.
이 식이 SVD가 pseudoinverse를 가장 자연스럽게 만들어 주는 이유이다. 와 는 orthogonal matrix라서 inverse가 transpose이고, 어려운 부분은 의 diagonal entry를 뒤집는 일뿐이다.
13. 와
는 일반적으로 rectangular이고 rank가 부족하므로 완전한 inverse를 가질 수 없다.
하지만 와 는 중요한 projection matrix가 된다.
먼저
는 matrix이고, 앞쪽 개의 diagonal entry가 , 나머지가 인 matrix가 된다.
이는 column space 쪽으로의 projection에 해당한다.
반대로
는 matrix이고, 역시 앞쪽 개의 diagonal entry만 인 projection matrix이다.
크기는 다르다. 첫 번째는 안의 projection이고, 두 번째는 안의 projection이다.
로 돌아오면 다음과 같은 의미가 된다.
는 column space 로의 projection이다.
는 row space 로의 projection이다.
완전한 identity는 아니지만, 행렬이 실제로 정보를 가지고 있는 좋은 부분공간에서는 identity처럼 작동한다.
14. Left/Right Inverse와 Pseudoinverse의 연결
pseudoinverse는 일반적인 rank-deficient matrix를 위한 개념이지만, 앞에서 본 left inverse와 right inverse도 포함한다.
full column rank이면 가 invertible이고, pseudoinverse는 left inverse와 같다.
full row rank이면 가 invertible이고, pseudoinverse는 right inverse와 같다.
square full rank이면 pseudoinverse는 ordinary inverse와 같다.
따라서 pseudoinverse는 inverse 개념을 가장 일반적인 matrix까지 확장한 것이다.
15. Least Squares와 Pseudoinverse
least squares에서는 full column rank일 때 다음 공식을 썼다.
하지만 column들이 dependent이면 가 singular가 된다. 이때는 위 공식을 그대로 쓸 수 없다.
통계학이나 데이터 분석에서는 이런 상황이 자주 생긴다. 관측값이 반복되거나, feature들이 서로 dependent하면 column rank가 부족해질 수 있다.
이때 pseudoinverse를 사용하면 다음처럼 쓸 수 있다.
이 해는 가능한 해들 중에서 가장 자연스러운 least squares 해를 준다. 특히 해가 여러 개 있을 때는 row space 안의 최소 길이 해를 선택한다.
그래서 pseudoinverse는 통계학의 linear regression, 데이터 분석, numerical linear algebra에서 매우 중요하다.
16. 정리
이번 강의의 핵심은 inverse를 네 기본 부분공간 관점에서 다시 보는 것이다.
square full rank matrix에서는 ordinary inverse가 있다.
full column rank matrix에서는 left inverse가 있다.
full row rank matrix에서는 right inverse가 있다.
일반적인 rank matrix에서는 완전한 inverse는 없지만, row space와 column space 사이의 invertible한 부분을 뒤집는 pseudoinverse가 있다.
그리고 이때 곱셈 결과는 identity가 아니라 projection이다.
즉 pseudoinverse는 null space 때문에 잃어버린 정보는 복원하지 못하지만, 행렬이 실제로 정보를 보존하는 row space와 column space 사이에서는 가장 좋은 inverse로 작동한다.