CS231n Lecture 1 내용을 개인 학습용으로 정리한 글이다.
핵심 한 줄 정리
컴퓨터 비전은 픽셀 배열에서 의미를 뽑아내는 문제이며, 현대적 접근은 사람이 규칙을 만들기보다 데이터로 모델을 학습시키는 것이다.
반드시 기억할 개념
- 우리 뇌에서 뉴런은 계층 구조를 지닌다. 강의에서는 Hubel과 Wiesel의 고양이 시각 피질 실험을 통해 단순한 선과 모서리에서 점차 복잡한 객체로 인식하는 계층적 구조가 밝혀졌다고 언급한다.
- 컴퓨터 비전은 이미지를 숫자 배열로 보고 의미를 예측하는 문제이다.
- 이미지 분류 모델은 픽셀의 표면적 차이를 넘어서 객체의 본질적인 패턴을 학습해야 한다.
- 데이터 기반 접근은 규칙을 직접 설계하지 않고, 대량의 데이터셋을 통해 모델이 분류 기준을 스스로 학습하게 하는 방식이다. 대표적인 예로 ImageNet이 있다.
헷갈린 수식과 shape
선형 분류기(Linear Classifier) 파트에서는 각 이미지를 고차원 공간의 하나의 점으로 나타내고, 고양이와 개 등을 분리하는 초평면(hyperplane)을 찾는 개념이 나온다.
입력 이미지 데이터의 형태가 어떻게 변환되어 다차원 공간의 좌표로 매핑되는지는 다음 강의 수식에서 더 구체적으로 확인할 필요가 있다.
또 하나 헷갈리는 지점은 3D 세계를 2D 이미지로 투영하는 과정이다. 강의에서는 이것을 수학적으로 역연산이 까다로운 불량 조건 문제(ill-posed problem)로 설명한다. 이것이 손실 함수나 모델 학습과 어떻게 연결되는지는 아직 더 정리할 필요가 있다.
과제에서 확인할 것
아직 없음.
내가 막힌 부분
컴퓨터 비전과 자연어 처리(NLP)의 차이점이 아직 완전히 직관적으로 와닿지는 않는다.
언어는 1차원적이고 순차적으로 생성되는 데이터에 가깝다. 반면 비전은 실제 물리 법칙을 따르는 3D 세계가 2D 이미지로 투영된 결과를 다룬다. 이 차이가 모델 구조에 어떻게 다르게 반영되는지 더 확인해야 한다.
또한 선형 모델로는 복잡한 데이터 분포를 나누기 어렵다고 했는데, 이후 추가되는 신경망 계층(Neural Networks)이 구체적으로 어떤 비선형 연산을 거쳐 이 한계를 극복하는지도 아직 모호하다.
나중에 다시 볼 질문
-
14:53: 2D 이미지에서 3D 정보를 복원하는 것이 왜 본질적으로 불량 조건 문제인가? 자연 상태의 생물들은 다중 시각, 예를 들어 두 개의 눈으로 이 문제를 어떻게 극복하는가?
-
28:44: 과거 사람이 직접 모든 파라미터를 디자인하던 방식, 예를 들어 Neocognitron 등에서 벗어나게 해준 역전파(Backpropagation)는 미적분의 연쇄 법칙(chain rule)을 이용해 어떻게 네트워크 전체의 에러를 스스로 교정해 나가는가?
-
51:13: 시맨틱 세그멘테이션(Semantic Segmentation), 객체 탐지(Object Detection), 그리고 이 둘을 결합해 개별 객체마다 마스크를 씌우는 인스턴스 세그멘테이션(Instance Segmentation)의 목적과 결과물은 어떻게 다른가?