Oct 1, 2025

CS231n Lecture 1 - Introduction

CS231n Lecture 1 내용을 개인 학습용으로 정리한 글이다.

핵심 한 줄 정리

컴퓨터 비전은 픽셀 배열에서 의미를 뽑아내는 문제이며, 현대적 접근은 사람이 규칙을 만들기보다 데이터로 모델을 학습시키는 것이다.

우리 뇌에서 뉴런은 계층 구조를 지닌다. 강의에서는 Hubel과 Wiesel의 고양이 시각 피질 실험을 통해 단순한 선과 모서리에서 점차 복잡한 객체로 인식하는 계층적 구조가 밝혀졌다고 언급한다.
컴퓨터 비전은 이미지를 숫자 배열로 보고 의미를 예측하는 문제이다.
이미지 분류 모델은 픽셀의 표면적 차이를 넘어서 객체의 본질적인 패턴을 학습해야 한다.
데이터 기반 접근은 규칙을 직접 설계하지 않고, 대량의 데이터셋을 통해 모델이 분류 기준을 스스로 학습하게 하는 방식이다. 대표적인 예로 ImageNet이 있다.

선형 분류기(Linear Classifier) 파트에서는 각 이미지를 고차원 공간의 하나의 점으로 나타내고, 고양이와 개 등을 분리하는 초평면(hyperplane)을 찾는 개념이 나온다.

입력 이미지 데이터의 형태가 어떻게 변환되어 다차원 공간의 좌표로 매핑되는지는 다음 강의 수식에서 더 구체적으로 확인할 필요가 있다.

또 하나 헷갈리는 지점은 3D 세계를 2D 이미지로 투영하는 과정이다. 강의에서는 이것을 수학적으로 역연산이 까다로운 불량 조건 문제(ill-posed problem)로 설명한다. 이것이 손실 함수나 모델 학습과 어떻게 연결되는지는 아직 더 정리할 필요가 있다.

아직 없음.

컴퓨터 비전과 자연어 처리(NLP)의 차이점이 아직 완전히 직관적으로 와닿지는 않는다.

언어는 1차원적이고 순차적으로 생성되는 데이터에 가깝다. 반면 비전은 실제 물리 법칙을 따르는 3D 세계가 2D 이미지로 투영된 결과를 다룬다. 이 차이가 모델 구조에 어떻게 다르게 반영되는지 더 확인해야 한다.

또한 선형 모델로는 복잡한 데이터 분포를 나누기 어렵다고 했는데, 이후 추가되는 신경망 계층(Neural Networks)이 구체적으로 어떤 비선형 연산을 거쳐 이 한계를 극복하는지도 아직 모호하다.

14:53: 2D 이미지에서 3D 정보를 복원하는 것이 왜 본질적으로 불량 조건 문제인가? 자연 상태의 생물들은 다중 시각, 예를 들어 두 개의 눈으로 이 문제를 어떻게 극복하는가?
28:44: 과거 사람이 직접 모든 파라미터를 디자인하던 방식, 예를 들어 Neocognitron 등에서 벗어나게 해준 역전파(Backpropagation)는 미적분의 연쇄 법칙(chain rule)을 이용해 어떻게 네트워크 전체의 에러를 스스로 교정해 나가는가?
51:13: 시맨틱 세그멘테이션(Semantic Segmentation), 객체 탐지(Object Detection), 그리고 이 둘을 결합해 개별 객체마다 마스크를 씌우는 인스턴스 세그멘테이션(Instance Segmentation)의 목적과 결과물은 어떻게 다른가?