딥러닝
딥러닝
-
CS231n Lecture 3 - Regularization and Optimization
Regularization의 목적, L1/L2 정규화, gradient descent, SGD, momentum, RMSProp, Adam과 learning rate schedule
-
Assignment 1: kNN classifier
kNN 구현, training, testing, cross-validation
-
CS231n Lecture 2 - Image Classification with Linear Classifiers
이미지 분류 문제, 데이터 기반 접근, Nearest Neighbor와 K-NN, 선형 분류기의 입력 shape와 score 계산 정리
-
CS231n Lecture 1 - Introduction
컴퓨터 비전의 문제 정의, 데이터 기반 접근, 이미지 분류와 딥러닝으로 이어지는 흐름 정리
-
Transformer
Self-Attention을 기반으로 한 Transformer 구조, Encoder, Decoder, Masked Self-Attention과 Cross-Attention 정리
-
Self-Attention
일반 Attention에서 Self-Attention으로 넘어가는 관점 전환과 Q, K, V의 역할을 정리한다.
-
Attention 직관
Decoder의 잠정 상태, attention score, attention weight, context vector 흐름 직관
-
Attention
seq2seq의 고정 길이 벡터 한계를 보완하는 Attention 구조와 WeightSum, AttentionWeight, TimeAttention 구현 정리
-
RNN 문장 생성 텐서 형상
RNN 문장 생성 과정에서 입력 임베딩, LSTM, 출력층, softmax까지의 텐서 형상을 정리한다.
-
RNN을 사용한 문장 생성
RNN 언어 모델을 이용한 문장 생성, seq2seq, Encoder-Decoder 구조와 Peeky 개선
-
Gated RNN
기본 RNN의 장기 의존성 문제와 LSTM의 게이트 구조, TimeLSTM 구현, RNNLM 개선 방법
-
RNN
순환 신경망의 구조, BPTT와 Truncated BPTT, TimeRNN과 RNN 언어 모델
-
Embedding과 Negative Sampling
CBOW에서 Embedding 계층과 Negative Sampling을 사용해 계산량을 줄이는 과정
-
CBOW
CBOW의 구조, 임베딩 벡터와 NLL 손실, skip-gram과의 차이, 통계 기반 기법과 추론 기반 기법의 차이
-
PMI, SVD
단어 동시발생 빈도의 고빈도 편향 문제, PMI와 PPMI, PPMI 행렬에 SVD를 적용해 단어 벡터를 만드는 흐름
-
합성곱 신경망(CNN)
CNN의 기본 구조, 합성곱 연산, 패딩, 스트라이드, 3차원 합성곱, 배치 처리와 풀링 계층
-
배치 정규화
배치 정규화의 정의, 필요성, 순전파와 역전파 계산, 학습 안정화 효과
-
과대적합(Overfit) 해결
과대적합의 정의와 발생 상황, 가중치 감소와 드롭아웃을 통한 해결 방법
-
매개변수 갱신
SGD의 한계와 Momentum, AdaGrad를 통한 매개변수 갱신 방법
-
가중치 초깃값 설정
신경망 학습에서 가중치 초깃값이 중요한 이유와 Xavier 초기화, He 초기화의 직관
-
행렬 곱 역전파에서 전치행렬이 등장하는 이유
z = Wx 형태의 행렬 곱 노드에서 역전파 시 W의 전치행렬이 등장하는 과정
-
곱셈 노드의 역전파
계산 그래프에서 곱셈 노드가 역전파 시 입력과 기울기를 어떻게 전달하는지 정리한다.