728x90

오늘은 CNN, ML 알고리즘에서 많이 보이는 Norm에 대해 간단히 정리하려고 합니다.

 

 

일반적으로 Deep Learning에서 network의 Overfitting(과적합) 문제를 해결하는 방법으로 3가지 방법을 제시합니다.

 

1. 더 많은 data를 사용

2. Cross validation

3. Regularization

 

 *2번의 cross validation(교차 검증)

- 모든 데이터가 최소 한 번은 test set으로 사용하도록 함

- Training set과 Test set을 분리하여 training set에서 모델의 계수를 추정한 후, test set으로 성능을 평가

 

test set을 어떻게 잡느냐에 따라 성능이 아주 상이하게 나올 경우 우연으로 모델 평가 지표에 편향이 생기게 됨 

cross validiation은 모든 data를 test set으로 사용하기 때문에 편향을 줄일 수 있음

 

장점

- 총 데이터 갯수가 적은 data set에서 정확도 향상 가능 (데이터 추가하지 않고 overfitting 해결 가능)

 

 

 

다시 돌아와서, 더 이상 data 추가가 어렵거나, 학습 data를 늘려도 overfitting 문제가 해결되지 않을 때 

3번 Regularization을 사용합니다. 이 Regularization은 lose function을 변형시켜 사용합니다.

 

 

Regularization(정규화)

 

- Regulaization을 통해 특정 값을 가지는 outlier의 영향을 적게 받도록 하여 일반화에 적합한 특성을 갖게 만드는 것

- Regularization은 L1과 L2로 나뉨

 

 

• L1 Regularization

- L1 Regularization은 1차항

- C0: 원래의 cost function

- n: training data의 개수

- λ: regularization 변수

- w: weight

- w에 대해서 편미분 수행 시 

- 상수 값을 빼기 때문에 작은 가중치들은 거의 0으로 수렴 (몇 개의 중요한 가중치만 남음)

- 몇 개의 의미 있는 값을 내고 싶을 때에 효과적

 

 

 

• L2 Regularization

- 학습의 방향을 단순히 C0값이 작아지는 방향으로만 진행시키는 것이 아니라 w값 역시 최소로 작아지는 방향으로 진행

- 새롭게 정의된 cost function을 가중치 w에 대해 편미분 수행 시

- 특정 가중치가 비 이상적으로 커지고, 학습 효과에 큰 영향을 끼치는 것을 방지할 수 있음

 

 

 

 

NORM

 

norm이란?

- 수학적으로 벡터 공간 또는 행렬에 있는 모든 벡터의 전체 크기

- 단순화를 위해 표준이 높을수록 행렬 또는 벡터의 값이 커짐

p: norm의 차수 (p의 차수에 따라 L0, L1, L2결정)

n: 대상 벡터의 요소 수

 

 

 

• L0 Norm

 

- 실제로는 norm이 아님

- 벡터의 0이 아닌 요소의 총 수에 해당

- ex) v(0,0), v(0,2)의 L0 norm의 개수: 1개 (0이 아닌 요소가 1개뿐이기 때문)

L0 norm 예시

 

 

 

• L1 Norm

 

- Manhattan Distance 또는  Taxicab norm으로 많이 알려짐

- 벡터의 요소에 대한 절대 값

- 벡터 사이의 거리를 측정

- 벡터의 모든 구성 요소에 동일한 가중치가 적용됨

 

- L1 Regularization, computer vision 영역에서 사용

 

- 출발지(0,0)에서 목적지(3,4)에 도착하기 위해 블록 사이를 여행하며 거리를 측정하는 방식

- vector X = [3,4] = 7

 

 

 

 

 

• L2 Norm

- Euclidean norm이라고도 알려진 가장 일반적인 Norm

- 한 지점에서 다른 지점으로 갈 때의 가장 짧은 거리를 측정

- L2 Norm은 가장 직접적인 경로

- L2 Regularization, KNN알고리즘, K-means 알고리즘에서 사용

- *고려할 점: 벡터의 각 구성 요소가 제곱이 되어있기 때문에 결과 값의 왜곡 가능성이 있음

 

 

 

• L - Infinity Norm

 

- 벡터 요소 중 가장 큰 크기를 제공

- vector X = [-6,4,2] 일 때, L - Infinity Norm = 6

- 가장 큰 요소만 효과가 있음

- Color pixel에서 R, G, B 최대 차이 계산에 사용

 

 

 

 

• Maximum Norm

 

- p값을 무한대로 보냈을 때의 norm

- 벡터 성분의 최댓값

 

 

 

 

 

'IT > GAN' 카테고리의 다른 글

Latent space 간단 정리  (0) 2019.08.03
Mode collapse 아주 간단 정리  (0) 2019.08.03
VAE & GAN 간단 비교  (0) 2019.06.28

+ Recent posts