반응형
Notice
Recent Posts
Recent Comments
Link
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Tags more
Archives
Today
Total
관리 메뉴

코딩몬

[광주인공지능학원] 오차 역전파 본문

Deep Learning

[광주인공지능학원] 오차 역전파

탄중이 2021. 7. 18. 18:15
반응형

순전파

력 데이터를 입력층에서부터 출력층까지 정뱡향으로 이동시키며 출력 값을 추론해나가는 과정(예측, 추론)

순전파는 입력층에서 전달 되는 모든 값이 은닉층을 통해 출력층까지 전달되는 방식이다.

입력층 -> 은닉층 -> 출력층 순으로 순서대로 다음 층으로 이동.

순전파는 순서대로 진행되며 마지막에 결과 값이 나오기 때문에 결과를 이용해 가중치 조절을 할 수 없다.

 

역전파

출력층에서 발생한 에러(오차값)를 입력층 쪽으로 전파시키면서 최적의 결과를 학습해나가는 과정(학습)

역전파는 사슬 규칙을 이용하는 기울기 기반 최적화 알고리즘에 따라인공신경망을 효율적으로 훈련하는데 사용되는 방법이다.

이 역전파의 주요 특징은 학습 중인 작업을 수행할 수 있을 때까지 네트워크를 개선하기 위해 가중치 업데이트를 계산하는 반복적이고 재귀적이며 효율적인 방법이다.

역전파는 네트워크 설계 시 활성화 함수의 파생물을 알아야 한다. 자동 미분은 파생물을 훈련 알고리즘에 자동 및 분석적으로 제공할 수 있는 기술이다.

 

 

기울기 소실 문제 Vanishing Gradient

sigmoid 함수는 오차가 최대 0.3이기 때문에 층이 깊어질 수록 오차가 0에 수렴을 하게 되어 학습을 할 수 없어진다.

깊은 인공 신경망을 학습하다보면 역전파 과정에서 입력층으로 갈 수록 기울기(Gradient)가 점차적으로 작아지는 현상이 발생할 수 있습니다. 입력층에 가까운 층들에서 가중치들이 업데이트가 제대로 되지 않으면 결국 최적의 모델을 찾을 수 없게 됩니다. 이를 기울기 소실(Gradient Vanishing)이라고 합니다.

 

문제 원인의 한 예로 기존 하이퍼몰릭 탄젠트 함수 와 같은 범위는 (0, 1) 범위의 기울기를 가지며 역전파는 연쇄규칙 에 따라 기울기를 계산합니다 . 

이것은 n- 계층 네트워크 에서 초기 계층의 기울기를 계산하기 위해 이러한 작은 수 중 n 을 곱하는 효과가 있습니다.

즉, 기울기(오차 신호) 는 초기 계층이 매우 느리게 훈련하는 동안 n 과 함께 기하급수적으로 감소합니다 .

 

 

www.smhrd.or.kr

 

스마트인재개발원

4차산업혁명시대를 선도하는 빅데이터, 인공지능, 사물인터넷 전문 '0원' 취업연계교육기관

www.smhrd.or.kr

 

반응형
Comments