기금넷 공식사이트 - 복권 조회 - LSTM (장기 및 단기 메모리 네트워크) 에 대한 시각적 이해

LSTM (장기 및 단기 메모리 네트워크) 에 대한 시각적 이해

장기 단기 신경망은 특수한 재귀 신경망이다. 재귀 신경망이란 인터넷이 시계열 문제를 해결할 수 있다는 예측이다. 재귀 신경망이란 순환 구조를 가진 네트워크이다. 재귀 신경망은 어느 정도 전통적인 신경망과 완전히 다른 것은 아니다. 재귀 신경망은 여러 층의 동일한 네트워크 구조를 가진 신경망으로 간주될 수 있으며, 각 계층은 다음 단계로 정보를 전달합니다 (다음은 이해하기 쉬운 몇 가지 그림을 참조로 사용).

위의 다이어그램은 다이어그램이므로 네트워크 프레젠테이션을 쉽게 이해할 수 있습니다. 사실, 네트워크 구조는 위 그림의 왼쪽에 있는 작은 조각일 뿐입니다.

보통의 RNN 은 장기 기억이 필요한 기능을 해결할 수 없다. 예를 들어, "나는 프랑스에서 자랐다 ... 나는 유창한 프랑스어를 말한다" 는 마지막 단어를 예측하려고 노력한다. 。 최근 정보에 따르면 다음 단어는 한 언어의 이름일 수 있지만 선택 범위를 좁히려면' 프랑스' 의 컨텍스트를 포함시키고 이전 정보에서 다음 단어를 추론해야 한다. 관련 정보와 예측 위치 사이의 간격이 매우 클 수 있습니다. 하지만 RNNs 는 이 문제를 해결할 방법이 없습니다.

효과가 좋은 재귀 신경망으로서 LSTM 은 장기 시계열 문제를 잘 해결할 수 있는 능력을 갖추고 있다.

LSTM 도 이러한 체인 구조를 가지고 있지만 반복 모듈 내부의 메커니즘은 다릅니다. 자세한 내용은 다음과 같습니다.

4 개의 내부 네트워크의 구체적인 의미를 설명하십시오.

주로 세포 상태+임계값으로 나뉜다.

단위 상태: 정보를 일정한 방식으로 아래로 흐르게 하는 것은 컨베이어 벨트와 맞먹는다. 그러나 컨베이어 벨트의 물건은 당시의 입력에 따라 반복되는 각 모듈을 통과하면서 증가하거나 줄어든다.

임계값: 세포 상태에 정보를 추가하거나 제거할 수 있는 관리 조직으로 컨베이어 벨트에 물건을 넣거나 물건을 가져가는 사람과 같습니다. 이 프로세스는 LSTM 의 sigmoid 함수와 곱셈 덧셈에 의해 제어됩니다.

위 그림은 현재 시간의 입력과 이전 시간의 출력을 통해 셀 상태에 sigmoid 함수의 출력을 곱합니다. Sigmoid 함수가 0 을 출력하면 이 정보 부분은 잊혀져야 합니다. 그렇지 않으면 이 정보 부분은 계속해서 세포 상태에서 릴레이됩니다.

임계값 기능은 이전 유닛 상태를 업데이트하는 것입니다. 이전의 잊혀진 임계값 계층은 잊거나 추가할 정보를 결정하며, 이 임계값 레이어는 이 기능을 구현합니다.

마지막으로, 우리는 우리가 수출해야 할 것을 결정해야 한다. 출력은 셀 상태를 기반으로 하지만 필터링된 버전입니다. 먼저 sigmoid 레이어를 실행하여 출력해야 할 셀 상태 부분을 결정합니다. 그런 다음 세포 상태를 tanh 함수에 입력 (값을-1 에서 1 사이로 변환) 한 다음 출력 sigmoid 임계값을 곱하여 출력될 부분만 출력합니다.

앞서 언급한 것은 매우 전통적인 LSTM 네트워크입니다. LSTM 에는 많은 다른 품종이 있다. 여기 몇 가지가 있습니다.

커플 링 망각과 입력 임계값을 사용하는 것입니다. 우리는 무엇을 잊어야 할지, 어떤 새로운 정보를 추가하는지 따로 결정하지 않고 함께 결정을 내린다. 들어갈 때만 잊는다. 일부 오래된 정보가 잊혀진 경우에만 새 값이 상태에 추가됩니다.

잊혀진 임계값과 입력 임계값을 하나의 "업데이트 임계값" 으로 결합합니다. 마찬가지로 셀 상태와 숨기기 상태를 병합하고 몇 가지 다른 변경 작업을 수행합니다. 얻은 모델은 점점 더 유행하고 있는 표준 LSTM 모델보다 간단하다.