기금넷 공식사이트 - 복권 조회 - 간단히 말해서, RNN 은

간단히 말해서, RNN 은

RNN 은 자연어 처리 분야의 심도 있는 학습을 위한 오래된 신경 네트워크이다. NLP 분야에서 신경망 기술의 발전 방향을 정했고, 명성도 CNN 에만 국한됐다. 요 몇 년 동안 거의 나타나지 않았지만 강호에서의 지위는 줄어들지 않았다. 심지어 인기 스타 GRU 와 LSTM 도 그 변종이다.

RNN(Recurrent Neural Networks), 재귀 신경망은 모델이 각 입력을 반복하는 것을 의미하며, 각 반복을 시간 (공식에서 "t" 로 축약됨) 이라고 합니다. 그림 1 에서 등호 오른쪽에는 RNN 의 플랫 패턴 입력, (~) 이 있습니다. 숨겨진 레이어 루프 처리 후 매번 출력, (~) 및 숨겨진 상태, 즉 숨겨진 레이어 대 입력 학습 결과가 다음 입력 매개변수로 숨겨진 레이어 (빨간색 화살표) 에 전달됩니다.

전 연결층에서 RNN 은 선형 레이어로 구성되어 있다고 언급했습니다. 정확하게 RNN 의 입력 레이어, 숨겨진 레이어, 출력 레이어는 1 의 화살표이며 모두 완전히 연결된 레이어입니다.

이 기사에서는 RNN 을 다시 작성하여 얕은 것에서 깊이 RNN 을 분석합니다. 전체 소스 코드를 보려면 여기를 클릭하십시오.

Fastai 라이브러리 사용 외에도 yeight, 9 천 9 천 9 백 9 십구 "라는 경량 NLP 데이터 세트가 사용됩니다.

우리의 임무는 카운트를 배우기 위해 RNN N 메타 언어 모델을 만드는 것이다. 예를 들어, "하나, 둘, 셋, 넷, 다섯" 을 보면 10 연속 표시 (","도 표시) 가 "6" 이라고 예측할 수 있습니다. Token, N-gram, 언어 모델, 임베딩, NLP 소량에 대해서는 이전 영화로 돌아가 AI 문장 쓰기 로봇을 직접 개발할 수 있습니다.

Model 1 (반복) 은 for 루프를 통해 각 입력 (token) 을 처리하고 숨겨진 상태를 다음 루프로 전달합니다. 모든 n (x.shape [1]) 개의 표시를 배운 후 n 번째 숨기기 상태가 출력을 생성하는 데 사용됩니다. 이는 RNN 이 이전 N 개의 토큰을 기준으로 N+ 1 개의 토큰을 예측하는 프로세스입니다.

RNN 이 N+ 1 개의 토큰을 예측할 수 있는 이유는 숨겨진 상태에 상위 N 개의 토큰에 대한 정보가 포함되어 있기 때문입니다. H = H+F. Relu (self) 입니다. 입력 (자기). EMB (x [:,I]) 는 RNN 예측을 위한 이전 기간 정보를 제공합니다.

Learner 는 Fastai 에서 제공하는 모델 교육 라이브러리이며, "acc_f" 열에는 모델의 예측 정확도가 45.9% 로 표시됩니다.

Model 1 의 숨기기 상태는 토큰 정보만 동일한 소량에 저장합니다. 일단 당신이 새로운 미니 배치를 배우기 시작하면, 숨겨진 상태는 지워질 것이다: h = 불. 0 (x.shape [0], NH) 입니다. 끝 (디바이스 = X. 디바이스).

따라서 모델 3 은 이전의 소량 배치 교육에서 얻은 숨겨진 상태를 유지합니다. 즉, 이 시점에서 숨기기 상태는 전체 데이터 세트의 정보를 유지합니다. 뿐만 아니라, 모델 3 은 N+ 1 토큰뿐만 아니라 모든 토큰의 다음 토큰도 예측합니다.

모델 3 은 RNN 의 기본 기능을 구현하여 예측 정확도가 72.2% 에 달했다. 또한 relu 대신 tanh 를 사용하면 정확도가 75.4% 로 높아지고 표준 RNN 의 기본 활성화 함수는 tanh 입니다.

Model4 는 Pytorch 가 공식적으로 제공하는 RNN 에 의해 구현된 Model3 의 벤치마크 모델입니다. 훈련 결과를 보면 그 정확도는 모델 3 보다 훨씬 낮다. 그러므로, 여기서 관직을 전당포하지 말라는 것을 아늑하게 일깨워라. (윌리엄 셰익스피어, 윈스턴, 명예명언) Relu+batchnorm 의 조합은 RNN 에서 유효하지만 nn.RNN 에서는 안 된다는 것이 실천으로 드러났다

Nn 이지만. RNN 의 실적은 그 자신보다 못하다. 스스로 바퀴를 만드는 것을 장려하지 않는다. 나도 스스로 바퀴를 만드는 작업 방식에 반대한다. 이런 방식은 거의 가치가 없다. 실제로 2 계층 RNN 을 사용하면 모델 4 의 성능이 모델 3 보다 우수합니다.

다음 그림은 2 층 RNN 의 구조를 보여줍니다. 두 개의 숨겨진 레이어는 1 개의 숨겨진 레이어보다 효과가 좋지만 계산량도 두 배로 증가했습니다. 전체 연결 레이어의 매개변수 수가 컨볼 루션 레이어보다 훨씬 많기 때문에 깊이 RNN 의 교육 시간이 같은 깊이의 CNN 보다 훨씬 길기 때문에 RNN 레이어 수가 너무 많지 않아야 합니다.

RNN 은 숨겨진 상태를 통해 각 토큰에 대한 정보를 저장하지만 효과적으로 처리하고 사용할 수는 없습니다. 자신이 훈련한 모든 정보를 숨겨진 상태로 집어넣어 각 토큰의 후속 학습에 영향을 줍니다. 이런 영향은 좋든 나쁘든 훈련이 깊어지면서 눈덩이를 굴리는 것과 같은 정보가 많아진다.

분명히 RNN 은 신구 정보 (숨겨진 상태와 표시) 에 대한 규제가 부족해 공부할 표시가 많아지면 문자 시작 부분의 표시 정보 비율이 점점 작아지고 있다. 즉, 문자 시작 부분의 내용은 쉽게 잊혀질 수 있다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), Northern Exposure (미국 TV 드라마), 공부명언

GPU 와 LSTM 은 긴 텍스트 교육에 대응하도록 설계되었습니다. 그들은 RNN 에 입력문, 출력문, 망각문, 업데이트문 등의 메커니즘을 추가해 출입 정보를 필터링하고, 오래된 무용지물을 버리고, 입력정보가 모형 훈련에 미치는 영향을 조절한다.

모델 5 에서 RNN 대신 GRU 를 사용한 후 모델의 정확도가 다시 높아져 동등한 조건에서 83.8% 에 달했다. GRU 에 대한 분석은 다음 블로그에 남아 더 이상 군말을 하지 않을 것이다.

이 문서에서는 RNN 재구성을 통해 RNN 모델의 구조에 대해 자세히 설명하고 결함을 분석하여 GRU 와 LSTM 의 작동 원리를 자세히 설명합니다.

上篇: 종이로 게임기를 만드는 법

下篇: 딸의 선생님은 딸아이가 쓴 작문에는 복권 가게 입구의 슬픔과 이별이 자주 있다고 말했다. 나는 이것이 현실이라고 말했고, 선생님은 화를 냈다. 어떻게 설득합니까?

관련 기사