기금넷 공식사이트 - 재경 문답 - Youtube DNN 클래식 보고서
Youtube DNN 클래식 보고서
최근 Wang Zhe의 Zhihu 칼럼을 읽었습니다. 세 번째, 네 번째, 열세 번째 기사는 모두 고전적인 YouTube 논문입니다. DNN:/p/52169807?/p/52504407?/p/61827629
사장님과 함께 검토한 결과 이전에는 부분적으로만 이해했다는 것을 알게 되었습니다. 이 시간을 활용하여 이 문서에 대한 새로운 이해를 기록하겠습니다.
이 논문에서는 모델을 회상과 개선의 두 단계로 설명합니다.
회상:
기능부터 시작해 보겠습니다. 사용자가 동영상을 삽입하는 것 , 사용자의 검색어 삽입, 사용자의 지리적 위치, 나이 등의 side_infomation 및 설명이 필요한 기능인 example_age
다음으로 모델이 있습니다: three-layer DNN
마지막으로 훈련 손실 : 분류를 위한 소프트맥스
제공 방법 : 최근접 이웃
실제로는 많은 의심이 있습니다.
1. example_age란 무엇인가
클릭란에는 훈련 시간, 즉 이 샘플을 얻은 시간(동영상 클릭 시간)이라고 되어 있는데, 이것은 '새 동영상'의 개념을 표현할 수 없는 것 같습니다. ", 그리고 현재 시간에서 빼는 것이 무엇을 의미하는지 모르겠습니다. 라벨은 클릭 시간입니다. 훈련 중에는 업로드되지 않고 바로 그 순간에 업로드됩니다.
따라서 이 예시에서는 나이를 입력해야 한다고 생각합니다. 이는 새로 출시된 동영상에 대한 사용자의 선호도를 나타내는 클릭 시간입니다. 이 기능은 게재 시 모든 값을 0으로 설정하여 제거할 수 있습니다. 회상 단계에서는 더 많은 것을 기억할 수 있습니다. (이렇게 하면 새로운 동영상에 대한 사용자의 선호도가 없어지나요?)
2. 왜 예측 대신 다중 분류를 해야 하나요? 다중 분류된 동영상이 많은 경우 어떻게 성능을 높일 수 있나요? 보장되나요?
채점을 위해 샘플을 네트워크에 삽입하는 대신 다중 분류를 수행해야 하는 이유는 무엇입니까?
다중 분류를 수행해야 하는 이유는 무엇입니까? -샘플링된 소프트맥스를 사용하면 대용량 비디오의 분류 성능이 향상됩니다. /p/349908071을 참조할 수 있습니다. 일반적으로 Q(y|x)를 통해 하위 집합을 샘플링하고 해당 하위 집합에 대한 로짓을 계산한 후 계산을 사용합니다. 결과 F(x, y)-log(Q(y|x) )는 원본 데이터 세트의 로짓을 나타낼 수 있습니다
3. 서빙 단계에서 여러 분류를 수행하지 않고 최근접 이웃을 수행하는 이유
여기서 먼저 사용자 임베딩을 이해해야 하며 비디오 임베딩이란 무엇입니까? User_embedding은 수백만 차원 벡터를 얻기 위한 d차원 벡터와 같은 relu의 마지막 레이어 이후의 결과입니다. d_N으로 표시됨), d*d_N 차원 행렬을 전달해야 합니다. 이는 행렬의 각 열이 학습된 후 비디오 임베딩이고, 서빙 단계인 경우에는 여전히 각 열을 곱한 다음입니다. 소프트맥스가 계산됩니다. 분모가 동일하므로 지수를 취하는 연산도 동일하므로 직접 내적하면 됩니다.
정렬:
기능부터 시작해 보겠습니다. 현재 정렬된 동영상 임베딩, 사용자가 시청한 동영상 임베딩, 사용자와 동영상의 언어 임베딩, 시간 이후 마지막 시청은 이후 같은 채널에서 마지막으로 동영상을 시청한 시간, 이전 노출수는 해당 동영상이 사용자에게 노출된 횟수입니다(여기서 부정적인 피드백이라는 개념이 도입되었습니다)
다음은 모델입니다: 3계층 DNN
마지막으로 훈련 손실: 가중치 로지스틱
제공 방법: e^(Wx b)
여기에도 몇 가지 의문점이 있습니다.
1. 훈련 중 가중치 로지스틱이란 무엇입니까? 서빙 중에 e^(Wx b)가 사용되는 이유는 무엇입니까?
이 점은 제가 다시 읽었을 때 가장 이해가 되지 않았습니다. 먼저 적어 보겠습니다. 여기서 가장 먼저 해야 할 일은 가중 로지스틱이 무엇인지 이해하기 위해 먼저 LR 공식의 기원을 검토해 보겠습니다. ) = w*x; 여기서 확률=p/(1-p)는 양성 샘플의 확률/음성 샘플의 확률을 나타냅니다. 가중 LR의 확률은 W*p/(1-p)가 됩니다. W 여기에는 양성 샘플에 가중치가 추가됩니다. 왜 그런지에 대해서는 양성 샘플과 음성 샘플의 비율을 사용하여 설명하는 것이 매우 합리적이지 않다고 생각합니다. 이 배당률을 받아들일 수 있으면 log(odds) = w*x는 게재 대상인 배당률 = e^(wx)를 얻을 수 있습니다.
W*에 대해 이야기해 보겠습니다. p/(1- p), 여기서 W 가중치는 이 영상의 지속 시간 T이고, 합(Ti*pi)은 E(T), 즉 지속 시간의 기대값인 E(T)/(1-p) 테일러 확장입니다. E(T)*(1p) 여기서 p가 매우 작으면 실제로는 E(T)입니다. 즉, 서빙할 때 실제로 얻는 것은 e에 사용될 경우의 기대 시간입니다. -상거래 및 가격에 따라 가중치를 부여하면 가격 추정도 가능합니다.
각 사용자에 대해 동일한 수의 훈련 샘플을 추출하고 많은 수의 긴 데이터 임베딩을 설정하는 등 더 많은 내용을 다루는 상위 10가지 엔지니어링 문제에 대한 칼럼을 읽어보는 것이 좋습니다. -영상을 0. 시작점으로 연결합니다.
- 관련 기사
- 유리문 가격은 얼마인가요? 어떤 브랜드의 유리문이 더 좋나요?
- Liu Wenzheng의 현재 상황과 그가 무엇을 하고 있는지 누가 알겠습니까?
- Global Coin은 어디에서 출시되었나요?
- 손으로 풍선을 만드는 간단한 방법
- 파일이 일리 카자흐 자치주 인적 자원 및 사회 보장국으로 전송되었습니다. 어디로 전송되었나요?
- 첸슈울리 의상 사진 갖고 있는 사람 있나요?
- 양진닝은 82세의 28세 웬판(Weng Fan)과 결혼해 아이를 갖게 될까요?
- 1,000위안으로 사업을 시작할 수 있나요?
- 이혼 후 홍콩 업계로부터 배척당하고, 작가들로부터 비난을 받고, 자원의 격하를 당하는 아기의 처지는 얼마나 비참한가.
- 사천요리를 묘사한 시