기금넷 공식사이트 - 금 선물 - Naive Bayesian 과 세 가지 일반적인 모델의 유도
Naive Bayesian 과 세 가지 일반적인 모델의 유도
베이지안 정의는 확률 이론에서 정리이며 확률 변수의 조건부 확률 및 한계 확률 분포와 관련이 있습니다.
일반적으로 이벤트 B (발생) 조건에서 이벤트 A 의 확률은 이벤트 A (발생) 조건에서 이벤트 B 의 확률과 다릅니다. 그러나, 그것들 사이에는 확실한 관계가 있다. 베이시안 정리는 바로 이런 관계의 진술이다. 베이지안 공식의 목적 중 하나는 알려진 세 가지 확률 함수를 통해 네 번째를 도출하는 것이다.
직접 공식 제공:
여기서 P(A|B) 는 이벤트 B 가 발생할 때 이벤트 A 가 발생할 확률 (조건부 확률) 입니다. 베이지안 정리에서 각 명사에는 일반 이름이 있습니다.
이러한 용어에 따르면 베이지안 정리는 다음과 같이 표현할 수 있습니다.
사후 확률 = (우도 * 선험적 확률)/정규화 상수
즉, 후험 확률은 선험적 확률과 유사성의 곱에 비례한다.
동시에 분모 P(B) 는 다음과 같이 나눌 수 있습니다.
P(X, Y|Z)=P(X|Z)P(Y|Z) 또는 이와 동등한 P(X|Y, Z)=P(X|Z) 인 경우 이벤트라고 합니다
자연어 처리에 적용됩니다. 즉, 특정 문장 범주 조건 하에서 문장 각 특징 (단어) 은 특정 문장 범주 조건 하에서 독립적이며 관련이 없습니다. 통속적으로 말하면, 일정한 문장 범주 조건 하에서는 연관성이 없다 (사실 성립되지 않음). 이것은 매우 강한 가정이지만, 문제를 해결하는 것은 쉬워진다.
입력 공간을 n 개의 벡터 세트로 설정하고 출력 공간은 클래스 태그 세트입니다. 입력은 피쳐 벡터이고 출력은 범주 레이블입니다. X 는 입력 공간 x 에 정의된 임의 변수이고 y 는 출력 공간 y 에 정의된 임의 변수입니다. P(X, y) 는 x 와 y 의 결합 확률 분포입니다. 교육 데이터 세트:
P(X, Y) 의 독립 동분포에 의해 생성되기 때문에 소박한 베네치아 모델도 생성 모델이다.
소박한 베이시안 알고리즘은 훈련집을 통해 합동확률분포 P(X, Y) 를 배운다. 특히 선험확률분포와 조건확률분포를 배운다. 그중에서도 선험확률분포가 있다.
조건부 확률 분포
, k= 1, 2, ..., K.
결합 확률 분포 P(X, Y) = P(X|Y)P(Y) 는 두 가지 확률로 얻어집니다.
조건부 확률 분포 P(X=x|Y=c_k) 에는 실제로 실현 불가능한 지수 매개변수가 있습니다. J= 1, 2, ..., n, y 에 k 개의 값이 있다고 가정하면 매개변수 수는 다음과 같습니다.
사실 지수 매개 변수 추정은 불가능합니다. 따라서 소박한 베네치아 알고리즘은 특징 사이에 가설을 세우는데, 즉 조건부 확률 분포에 대한 조건부 독립성 가정을 하는 것이 강한 가정이다. 이 가설을 통해 우리의 매개 변수 해결이 가능해졌는데, 이것이 바로 소박한 베이직스의 유래이다. 이 경우 j = 1, 2 라는 값도 있다고 가정합니다. ...
소박한 베이시안 알고리즘의 분류에서 주어진 입력 X 에 대해 학습 후 모델을 통해 사후 확률 분포를 계산하고, 출력 후 검사 확률이 가장 큰 클래스는 입력 X 의 클래스로, 사후 검사 확률은 베이시안 정리에 따라 계산됩니다.
위의 공식은 후검사 확률 분포의 일종이다. 같은 입력 X 에 대해 서로 다른 범주의 후검사 확률의 분모는 같고, 최종 범주 출력은 후검사 확률 분포 중 확률이 가장 큰 범주이기 때문이다. 그래서 우리는 분자의 크기만 비교하여 최종 결과를 결정하는 것을 단순화할 수 있다. 즉, 최종 범주 출력은 다음과 같다.
。
만약 우리가 곱 확률을 오른쪽에 기록한다면, 곱을 합으로 바꿀 수 있고, 계산은 더 간단하다. (덧셈은 항상 곱셈보다 간단하다.) 항소 공식에는 변형이 있습니다.
。
또한 이 형식은 가중치 계수가 1 인 선형 회귀로도 볼 수 있습니다.
소박한 베이직스의 확률 모델을 소개한 후, 우리의 현재 주요 문제는 이 모델의 매개변수를 어떻게 추정할 것인가이다. 매개변수를 추정한 후 입력 벡터 x 를 예측할 수 있습니다. 이러한 매개 변수를 해결하는 데 사용되는 다양한 유형의 naive Bayesian 이 있습니다. 세 가지 유형, 즉 베르누이 소박한 베네치아, 다항식 소박한 베네치아, 가우시안 소박한 베이직스를 구체적으로 소개한다. 서로 다른 유형의 소박한 베이직스는 매개변수에 대해 서로 다른 해석을 가지고 있다. 근본 원인은 p 조건 확률 (X=x|Y=c_k) 의 가설 분포가 다르기 때문이다. 즉, 주어진 범주의 경우 x 가설의 분포가 다르다. 베르누이 가정은 베르누이 분포 (실제로 다원 베르누이 분포여야 함), 다항식 가정은 다항식 분포, 가우스 가정은 가우스다 그런 다음 세 가지 다른 유형으로 추출했습니다.
베르누이 소박한 베이직스는 사실' 다원소박한 베이직스' 라고 불러야 하는데, P(X=x|Y=c_k) 가 다원 베르누이 분포라고 가정한다. 다원 베르누이 분포를 이해하기 전에 먼저 베르누이 분포가 무엇인지 소개하겠습니다.
베르누이 분포는 2 점 분포 또는 0- 1 분포라고도 하며 이산 확률 분포입니다. 무작위 변수 x 를 베르누이 분포라고 하며 매개변수는 p (0) 입니다
가장 간단한 예는 동전을 던지는 것이고, 동전의 결과는 양수 또는 음수이다.
제곱은 곱셈이 되어 더 간단하다. X= 1 이면 확률은 P(X= 1)=p 이고 x=0 이면 확률은 p (x = 0) =/kloc-0 입니다
베르누이 분포가 무엇인지 알게 되면, 다원베르누이 분포가 무엇인지 다시 한 번 살펴보도록 하겠습니다.
다원 베르누이 분포, 통속적으로 여러 가지 다른 베르누이 실험을 동시에 진행하는 것이다. 여기서 X 는 벡터이자 벡터로, 다른 베르누이 실험의 매개변수를 나타낸다.
베르누이 다항식은 문서 생성 모델 P(X=x|Y=c_k) 가 다원 베르누이 분포라고 가정합니다. 이전에 수행한 피쳐 독립 가정으로 인해 벡터 형태입니다. 즉, x 벡터는 열 벡터입니다 (각 치수 값은 0 또는/kloc-) 피쳐 세트에는 n 개의 피쳐가 있으며, 피쳐 세트의 차원에 따라 결정됩니다.
특징간의 독립성으로 인해 다원 베르누이는 베르누이 분포의 연속 곱이 되었다. 베르누이 분포, 0- 1 이기 때문에 특징이 나타날 확률은 P 이고, 특징이 나타나지 않을 확률도 1-p 라는 점에 유의해야 한다. 최종 모델의 매개변수가 추정된 후 피쳐가 나타나지 않으면 나타나지 않은 피쳐를 곱해야 합니다. ! ! 두 벡터를 직접 곱하면 최종 결과를 얻을 수 없습니다.
그에 상응하는 베르누이 소박한 베네치아 모델은 다음과 같습니다.
연산을 단순화하기 위해 분모를 무시할 수 있습니다. 해당 결과는 실제 확률은 아니지만 동일한 샘플의 사후 확률 사이의 크기 관계는 그대로 유지됩니다. 동시에 쌍방이 동시에 대수 연산을 하면 후험 확률 사이의 크기 관계도 변하지 않는다. 그래서,
。
다원 베르누이 분포를 이해한 후, 다음 일은 매개변수를 추정하고 계산하는 것이다.
매개변수 추정 과정도 소박한 베네치아 분류기의 학습 과정이며, 최대 우도 추정은 매개변수 추정에 사용될 수 있습니다. 선험적 확률의 최대 우도 추정은
, k= 1, 2, ..., K.
여기서 I(x) 는 표시 함수입니다. x 가 참이면 I(x) 의 결과는 1 이고 x 가 거짓이면 I(x)=0 입니다. 언어로 설명하자면, 이 확률은 N 개 샘플의 데이터 세트, 범주가 있는 샘플의 비율과 같다.
조건부 확률의 최대 우도 추정은 다음과 같습니다.
언어로 설명하면, 조건 확률은 샘플 세트 (데이터 세트 하위 세트) 의 I 번째 특징이 0 또는 1 과 같은 확률이며, 베르누이 분포를 따르므로 P 와 같은 하나만 계산하면 됩니다. 두 확률의 합은 1 (이것은 같은 변수입니다.
이러한 매개 변수가 추정되면 소박한 베이직스는 학습 과정을 완료하고 이를 사용하여 예측할 수 있다 (응용이 최종 목적이다).
베르누이 분포이기 때문에 매개변수 P 는 [0, 1] 사이에 존재할 수 있습니다. 즉 확률이 0 입니다.
예를 들어, 현재 범주 아래의 모든 샘플에서 피쳐 I 가 나타납니다 (= 1). 위의 조건 확률의 최대 우도 추정에 따르면, 새로운 샘플이 올 때, X 기록이 있는데, 정확히 I 번째 특징이 없는 것을 알 수 있습니다. (불행한가요?) (* 역주:,,,,,,,,,,,,,,,,,) 아니오), 0 확률의 존재로 인해 위의 베이시안 공식을 사용하면 특정 열에 속할 확률은 0 이 되지만 이런 경우는 피해야 합니다. 그럼 어떻게 피할 수 있을까요? (시드 비셔스, Northern Exposure (미국 TV 드라마), 성공명언)
조건 확률을 크게 추정할 때 분자와 분모를 약간 변경합니다.
여기서 I 번째 피쳐를 나타내는 다른 값의 수는 one-hot 이고 값은 2 입니다. 따라서 곱셈은 서로 다른 값에 해당하는 조건부 확률의 합이 1 이며, 어떤 상황도 편파하지 않고 동등하게 대우한다는 것을 보증한다.
미완이 계속되다.
P(X=x|Y=c_k) 가 다항식 분포라고 가정하는 다항식 소박한 베이지안. 다항식 소박한 베이직스를 이해하기 전에 다항식 분포란 무엇입니까?
단항 베르누이 분포를 D 차원 벡터로 확장합니다. 여기서 확률이 인 경우 이산 분포가 생성됩니다.
。
여기서 x 는 d 차원 벡터의 형태입니다. 이를 바탕으로 이항 분포를 다항식 분포로 확대하여 N 번의 독립 실험에서 단어가 나타날 확률을 설명하며 밀도 함수는 다음과 같이 나타낼 수 있습니다.
다항식 분포의 예상 분산은 다음과 같습니다.
다항식 분포는 naive Bayesian 에 적용됩니다. 문서 분류의 경우 문서 생성 모델이 지정된 문서 유형을 기반으로 하는 다항식 분포라고 가정합니다. 이 대응은 다음과 같습니다.
텍스트 분류에 적용된 다항식 소박한 베이지안 모델 이전에 일반적인 다항식 조건 확률은 다음과 같습니다.
우리의 다항식 naive Bayesian 확률 모델은 다음과 같습니다.
편의상 문장 길이는 문장 범주와 관련이 없다고 가정합니다 (예: 비교적 긴 메일이 스팸보다 정상일 가능성이 더 높음). 즉, P(|x|) 의 분포는 문장 소유 범주와 무관합니다. 반면, 문장 소속 범주는 사후 검사 확률이 가장 큰 범주이기 때문에 문장 길이 P(|x|) 를 취할 수 있습니다.
또한, 편의를 위해, 우리는 보통 양쪽의 로그 연산을 취하여 전력 연산을 선형 연산으로 변환합니다.
문장 길이 계승을 생략하고 다음과 같이 할 수도 있습니다.
。
이것은 선형 연산이 됩니다. 선형 회귀처럼 효율적이고 간단합니다.
문서 모형은 다항식 분포에 매핑되어 다항식 소박한 베이직스를 얻습니다. 우리가 가설 분포를 한 후, 나머지 작업은 가설 분포 아래 각 유형의 D 조건 확률과 선험적 분포를 추정하는 것이다. 또한 다항식의 소박한 베네치아 모형은 각각 I 번째 특징이 나타나는 빈도, 즉 단어 빈도 $ term-frequency 를 나타내는 단어 가방 모델을 사용하며, 때로는 tf-idf 를 값으로 사용할 수 있다는 점도 유의해야 한다.
매개변수 추정 과정도 소박한 베네치아 분류기의 학습 과정이며, 최대 우도 추정은 매개변수 추정에 사용될 수 있습니다. 선험적 확률의 최대 우도 추정은
, k= 1, 2, ..., K.
여기서 I(x) 는 표시 함수입니다. x 가 참이면 I(x) 의 결과는 1 이고 x 가 거짓이면 I(x)=0 입니다. 언어로 설명하자면, 이 확률은 N 개 샘플의 데이터 세트 샘플의 비율과 같다.
조건부 확률의 최대 우도 추정은 다음과 같습니다.
언어로 설명하면 조건 확률은 T 특징이 나타나는 총 횟수 (단어 빈도 고려, 더 이상 0, 1) 와 범주가 있는 샘플 세트의 총 단어 수 (문장 길이, 문장 단어 특성 고정, 단어 빈도 합계 고려) 의 비율입니다.
이해를 돕기 위해 k 번째 샘플 세트에 t 번째 피쳐가 나타나는 총 횟수는 k 번째 샘플이 모든 샘플에 있는 총 단어 수 (k 번째 샘플의 길이 합계, 빈도 고려) 로 표시되며 다음과 같이 축약됩니다.
베르누이 (Bernouli) 와 유사한 소박한 베네치아 모델 (Naive Bayesian Model) 은 차원이 있을 수 있습니다. 이 차원의 데이터 세트는 0 이고, 문서 분류에 해당합니다. 즉, 이 단어는 모든 문장 (사전 선택이 좋지 않고 특징 선택이 좋지 않음) 에 나타나지 않습니다. 이 경우 확률이 0 입니다. 그래서 우리는 조건부 확률에 약간의 변화가 필요합니다.
여기서 D 는 데이터 차원이 D 임을 나타냅니다 (각 피쳐에 보장 확률과 1 을 더한 D 개의 특징이 있으며 D 를 곱해야 함). 인 경우 라플라스 스무딩이라고 하지만 1 보다 작을 수도 있습니다.
계속
가우시안 소박한 베이시안, P(X=x|Y=c_k) 가 다원 가우스 분포라고 가정합니다. 가우스의 소박한 베이직스를 알기 전에 가우스 분포와 다원가우스 분포는 무엇입니까?
가우스 분포는 정규 분포라고도 하며 실제 응용에서 가장 널리 사용됩니다. 단변수의 경우 가우스 분포에는 평균 및 분산이라는 두 가지 매개변수가 있으며 확률 밀도 함수는 다음과 같습니다
여기서 는 D 차원 평균 벡터, DxD 의 공분산 행렬 합계의 행렬식입니다. 다원 가우스 분포의 기대는 분산이 다음과 같다는 것이다.
특히 D 차원이 서로 독립적이면 다중 가우스 분포는 단위 가우스 분포의 확률 밀도 함수의 곱으로 나타낼 수 있습니다.
가우스 소박한 베네치아 모델은 조건 확률 P(X=x|Y=c_k) 가 다원 가우스 분포라고 가정합니다. 반면, 이전 피쳐의 조건부 독립성 가정에 따라 각 피쳐의 조건부 확률을 모델링할 수 있으며, 각 피쳐의 조건부 확률도 가우스 분포에 따릅니다.
카테고리에서 I 번째 단어에 해당하는 가우스 분포는 다음과 같습니다.
여기서 는 클래스 c 에서 클래스 I 의 첫 번째 피쳐의 평균과 분산을 나타냅니다.
가설 피쳐가 서로 독립적이기 때문에 조건부 확률을 얻을 수 있습니다.
D 피쳐가 있습니다.
가우스 소박한 베이직스는 다음과 같이 변했다.
。
다원 가우스 분포를 알게 된 후 다음 작업은 매개변수를 추정, 계산 및 합산하는 것입니다.
선험적 확률은 앞의 추정 방법과 동일하며, 더 이상 군말을 하지 않는다. 주로 가우스 분포의 평균과 분산을 추정하는 것으로, 채택된 방법은 여전히 최대 우도 추정이다.
평균 추정은 샘플 범주에 있는 모든 샘플의 평균입니다.
분산 추정은 샘플 범주의 모든 분산입니다.
연속적인 샘플 값의 경우 가우스 분포를 도입하여 확률 분포를 얻을 수 있습니다.
모든 매개변수를 추정한 후 주어진 샘플에 대한 조건부 확률을 계산하여 샘플 범주를 결정하고 모델 예측을 완료할 수 있습니다.