기금넷 공식사이트 - 복권 조회 - AA 실험의 가변성에 대해 이야기하기
AA 실험의 가변성에 대해 이야기하기
일이 늦어서는 안 되니, 우리 시작합시다.
변동? 파동은 무슨 뜻인가요? 왜 내 AA 실험 지수가 변동합니까?
예를 들면. 제가 실험 평가 시스템에서 AA 실험을 했다고 가정해 봅시다. 실험이 시작된 후, 우리는 출력 실험 지표인 Read/U (사용자당 하루에 평균 몇 번 읽는지) 를 보러 갔다. 두 그룹에 할당된 사용자는 정확히 동일한 제품을 사용하지만 두 세트의 요약된 Read/U 평균은 항상 다릅니다. 이 실험을 여러 번 반복하면 두 그룹의 차이가 매번 다르다는 것을 알 수 있다.
AA 실험에서 나타나는 이 불안정한 지수 차이는 바로 우리가 요동이라고 부르는 것이다.
변동의 원인은 이해하기 쉽다. 즉, "무작위성" 입니다. 다음 초에 헤드라인을 여는 사용자는 오늘 문장 몇 편을 볼 것이다. 이것은 완전히 무작위적이고 예측할 수 없는 것이다. 따라서 두 개의 동일한 실험 그룹을 열 때, 각 사용자 그룹이 오늘 읽을 문장 수가 완전히 무작위이기 때문에, 우리가 최종적으로 얻은 두 Read/U 지표의 차이도 무작위입니다.
AA 실험 지표의 변동을 어떻게 묘사합니까?
변동성을 설명하는 방법에는 여러 가지가 있습니다. AB 실험의 응용 시나리오의 경우 신뢰도와 신뢰 구간을 사용하여 변동성을 설명합니다. 만약 네가 이 두 가지 통계학 개념을 잊어버린다면, 인터넷으로 조사하지 마라. 간단히 말해서:
너는 수많은 AA 실험을 한 적이 있다. 지표의 차이가 일정 범위 (신뢰 구간) 내에 있는 확률 (신뢰 수준) 은 얼마입니까?
헤드 라인 메인 app 의 Read/U 지수를 알고 있다면 200W 사용자의 AA 실험은 신뢰도가 95% 인 경우 0.62% 의 변동을 보입니다. 즉, AA 실험을 할 확률이 높으면 Read/U 지수의 변화율은 양수 및 음수 0.62% 이내가 됩니다.
만약 당신이 한 AB 실험이 Read/U 증가 1% 를 기대한다면, 축하합니다. 실험 검증을 합니다. 만약 당신이 AB 실험을 해서 Read/U 가 0. 1% 증가할 것으로 기대한다면, 죄송합니다. 이 변화는 너무 눈에 띄지 않습니다. 만약 최종 실험 결과가 정말로 0. 1% 증가했다면, 우리는 이것이 전략이 유효한지 변동으로 인한 것인지 판단하기 어렵다.
그럼 문제가 생겼습니다.
제발 0.62% 변동을 알려주세요. 왜 내 AA 변동이 0.78% 인가? 답: 95% 의 확률 변동이 0.62% 이내이고 5% 의 확률이 0.62% 를 넘을 확률이 있기 때문입니다. 이런 사고 발생 확률 (5%) 은 여전히 복권에 당첨될 확률보다 훨씬 높다. 가장 쉬운 방법은 실험을 다시 시작하는 것이다.
사고 확률의 5% 는 내가 감당할 수 없다. 어떻게 해야 할까요? A: 그런 다음 변동 값을 99% 파악하십시오. 물론 이 수치는 분명히 95% 의 변동치보다 클 것이다. 예를 들면 0.8 1% 이다. 즉, 1% 의 확률만으로 AA 실험의 파동이 0.8 1% 를 넘을 수 있다는 뜻입니다.
하지만 내 예상 변화는 0.68%, 0.8 1%, 즉 0.62% 에 불과했다. 변화는 아직 뚜렷하지 않다! 대답: 트래픽을 증가시킵니다. 동전을 던지고 있다고 상상해보세요. 동전을 던지는 횟수가 많을수록 0.5 에 가까워집니다. 즉, 실험이 많을수록 (그룹 사용자가 많을수록) 지수 결과가 안정적입니다 (변동이 적을수록). 그룹 내 사용자 수가 800W 로 증가하면 95% 신뢰도에서 변동이 0.3 1% 로 줄어든다는 것을 알 수 있습니다. 그래, 네가 알아맞혔다. 변동은 사용자 수의 제곱근에 반비례하므로 사용자 수가 4 배 증가하면 변동이 절반으로 줄어듭니다. 흥미가 있으면 돌아가서 확률론을 복습해 보세요.
전환은 통일되지 않나요? 그룹 내 사용자 수가 변동하는 이유는 무엇입니까?
사용자의 하위 텍스트는 다음과 같습니다. "농담이야? 클릭합니다 완전히 그렇지는 않습니다. 우리는 동전을 던지는 것을 예로 들었다. 한 사용자가 차를 배차할 때 어느 그룹에 들어갈 것인가, 마치 동전을 던질 때 어떤 면이 나타날 것 같다. 왜냐하면 당신이 어느 집단에 들어선 것은 당신이 어느 얼굴에 나타난 것처럼 무작위적이기 때문입니다. (존 F. 케네디, 자기관리명언) 따라서 완벽한 전환 전략으로 그룹 내 사용자 수는 다른 지표와 마찬가지로 변동이 있습니다.
변동성에 영향을 미치는 것은 무엇입니까? 제품마다 동일한 지표의 변동이 다른 이유는 무엇입니까?
그룹의 사용자 수
그룹 내 사용자 수가 변동에 미치는 영향을 이해하기 어렵지 않다. 그룹에 가입한 사용자가 많을수록 변동성이 적다. 따라서 실험생들이 AA 변동이 크다는 것을 알게 되면, 실험 트래픽을 늘려 그룹 내 사용자 수를 늘려 AA 변동을 줄이는 것을 고려해 볼 수 있다.
지수 안정성 (표준 편차 또는 분산)
지표의 표준 편차는 지표 값의 안정성을 설명합니다. 양궁의 예를 들다. 샤오장과 왕군이 두 사람이 활을 쏘면, 평균 8 환이다. 장 () 군은 비교적 안정적이어서, 대부분 8 환을 쏘고, 소수에는 7 환 9 환을 쏜다. 왕군의 발휘는 매우 불안정하다. 대부분의 시간은 10 링이 아니면 6 환이다. 샤오장이 100 회 평균 점수를 계산하고 100 회 평균 점수를 계산하면 (우리가 샤오장에서 한 AA 실험과 동일), 두 평균 점수의 차이는 변동률을 반영한다. 분명히 왕군의 지수 변동은 훨씬 크다. 왜냐하면 그 자신의 화살법이 불안정하기 때문이다.
마찬가지로, Comment/U 지표와 같이 값 안정성이 매우 낮기 때문에, 우리는 항상 이 지표의 변동이 Read/U 와 같은 약간 안정적인 지표보다 크다는 것을 알 수 있습니다. 지표의 안정성을 어떻게 설명할 수 있을까요? 표준 편차를 계산합니다.
같은 제품의 국내판과 외국판, 비슷한 지표의 사용자 수 변동이 왜 다른가? 너는 두 버전 중 이 지표의 표준 편차를 간단히 볼 수 있다. 사고가 나지 않으면 변동이 큰 버전의 표준 편차가 더 커질 것이다.
변동성을 어떻게 계산합니까?
선조들은 간단하고 부정확한 통계 공식을 제시하고 증명했다. 즉, 모본의 기대와 분산이 알려지면 모본에 있는 N 개의 샘플 샘플에 대한 기대는 정규 분포를 만족시킨다. 정규 분포의 매개변수는 모체의 기대, 분산 및 샘플 수 N 과 관련이 있습니다.
만약 우리가 app 의 로그 데이터를 전부 모측으로 삼는다면, AA 실험은 단지 두 개의 샘플 샘플의 예상 변화율을 고찰할 뿐이다. 우리에게는 기대와 분산이 있습니다. 공식에 맞추면, 우리는 오늘 발생한 모든 지표의 변동률을 얻을 수 있고, 그 지표들이 내일 같은 app 에서 변동률을 추론할 수 있다.
추가 정보
남자/여자친구와 함께 주말을 보낼 필요가 없다면, 이 정도면 충분하지 않다면 확률론과 수리통계를 읽어 보세요. 어느 버전으로든 가능합니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 남녀명언)