기금넷 공식사이트 - 복권 조회 - AA 실험의 가변성에 대해 이야기하기

AA 실험의 가변성에 대해 이야기하기

우리가 실험 평가 시스템에서 대조군 구성과 정확히 같은 실험을 시작했을 때, 우리는 그것을 AA 실험이라고 불렀다. AA 실험은 일반적으로 제품이 변하지 않을 때 지표의 편차 범위를 관찰하는 데 사용됩니다. 우리는 보통 대조군과 똑같은 실험팀을 추가하여 이 편차를 관찰한다. 만약 이 편차가 크다면, 보통 너의 AB 실험은 믿기 쉽다. 이 글의 대상 관객은 실험평가시스템에서 실험을 해야 하는 것으로, AA 실험의 지표가 크게 달라 대학 확률론 교재를 뒤지기 귀찮은 학생을 발견했다. 가장 낮은 학습 비용으로 실험 평가 시스템을 사용하여 효율적인 출력을 얻는 것도 실험평가팀의 비전이기 때문에 가능한 대중적인 언어로 설명하겠습니다. 당신이 이해하지 못한다면, 언제든지 당신의 컵을 들고 나를 다져주세요. (뜨거운 물을 먼저 버리는 것을 잊지 마세요.) 물론, 먼저 메시지를 남기고 불분명한 곳을 지적하는 것을 기억하면 우리가 고칠 것이다.

일이 늦어서는 안 되니, 우리 시작합시다.

변동? 파동은 무슨 뜻인가요? 왜 내 AA 실험 지수가 변동합니까?

예를 들면. 제가 실험 평가 시스템에서 AA 실험을 했다고 가정해 봅시다. 실험이 시작된 후, 우리는 출력 실험 지표인 Read/U (사용자당 하루에 평균 몇 번 읽는지) 를 보러 갔다. 두 그룹에 할당된 사용자는 정확히 동일한 제품을 사용하지만 두 세트의 요약된 Read/U 평균은 항상 다릅니다. 이 실험을 여러 번 반복하면 두 그룹의 차이가 매번 다르다는 것을 알 수 있다.

AA 실험에서 나타나는 이 불안정한 지수 차이는 바로 우리가 요동이라고 부르는 것이다.

변동의 원인은 이해하기 쉽다. 즉, "무작위성" 입니다. 다음 초에 헤드라인을 여는 사용자는 오늘 문장 몇 편을 볼 것이다. 이것은 완전히 무작위적이고 예측할 수 없는 것이다. 따라서 두 개의 동일한 실험 그룹을 열 때, 각 사용자 그룹이 오늘 읽을 문장 수가 완전히 무작위이기 때문에, 우리가 최종적으로 얻은 두 Read/U 지표의 차이도 무작위입니다.

AA 실험 지표의 변동을 어떻게 묘사합니까?

변동성을 설명하는 방법에는 여러 가지가 있습니다. AB 실험의 응용 시나리오의 경우 신뢰도와 신뢰 구간을 사용하여 변동성을 설명합니다. 만약 네가 이 두 가지 통계학 개념을 잊어버린다면, 인터넷으로 조사하지 마라. 간단히 말해서:

너는 수많은 AA 실험을 한 적이 있다. 지표의 차이가 일정 범위 (신뢰 구간) 내에 있는 확률 (신뢰 수준) 은 얼마입니까?

헤드 라인 메인 app 의 Read/U 지수를 알고 있다면 200W 사용자의 AA 실험은 신뢰도가 95% 인 경우 0.62% 의 변동을 보입니다. 즉, AA 실험을 할 확률이 높으면 Read/U 지수의 변화율은 양수 및 음수 0.62% 이내가 됩니다.

만약 당신이 한 AB 실험이 Read/U 증가 1% 를 기대한다면, 축하합니다. 실험 검증을 합니다. 만약 당신이 AB 실험을 해서 Read/U 가 0. 1% 증가할 것으로 기대한다면, 죄송합니다. 이 변화는 너무 눈에 띄지 않습니다. 만약 최종 실험 결과가 정말로 0. 1% 증가했다면, 우리는 이것이 전략이 유효한지 변동으로 인한 것인지 판단하기 어렵다.

그럼 문제가 생겼습니다.

제발 0.62% 변동을 알려주세요. 왜 내 AA 변동이 0.78% 인가? 답: 95% 의 확률 변동이 0.62% 이내이고 5% 의 확률이 0.62% 를 넘을 확률이 있기 때문입니다. 이런 사고 발생 확률 (5%) 은 여전히 복권에 당첨될 확률보다 훨씬 높다. 가장 쉬운 방법은 실험을 다시 시작하는 것이다.

사고 확률의 5% 는 내가 감당할 수 없다. 어떻게 해야 할까요? A: 그런 다음 변동 값을 99% 파악하십시오. 물론 이 수치는 분명히 95% 의 변동치보다 클 것이다. 예를 들면 0.8 1% 이다. 즉, 1% 의 확률만으로 AA 실험의 파동이 0.8 1% 를 넘을 수 있다는 뜻입니다.

하지만 내 예상 변화는 0.68%, 0.8 1%, 즉 0.62% 에 불과했다. 변화는 아직 뚜렷하지 않다! 대답: 트래픽을 증가시킵니다. 동전을 던지고 있다고 상상해보세요. 동전을 던지는 횟수가 많을수록 0.5 에 가까워집니다. 즉, 실험이 많을수록 (그룹 사용자가 많을수록) 지수 결과가 안정적입니다 (변동이 적을수록). 그룹 내 사용자 수가 800W 로 증가하면 95% 신뢰도에서 변동이 0.3 1% 로 줄어든다는 것을 알 수 있습니다. 그래, 네가 알아맞혔다. 변동은 사용자 수의 제곱근에 반비례하므로 사용자 수가 4 배 증가하면 변동이 절반으로 줄어듭니다. 흥미가 있으면 돌아가서 확률론을 복습해 보세요.

전환은 통일되지 않나요? 그룹 내 사용자 수가 변동하는 이유는 무엇입니까?

사용자의 하위 텍스트는 다음과 같습니다. "농담이야? 클릭합니다 완전히 그렇지는 않습니다. 우리는 동전을 던지는 것을 예로 들었다. 한 사용자가 차를 배차할 때 어느 그룹에 들어갈 것인가, 마치 동전을 던질 때 어떤 면이 나타날 것 같다. 왜냐하면 당신이 어느 집단에 들어선 것은 당신이 어느 얼굴에 나타난 것처럼 무작위적이기 때문입니다. (존 F. 케네디, 자기관리명언) 따라서 완벽한 전환 전략으로 그룹 내 사용자 수는 다른 지표와 마찬가지로 변동이 있습니다.

변동성에 영향을 미치는 것은 무엇입니까? 제품마다 동일한 지표의 변동이 다른 이유는 무엇입니까?

그룹의 사용자 수

그룹 내 사용자 수가 변동에 미치는 영향을 이해하기 어렵지 않다. 그룹에 가입한 사용자가 많을수록 변동성이 적다. 따라서 실험생들이 AA 변동이 크다는 것을 알게 되면, 실험 트래픽을 늘려 그룹 내 사용자 수를 늘려 AA 변동을 줄이는 것을 고려해 볼 수 있다.

지수 안정성 (표준 편차 또는 분산)

지표의 표준 편차는 지표 값의 안정성을 설명합니다. 양궁의 예를 들다. 샤오장과 왕군이 두 사람이 활을 쏘면, 평균 8 환이다. 장 () 군은 비교적 안정적이어서, 대부분 8 환을 쏘고, 소수에는 7 환 9 환을 쏜다. 왕군의 발휘는 매우 불안정하다. 대부분의 시간은 10 링이 아니면 6 환이다. 샤오장이 100 회 평균 점수를 계산하고 100 회 평균 점수를 계산하면 (우리가 샤오장에서 한 AA 실험과 동일), 두 평균 점수의 차이는 변동률을 반영한다. 분명히 왕군의 지수 변동은 훨씬 크다. 왜냐하면 그 자신의 화살법이 불안정하기 때문이다.

마찬가지로, Comment/U 지표와 같이 값 안정성이 매우 낮기 때문에, 우리는 항상 이 지표의 변동이 Read/U 와 같은 약간 안정적인 지표보다 크다는 것을 알 수 있습니다. 지표의 안정성을 어떻게 설명할 수 있을까요? 표준 편차를 계산합니다.

같은 제품의 국내판과 외국판, 비슷한 지표의 사용자 수 변동이 왜 다른가? 너는 두 버전 중 이 지표의 표준 편차를 간단히 볼 수 있다. 사고가 나지 않으면 변동이 큰 버전의 표준 편차가 더 커질 것이다.

변동성을 어떻게 계산합니까?

선조들은 간단하고 부정확한 통계 공식을 제시하고 증명했다. 즉, 모본의 기대와 분산이 알려지면 모본에 있는 N 개의 샘플 샘플에 대한 기대는 정규 분포를 만족시킨다. 정규 분포의 매개변수는 모체의 기대, 분산 및 샘플 수 N 과 관련이 있습니다.

만약 우리가 app 의 로그 데이터를 전부 모측으로 삼는다면, AA 실험은 단지 두 개의 샘플 샘플의 예상 변화율을 고찰할 뿐이다. 우리에게는 기대와 분산이 있습니다. 공식에 맞추면, 우리는 오늘 발생한 모든 지표의 변동률을 얻을 수 있고, 그 지표들이 내일 같은 app 에서 변동률을 추론할 수 있다.

추가 정보

남자/여자친구와 함께 주말을 보낼 필요가 없다면, 이 정도면 충분하지 않다면 확률론과 수리통계를 읽어 보세요. 어느 버전으로든 가능합니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 남녀명언)