기금넷 공식사이트 - 복권 조회 - 데이터 분석에서 '암흑물질'에 대한 간략한 논의
데이터 분석에서 '암흑물질'에 대한 간략한 논의
데이터 분석에서 '암흑물질'에 대한 간략한 논의
우리가 데이터를 분석할 때 더 중요한 것은 데이터 속에 숨겨진 암흑물질, 즉 데이터를 보는 것이다. 데이터 그래프에서는 볼 수 없는 논리.
본론적으로는 특정 언론사 WAPAPPPC의 주중과 주말 PV 곡선을 분석해보자.
그림 1: 월요일의 newsAPP 인벤토리
그림 2: 일요일의 newsAPP 인벤토리
1. 데이터의 정확성 및 대표성
데이터를 분석하기 전에 모두가 흔히 간과하는 아주 중요한 것이 있는데, 바로 데이터의 신뢰도입니다.
데이터 자체의 정확성에 문제가 있다면 올바른 결과가 나올 확률은 로또에 당첨될 확률과 거의 같다. 데이터가 정확하더라도 데이터가 대표성이라는 것이 입증되어야 합니다. 하루의 데이터만 추출했습니까?
물론 샘플링을 해야 하는 경우가 많기 때문에 더욱 주의를 기울여야 할 요소들이 많고, 데이터를 작성할 때 고려해야 할 요소들을 확실히 고려해야 합니다. 샘플링 과정. 물론 이러한 데이터는 이 결론에 대한 매우 대표성을 가지지만, 다른 분석 목적에서는 전혀 대표성이 없을 수 있으며 일반화할 수 없습니다.
간단히 말하면 데이터의 정확성에 대한 질문은 기본적으로 분석에 앞서 명확한 답이 필요합니다. 데이터가 대표성이 있는지에 대한 질문은 상대적으로 복잡하기 때문에 분석하기 전에 최대한 명확하게 생각해야 합니다. 데이터 샘플이 여전히 대표적인지 다시 생각해 보세요.
그림 3: 특정 월요일의 newsWAP 재고
그림 4: 특정 주말의 newsWAP 재고
2. 말할 사진을 보세요
다음 사진의 데이터는 다각적인 테스트를 거쳤기 때문에 기본적으로 정확한 데이터이며, 대표성은 분석 목적에 따라 달라집니다.
기본적으로 정확성과 대표성을 확인한 후 높은 질문 정신으로 분석 여정을 시작하겠습니다.
우선 각 그래프를 개별적으로 살펴보면 이 6가지 PV 곡선이 사용자 행동과 밀접한 관련이 있다는 것을 확실히 알 수 있습니다. 다양한 PV 곡선의 변화로 볼 때, 7시에서 8시 사이에 일어나는 사용자가 많아지고, 22시는 모두가 집중적으로 휴식을 취하는 시간입니다. 사용자 활동의 최저점은 오전 2시부터 5시까지이며, 피크 시간은 일반적으로 20시부터 22시입니다.
그림 5: 월요일 newsPC의 재고
그림 6: 일요일의 newsPC 재고
3. 여기에서 주의 깊은 독자들은 그림 5와 6의 데이터에 의문을 제기할 수 있습니다. 방금 소개한 규칙을 따르지 않기 때문입니다.
예를 들어 PC의 하루 중 피크 시간은 매일 9시~10시인데, 월요일과 일요일에는 PV 곡선이 크게 변합니다. ?월요일의 데이터 양은 일요일의 두 배이며, 일요일 낮 동안의 변동은 상대적으로 완만한 반면, 월요일의 변동은 매우 크고 여러 개의 최고점과 최저점이 있습니다. 이에 반해, APPWAP의 전체 PV량은 일요일과 월요일에 큰 변화가 없었으며, 곡선 변화도 대체로 동일했습니다.
4. 암흑물질 채굴
소위 암흑물질은 데이터 그래프에서는 볼 수 없는 데이터 논리 지식이다.
소위 데이터 분석이나 마이닝은 각 데이터 사이의 상관관계, 데이터와 암흑물질 사이의 상관관계를 찾아내는 것이다.
잘 생각해보면 <그림 보고 대화하기>의 추론은 사실 사전 지식을 활용한 셈이다. 즉, 누구나 일어나서 뉴스를 읽고, 가기 전에 뉴스를 읽는 습관이 있다는 것이다. 정말 그렇습니까? 이는 아마도 사실일 수 있지만 상황은 다릅니다.
APPWAP은 모바일 기기에서 접속할 수 있는 채널이므로 기본적으로 사용자의 일상 습관에 맞출 수 있습니다.
하지만 PC 버전은 손이 닿지 않는 수준이고, 사용자의 일상생활과 완전히 일치하지도 않습니다. 결국, 이상한 순간에 휴대폰을 켤 수는 있지만 컴퓨터를 켤 가능성은 거의 없습니다.
위에서 PC 버전이 사용자의 일상을 잘 반영할 수 없는데, 사용자의 삶을 어떻게 반영할 수 있다고 말씀드렸는데요. 우리가 일반적으로 PC를 사용하는 시나리오를 생각해 보십시오. PC 측 데이터가 사용자의 근무 시간 특성을 반영할 수 있습니까? 이는 실제로 데이터로 뒷받침될 수 있습니다.
첫째, 일요일보다 월요일에 PV량이 더 많기 때문에 주말에 PC를 사용하는 사용자가 적고, 주중 근무 시간에는 스스로 일을 할 수 없기 때문에 PV 볼륨이 상대적으로 큽니다. 일요일과 월요일의 곡선의 변동은 근무 시간이기 때문에 일일 시간보다 지연되는 것은 완전히 이해할 수 있습니다. 9시쯤(일하는 사람들이 집중) 적절한 시간에 모두가 자리에 앉아 뉴스를 스크롤하면 PV 양이 최대에 도달합니다.
9시부터 11시까지 PV량은 큰 변화가 없었으나, 11시부터 서서히 감소하기 시작하여 12시까지 지속된 것이 그 이유일 것이다. 점심은 12시부터 14시까지의 점심시간 이후 PV량이 어느 정도 늘었습니다.
오후 17시부터 다시 하락세를 보이다가 18시가 되자 거의 하락했습니다. 모두 기본적으로 퇴근했습니다. 따라서 일요일에 PV를 생성하는 이러한 사용자는 주중에도 PV를 생성하고 월요일에 이러한 추가 PV의 사용자 특성은 작업 특성, 즉 그들의 특성과 완전히 일치한다고 말할 수 있습니다. 9시부터 5시까지 일하는 클랜의 특성과 완전히 일치합니다.
5. 반복 검증
데이터가 정말 정확합니까? 그렇다면 PC 측 PV 변동을 일으키는 9~5명의 사용자가 공기업 직원이라고 할 수 있을까? 공기업 직원들은 출근할 때만 뉴스를 보고 채팅을 한다고 말할 수 있을까요? 그렇다면 인터넷 직원들은 출근할 때 뉴스를 읽지 않는다고 말할 수 있을까?
뉴스를 보기 위해 UV에서 생성한 PV 데이터를 얻었는데, 얻은 데이터는 당연히 이렇습니다. 인터넷 종사자들의 행동은 다른 원인에 묻혀 있는 걸까? 위에서도 언급했지만 항상 질문하는 마음을 가지세요. 귀하의 데이터는 이전 분석을 대표하지만 위의 문제를 분석해 보면 전혀 대표성이 없다고 할 수 있습니다.
데이터를 분석하면서 이미 결론을 내린 사람들도 있는데, 데이터를 선택하고 분석할 때 무의식적으로 편향되는 경향이 있어, 자신이 세운 가설과 같은 결론에 도달할 수밖에 없다. 따라서 결론을 도출할 때에는 특정 요인을 제거한 후에 현상이 사라질지 여부 등 다양한 측면에서 실제로 검증해야 합니다.
6. 당신의 결론이 정말 맞나요?
예전에 친구들 사이에 떠돌았던 소식이 있다. 권위있는 분석기관이 데이터 분석을 통해 <늑대전사2>와 주토피아 모두 흥행은 높지만, 둘 사이의 유저 오버랩은 높지 않다는 것을 알아냈다. Wolf Warrior 2를 시청하는 사용자는 차가운 음료를 선호하는 반면, Zootopia를 시청하는 사용자는 밀크티를 선호합니다. 그런데 사실 주토피아는 겨울에 출시됐고, 늑대무쌍2는 여름에 출시됐다. 거듭 검증을 거쳐도 결론에 대한 신뢰도가 점점 높아진다고 할 수 있을 뿐, 그것이 옳다는 것을 증명하는 것은 아니다. 따라서 최대한 반복적인 검증 외에 남은 방법은 데이터 중심의 전략을 검증하는 것이다. 검증은 통제그룹 등으로 나눌 수 있는데 여기서는 설명하지 않겠습니다.
7. 그의 사용자를 추측해 보세요
좀 더 주의 깊게 보면 일요일에 newsAPPWAP 양쪽 끝의 변경 사항이 월요일에 비해 약간 지연되는 것을 알 수 있습니다. 모두의 주말 업무가 늦어지고 휴식 습관이 생기는 것과 관련이 있습니다. 왜 지연이 많지 않은지에 대해 말하자면, 주류 사용자는 확실히 "직장에서 잠을 못 자거나 주말에 잠을 못 이루는" 그런 젊은 사람들이 아니라는 뜻입니다. ."
8. 마지막에 작성
실시간 모니터링에 주로 사용되는 이 몇 가지 곡선은 어떻게 그렇게 많은 것을 끌어낼 수 있습니까? 여기 모두를 위한 사진이 있습니다.
다음 내용은 1964년 '차이나화보' 표지에 실린 사진으로 인해 발생한 바이두차이나의 가장 유명한 '사진 유출 사건'에서 따온 것이다. 공개된 사진 속 대경유전의 '아이언맨' 왕진시는 커다란 개가죽 모자와 두꺼운 솜 패딩 재킷을 입고 시추 장비 손잡이를 잡고 무거운 것을 바라보며 먼 곳을 바라보고 있다. 눈 뒤에는 키가 큰 데릭이 있습니다.
이를 토대로 일본 정보전문가들은 당시 중국 최대 석유기지였던 다칭 유전의 비밀을 밝혀냈다.
1. 사진 속 왕진희의 의상을 토대로 겨울철에 이런 옷을 입는 것이 북위 46~48도 지역에서만 가능하다고 판단해 대경유전이 그렇다는 결론을 내렸다. 치치하얼(Qiqihar)과 하얼빈(Harbin) 사이에 위치.
2. 왕진시가 들고 있는 손잡이의 위치를 보면 유정의 직경을 짐작할 수 있다.
3. Jinxi가 서 있고 그 뒤에 있는 유전과 데릭의 밀도를 통해 유전의 대략적인 매장량과 생산량을 유추할 수 있습니다. 너무나 정확한 정보를 바탕으로 일본은 다칭 유전 개발에 적합한 석유 장비를 신속하게 설계했습니다. 중국 정부가 다칭 유전 개발을 위한 장비 계획을 세계 각국에 요청하자 일본은 단숨에 입찰에서 승리했습니다.
다행히 일본은 군사적 전략 목적이 아닌 당시 경제위기로 인한 정보분석 결과에 따르면 정유시설을 우리 나라에 높은 가격에 팔았다.
그렇다면 데이터 분석에서 가장 중요한 것은 무엇일까요? 암흑 물질!
- 관련 기사
- 수영장에서 수영하는 꿈을 꾸는 것은 어떤 징조입니까?
- 과학 연구 사고를 배양하다
- 돼지를 죽이는 것은 무슨 뜻입니까?
- 사탕 한 봉지가 있는데, 평균적으로 8 명에게 나누어 주든, 평균적으로 10 명에게 나누어 주든 3 위안이 남았다.
- 만트라를 외치는 꿈은 자신을 구원할 징조입니다.
- 스크래치 음악의 승리 법칙은 무엇입니까?
- 중국 스포츠 복권 연못문화거리점 _ 지현 체채는 어디서 파나요?
- 신판 해람과 구판의 차이.
- 복권을 8 번 사는 것이 좋습니까, 아니면 9 번 사는 것이 좋습니까? _ 복권을 8 배로 사는 것이 좋습니까, 아니면 9 배로 사는 것이 좋습니까?
- 한 여자가 동창 모임에 참석하여 우스꽝스러운 일을 한 후에 한 거래의 내용은 무엇입니까?