기금넷 공식사이트 - 복권 조회 - 파이썬 빅 데이터 마이닝 기본 제품군 (소스 코드가 포함된 입문 자습서)
파이썬 빅 데이터 마이닝 기본 제품군 (소스 코드가 포함된 입문 자습서)
파이썬 데이터 분석 및 마이닝 기술 요약
데이터 분석이란 알려진 데이터를 분석한 다음 통계 평균, 표준 편차 등과 같은 귀중한 정보를 추출하는 것입니다. 데이터 분석의 데이터 양은 그리 크지 않을 수 있지만, 데이터 마이닝은 대량의 데이터를 분석하고 발굴하여 웹 사이트의 사용자 및 사용자 행동에서 사용자의 잠재적 수요 정보를 발굴하여 웹 사이트를 개선하는 것과 같은 알 수 없는 귀중한 정보를 얻는 것입니다.
데이터 분석과 데이터 마이닝은 불가분의 관계입니다. 데이터 마이닝은 데이터 분석의 향상입니다. 데이터 마이닝 기술은 우리가 사물 사이의 법칙을 더 잘 발견하는 데 도움이 될 수 있다. 따라서 우리는 데이터 마이닝 기술을 이용하여 사물 사이의 법칙을 더 잘 발견할 수 있도록 도울 수 있다. 예를 들어 사용자의 잠재적 수요를 발굴하고, 정보의 개인화를 실현하며, 질병과 증상, 심지어 질병과 약물 사이의 법칙을 발견한다.
사전에 한 가지 일을 잘 하기 전에, 반드시 칼을 갈아야 한다.
먼저 데이터 분석 모듈에 대해 이야기하십시오.
먼저 이 모듈의 기본 사용법에 대해 말씀드리겠습니다.
Numpy 모듈 설치 및 사용
설치:
다운로드 주소는 http://www.lfd.uci.edu/~ gohlke/pythonlibs/입니다
제가 여기서 다운로드한 패키지 버전은 1. 1 1.3 입니다. 주소는 http://www.lfd.uci.edu 입니다
다운로드 후 pipi install "numpy-1.11.3+mkl-cp35-cp35m-win" 사용
Numpy 를 더 잘 지원하려면 numpy 설치 버전에 mkl 버전이 있어야 합니다.
사용이 간편하다
난수 생성
주로 numpy 아래의 임의 방법을 사용합니다.
팬더
Pip 를 사용하여 판다를 설치하기만 하면 됩니다.
코드에서 직접:
판다의 결과물을 봅시다. 이 줄의 번호는 어느 열입니까? 첫 번째 열의 숫자는 행 수입니다. 첫 번째 행과 열을 통해 하나를 찾습니다.
일반적인 방법은 다음과 같습니다.
팬더의 데이터 통계를 살펴 보겠습니다. 먼저 각 선의 정보를 말해 보세요.
변환 함수: 다음 그림과 같이 행 수를 열 수로 변환하고 열 수를 행 수로 변환합니다.
판다를 통해 데이터 가져오기
Pandas 는 다양한 입력 형식을 지원합니다. 나는 여기서 일상생활에서 가장 많이 쓰이는 것을 간단히 열거한다. 더 많은 입력기, 뒤 공식 홈페이지의 소스 코드를 볼 수 있습니다.
CSV 파일
Csv 파일을 가져온 후 출력이 표시되는 경우 CSV 파일의 기본 행 및 열 수에 따라 출력됩니다. 예를 들어, 5 개의 데이터 열이 있는 경우 prinit 이 결과를 출력하면 5 개의 열이 표시됩니다.
Excel 스프레드시트
Xlrd 모듈에 의존하고 있습니다. 설치해 주세요.
평소처럼 원래 출력에는 excel 의 원래 결과가 표시되지만 각 행의 시작 부분에 행 번호가 추가됩니다.
SQL 읽기
PyMySQL 에 의존하므로 설치해야 합니다. 판다가 SQL 을 입력으로 사용하는 경우 두 개의 매개변수를 공식화해야 합니다. 첫 번째는 SQL 문이고 두 번째는 SQL 연결 인스턴스입니다.
HTML 읽기
Lxml 모듈에 의존하니 설치해 주세요.
HTTPS 웹 페이지의 경우 BeautifulSoup4, html5lib 모듈에 따라 달라집니다.
HTML 읽기 HTML 의 테이블만 읽습니다. 즉, 읽기만 합니다.
파이썬 목록 (python list) 을 통해 행 및 열 로고를 동시에 추가할 때입니다.
Txt 파일 읽기
출력이 표시되면 행 및 열 식별자가 모두 추가됩니다.
시피
설치 방법은 먼저 whl 형식의 파일을 다운로드한 다음 PIPIPInstall "패키지 이름" 을 통해 설치하는 것입니다. Whl 패키지의 다운로드 주소는 http://www.lfd.uci.edu/~ gohlke/pythonlibs/f9r7 rmd8/scipy-0./kloc 입니다
Matplotlib 데이터의 시각적 분석
우리는 이 모듈을 설치하여 직접 pip 로 설치할 수 있다. Whl 을 미리 다운로드하지 않고 PIPIPInstall 을 통해 설치할 필요가 없습니다.
다음 코드를 살펴보십시오.
그림 그리는 스타일을 수정해 보겠습니다.
다음과 같은 유형의 그래프가 있습니다.
색상에 대해서는 다음과 같은 종류가 있습니다.
다음과 같은 형태가 있습니다.
차트를 약간 수정하고 스타일을 추가할 수도 있습니다. 다음으로 비트맵을 빨간색 점으로 변경할 수 있습니다. 코드는 다음과 같습니다.
점선을 그릴 수도 있습니다. 코드는 다음과 같습니다.
차트에 제목을 추가하고 x 축과 y 축에 레이블을 지정할 수도 있습니다. 코드는 다음과 같습니다.
히스토그램
히스토그램을 사용하면 각 세그먼트의 데이터를 잘 표시할 수 있습니다. 난수로 히스토그램을 만들어 봅시다.
Y 축은 발생 횟수입니다. X 축은 이 수의 값 (또는 범위) 입니다.
Histtype 매개 변수를 사용하여 막대 그래프 유형을 지정할 수도 있습니다.
아이콘 차이 언어는 자세히 설명할 수 없으므로 안심하고 시도해 볼 수 있습니다.
예를 들면 다음과 같습니다.
하위 그래프 함수
하위 그래프 함수란 무엇입니까? 하위 그래프는 하나의 큰 대지에 여러 개의 하위 그래프를 표시할 수 있는 하위 그래프이며, 각 하위 그래프는 큰 대지의 하위 그래프입니다.
우리는 plot 함수가 그림을 생성하는 데 사용된다는 것을 알고 있습니다. 하위 그래프는 subplog 입니다. 코드는 다음과 같이 작동합니다.
이제 데이터 더미를 통해 그림을 그릴 수 있습니다. 그림에 따르면 예외를 쉽게 찾을 수 있습니다. 한 사이트의 문장 읽기 수와 댓글 수인 CSV 파일을 통해 연습해 보겠습니다.
먼저 이 CSV 의 파일 구조를 말씀드리겠습니다. 첫 번째 열은 일련 번호이고, 두 번째 열은 각 문장 웹 사이트이고, 세 번째 열은 문장 당 읽기 수이며, 네 번째 열은 문장 당 리뷰 수입니다.
우리의 요구는 댓글 수를 Y 축으로, 독서수를 X 축으로 하기 때문에 세 번째 열과 네 번째 열의 데이터를 얻어야 한다. 데이터를 가져오는 방법은 판다의 values 메서드를 통해 한 행의 값을 가져와서 해당 행의 값을 슬라이스하여 아래 첨자 3 (읽기 수) 과 4 (설명 수) 의 값을 얻는 것입니다. 그러나 이것은 한 줄의 값일 뿐이며, 우리는 이 CSV 파일 아래의 모든 논평과 독서가 필요하다. 우리가 무엇을 할 수 있을까요? 똑똑한 당신은 내가 두 개의 목록을 사용자 정의했다고 말할 것입니다. 나는 이 CSV 파일을 순회하고, 읽기와 댓글을 각각 해당 목록에 추가했습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 독서명언) 이것으로는 충분하지 않습니까? 허허, 사실 더 빠른 방법이 하나 더 있다. 바로 T 회전법을 이용해 댓글과 독서수를 바로 values 를 통해 얻을 수 있다. (윌리엄 셰익스피어, 템플릿, 독서명언) 이때 나는 matplotlib 의 pylab 방법을 너에게 그려주고, 그 후에 OK 를 했다. 생각을 이해한 후에 다시 써라.
코드를 살펴 보겠습니다.