기금넷 공식사이트 - 금 선물 - 파충류와 파충류의 기본 과정은 무엇입니까?
파충류와 파충류의 기본 과정은 무엇입니까?
많은 언어에서 파충류를 할 수 있지만 파이썬 기반 파충류는 더 간결하고 편리하다. 파충류도 파이썬 언어의 필수적인 부분이 되었다.
이 문서에서는 파충류와 기본 프로세스가 무엇인지 설명하고, 다음 호에서는 파충류의 기본 프로세스, 요청 및 응답에 대해 자세히 설명합니다.
파충류란 무엇입니까?
파충류는 웹 파충류이고 영어는 웹 스파이더입니다. 번역하면 인터넷을 기어다니는 거미입니다. 인터넷을 큰 그물로 본다면 파충류는 큰 인터넷을 기어다니는 거미다. 그것이 원하는 음식을 만날 때, 그것은 그것을 잡을 것이다.
브라우저에 URL 을 입력하고 캐리지 리턴을 클릭하여 웹 사이트의 페이지 정보를 봅니다. 이것은 브라우저가 웹 사이트를 요청한 서버로, 인터넷 자원을 얻을 때이다. 그런 다음 파충류는 HTML 코드를 얻기 위해 브라우저를 시뮬레이션하여 요청을 보내는 것과 같습니다. HTML 코드에는 일반적으로 원하는 정보를 추출할 수 있는 태그와 텍스트 정보가 포함되어 있습니다.
보통 파충류는 한 사이트의 한 페이지에서 시작하여 이 페이지의 내용을 잡고, 웹 페이지의 다른 링크 주소를 찾은 다음, 이 주소에서 다음 페이지로 이동하여 계속 아래로 내려가 일괄적으로 잡는다. 그래서, 우리는 웹 크롤러가 웹 페이지를 크롤링하고 정보를 수집하는 프로그램이라는 것을 알 수 있습니다.
파충류의 기본 과정:
1. 요청 시작:
HTTP 라이브러리를 통해 타겟 사이트에 요청을 보냅니다. 즉, 1 등 추가 정보를 포함한 다음 서버 응답을 기다릴 수 있습니다. 이 요청은 브라우저를 열고 브라우저의 주소 표시줄 (www.baidu.com) 에 웹 주소를 입력한 다음 입력을 클릭하는 것과 같습니다. 이 프로세스는 실제로 브라우저가 찾아보기 클라이언트로 서버에 요청을 보내는 것과 같습니다.
2. 응답 내용 얻기:
서버가 정상적으로 응답할 수 있다면, 우리는 응답을 받을 것이고, 응답의 내용은 우리가 원하는 것이다. 유형은 HTML, Json 문자열, 이진 데이터 (그림, 비디오 등) 일 수 있습니다. ) 등. 이 프로세스는 서버가 클라이언트로부터 요청을 받고 브라우저에 전송된 웹 페이지 HTML 파일을 구문 분석하는 프로세스입니다.
3. 내용 분석:
내용은 일반 표현식과 웹 페이지 구문 분석 라이브러리를 통해 구문 분석할 수 있는 HTML 일 수 있습니다. Json 일 수도 있습니다. Json 객체 구문 분석으로 직접 변환할 수 있습니다. 이진 데이터일 수 있으며 저장하거나 추가로 처리할 수 있습니다. 이 단계는 브라우저가 로컬에서 서버측 파일을 가져온 다음 해석하고 표시하는 것과 같습니다.
4. 데이터를 저장합니다.
데이터를 텍스트로 저장하거나, 데이터베이스에 저장하거나, jpg, MP4 등의 특정 파일로 저장하여 데이터를 저장할 수 있습니다. 이는 웹 페이지를 탐색하는 동안 웹 페이지의 사진이나 동영상을 다운로드한 것과 같습니다.