기금넷 공식사이트 - 경제 뉴스 - Python을 사용하여 Douban 영화 "The Shawshank Redemption"에 대한 댓글 크롤링

Python을 사용하여 Douban 영화 "The Shawshank Redemption"에 대한 댓글 크롤링

먼저 렌더링을 살펴보세요:

주소: (/subject/1292052/comments?sort=timeamp; status=P)

처음 10,000개의 댓글 크롤링

txt 문서로 저장

데이터 전처리

중국어 단어 분할

빈도가 높은 상위 10개 단어 통계

자주 사용되는 단어를 시각적으로 표시

단어 빈도를 기반으로 단어 클라우드 생성

댓글 검토

============ ===== ============================================ ==

구성 준비

중국어 단어 분할에는 jieba가 필요함

단어 클라우드 그리기에는 wordcloud가 필요함

시각적 표시에 중국어 글꼴이 필요함

p>

공개 온라인 리소스에서 중국어 장애인 단어 목록 찾기

단어 분할 결과를 기반으로 새 단어 목록 만들기

단어 클라우드 배경 이미지 준비(추가, 아님 필수)

패들허브 구성

#jieba 단어 분할 및 단어 클라우드 설치

pip?install?jieba

pip?install?wordcloud

#패들 설치

pip?install?--upgrade?PaddlePaddle

#설치 모델

#hub?install?porn_Detection_lstm= =1.1.0

pip?install?--upgrade?paddlehub

pip?install?numpy

#Beautifulsoup 설치

pip ?install?BeautifulSoup4

Github 주소: /mikite/python_sp_shawshank

가능한 문제:

1.UnicodeDecodeError: 'utf-8' 코덱이 바이트를 디코딩할 수 없습니다. 위치 1의 0xe8: 유효하지 않은 연속 바이트

해결책:

1. urlLib를 사용하는 대신 요청을 사용하십시오.

2. 'Accept-'를 제거하십시오. 요청 헤더 Encoding': 'gzip, deflate, br'

3. 반환 값 응답은 인코딩 utf-8을 지정하는 문자열로 변환됩니다.

# 'Accept-Encoding' : 'gzip, deflate, br' ',

2. 쿠키 정보

해결 방법:

1. Douban 요청 헤더로 이동하여 쿠키 설정을 복사합니다. 요청 헤더

'Cookie': 'bid=WD6_t6hVqgM'

3. 요청이 418을 반환하는 문제

해결 방법은 요청 헤더 설정을 시뮬레이션하는 것입니다. user-agent 설정

' User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safa

ri/537.36',

4. beautifulsoup을 사용하여 주석을 얻을 수 없습니다.

해결책:

1단계: 구문 분석 매개변수를 'lxml'로 지정합니다.

SoupComment = BeautifulSoup(html, 'lxml')

2단계:

findAll 메소드는 CSS 파일의 클래스 이름을 지정합니다.

인쇄 ( '웹페이지 콘텐츠:', 수프Comment.prettiify())

comments = 수프Comment.findAll(class_='short')

소스 코드를 얻으려면 클릭하세요.