기금넷 공식사이트 - 경제 뉴스 - Python을 사용하여 Douban 영화 "The Shawshank Redemption"에 대한 댓글 크롤링
Python을 사용하여 Douban 영화 "The Shawshank Redemption"에 대한 댓글 크롤링
먼저 렌더링을 살펴보세요:
주소: (/subject/1292052/comments?sort=timeamp; status=P)
처음 10,000개의 댓글 크롤링
txt 문서로 저장
데이터 전처리
중국어 단어 분할
빈도가 높은 상위 10개 단어 통계
자주 사용되는 단어를 시각적으로 표시
단어 빈도를 기반으로 단어 클라우드 생성
댓글 검토
============ ===== ============================================ ==
구성 준비
중국어 단어 분할에는 jieba가 필요함
단어 클라우드 그리기에는 wordcloud가 필요함
시각적 표시에 중국어 글꼴이 필요함
p>
공개 온라인 리소스에서 중국어 장애인 단어 목록 찾기
단어 분할 결과를 기반으로 새 단어 목록 만들기
단어 클라우드 배경 이미지 준비(추가, 아님 필수)
패들허브 구성
#jieba 단어 분할 및 단어 클라우드 설치
pip?install?jieba
pip?install?wordcloud
#패들 설치
pip?install?--upgrade?PaddlePaddle
#설치 모델
#hub?install?porn_Detection_lstm= =1.1.0
pip?install?--upgrade?paddlehub
pip?install?numpy
#Beautifulsoup 설치
pip ?install?BeautifulSoup4
Github 주소: /mikite/python_sp_shawshank
가능한 문제:
1.UnicodeDecodeError: 'utf-8' 코덱이 바이트를 디코딩할 수 없습니다. 위치 1의 0xe8: 유효하지 않은 연속 바이트
해결책:
1. urlLib를 사용하는 대신 요청을 사용하십시오.
2. 'Accept-'를 제거하십시오. 요청 헤더 Encoding': 'gzip, deflate, br'
3. 반환 값 응답은 인코딩 utf-8을 지정하는 문자열로 변환됩니다.
# 'Accept-Encoding' : 'gzip, deflate, br' ',
2. 쿠키 정보
해결 방법:
1. Douban 요청 헤더로 이동하여 쿠키 설정을 복사합니다. 요청 헤더
'Cookie': 'bid=WD6_t6hVqgM'
3. 요청이 418을 반환하는 문제
해결 방법은 요청 헤더 설정을 시뮬레이션하는 것입니다. user-agent 설정
' User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safa
ri/537.36',
4. beautifulsoup을 사용하여 주석을 얻을 수 없습니다.
해결책:
1단계: 구문 분석 매개변수를 'lxml'로 지정합니다. p >
SoupComment = BeautifulSoup(html, 'lxml')
2단계:
findAll 메소드는 CSS 파일의 클래스 이름을 지정합니다.
인쇄 ( '웹페이지 콘텐츠:', 수프Comment.prettiify())
comments = 수프Comment.findAll(class_='short')
소스 코드를 얻으려면 클릭하세요.