기금넷 공식사이트 - 복권 조회 - 자연어 처리 텍스트 분류 학습 시리즈 (2)
자연어 처리 텍스트 분류 학습 시리즈 (2)
응답 1: 평균 문자 길이 872 자, 최소 64 자, 최대 7 125 자, 대부분 1000 이하입니다.
데이터 세트 라벨의 대응 관계는 다음과 같습니다: {'기술': 0,' 주식': 1,' 스포츠': 2,' 엔터테인먼트': 3,' 시사': 4,' 사회
대답 2:' 스포츠' 와' 주식' 의 비중이 가장 높고' 기술' 과' 오락' 이 뒤를이었다. 범주 분포는 균형이 맞지 않았다.
대답 3: 가장 많은 문자는 평균 30 회/편인데, 고주파 문자는 문장 부호 또는 비활성화 단어일 수 있으므로 필터링이 필요합니다.
이 장의 숙제
- 관련 기사