기금넷 공식사이트 - 펀드 투자 - Gensim 에 기반한 텍스트 유사성 계산

Gensim 에 기반한 텍스트 유사성 계산

Gensim 은 TF-IDF (term frequency–inverse document frequency) 와 같은 알고리즘을 사용하는 파이썬 자연어 처리 라이브러리로서 디리클레이 할당 (latent document) 을 암시합니다 잠재적 의미 분석 (LSA) 또는 무작위 예측 (Random Projections) 등? 교육 코퍼스의 동일한 문서에서 단어의 통계 * * * 현재 패턴을 검사하여 문서의 의미 구조를 찾은 다음 추가 처리를 위해 벡터 모드로 변환하는 것입니다. 또한 Gensim 은 단어를 단어 벡터로 변환하는 word2vec 기능을 구현합니다. < P > 어료 (corpus) 는 감독되지 않은 텍스트 주제의 숨겨진 계층 구조를 훈련시키는 원시 텍스트 모음입니다. 어료에는 수동 표기에 대한 추가 정보가 필요하지 않습니다. Gensim 에서 Corpus 는 일반적으로 목록과 같은 반복 가능한 객체입니다. 각 반복은 텍스트 객체를 표현하는 데 사용할 수 있는 스파스 벡터를 반환합니다.

벡터 (vector) 는 텍스트 피쳐 세트의 목록입니다. Gensim 에서 텍스트의 내부 표현입니다.

사전 (dictionary) 은 모든 문서에 있는 모든 단어의 모음이며 각 단어의 발생 횟수 등을 기록합니다. -응?

모형 (모델) 은 추상적인 용어입니다. 두 벡터 공간의 변환 (즉, 텍스트의 한 벡터 표현에서 다른 벡터 표현으로 변환) 을 정의합니다.

하나의 실험으로 이해:

# -*- coding: UTF-8 -*-?

from gens im import corpora, similarities, models

import Jie ba

classgensimexp (object): Feature_num, Best_num) :

self.raw _ documents = documents

self.test _ document = test _ document

self.test _ document = best _ num

defcalsim (self):

corpora _ documents = []

# 분사

for item

corpora _ documents.append (item _ seg)

# 사전과 어료 생성

dictionary = corpora.diction 각 뉴스에 해당하는 bow 벡터 계산

corpus = [dictionary.doc2 bow (text) fortextincorpora _ documents] # 반복자

if SIF

tfidf _ model = models.tfidfmodel (corpus)

corpus _ tfidf = tfidf _ model [corpus] Corpus _ tfidf, \

num _ features = self.num _ features, Num _ best = self.num _ best)

test _ cut _ raw = list (jieba.cut (self.test _) IF-IDF 값을 생성합니다. 그런 다음 유사성 계산

self. _ test _ corpus = tfidf _ model [test _ corpus]

elif self.simca ltype =

corpus _ LSI = LSI _ model [corpus]

self. _ similarity = similarities.similarity ( Num _ best = self.num _ best)

test _ cut _ raw = list (jieba.cut (self.test _)

self. _ test _ corpus = LSI _ model [test _ corpus]

self.print _ out () <; :

string =' the most similar material is'

fortplinrange (len (self. _ similarity [self .. = len (self. _ similarity [self. _ test _ corpus])-1:

string = string+str (sest

+'('+str (self. _ similarity [self. _ test _ corpus] [TPL] [1])+'))

+'('+str (self. _ similarity [self. _ test _ corpus] [TPL] [1])+')) 중신그룹과 텐센트는 선전에서 구름과 빅 데이터, 블록체인, 인공지능 등 기술 분야의 업무협력을 추진하며 실체산업의 디지털 변환 업그레이드 경로를 적극적으로 탐구할 것이라고 발표했다. ♫ ,

'1 포발은행은 회사 청두지점이 신용업무 위반 등 위반으로 은감회에 벌금 4 억 62 만원을 부과했고, 처벌액은 217 년 회사 손익에 전액 포함돼 회사 업무 전개와 지속경영에 큰 악영향을 미치지 않는다고 발표했다. ♫ ,

'2 포발 응답 포발 청두 지점 위반 벌금 4 억 62 만: 푸발은행 본점 측으로부터 푸발은행이 청두 지점에서 발생한 위반 대출 발행 사건에 대해 깊은 죄책감을 느낀다는 것을 알게 되었습니다. 감독 부서의 조사에 대해 단호한 지지와 수용을 표명하면서 이를 채찍질로 자신의 관리를 강화하고 엄치행부터 견지하며 향후 경영 발전에서 항상 법에 따라 준법 경영을 입행본으로 삼을 것이다. (재벌)',

'3 수시실험공고, 회사 1332 만주가 첫 공개 발행 전에 발행된 주식은 1 월 24 일 해금돼 회사 총 지분의 1.61% 를 차지한다. 해금일 실제 상장유통주식은 1221 만 5 주로 총 지분의 9.73% 를 차지한다. 이번 주식 제한 판매 해제를 신청한 주주는 쑤저우 실험기기 총공장과 종조안화, 진천, 무원정, 진영 등 자연인 주주 4 명이다. ♫ ,

'4 보스턴 과학 및 국약지주자회사는 XIO 의 Lumenis 입찰에 참여한 것으로 알려졌다. ♫ ,

'5 쑤닝 운상응답 심교소 문의서: 쑤닝 금융연구원은 217 년 7 월 블록 체인 기술 및 금융업계에서의 응용을 연구하는 블록 체인 연구소를 공식 설립했다. 블록 체인 기술을 이용하여 수닝킨서비스 및 쑤닝 은행 업무에 대한 기술 지원을 제공하기 위한 것이다. 쑤닝 은행 블록 체인 국내 신용장 정보 전송 시스템은 연합체인 방식을 채택하여 연합은행 사이에서만 무료로 사용하고, 대외 직접 서비스를 제공하지 않으며, 이 시스템은 직접 수입이 발생하지 않는다. ♫ ,

'6 용마 위생 공고, 회사 1 억 6 억 주 첫 공개 발행 제한 주식은 1 월 26 일 상장유통될 예정이며, 주주에는 현직 이사, 감사 및 임원 장계풍 등 17 명이 포함된다. ♫ ,

'7 항공우주공사 공고, 회사 3 억 24 만 주 최초 공개 발행 제한주가 1 월 29 일 상장돼 주주가 중국 운반로켓 기술연구원, 항공우주투자지주유한공사, 베이징항공우주동력연구소, 베이징항공우주산업투자기금 (유한파트너) 및 전국사회보장기금 이사회를 2 가구로 이양한다. ♫ ,

'8 대천생태공고, 회사와 장쑤 대천설계원 유한회사로 구성된 연합체로, 고순구 동댐진 특색 전원농촌 건설 프로젝트인 EPC 총청부 프로젝트를 미리 낙찰해 프로젝트 투자는 약 1 억 4 천만 원으로 추산된다. 프로젝트의 순조로운 시행은 올해 회사의 경영 실적에 긍정적인 영향을 미칠 것이다. ♫ ,

'9 1954 년 2 월 19 일 소련 최고 소비에트 국은' 형제의 우크라이나와 러시아가 동맹을 맺은 지 3 주년을 맞아' 결의안을 통과시켜 러시아 연방의 크리미아 주를 우크라이나에 가맹 * * * 과 국가',

'1 집우주식공고로 분류했다 현재 수입은 이전 기간보다 더 많이 증가하고, 영업 이익은 이전 기간보다 증가했다. 받은 정부 보조금 및 재테크 수익 등 비반복적 손익사안이 회사 순이익에 미치는 영향은 약 32 만원이다. ♫ ,

'11 천산약기: 대주주 담보주식이 평창선 천산약기 공고, 제 1 대주주, 사실자 중 한 명인 류상화는 총 회사 지분 14.83% 를 보유하고 있다. 현재 유상화 * * * 담보회사 지분 13.78% 입니다. 류상화는 국태군안증권에 담보한 298 만 8 주 주식이 이미 평창선으로 떨어졌다. 회사는 현재 증권감독회에 입건되어 조사를 받고 있으며, 관련 규정에 따르면, 회사는 입건조사 기간 동안 대주주가 (지분 담보평창 포함) 회사 주식을 감축해서는 안 된다. 이에 따라 이번 유상화 담보의 주식이 평창선을 무너뜨리면 회사의 실제 통제권이 변하지 않을 것이다. ♫ ,

'12 천마정제: 자회사는 1 억원 이상의 지주중과전자를 계획하고 공급망 관리 발전 전략을 추가한다. ♫ ,

'13 초화과학기술공고는 최근 출자 자회사인 벨신 직원 통지를 받았고, 벨신사는 최근 회장인 정장춘과 연락이 되지 않았다는 피드백을 받았다. 지금까지 회사도 벨신 회장 정장춘과 연락할 수 없었다. 벨신의 주요 주주들과 상의한 후, 벨신 이사회의 심의를 거쳐 벨신의 기존 경영진으로 구성된 임시 작업팀이 벨신의 정상적인 생산과 경영 질서를 유지할 것이다. 회사는 상장 회사와 주주의 이익을 보호하기 위해 벨신에 대한 사찰을 전면적으로 전개하였다. ♫ ,

'14 승홍과학기술공고, 217 년 이익 2 억 8 만원-2 억 9 만원, 전년 동기 대비 2.65%-24.96% 증가, 전년 동기 이익 2 억 32 만원 달성 예상. 보고 기간 동안 회사는 비반복 손익이 순이익에 미치는 영향이 약 1 만 ~ 13 만원에 달할 것으로 예상하고 있다. ♫ ,

'15 동욱 광전 공고, 지주주주 동욱그룹 직원 성장 * * * 승리 계획은 이미 회사 주식 매입을 완료했으며, 총 구매회사 주식 1119 만 주를 총 매입하여 총 지분의 .2%, 거래액은 약 1 억 2 천만 원, 거래평균가격은 약 9.12 원/주식입니다

]

obj1 = gensimexp (raw _ documents,' 디지털 변환 업그레이드 경로',' similarity-tfi df-index', 6 Similarity-tfi df-index', 6, 3). calsim ()

obj3 = gensimexp (raw _ documents,) (PS: 분사하는 동안 비활성화단어 처리가 수행되지 않음)

참조:

/gensim/tutorial.html