기금넷 공식사이트 - 펀드 투자 - Gensim 에 기반한 텍스트 유사성 계산
Gensim 에 기반한 텍스트 유사성 계산
벡터 (vector) 는 텍스트 피쳐 세트의 목록입니다. Gensim 에서 텍스트의 내부 표현입니다.
사전 (dictionary) 은 모든 문서에 있는 모든 단어의 모음이며 각 단어의 발생 횟수 등을 기록합니다. -응?
모형 (모델) 은 추상적인 용어입니다. 두 벡터 공간의 변환 (즉, 텍스트의 한 벡터 표현에서 다른 벡터 표현으로 변환) 을 정의합니다.
하나의 실험으로 이해:
# -*- coding: UTF-8 -*-?
from gens im import corpora, similarities, models
import Jie ba
classgensimexp (object): Feature_num, Best_num) :
self.raw _ documents = documents
self.test _ document = test _ document
self.test _ document = best _ num
defcalsim (self):
corpora _ documents = []
# 분사
for item
corpora _ documents.append (item _ seg)
# 사전과 어료 생성
dictionary = corpora.diction 각 뉴스에 해당하는 bow 벡터 계산
corpus = [dictionary.doc2 bow (text) fortextincorpora _ documents] # 반복자
if SIF
tfidf _ model = models.tfidfmodel (corpus)
corpus _ tfidf = tfidf _ model [corpus] Corpus _ tfidf, \
num _ features = self.num _ features, Num _ best = self.num _ best)
test _ cut _ raw = list (jieba.cut (self.test _) IF-IDF 값을 생성합니다. 그런 다음 유사성 계산
self. _ test _ corpus = tfidf _ model [test _ corpus]
elif self.simca ltype =
corpus _ LSI = LSI _ model [corpus]
self. _ similarity = similarities.similarity ( Num _ best = self.num _ best)
test _ cut _ raw = list (jieba.cut (self.test _)
self. _ test _ corpus = LSI _ model [test _ corpus]
self.print _ out () <; :
string =' the most similar material is'
fortplinrange (len (self. _ similarity [self .. = len (self. _ similarity [self. _ test _ corpus])-1:
string = string+str (sest
+'('+str (self. _ similarity [self. _ test _ corpus] [TPL] [1])+'))
+'('+str (self. _ similarity [self. _ test _ corpus] [TPL] [1])+')) 중신그룹과 텐센트는 선전에서 구름과 빅 데이터, 블록체인, 인공지능 등 기술 분야의 업무협력을 추진하며 실체산업의 디지털 변환 업그레이드 경로를 적극적으로 탐구할 것이라고 발표했다. ♫ ,
'1 포발은행은 회사 청두지점이 신용업무 위반 등 위반으로 은감회에 벌금 4 억 62 만원을 부과했고, 처벌액은 217 년 회사 손익에 전액 포함돼 회사 업무 전개와 지속경영에 큰 악영향을 미치지 않는다고 발표했다. ♫ ,
'2 포발 응답 포발 청두 지점 위반 벌금 4 억 62 만: 푸발은행 본점 측으로부터 푸발은행이 청두 지점에서 발생한 위반 대출 발행 사건에 대해 깊은 죄책감을 느낀다는 것을 알게 되었습니다. 감독 부서의 조사에 대해 단호한 지지와 수용을 표명하면서 이를 채찍질로 자신의 관리를 강화하고 엄치행부터 견지하며 향후 경영 발전에서 항상 법에 따라 준법 경영을 입행본으로 삼을 것이다. (재벌)',
'3 수시실험공고, 회사 1332 만주가 첫 공개 발행 전에 발행된 주식은 1 월 24 일 해금돼 회사 총 지분의 1.61% 를 차지한다. 해금일 실제 상장유통주식은 1221 만 5 주로 총 지분의 9.73% 를 차지한다. 이번 주식 제한 판매 해제를 신청한 주주는 쑤저우 실험기기 총공장과 종조안화, 진천, 무원정, 진영 등 자연인 주주 4 명이다. ♫ ,
'4 보스턴 과학 및 국약지주자회사는 XIO 의 Lumenis 입찰에 참여한 것으로 알려졌다. ♫ ,
'5 쑤닝 운상응답 심교소 문의서: 쑤닝 금융연구원은 217 년 7 월 블록 체인 기술 및 금융업계에서의 응용을 연구하는 블록 체인 연구소를 공식 설립했다. 블록 체인 기술을 이용하여 수닝킨서비스 및 쑤닝 은행 업무에 대한 기술 지원을 제공하기 위한 것이다. 쑤닝 은행 블록 체인 국내 신용장 정보 전송 시스템은 연합체인 방식을 채택하여 연합은행 사이에서만 무료로 사용하고, 대외 직접 서비스를 제공하지 않으며, 이 시스템은 직접 수입이 발생하지 않는다. ♫ ,
'6 용마 위생 공고, 회사 1 억 6 억 주 첫 공개 발행 제한 주식은 1 월 26 일 상장유통될 예정이며, 주주에는 현직 이사, 감사 및 임원 장계풍 등 17 명이 포함된다. ♫ ,
'7 항공우주공사 공고, 회사 3 억 24 만 주 최초 공개 발행 제한주가 1 월 29 일 상장돼 주주가 중국 운반로켓 기술연구원, 항공우주투자지주유한공사, 베이징항공우주동력연구소, 베이징항공우주산업투자기금 (유한파트너) 및 전국사회보장기금 이사회를 2 가구로 이양한다. ♫ ,
'8 대천생태공고, 회사와 장쑤 대천설계원 유한회사로 구성된 연합체로, 고순구 동댐진 특색 전원농촌 건설 프로젝트인 EPC 총청부 프로젝트를 미리 낙찰해 프로젝트 투자는 약 1 억 4 천만 원으로 추산된다. 프로젝트의 순조로운 시행은 올해 회사의 경영 실적에 긍정적인 영향을 미칠 것이다. ♫ ,
'9 1954 년 2 월 19 일 소련 최고 소비에트 국은' 형제의 우크라이나와 러시아가 동맹을 맺은 지 3 주년을 맞아' 결의안을 통과시켜 러시아 연방의 크리미아 주를 우크라이나에 가맹 * * * 과 국가',
'1 집우주식공고로 분류했다 현재 수입은 이전 기간보다 더 많이 증가하고, 영업 이익은 이전 기간보다 증가했다. 받은 정부 보조금 및 재테크 수익 등 비반복적 손익사안이 회사 순이익에 미치는 영향은 약 32 만원이다. ♫ ,
'11 천산약기: 대주주 담보주식이 평창선 천산약기 공고, 제 1 대주주, 사실자 중 한 명인 류상화는 총 회사 지분 14.83% 를 보유하고 있다. 현재 유상화 * * * 담보회사 지분 13.78% 입니다. 류상화는 국태군안증권에 담보한 298 만 8 주 주식이 이미 평창선으로 떨어졌다. 회사는 현재 증권감독회에 입건되어 조사를 받고 있으며, 관련 규정에 따르면, 회사는 입건조사 기간 동안 대주주가 (지분 담보평창 포함) 회사 주식을 감축해서는 안 된다. 이에 따라 이번 유상화 담보의 주식이 평창선을 무너뜨리면 회사의 실제 통제권이 변하지 않을 것이다. ♫ ,
'12 천마정제: 자회사는 1 억원 이상의 지주중과전자를 계획하고 공급망 관리 발전 전략을 추가한다. ♫ ,
'13 초화과학기술공고는 최근 출자 자회사인 벨신 직원 통지를 받았고, 벨신사는 최근 회장인 정장춘과 연락이 되지 않았다는 피드백을 받았다. 지금까지 회사도 벨신 회장 정장춘과 연락할 수 없었다. 벨신의 주요 주주들과 상의한 후, 벨신 이사회의 심의를 거쳐 벨신의 기존 경영진으로 구성된 임시 작업팀이 벨신의 정상적인 생산과 경영 질서를 유지할 것이다. 회사는 상장 회사와 주주의 이익을 보호하기 위해 벨신에 대한 사찰을 전면적으로 전개하였다. ♫ ,
'14 승홍과학기술공고, 217 년 이익 2 억 8 만원-2 억 9 만원, 전년 동기 대비 2.65%-24.96% 증가, 전년 동기 이익 2 억 32 만원 달성 예상. 보고 기간 동안 회사는 비반복 손익이 순이익에 미치는 영향이 약 1 만 ~ 13 만원에 달할 것으로 예상하고 있다. ♫ ,
'15 동욱 광전 공고, 지주주주 동욱그룹 직원 성장 * * * 승리 계획은 이미 회사 주식 매입을 완료했으며, 총 구매회사 주식 1119 만 주를 총 매입하여 총 지분의 .2%, 거래액은 약 1 억 2 천만 원, 거래평균가격은 약 9.12 원/주식입니다
]
obj1 = gensimexp (raw _ documents,' 디지털 변환 업그레이드 경로',' similarity-tfi df-index', 6 Similarity-tfi df-index', 6, 3). calsim ()
obj3 = gensimexp (raw _ documents,) (PS: 분사하는 동안 비활성화단어 처리가 수행되지 않음)
참조:
/gensim/tutorial.html