기금넷 공식사이트 - 금 선물 - 인터넷 파충류는 빅데이터 시대의 은행에 새로운 전략을 제공했다.
인터넷 파충류는 빅데이터 시대의 은행에 새로운 전략을 제공했다.
인간 사회는 빅 데이터 시대에 접어 들었습니다. 전통적인 정보 저장 및 통신 매체는 점차 컴퓨터로 대체되어 기하급수적 인 성장 추세를 보이고 있으며 2 1 세기의 가장 중요한 경제 자원 중 하나가되었습니다. 실제 거래 데이터가 많은 상업 은행으로서 내부 및 외부 정보, 구조화 및 구조화되지 않은 데이터의 긴밀한 결합을 실현하는 방법, 보다 정확한 정보 식별, 효과적인 정보 마이닝, 데이터 가치를 경제적 가치로 변환하는 방법. 상업 은행이 핵심 경쟁력을 높이는 중요한 방법 중 하나가 되었습니다. 웹 크롤러 기술의 급속한 발전은 상업 은행에 정보를 정확하게 얻고 응용 프로그램을 효과적으로 통합할 수 있는 새로운 전략을 제공합니다.
웹 크롤러 기술 요약
웹 크롤러 (웹 크롤러) 는 Spider (또는 Robots, Crawler) 와 같은 단어의 의역이며 효율적인 정보 수집 도구입니다. 검색 엔진 기술이 통합되어 기술적 최적화를 통해 인터넷에서 모든 HTML (하이퍼텍스트 마크 언어) 표준화 웹 페이지 정보를 검색, 캡처 및 저장합니다. 그 메커니즘은 특정 인터넷 사이트에 요청을 보내고, 연결을 설정한 후 사이트와 상호 작용하고, HTML 형식의 정보를 얻고, 다음 사이트로 이동하여 위 절차를 반복하는 것이다. 이 자동화된 작동 메커니즘을 통해 대상 데이터는 로컬 데이터에 저장되어 사용할 수 있습니다. 웹 크롤러는 하이퍼텍스트 링크에 액세스할 때 HTML 태그에서 다른 웹 페이지에 대한 주소 정보를 자동으로 얻을 수 있으므로 효율적이고 사양 있는 정보를 자동으로 얻을 수 있습니다.
인간 경제 사회에서 인터넷의 응용이 점점 더 널리 보급됨에 따라, 포괄하는 정보의 규모는 기하급수적으로 증가하고 있으며, 정보의 형식과 분포는 다양성과 세계화 추세를 보이고 있다. 기존의 검색 엔진 기술은 점점 더 정교화되고 전문화된 정보 수집 및 처리 요구 사항을 충족하지 못하고 있으며, 엄청난 과제에 직면하고 있습니다. 인터넷 파충류가 탄생한 이래 빠르게 발전하여 정보기술 분야의 주요 연구 핫스팟이 되었다. 현재 주류 웹 크롤러 검색 전략은 다음과 같습니다.
깊이 우선 검색 정책
초기 파충류 개발에서는 깊이가 우선했습니다. 즉, HTML 파일에서 하이퍼링크가 맨 아래에 도달할 때까지 하이퍼링크 태그를 선택하여 깊이 검색합니다. 논리 연산을 통해 해당 레이어의 검색이 끝나는 것을 확인한 다음 해당 레이어의 루프를 종료하고 이전 레벨로 돌아가는 루프는 초기 파일의 하이퍼링크를 통과할 때까지 다른 하이퍼링크 태그 검색을 시작합니다. 깊이 우선 검색 정책의 장점은 한 사이트의 모든 정보, 특히 깊게 중첩된 문서 세트를 검색할 수 있다는 것입니다. 그러나 단점은 데이터 구조가 점점 더 복잡해지는 상황에서 사이트의 수직 레벨이 무한히 증가하고 계층 간에 상호 참조가 발생하여 무한 루프가 발생한다는 것입니다. 프로그램을 강제로 종료해야만 순회를 종료할 수 있으며, 대량의 중복과 중복으로 인해 얻은 정보의 품질을 보장하기가 어렵습니다.
너비 우선 검색 정책
깊이 우선 검색 정책에 해당하는 폭 우선 검색 정책은 위에서 아래로 순환하고, 먼저 한 레벨 페이지의 모든 하이퍼링크를 검색하고, 한 레벨 페이지 순회를 완료한 후 하단까지 2 차 페이지의 검색 주기를 시작하는 메커니즘입니다. 한 레이어의 모든 하이퍼링크를 선택하면 해당 레이어의 정보를 검색하는 동안 얻은 다음 하이퍼링크 (시드로 사용) 를 기준으로 새 검색이 시작됩니다. 얕은 링크가 우선합니다. 이 모델의 장점 중 하나는 검색 객체의 수직 계층 구조가 아무리 복잡하더라도 데드 루프를 크게 피할 수 있다는 것입니다. 또 다른 장점은 두 HTML 파일 사이의 최단 경로를 찾는 특정 알고리즘이 있다는 것입니다. 전반적으로 파충류의 기능 대부분이 현재의 너비 우선 검색 전략을 통해 쉽게 실현될 수 있을 것으로 기대하기 때문에 최적의 것으로 간주됩니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 스포츠명언) 그러나 단점은 시간이 많이 걸리기 때문에 너비 우선 검색 정책이 특정 사이트 및 HTML 파일의 깊이 중첩을 트래버스하기에 적합하지 않다는 것입니다.
포커스 검색 정책
깊이 우선 순위 및 너비 우선 순위와 달리 초점 검색 전략은 "일치 우선 순위 원칙" 에 따라 데이터 소스에 액세스하고, 특정 일치 알고리즘에 따라 수요 주제와 관련된 데이터 문서를 사전 선택하며, 우선 순위를 제한하여 후속 데이터 수집을 안내합니다. 이 초점 파충류는 액세스하는 모든 페이지의 하이퍼링크에 대해 우선 순위 점수를 결정하고 해당 점수를 기준으로 순환 대기열에 링크를 삽입합니다. 이 전략은 파충류가 충분한 양과 품질의 목표 정보를 얻을 때까지 우선순위가 높은 페이지를 추적하는 데 도움이 됩니다. 파충류 검색 전략에 초점을 맞추는 것은 주로 우선 순위 평가 모델의 디자인, 즉 링크의 가치를 구별하는 방법에 있다는 것을 쉽게 알 수 있습니다. 서로 다른 채점 모델은 동일한 링크에 서로 다른 점수를 부여하여 정보 수집의 효율성과 품질에 직접적인 영향을 미칩니다. 같은 메커니즘에서 하이퍼링크 태그에 대한 채점 모델은 당연히 HTML 페이지에 대한 평가로 확장될 수 있습니다. 각 페이지는 수많은 하이퍼링크 태그로 구성되기 때문입니다. 일반적으로 링크 가치가 높을수록 해당 페이지의 가치가 높아져 검색 엔진의 검색 전문화와 광범위한 응용에 대한 이론과 기술 지원을 제공합니다. 현재 흔히 볼 수 있는 초점 검색 전략은 "학습 강화" 와 "컨텍스트 맵" 입니다.
응용 측면에서 현재 국내 주류 검색 플랫폼은 주로 너비 우선 검색 전략을 채택하고 있는데, 이는 주로 국내 네트워크 시스템에서 정보의 세로 가치 밀도가 낮고 가로 가치 밀도가 높다는 점을 고려한 것이다. 그러나 이로 인해 인용률이 낮은 인터넷 문헌이 누락될 수 있으며, 너비 우선 검색 전략의 가로방향 가치 농축 효과로 인해 이러한 링크가 적은 정보 소스가 무한히 무시될 수 있습니다. 이를 바탕으로 보완 선형 검색 전략은 이러한 상황을 완화하고, 업데이트된 데이터 정보를 기존 데이터 웨어하우스에 지속적으로 도입하며, 단순히 난폭하게 제거하는 대신 다중 라운드 가치 판단을 통해 정보를 계속 보존할지 여부를 결정합니다. 닫힌 루프 밖으로 새 정보를 차단합니다.
웹 크롤러 기술 개발 동향
최근 몇 년 동안 웹 파충류 기술이 발달하면서 검색 전략도 끊임없이 최적화되고 있다. 현재 인터넷 파충류의 미래 발전은 주로 다음과 같은 추세를 보이고 있다.
동적 웹 페이지 데이터
기존의 웹 크롤러 기술은 주로 정적 페이지 정보 캡처로 제한되며 패턴이 더 간단합니다. 최근 몇 년 동안 웹 2.0/Ajax 기술이 주류를 이루면서 동적 페이지는 강력한 상호 작용으로 인해 네트워크 정보 전파의 주류가 되었으며 정적 페이지를 주류로 대체했습니다. AJAX 는 JavaScript 기반 비동기 (asynchronous) 요청 및 응답 메커니즘을 사용하여 전체 웹 페이지를 새로 고치지 않고 데이터를 지속적으로 업데이트합니다. 기존의 파충류 기술에는 JavaScript 의미의 인터페이스와 상호 작용 기능이 부족하여 동적으로 페이지를 새로 고치지 않는 비동기 호출 메커니즘을 트리거하고 반환된 데이터 내용을 분석하여 필요한 정보를 저장할 수 없습니다.
또한 JavaScript 를 캡슐화하는 다양한 프런트 엔드 프레임 (예: JQuery) 은 DOM 구조를 많이 조정합니다. 웹 페이지의 주요 동적 컨텐츠라도 요청이 처음 설정될 때 서버에서 클라이언트로 정적 레이블로 전송되는 대신 비동기 호출 메커니즘을 통해 동적으로 그려지는 사용자의 작업에 지속적으로 응답할 필요가 없습니다. 이 모델은 사용자 경험을 크게 최적화하고 서버의 상호 작용 부담을 크게 줄이지만 DOM 구조 (비교적 변하지 않는 정적 페이지) 에 익숙한 파충류 프로그램에는 큰 도전이다. 전통적인 파충류는 주로' 프로토콜 중심' 을 기반으로 하지만 인터넷 2.0 시대에는 AJAX 기반 동적 상호 작용 기술 환경에서 파충류 엔진이' 이벤트 중심' 을 통해 데이터 서버에서 지속적인 데이터 피드백을 받아야 했습니다. 이벤트 중심 을 실현하기 위해 파충류 프로그램 은 세 가지 기술 문제 를 해결해야 한다. 하나는 자바스크립트 의 상호 작용 분석 과 해석 이다. 둘째, DOM 사건의 처리, 해석 및 배포; 셋째, 동적 DOM 내용의 의미 론적 추출.
데이터 수집 및 배포
분산 파충류 시스템은 컴퓨터 클러스터에서 실행되는 파충류 시스템입니다. 클러스터 노드에서 실행되는 파충류 프로그램은 중앙 집중식 파충류 시스템과 동일한 방식으로 작동하지만 분산 파충류 시스템은 서로 다른 컴퓨터 간의 작업 구분, 자원 할당 및 정보 통합을 조정해야 한다는 점이 다릅니다. 분산 파충류 시스템의 컴퓨터 터미널에 마스터 노드를 이식하여 로컬 중앙 집중식 파충류 작업을 호출합니다. 이를 바탕으로 노드 간 정보 상호 작용이 중요하므로 분산 파충류 시스템의 성공의 열쇠는 작업 조정을 설계하고 구현할 수 있는지 여부입니다. 또한 기본 하드웨어 통신 네트워크도 중요합니다. 여러 노드를 사용하여 웹 페이지를 캡처하고 동적 자원 할당을 수행할 수 있으므로 분산 파충류 시스템은 중앙 집중식 파충류 시스템보다 검색 효율성이 훨씬 높습니다.
진화 후, 분산 파충류 시스템의 다양 한 시스템 구성에 특성을가지고 있으며, 작동 메커니즘과 스토리지 구조는 끊임없이 혁신 하 고 있습니다. 주류 분산 파충류 시스템은 일반적으로 마스터-슬레이브 결합, 즉 하나의 마스터 노드가 작업 분할, 자원 할당, 정보 통합을 통해 노드에서 다른 캡처 정보를 제어하는 내부 구성을 사용합니다. 작업 모드에서 클라우드 플랫폼의 저렴하고 효율적인 기능을 기반으로 분산 파충류 시스템은 클라우드 컴퓨팅을 광범위하게 사용하여 비용을 절감하고 대규모 하드웨어 및 소프트웨어 플랫폼 구축에 필요한 비용 투자를 줄입니다. 스토리지 방식에서는 분산 정보 스토리지, 즉 파일이 분산 네트워크 시스템에 저장되어 여러 노드의 데이터를 보다 쉽게 관리할 수 있는 분산 정보 스토리지가 널리 사용되고 있습니다. 일반적으로 사용되는 분산 파일 시스템은 Hadoop 기반 HDFS 시스템입니다.
상업 은행에 웹 크롤러 기술 적용
상업은행의 경우 인터넷 파충류 기술의 응용은 상업은행이' 자신의 은행을 가장 잘 아는 은행',' 고객을 가장 잘 아는 은행',' 경쟁사를 가장 잘 아는 은행',' 경영 환경을 가장 잘 아는 은행' 의 네 가지' 가장 잘 아는 은행' 을 실현하는 데 도움이 될 것이다. 구체적인 적용 시나리오는 다음과 같습니다.
인터넷 여론 모니터링
인터넷 여론은 현재 사회의 주류 여론의 표현 형식 중 하나이다. 주로 인터넷을 통해 퍼진 사회적 초점과 이슈에 대한 대중의 견해와 논평을 수집하고 전시하는 것이다. 상업은행의 경우 인터넷 여론을 감시하는 것은 자신의 브랜드 관리와 위기 홍보의 중요한 기술 수단으로 인터넷을 거울로 삼아' 자신을 가장 잘 아는 은행' 을 만든다.
인터넷 여론은 현재 사회의 주류 정보 매체 중 하나로 전파 속도가 빠르고 영향력이 큰 특징을 가지고 있다. 상업은행의 경우, 자동화된 인터넷 여론 모니터링 시스템을 구축해야 하며, 한편으로는 상업은행이 더 정확한 사회적 수요 정보를 얻을 수 있도록 하고, 다른 한편으로는 상업은행이 새로운 여론 플랫폼에 서비스 이념과 서비스 특색을 전파하여 업무 발전 수준을 높일 수 있도록 해야 한다. 인터넷 파충류는 인터넷 여론 모니터링에서 대체할 수 없는 역할을 하기 때문에, 그 업무의 질은 인터넷 여론 수집의 폭과 깊이에 큰 영향을 미칠 것이다. 수집 객체의 유형에 따라 웹 크롤러는 "범용 웹 크롤러" 와 "테마 웹 크롤러" 로 나눌 수 있습니다. 일반 웹 크롤러는 웹 수집 순서와 대상 웹 페이지의 주제 일치에 관계없이 더 큰 데이터 크기와 더 넓은 데이터 범위를 수집하는 데 중점을 둡니다. 현재 네트워크 정보 규모가 기하급수적으로 증가하는 상황에서 범용 웹 파충류의 사용은 정보 수집 속도, 정보 가치 밀도 및 정보 전문화의 정도에 의해 제한됩니다. 이러한 상황을 완화하기 위해 테마 기반 웹 파충류가 생겨났다. 일반 웹 크롤러와 달리 테마 웹 크롤러는 대상이 웹 페이지 정보와 일치하는 정도에 더 많은 관심을 기울이고 무관한 중복 정보를 방지합니다. 이 필터링 과정은 동적이며 테마 웹 크롤러 기술의 전체 작업 흐름을 관통합니다.
파충류 기술을 이용하여 인터넷 여론을 모니터링하면 은행에 대한 고객의 태도와 논평을 더욱 종합적으로 이해하고 은행 자체의 장단점을 통찰하는 동시에 평판 위험을 방지하고 브랜드 효과를 높이는 역할을 할 수 있다.
고객 파노라마 초상화
상업은행 경쟁이 치열해지면서 이윤 공간이 더욱 압축되고 고객 마케팅과 위험 통제에 대한 요구도 높아지고 있다. 현재의 은행 관리 시스템에서 마케팅 프로세스 관리 및 위험 프로세스 관리, 특히 잠재 고객 및 대출 후 위험의 식별 및 관리에는 많은 인력, 물력 및 시간 비용이 필요한 경우가 많습니다. 웹 크롤러 기술을 도입하여 고객 파노라마 초상화를 효과적으로 구축하고' 고객을 가장 잘 아는 은행' 을 만들 수 있으며, 기존의' 고객 관계 관리' 및' 오프사이트 바람 제어' 기술을 보완하는 데 도움이 되며, 은행 고객의 마케팅 및 위험 관리에 큰 역할을 할 것입니다.
웹 크롤러는 은행 고객의 전체 차원 정보 뷰를 구축하는 데 사용할 수 있습니다. 즉, 간단한 개인 고객 ID 정보 또는 엔터프라이즈 고객 네트워크 주소를 입력으로 사용하여 파충류 처리 후 사전 설정 규칙에 맞는 고객 정보를 특정 형식으로 출력할 수 있습니다. 은행 데이터 담당자는 구체적인 기본 데이터를 원료로 파충류 시스템에 키워드를 입력하고 고객 정보와 관련된 웹 주소 정보를 결합하여 파충류 종자로 포장하여 파충류 프로그램에 전달합니다. 그런 다음 파충류는 해당 비즈니스 프로세스를 시작하고 고객 관련 정보의 웹 페이지를 캡처하여 저장합니다. 또한 인터넷 여론 모니터링 차원에서 모니터링 대상을 자체적으로 은행 고객으로 확장하고, 인터넷을 통해 은행 고객에 대한 고객의 평가를 처음으로 이해하고, 고객 여론의 동태를 제때 파악하고, 은행 경영 결정을 지도한다.
위에서 언급한 웹 파충류 시스템을 사용하여 고객 관련 정보를 실시간으로 수집, 모니터링 및 업데이트함으로써 고객의 실시간 상황을 보다 포괄적으로 이해할 수 있을 뿐 아니라 고객의 잠재적 마케팅 기회와 신용 위험을 예측하고 고객 마케팅 및 대출 후 위험 관리의 효율성을 효과적으로 높이며 상업 은행의 종합적인 효과를 높이고 은행과 고객의 공승 국면을 형성할 수 있습니다.
상대분석
현재 금리 시장화와 인터넷 금융의 영향으로 상업은행 간 경쟁이 치열해지면서 새로운 시장 참가자와 신제품이 속출하면서 업무 경쟁이 심화되고 있다. 이러한 맥락에서 각 상업은행은 경쟁사의 동태를 충분히 이해하고,' 경쟁사를 가장 잘 아는 은행' 을 만들고, 적시에 자신을 조정하고, 기회를 포착하는 것이 점점 더 중요해지고 있다.
웹 크롤러 기술을 기반으로 한 전체 네트워크 정보 분석 디스플레이 플랫폼을 구축하면 전체 네트워크 실시간 데이터를 효과적으로 수집하고, 다른 은행의 제품 정보 및 뉴스 동향을 적시에 파악할 수 있으며, 다른 경쟁사의 상황을 처음으로 이해하고, 현지 인라인 데이터의 통합 분석을 용이하게 할 수 있습니다. 웹 크롤러는 실시간 데이터 수집을 통해 동적 데이터 플랫폼을 구축하고, 네트워크 데이터를 캡처하여 로컬에 저장하여 향후 심층적인 데이터 마이닝 분석 및 적용을 용이하게 합니다. 웹 크롤러 기술은 상업 은행의 의사 결정자가 회사 운영을 지원하는 정확한 정책을 쉽게 개발할 수 있도록 할 뿐만 아니라, 인터넷 여론 정보의 모니터링 대상을 자신과 고객에서 경쟁업체로 확장함으로써 경쟁사의 시장 경쟁 상황과 장단점을 실시간으로 파악하고' 지기' 를 실현하며 정보 대칭을 실현할 수 있게 해 줍니다.
산업 수직 검색
수직 검색은 검색 범위를 특정 전문 분야로 세분화하고, 처음으로 얻은 웹 정보를 더 깊이 통합하고, 결국 순도가 높은 전문 분야 정보를 형성하는 것을 말합니다. 이러한 접근 방식을 통해 은행 데이터 담당자는 효과적인 정보를 얻는 효율성을 크게 향상시킬 수 있습니다. 금융주제에 대한 파악과 분석을 통해 상업은행은 규제정책의 발전 추세를 더 포괄적으로 이해하고, 지역경제와 산업경제의 발전 상황을 이해하고, 금융업 자체의 경영환경의 동태를 파악하고, 제때에 자신의 전략을 점검하고 조정하고, 시장 추세를 따라가며' 경영환경을 가장 잘 아는 은행' 이 될 수 있다.
수직 검색이 금융 분야에 적용되면 금융 주체의 정보 처리 능력을 향상시킬 수 있다. 수직 검색 기술의 가장 큰 하이라이트는 다양한 형식의 대규모 데이터를 대상으로 특화된 세분화 작업을 할 수 있고, 스팸을 줄이고, 효과적인 정보를 수집하고, 검색 효율성을 높이며, 특정 조건에서도 실시간 데이터를 제공할 수 있다는 것입니다. 기존의 복잡한 웹 데이터를 최대한 통합하여 사용자가 더욱 편리하고 완벽하며 효율적인 정보 검색 서비스를 이용할 수 있도록 합니다.
라벨
인터넷 기술의 발전과 데이터 폭발로 인해 웹 파충류 기술은 상업 은행의 데이터 수집 및 정보 통합 애플리케이션을 위한 새로운 기술 경로를 제공합니다. 상업은행 응용실천으로 볼 때 인터넷 파충류는 은행의 일상적인 경영 관리에서 큰 발전 잠재력을 가지고 있다. 웹 크롤러 기술의 응용은 은행이 자신, 고객, 경쟁 업체 및 비즈니스 환경을 가장 잘 이해하는' 스마트 은행' 으로 전환하는 데 도움이 될 수 있습니다. 웹 파충류 기술은 상업은행이 정교한 관리 능력과 지능적인 의사 결정 수준을 높이는 중요한 기술 수단이 될 것으로 예상된다.