기금넷 공식사이트 - 주식 지식 - 빅데이터 저장 및 활용 특성 분석 및 기술 로드맵
빅데이터 저장 및 활용 특성 분석 및 기술 로드맵
빅데이터 저장 및 활용 특성과 기술 루트 분석
빅데이터 시대를 맞아 데이터는 폭발적으로 증가하고 있다. 스토리지 서비스의 발전 추세로 볼 때, 데이터 스토리지에 대한 수요가 증가하는 반면, 데이터의 효과적인 관리에 대한 요구 사항도 높아지고 있습니다. 빅데이터는 저장 장치 용량, 읽기 및 쓰기 성능, 신뢰성, 확장성 등에 대한 더 높은 요구 사항을 제시했습니다. 기능 통합, 데이터 보안, 데이터 안정성, 시스템 확장성, 성능 및 비용 측면 요소를 충분히 고려해야 합니다.
빅데이터 저장 및 활용 특성 분석
'빅데이터'는 엄청난 양, 복잡한 구조, 다양한 유형의 데이터로 구성된 데이터 집합체이다. 클라우드 컴퓨팅 기반의 데이터 처리 및 애플리케이션, 데이터 통합 및 공유, 교차 재사용을 통해 형성된 애플리케이션 모델, 지적 자원 및 지식 서비스 기능. 일반적인 특성은 3V(Volume, Velocity, Variety(대규모, 빠른 속도, 다양성))로 요약할 수 있습니다.
빅데이터는 데이터 규모(볼륨)가 크고 증가 속도가 빠른 특성을 가지고 있으며, 데이터 규모가 PB 수준에서 EB 수준으로 성장했으며, 실제 수요에 맞춰 지속적으로 개발되고 있습니다. 애플리케이션 및 기업의 추가 개발을 계속하고 ZB(ZETA-BYTE) 규모로 빠르게 이동합니다. 중국 최대 전자상거래 기업인 Taobao를 예로 들어보겠습니다. Taobao 데이터에 따르면 2011년 말까지 Taobao의 일일 최고 순 사용자 방문 수는 1억 2천만 명을 넘어섰습니다. 이는 2010년 같은 기간에 비해 120% 증가한 수치입니다. 등록 사용자 수는 4억 명을 넘어섰고, 온라인 상품 수는 8억 개, 페이지 조회 수는 20억 개, 타오바오는 매일 4억 개의 상품 정보를 생성하고, 매일 활성 데이터의 양은 50TB를 초과했습니다. 따라서 빅데이터의 저장 또는 처리 시스템은 현재의 데이터 규모 요구 사항을 충족할 수 있을 뿐만 아니라 급속한 수요 증가를 충족할 수 있는 강력한 확장성이 필요합니다.
(1) 빅데이터의 저장 및 처리에는 대규모가 필요할 뿐만 아니라 전송 및 처리의 빠른 응답 속도(Velocity)도 필요합니다.
이전의 소규모 데이터 처리에 비해 데이터 센터에서 대규모 데이터를 처리할 때 서비스 클러스터는 엄청난 양의 데이터를 애플리케이션 개발자가 '수용'할 수 있도록 높은 처리량을 가져야 합니다. . 제한 시간 내에 작업을 완료하세요. 이는 다양한 애플리케이션 수준의 컴퓨팅 성능에 대한 요구 사항일 뿐만 아니라 빅 데이터 스토리지 관리 시스템의 읽기 및 쓰기 처리량에 대한 요구 사항이기도 합니다. 예를 들어, 개인 사용자가 웹사이트에서 관심 있는 상품을 구매하면, 웹사이트는 사용자의 구매나 웹 브라우징 행동을 기반으로 관련 광고를 실시간으로 추천하는데, 이를 위해서는 애플리케이션의 실시간 피드백이 필요합니다. 전자상거래 웹사이트의 데이터 분석가가 구매 내역을 바탕으로 고객의 행동을 분석하고, 매일 수억 건의 접속 기록을 접하면서 현재 시즌에 가장 인기 있는 키워드를 검색하고 판매자에게 추천 상품 키워드를 제공합니다. 며칠 내에 더 정확한 추천을 제공해야 하며, 그렇지 않으면 효율성을 잃게 됩니다. 또는 택시가 시내 도로를 운전할 때 빅데이터 처리 시스템은 GPS와 모니터링 장비를 통해 실시간 교통정보를 제공합니다. 이를 위해서는 가장 빠른 속도와 가장 높은 대역폭으로 저장 미디어에서 관련 대용량 데이터를 얻으려면 빅 데이터의 애플리케이션 계층이 필요합니다. 한편, 대용량 데이터 저장 관리 시스템과 기존의 데이터베이스 관리 시스템 또는 테이프 기반 백업 시스템 간에도 데이터 교환이 이루어지고 있습니다. 비록 이러한 교환이 실시간이 아니며 대규모로 인해 오프라인으로 완료될 수 있습니다. 상대적으로 낮은 데이터 전송 대역폭은 데이터 전송 효율성을 감소시키고 데이터 마이그레이션 병목 현상을 유발합니다. 따라서 빅데이터의 저장 및 처리 속도나 대역폭은 성능을 나타내는 중요한 지표입니다.
(2) 빅 데이터는 다양한 소스로 인해 데이터 다양성이 특징입니다.
소위 다양성이란 데이터 구조의 정도, 저장 형식, 저장 매체의 다양성을 말한다. 기존 데이터베이스의 경우 저장되는 데이터는 일반 형식의 정형 데이터인 반면, 빅 데이터는 로그, 기록 데이터, 사용자 행동 기록 등에서 생성됩니다. 일부는 정형 데이터인 반면 반정형 또는 비정형 데이터는 더 많습니다. 이는 기존 데이터베이스 스토리지 기술이 빅데이터 스토리지에 적응할 수 없는 중요한 이유 중 하나입니다. 소위 저장 형식은 정확하게는 다양한 데이터 소스, 다양한 응용 알고리즘, 다양한 데이터 구조화 수준으로 인해 발생하며 해당 형식도 다양합니다. 예를 들어, 일부는 텍스트 파일 형식으로 저장되고 일부는 웹 페이지, 일부는 직렬화된 비트스트림 파일 등입니다.
소위 저장 매체 다양성은 빅 데이터 애플리케이션이 다양한 응답 속도 요구 사항을 충족해야 함을 의미합니다. 따라서 데이터 관리는 더 많은 실시간 또는 스트리밍 데이터에 대한 응답을 옹호합니다. 메모리 또는 플래시(SSD)에서 직접 액세스할 수 있으며 여러 디스크가 있는 스토리지 서버에서 오프라인 일괄 처리를 설정할 수 있으며 일부는 기존 SAN 또는 NAS 네트워크 스토리지 장치에 저장할 수 있으며 백업 데이터는 테이프에 저장할 수도 있습니다. 드라이브. 따라서 빅데이터 저장 또는 처리 시스템은 다양한 응용 알고리즘이나 데이터 추출, 변환 및 로딩(ETL)에 적응하기 위해 다양한 데이터와 소프트웨어 및 하드웨어 플랫폼과의 호환성이 좋아야 합니다.
가장 일반적인 세 가지 *** 빅 데이터 스토리지 기술 경로가 있습니다.
첫 번째는 MPP 아키텍처를 사용하는 새로운 데이터베이스 클러스터로, Shared Nothing 아키텍처를 사용하여 업계 빅 데이터에 중점을 둡니다. MPP 아키텍처의 효율적인 분산 컴퓨팅 모델과 결합된 열 저장 및 조악한 인덱스와 같은 다양한 빅 데이터 처리 기술을 통해 분석 애플리케이션에 대한 지원을 완성합니다. 운영 환경은 대부분 저비용 PC 서버입니다. 높은 성능과 높은 확장성을 갖추고 있으며, 고유한 특성으로 인해 기업 분석 애플리케이션에 널리 사용됩니다.
이러한 유형의 MPP 제품은 기존 데이터베이스 기술의 성능을 뛰어넘는 페타바이트 수준의 구조화된 데이터 분석을 효과적으로 지원할 수 있습니다. 차세대 엔터프라이즈 데이터 웨어하우스 및 구조화된 데이터 분석을 위한 현재 최선의 선택은 MPP 데이터베이스입니다.
둘째는 하둡 기반의 기술 확장과 캡슐화다. 관련 빅데이터 기술은 하둡을 중심으로 파생돼 비정형 데이터 저장 등 기존 관계형 데이터베이스로는 처리하기 어려운 데이터와 시나리오를 다룬다. 그리고 컴퓨팅 등은 관련 기술이 지속적으로 발전함에 따라 Hadoop의 오픈 소스의 장점을 최대한 활용합니다. 현재 가장 일반적인 응용 시나리오는 인터넷 빅데이터의 저장 및 분석을 지원하는 것입니다. Hadoop을 확장하고 캡슐화하여 데이터를 수집합니다. 수십 개의 NoSQL 기술이 있으며, 이 기술도 더욱 세분화되고 있습니다. 비정형 및 반정형 데이터 처리, 복잡한 ETL 프로세스, 복잡한 데이터 마이닝 및 컴퓨팅 모델의 경우 Hadoop 플랫폼이 더 좋습니다.
세 번째 유형은 빅데이터 일체형 머신으로, 빅데이터 분석 및 처리를 위해 특별히 설계된 소프트웨어 및 하드웨어 제품으로, 통합 서버, 저장 장치 세트로 구성됩니다. , 운영 체제, 데이터베이스 관리 시스템과 데이터 쿼리, 처리 및 분석 목적을 위해 특별히 사전 설치되고 최적화된 소프트웨어로 구성된 고성능 빅데이터 일체형 머신은 우수한 안정성과 수직 확장성을 갖추고 있습니다.
위 내용은 빅데이터 저장 및 응용 특성 분석과 기술 경로에 대해 편집자가 공유한 관련 내용입니다. 자세한 내용은 Global Ivy를 팔로우하여 더 많은 정보를 공유할 수 있습니다.
- 관련 기사