기금넷 공식사이트 - 금 선물 - Hadoop 과 Spark 의 유사점과 차이점을 2 분 동안 읽으십시오.

Hadoop 과 Spark 의 유사점과 차이점을 2 분 동안 읽으십시오.

1 과 Spark VSHadoop 의 유사점과 차이점은 무엇입니까?

Hadoop: 배치 계산은 데이터 마이닝 및 분석을 강조하는 배치입니다.

스파크: 메모리 기반 소스 클러스터 컴퓨팅 시스템의 목적은 데이터 분석을 더 빠르게 하는 것입니다. Spark, Hadoop 과 같은 소스 클러스터 컴퓨팅 환경, 몇 가지 유사점이 있어 Spark 의 일부 워크로드 표면이 더 잘 작동합니다. 즉, Spark 는 대화형 쿼리를 제공할 뿐만 아니라 memory cloth 데이터 세트를 통해 반복 워크로드를 최적화할 수 있습니다.

Spark Scala 언어는 Scala 를 응용 프로그램 프레임워크로 구현했습니다. Hadoop 과 Spark Scala 는 자체 Scala 이미지를 밀접하게 결합하고 어셈블리 이미지를 조작하며 레이아웃 데이터 세트를 쉽게 조작할 수 있습니다.

Spark 는 의상 데이터 세트의 반복을 지원하기 위해 만들어졌지만 Hadoop 은 Hadoop 파일 시스템의 병렬 실행을 보완합니다. 세 번째 클러스터 프레임워크 Mesos 지원 라인. Spark 는 캘리포니아 버클리의 AMP Lab (알고리즘, 기계 및 인간 실험실) 에서 개발한 건설적이고 지연 시간이 짧은 데이터 분석 어플리케이션입니다.

Spark 와 Hadoop 의 유사성은 새로운 클러스터 컴퓨팅 프레임워크를 제공하지만 실제로는 다릅니다. 첫째, Spark 클러스터 컴퓨팅은 특정 유형의 작업 로드, 즉 일부 병렬 작업 재사용 작업 데이터 세트 (기계 학습과 비교) 를 설계하여 일부 유형의 작업 로드를 최적화합니다. Spark 는 메모리 클러스터 컴퓨팅 개념을 도입하여 메모리 클러스터 컴퓨팅 데이터 세트 캐시를 통해 액세스 지연 시간을 줄였습니다.

데이터 처리면은 Hadoop 이 이미 익숙하다고 믿는다. Googlemap/reduce 를 기반으로 Hadoop 의 sender 는 map 및 reduce 원어를 제공하여 병렬 배치 프로그램이 간단하거나 아름답지 않게 합니다. Spark 는 Hadoop 이 MapReduce 를 제공하는 것과 같은 데이터 세트 작업 유형을 제공합니다. 두 작업은 맵, 필터, 평면 맵, 샘플보다 낫다. 그룹 by key, reduce by key, union, join, co group, map values, sort, partionby 등. 일부 작업은 변환이라고 하며 수, 수집, 감소, 찾기, 저장 등의 작업을 제공합니다. 일부 데이터 세트 작업 유형은 사용자에게 노드 간 편리한 통신 모델을 제공합니다. 그런 다음 Hadoop 의 순수 데이터 shuffle 모델과 마찬가지로 사용자 이름 지정 구체화된 제어 조인트 영역을 지정하여 프로그래밍 모델이 Hadoop 보다 더 영리하다고 합니다.

스파크 내결함성이 도구보다 우수합니까?

Spark 의 논문 "유연한 분산 데이터 세트: 메모리 클러스터 컴퓨팅의 내결함성 추상화" 는 내결함성을 고려하지 않고 반전된 천 데이터 세트를 계산하고 두 가지 형태의 체크포인트 데이터 기록을 만들었습니다. 데이터 처리 모델은 DAG 운영 프로세스와 비슷하기 때문에 Spark 사용자처럼 보입니다. 그림의 노드 중 하나가 잘못되어 혈통 체인이 복잡한 성능에 의존하기 때문에 모든 계산 노드가 비용을 다시 계산합니다 (예: 데이터 저장, 업데이트 저장, 체크포인트 만들기). 사용자에 의해 결정되었지만 공은 사용자에게 차였다. 제 생각에는 사용자는 비즈니스 유형에 따라 데이터를 저장하는 IO 디스크 공간을 측정합니다. 비용 재계산 비용 선택 비용은 지속적인 연결 또는 검사점 설정보다 더 좋은 전략입니다. Spark 는 일부 데이터 세트를 생성한 노드가 현재 고장났음을 기억합니다. Spark 는 저장된 정보를 기반으로 데이터 세트를 재구성하고 해당 노드를 잘못 배합하여 재구축하는 데 도움을 줍니다.

3.Spark 의 데이터 처리 효율성은 어떤 특징이 있습니까?

Spark 는 사용자가 빠른 피드백을 경험할 수 있도록 고성능 데이터 처리 기능을 제공합니다. 또 다른 응용 프로그램은 데이터 마이닝입니다. 스파크는 캐시할 메모리를 채웁니다. DAG 는 필요한 단계를 없앴습니다. 반복 연산에 더 적합합니다. 반복 수렴은 Spark 를 사용하여 작업을 병렬화하는 데 적합합니다. Spark 를 사용하여 R 언어를 구현하면 사용자의 데이터 마이닝 작업본을 줄일 수 있습니다.

Spark 의 배포 데이터 처리 모델은 Twitter Storm 프레임워크에 비해 흥미롭고 독특합니다. Storm 은 기본적으로 별도의 트랜잭션 파이프에 넣는 것과 같지만 트랜잭션 레이아웃은 반대입니다. Spark 는 이 모델을 사용하여 짧은 시간 동안 (5 초로 가정) 트랜잭션을 수집합니다. RDD 는 Spark 어플리케이션 그룹화를 사용하여 수집된 데이터를 처리합니다. 저자는이 모델이 느리고 노드 실패가 안정적이며 5 초 간격이 여러 응용 프로그램에 충분하다고 주장합니다.

요약

"Hadoop 권위 가이드", "hbase 권위 가이드", "hive 권위 가이드", "규모 분산 스토리지 시스템", "zoopkeeper", "데이터 인터넷 규모 데이터 마이닝 및 분산 처리" 등 여러 권의 책이 보충과는 달리 이 책을 다 읽을 수 있다