기금넷 공식사이트 - 헤지 펀드 - 빅데이터에 대한 기초적인 학습을 수행하는 방법

빅데이터에 대한 기초적인 학습을 수행하는 방법

오늘날 빅데이터는 빠른 속도로 발전하고 있으며, 각계각층에서 빅데이터 분석과 빅데이터 처리에 대한 수요도 나날이 늘어나고 있습니다. 빅데이터에 의지하세요. 지원을 통해 빅데이터를 배우는 것은 많은 사람들에게 경력을 향상하거나 변화시킬 수 있는 기회가 되었습니다. 그래서 많은 분들이 빅데이터를 시작하는 것이 첫걸음이 되었습니다.

우선 빅데이터 학습의 기본이 되는 자바 언어와 리눅스 운영체제를 이해해야 한다. 학습 순서는 정해진 것이 없다. 포스터는 의심할 여지없이 훌륭한 시작이자 기초인 JAVA를 졸업했습니다. 당신은 빅데이터 분야의 지식을 받아들이고 흡수하는 데 있어 일반 사람들보다 더 편안할 것입니다.

Java?: 몇 가지 기본 사항만 이해하면 빅데이터를 수행하는 데 심층적인 Java 기술이 필요하지 않습니다. Java SE를 배우는 것은 빅데이터를 배우는 것과 같습니다. 기본

Linux: 빅데이터 관련 소프트웨어는 Linux에서 구동되기 때문에 Linux를 더욱 탄탄하게 익혀야 합니다. Linux를 잘 배우면 빅데이터 관련 기술을 빨리 익히는 데 큰 도움이 될 것입니다. hadoop, hive, hbase, Spark 등 빅데이터 소프트웨어의 운영 환경과 네트워크 환경 구성을 통해 많은 함정을 피할 수 있습니다. 쉘을 배우면 스크립트를 이해할 수 있으므로 빅데이터 클러스터를 더 쉽게 이해하고 구성할 수 있습니다. 또한 앞으로 출시될 새로운 빅데이터 기술에 대해서도 더 빠르게 배울 수 있을 것입니다.

이제 기본 사항을 이야기했으니 앞으로 배워야 할 빅데이터 기술이 무엇인지 이야기해 보도록 하겠습니다. 제가 쓴 순서대로 배우시면 됩니다.

Hadoop: 인기 있는 빅데이터 처리 플랫폼이자 빅데이터와 거의 동의어가 되었기 때문에 꼭 배워야 할 내용입니다. Hadoop에는 HDFS, MapReduce 및 YARN이 포함되어 있습니다. HDFS는 파일이 저장되는 컴퓨터의 하드 디스크와 마찬가지로 데이터가 저장되는 곳입니다. , 시간만 주면 데이터를 실행할 수 있지만 시간이 그리 빠르지 않을 수 있으므로 데이터 일괄 처리라고 합니다.

여기서 배운 내용은 빅데이터를 학습하기 위한 노드로 활용될 수 있다는 점을 기억하세요.

Zookeeper: Hadoop HA를 설치할 때 사용하게 될 만병통치약이며, 향후 Hbase에서도 사용할 예정입니다. 일반적으로 일부 협업 정보를 저장하는 데 사용됩니다. 이 정보는 비교적 작으며 일반적으로 1M를 초과하지 않습니다. 이를 사용하는 소프트웨어는 이에 따라 다릅니다. 우리는 이를 올바르게 설치하고 정상적으로 실행하기만 하면 됩니다. .

Mysql: 빅데이터 처리 학습을 마쳤습니다. 다음으로 mysql은 hive를 설치할 때 사용하게 될 소규모 데이터 처리 도구인 mysql 데이터베이스에 대해 알아보겠습니다. Linux에 설치하고, 실행하고, 간단한 권한을 설정하고, 루트 비밀번호를 변경하고, 데이터베이스를 생성할 수 있습니다. 여기서 가장 중요한 것은 SQL의 구문을 배우는 것입니다. 왜냐하면 hive의 구문이 이와 매우 유사하기 때문입니다.

Sqoop: Mysql에서 Hadoop으로 데이터를 가져오는 데 사용됩니다. 물론, 이것을 건너뛰고 Mysql 데이터 테이블을 파일로 직접 내보낸 다음 HDFS에 넣을 수도 있습니다. 물론 프로덕션 환경에서 사용할 때는 MySQL의 압박에 주의해야 합니다.

Hive: 이것은 SQL 구문을 아는 사람들을 위한 아티팩트입니다. 이를 통해 빅 데이터 처리가 매우 간단해지며 더 이상 MapReduce 프로그램 작성에 대해 걱정할 필요가 없습니다. 어떤 사람들은 Pig라고 하나요? Pig와 거의 똑같습니다. 하나만 마스터하면 됩니다.

Oozie: 이제 Hive를 배웠으니 이 기능이 꼭 필요하다고 생각합니다. Hive나 MapReduce, Spark 스크립트를 관리하는 데 도움이 되고 프로그램이 올바르게 실행되는지 확인할 수도 있습니다. 오류인 경우 경보를 보내고 프로그램을 다시 시도하는 데 도움이 될 수 있습니다. 가장 중요한 점은 작업 종속성을 구성하는 데도 도움이 될 수 있다는 것입니다. 나는 당신이 확실히 그것을 좋아할 것이라고 믿습니다. 그렇지 않으면 많은 수의 스크립트와 빽빽한 크론을 볼 때 똥처럼 느껴질 것입니다.

Hbase: Hadoop 생태계의 NOSQL 데이터베이스로, 데이터가 키와 값의 형태로 저장되며, 키는 고유하므로 데이터 중복 제거에 사용할 수 있습니다. MYSQL보다 훨씬 많은 양의 데이터를 저장할 수 있습니다. 따라서 빅데이터 처리가 완료된 후 저장 대상으로 사용되는 경우가 많습니다.

Kafka: 이것은 비교적 사용하기 쉬운 대기열 도구입니다. 티켓을 구매하기 위해 대기열에 등록하는 방법을 알고 계시나요? 같이 작업하는 다른 학생들이 비명을 지르지 않도록 처리 대기 중입니다. , 왜 나에게 그렇게 많은 데이터(예: 수백 기가바이트의 파일)를 제공했으며 어떻게 처리할 수 있습니까? 빅 데이터 전문가는 아니지만 그 사람에게 내가 데이터를 대기열에 넣으면 그걸 하나씩 가져가서 불평을 멈추고 즉시 프로그램을 최적화하는 작업에 착수한다고 말하면 됩니다. 그가 그것을 처리할 수 없다면 그의 문제입니다. 당신이 준 질문이 아닙니다.

물론 이 도구를 사용하여 온라인 실시간 데이터를 저장하거나 HDFS에 저장할 수도 있습니다. 이때 Flume이라는 도구와 함께 사용할 수 있습니다. Flume은 데이터의 간단한 처리를 제공하고 다양한 데이터 수신기를 작성하는 데 특별히 사용됩니다. 카프카 등).

스파크: 맵리듀스 기반 데이터 처리 속도의 단점을 보완하기 위해 사용된다. 극도로 느린 하드디스크를 읽는 대신 데이터를 메모리에 올려서 계산하는 것이 특징이다. 특히 반복 작업에 적합하므로 알고리즘 스트리머가 특히 좋아합니다. 스칼라로 작성되었습니다. Java 언어나 Scala 언어 모두 JVM을 사용하므로 운용이 가능합니다.