기금넷 공식사이트 - 펀드 투자 - 파이썬이 빅 데이터의 전체 스택 개발 언어인 이유는 무엇입니까?

파이썬이 빅 데이터의 전체 스택 개발 언어인 이유는 무엇입니까?

JavaScript 만 알면 완전한 웹 앱을 쓸 수 있는 것처럼 Python 만 알면 완전한 대형 데이터 처리 플랫폼을 구현할 수 있다. \x0d\\x0d\ 클라우드 인프라 \x0d\\x0d\ 는 현재 클라우드 플랫폼, 대용량 데이터, 동적 확장을 지원하지 않습니다. 우리는 자신이 큰 데이터를 만들고 있다고 말할 엄두가 나지 않는다. 기껏해야 자신이 상업지능 (BI) 을 하고 있다고 말할 수 있다. \x0d\\x0d\ 클라우드 플랫폼은 사설 클라우드와 공용 클라우드로 구분됩니다. 프라이빗 클라우드 플랫폼의 OpenStack\x0d\ \x0d\ 는 파이썬이 쓴 것입니다. 한때 추격자였던 CloudStack 은 처음 출시할 때 자신이 Java 가 쓴 것이라고 강조하며 Python 보다 우세했다. 그 결과 2065 438+05 \ x0d \u 초, CloudStack 창립자 Citrix 가 OpenStack 재단에 가입하겠다고 발표했고, CloudStack 은 곧 죽을 것이다. \x0d\\x0d\ 사설 클라우드를 직접 구축하지 않으려면 AWS, GCE, Azure, 아리운, 청운 등 공용 클라우드를 사용할 수 있습니다. 여기서 GCE 는 파이썬과 자바스크립트만 제공합니다 파이썬에 대한 다양한 클라우드 플랫폼의 중요성을 볼 수 있습니다. \x0d\ x0d \ 인프라 건설에 대해 말하자면, Hadoop 을 언급해야 한다. 오늘날 Hadoop 은 더 이상 MapReduce 데이터 처리 속도가 빠르지는 않지만 \ x0d \ 는 Hadoop 의 두 구성요소인 HDFS 와 YARN 으로 인기가 높아지고 있습니다. Hadoop 의 개발 언어는 Java 이고, \x0d\ 는 공식적인 파이썬 지원이 없지만, 많은 타사 라이브러리가 Hadoop 의 API 인터페이스 (pydoop, hadoopy 등) 를 캡슐화하고 있습니다. ). \x0d\\x0d\Hadoop MapReduce 의 대안은 스파크로 100 배 빠르다고 합니다. 개발 언어는 Scala 이지만 Scala, Java, Python 의 개발 인터페이스를 제공합니다. Python 을 많이 사용하는 데이터 과학자들의 비위를 맞추고, Python 을 지지하지 않는 것은 정말 무의미하다. GlusterFS 및 Ceph 와 같은 HDFS 의 대안은 파이썬 지원을 직접 제공합니다. Yarn 의 대안으로 Mesos 는 C++ 로 구현되며 C++ 외에도 Java 및 Python 에 대한 지원 패키지도 제공합니다. \ x0d \ \ x0d \ devops \ x0d \ \ x0d \ devops 에는 개발 자체 운영이라는 중국어 이름이 있습니다. 인터넷 시대에는 새로운 아이디어를 신속하게 테스트하고 비즈니스 가치를 안전하고 안정적으로 제공할 수 있어야 경쟁력을 유지할 수 있습니다. DevOps 가 주장하는 자동화된 구축/테스트/배포, 시스템 측정 등의 기술 관행은 인터넷 시대에 필수적이다. \x0d\\x0d\ 자동 시공은 쉽게 적용할 수 있습니다. 파이썬 어플리케이션의 경우 설정 도구, PIP, VirtualEnv, TOX, \ x0d \ Flake8 등의 도구의 존재로 인해 매우 간단합니다. 또한 거의 모든 Linux 시스템에는 Python 인터프리터가 내장되어 있기 때문에 자동화를 위해 Python 에 미리 설치된 소프트웨어는 \x0d\ 없습니다. \x0d\\x0d\ 자동화 테스트의 경우 파이썬 기반 로봇 프레임워크는 언어에 관계없이 엔터프라이즈 애플리케이션에서 가장 선호하는 자동화 테스트 프레임워크입니다. 오이에도 많은 지지자들이 있다. 파이썬 대응 상추도 똑같은 일을 할 수 있다. Locust 는 자동 성능 테스트에서 점점 더 많은 관심을 끌고 있습니다. \ x0d \ \ x0d \ 및 Puppet 과 같은 자동 구성 관리 도구는 Ruby 에서 개발했으며 강력한 기세를 유지하고 있습니다. 하지만 신세대 Ansible 과 Saltstack 은 모두 Python 이 개발한 것으로, 이전 두 개보다 경량하며 점점 더 많은 개발자의 환영을 받고 있어 선배들에게 큰 압력을 가하기 시작했다. \x0d\\x0d\ 시스템 모니터링 및 측정 분야에서 전통적인 Nagios 가 점차 몰락하면서 Sensu 와 같은 새로운 귀비는 호평을 받았으며 클라우드 서비스 형태의 New Relic 이 창업회사의 표준이 되었습니다. 이 중 어느 것도 Python 을 통해 직접 이뤄지는 것은 아니지만, Python 이 이러한 도구에 액세스하는 것은 어렵지 않다. \x0d\\x0d\ 이러한 도구 외에도 Cloudify, Deis 등과 같은 완벽한 DevOps 기능을 제공하는 파이썬 기반 PaaS 플랫폼은 아직 기후가 되지는 않았지만 많은 관심을 끌고 있습니다. \x0d\\x0d\ 웹 크롤러 \x0d\\x0d\ 대용량 데이터의 데이터는 어디에서 왔습니까? 일부 기업은 스스로 대량의 데이터를 생산할 수 있는 능력을 가지고 있을 뿐만 아니라, 대부분 파충류가 인터넷 데이터를 캡처하여 분석해야 한다. \x0d\\x0d\ 웹 크롤러는 파이썬 (Python) 의 전통적인 강세 분야, 가장 인기 있는 파충류 프레임워크 Scrapy, HTTP toolkit urlib2, HTML 구문 분석 도구 beautifulsoup, XML 구문 분석기 lxml 등이다. 독립할 수 있는 클래스 라이브러리입니다. \x0d\\x0d\ 그러나 웹 크롤러는 단순히 웹 페이지를 열고 HTML 을 구문 분석하는 것이 아닙니다. 효율적인 파충류는 수많은 유연한 동시 작업을 지원할 수 있어야 하며, 종종 수천 개 또는 수만 개의 웹 페이지를 동시에 크롤링할 수 있어야 합니다. 전통적인 스레드 풀 방식은 대량의 자원을 낭비하며, 수천 개의 스레드가 지나면 시스템 자원이 기본적으로 스레드 스케줄링에 낭비됩니다. Python 은 공동 작업을 잘 지원하기 때문에 Gevent, Eventlet, Celery 와 같은 분산 작업 프레임워크와 같은 많은 동시 라이브러리를 개발했습니다. AMQP 보다 더 효율적인 제로MQ 로 여겨지는 것도 파이썬 버전을 제공하는 최초의 제품이다. 높은 동시성의 지원으로 웹 파충류는 실제로 큰 데이터의 크기에 도달할 수 있다. \x0d\\x0d\ 캡처된 데이터는 세그먼트화가 필요하며 파이썬은 이와 관련하여 손색이 없습니다. 유명한 중국어 분사를 전문으로 하는 자연어 처리백 NLTK 와 지바는 모두 분사의 도구이다. \ x0d \ x0d \ 데이터 처리 \ x0d \ x0d \ 동풍만 빚진 모든 것이 준비되었습니다. 이 동풍은 바로 데이터 처리 알고리즘이다. 통계 이론에서 데이터 마이닝, 기계 학습, 최근 몇 년 동안 제기된 심도 있는 학습 이론에 이르기까지 데이터 과학은 꽃이 만발한 시대에 처해 있다. 데이터 과학자들은 무엇으로 프로그래밍합니까? \x0d\\x0d\ 이론 연구 분야에 있다면 R 언어는 데이터 과학자들에게 가장 인기가 있을 수 있지만 R 언어의 문제도 분명하다. 통계학자들이 R 언어를 만들었기 때문에 문법이 약간 이상하다. 또한 X0d \ r 언어는 대규모 분산 시스템을 구현하는 데 시간이 오래 걸립니다. 그래서 많은 회사들이 R 언어로 프로토타입 테스트를 하고, 알고리즘이 확정되면 엔지니어링 언어로 번역된다. \x0d\\x0d\Python 도 데이터 과학자들이 가장 좋아하는 언어 중 하나입니다. R 언어와 달리 Python 자체는 엔지니어링 언어이며, 데이터 과학자들은 Python 으로 구현된 알고리즘을 제품에 직접 사용할 수 있어 대규모 데이터 창업 회사의 비용 절감에 도움이 됩니다. 공식적으로는 데이터 과학자들이 Python 과 R 에 대한 애착으로 데이터 과학자들의 비위를 맞추기 위해 Spark 는 이 두 언어 \x0d\ 에 대해 매우 좋은 지원을 제공했다. \x0d\\x0d\Python 에는 데이터 처리와 관련된 많은 클래스 라이브러리가 있습니다. 고성능 과학 컴퓨팅 클래스 라이브러리인 NumPy 와 SciPy 는 다른 고급 알고리즘을 위한 좋은 기반을 제공합니다. Matploglib 는 \x0d\Python 을 사용하여 이미지 Matlab 을 그리는 것처럼 쉽게 만듭니다. Scikit-learn 과 Milk 는 많은 기계 학습 알고리즘을 구현했으며, 이 두 라이브러리를 기반으로 하는 Pylearn2 는 심도 있는 학습 분야의 중요한 구성원입니다. Theano 는 GPU 를 사용하여 고성능 수학 기호 계산 및 다차원 행렬 계산을 가속화합니다. 물론 판다도 있습니다. 이미 엔지니어링 분야에서 널리 사용되고 있는 대형 데이터 처리 클래스 라이브러리입니다. 그 데이터 프레임워크의 설계는 R 언어에서 교훈을 얻었고, 나중에는 Spark 프로젝트가 비슷한 메커니즘을 실현하도록 영감을 주었다. \ x0d \ x0d \ 오, 그리고 아이폰도 있습니다. 이 도구는 너무 유용해서 표준 라이브러리로 소개하는 것을 잊을 뻔했습니다. 이파이썬은 각 파이썬 코드의 결과를 실시간으로 볼 수 있는 대화식 파이썬 실행 환경입니다. 기본적으로 iPython 은 명령줄에서 실행되며 ipython notebook 을 실행하여 웹 페이지에서 실행할 수 있습니다. Matplotlib 로 그린 도면은 iPython 노트북에 직접 포함될 수 있습니다. \x0d\ \x0d\iPython 노트북 파일을 다른 사람과 공유하여 다른 사람이 자신의 환경에서 자신의 작품을 재현할 수 있도록 합니다. 상대방이 실행 환경이 없는 경우 HTML 또는 PDF 로 직접 변환할 수도 있습니다. \x0d\\x0d\ 왜 Python \ x0d \ x0d \ 는 애플리케이션 개발 엔지니어, 운영 및 유지 보수 엔지니어, 데이터 과학자들이 모두 Python 을 좋아하기 때문에 Python 은 대용량 데이터 시스템의 전체 스택 개발 언어가 되었습니다. \x0d\\x0d\ Python 의 우아함과 간결함은 개발 엔지니어에게 가장 큰 매력입니다. 파이썬의 인터랙티브 환경에서 import this\x0d\ \x0d\ 를 실행하고 파이썬 Zen 을 읽음으로써 파이썬이 왜 그렇게 매력적인지 알 수 있습니다. 파이썬 커뮤니티는 항상 활력이 넘칩니다. NodeJS 커뮤니티 패키지의 폭발적인 성장과는 달리 파이썬 패키지의 성장률은 비교적 안정적이며 \x0d\ 패키지의 품질은 비교적 높습니다. 많은 사람들이 Python 이 공간에 대한 요구가 높다고 비판하지만, Python \x0d\ 가 대규모 프로젝트를 할 때 다른 언어보다 우월하게 만드는 것은 바로 이런 요구다. (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), 예술명언) OpenStack 프로젝트는 항상 2 백만 줄 이상의 코드를 가지고 있어 이를 증명한다. \x0d\\x0d\ 운영 및 유지 보수 엔지니어에게 파이썬의 가장 큰 장점은 거의 모든 리눅스 배포판에 파이썬 인터프리터가 내장되어 있다는 것입니다. 셸은 강력하지만 문법이 우아하지 않아 더 복잡한 임무를 쓰는 것이 고통스러울 수 있다. 쉘을 Python 으로 대체하여 복잡한 일을 하는 것은 운수 인원에게 일종의 해방이다. \x0d\\x0d\ Python 은 데이터 과학자에게 간단하고 강력합니다. C/C++ 에 비해 많은 기본 작업을 하지 않고도 모델을 신속하게 검증할 수 있습니다. Python 구문은 Java 에 비해 간단하고 표현력이 뛰어나며 같은 작품에는 1/3 코드만 있으면 됩니다. 파이썬은 Matlab 및 Octave 보다 엔지니어링 성숙도가 높습니다. Python\x0d\ 는 대학 컴퓨터 과학 프로그래밍 과정에 가장 적합한 언어인 Python 이 MIT 의 컴퓨터 입문 과정인 Python 을 사용했다고 한 개 이상의 프로그래머가 말했다. Python 은 프로그래밍이 가장 중요한 것, 즉 X0D \ 문제 해결 방법을 배울 수 있기 때문이다.