Phân Biệt Apache Hadoop Và Apache Spark

" data-medium-file="https://ongxuanhong.files.wordpress.com/2015/11/apache-spark.jpg?w=665?w=300" data-large-file="https://ongxuanhong.files.wordpress.com/2015/11/apache-spark.jpg?w=665?w=665" />

Apache Spark


Apache Spark in-memory clusters đang là tiêu điểm chú ý của không ít công ty lớn vào câu hỏi vận dụng technology vào so với với cách xử lý tài liệu lập cập. Trong bài viết này, tôi vẫn trình diễn một bức tranh tổng quan liêu độc nhất về Apabít Spark, một giữa những gỉai pháp đòi hỏi đề nghị tất cả lúc hy vọng xử lý Big data.

Bạn đang xem: Phân biệt apache hadoop và apache spark


Tổng quan về Spark

Apabít Spark là 1 trong open source cluster computing framework được phát triển sơ khởi vào năm 2009 bởi vì AMPLab trên đại học California, Berkeley. Sau này, Spark đã có được trao cho Apabịt Software Foundation vào năm trước đó cùng được cải cách và phát triển cho tới thời điểm bây giờ.

Spark có thể chấp nhận được phát hành cùng đối chiếu nkhô cứng các quy mô dự đoán. ngoại giả, nó còn hỗ trợ kĩ năng truy xuất tổng thể dữ liệu cùng lúc, nhờ vậy ta không cần thiết phải lấy mẫu dữ liệu – yên cầu vì chưng những ngữ điệu thiết kế nlỗi R. Thêm vào đó, Spark còn cung ứng anh tài streaming, được dùng làm xây dừng các quy mô real-time bằng cách hấp thụ toàn bộ tài liệu vào bộ lưu trữ.

khi ta bao gồm một tác vụ làm sao kia qúa bự nhưng không thể giải pháp xử lý bên trên một máy tính xách tay hay 1 VPS, Spark cho phép ta phân loại tác vụ này thành phần đông phần dễ quản lý rộng. Sau kia, Spark vẫn chạy các tác vụ này trong bộ lưu trữ, trên những cluster của không ít server khác biệt để khai quật tốc độ truy hỏi xuất nhanh hao tự RAM. Spark áp dụng API Resilient Distributed Dataphối (RDD) nhằm xử lý tài liệu.


" data-medium-file="https://ongxuanhong.files.wordpress.com/2016/11/spark-mesos.png?w=665?w=300" data-large-file="https://ongxuanhong.files.wordpress.com/2016/11/spark-mesos.png?w=665?w=665" />

spark-mesos


Spark nhấn được nhiều sự tận hưởng ứng từ cộng đồng Big data trên trái đất do cung cấp kĩ năng tính toán nkhô giòn cùng nhiều tlỗi viện kèm theo bổ ích nhỏng Spark SQL (cùng với hình trạng tài liệu DataFrames), Spark Streaming, MLlib (machine learning: classification, regression, clustering, collaborative filtering, cùng dimensionality reduction) và GraphX (biểu diễn vật dụng thị nhờ vào kết qủa tính toán thù song song).


" data-medium-file="https://ongxuanhong.files.wordpress.com/2015/11/apache-spark-components.png?w=665?w=300" data-large-file="https://ongxuanhong.files.wordpress.com/2015/11/apache-spark-components.png?w=665?w=588" />

Apađậy Spark components


Những điểm sáng gía ko kể tốc độ tính toán nhanh

Sự đối kháng gỉan: giữa những chỉ trích thường gặp mặt sinh sống Hadoop đó là việc phức tạp trong qúa trình trở nên tân tiến, tuy nhiên đó là một trong số những phương thức tính toán đơn gỉan với hiệu qủa gíup tăng tốc độ cách xử lý của khối hệ thống. Txuất xắc vị đòi hỏi người tiêu dùng cần phát âm rẽ ròi về MapReduce cùng lập trình Java, Spark hiện ra để gíup phần nhiều tín đồ tiếp cận với công nghệ tính toán thù tuy vậy song dễ dãi hơn rất nhiều. Người cần sử dụng chỉ cần một vài kỹ năng cơ bản về database cùng với lập trình Pythuôn giỏi Scala là rất có thể sử dụng được.

Xem thêm: Kha'Zix Mùa 11: Cách Lên Đồ Cho Kha Zix Mùa 11: Bảng Ngọc, Cách Lên Đồ

Độc lập với những nhà cung cấp dịch vụ Hadoop: Hầu hết những bên cung cấp dịch vụ Hadoop đầy đủ cung ứng Spark. Điều này có nghĩa Spark ko phụ thuộc vào vào những đơn vị cung ứng này. Nếu bạn muốn đổi khác công ty cung ứng các dịch vụ, ta chỉ cần lấy hệ thống Spark qua nhà cung ứng mới nhưng không lo sợ việc mất mát lên tiếng.

Một vài thống kê thụ vị

62% số fan điều tra sử dụng Spark cùng với HDFS, 46% thực hiện với các hệ quản trị CSDL nlỗi Cassandra, HBase, Hive sầu, Tachyon, 41% đang sử dụng với Kafka, với 29% vẫn áp dụng cùng Amazon S3.Đối cùng với hệ quản ngại trị cluster, 56% đang làm việc tự do Spark, 42% thực hiện YARN, và 26% sử dụng Apabít Mesos.Đối với ngôn ngữ lập trình sẵn, 88% thực hiện Scala, 44% thực hiện Java, và 22% thực hiện Pythuôn.Mức độ quan tâm của khách hàng về Spark: 91% về vận tốc tính tân oán, 77% về việc dễ dàng thiết kế, 71% về Việc dễ dàng cải cách và phát triển, 64% về những nguyên lý so sánh dữ liệu tiên tiến, 52% về real-time streaming.Sử dụng Spark trên 206 khối hệ thống EC2 nhằm sắp xếp 100TB tài liệu chỉ tốn 23 phút. Trong lúc ấy, kỉ lục trước đó trên Hadoop áp dụng MapReduce trên 2,100 máy tính xách tay buộc phải tiêu tốn 72 phút. Điều này còn có nghĩa rằng Spark bố trí dữ liệu nkhô giòn cấp 3 lần Hadoop cơ mà chỉ áp dụng ít hơn 10 lần số laptop.Các yếu tố được thực hiện trong Spark: 69% sử dụng Spark Squốc lộ, 62% thực hiện Dataframes, 58% sử dụng MLib + GraphX, 58% thực hiện Streaming.
" data-medium-file="https://ongxuanhong.files.wordpress.com/2015/11/top-10-industries-using-spark.jpg?w=300" data-large-file="https://ongxuanhong.files.wordpress.com/2015/11/top-10-industries-using-spark.jpg?w=665&h=375" />Top 10 industries using spark" data-medium-file="https://ongxuanhong.files.wordpress.com/2015/11/shark-vs-sparksql.jpg?w=300" data-large-file="https://ongxuanhong.files.wordpress.com/2015/11/shark-vs-sparksql.jpg?w=665&h=514" />Shark vs SparkSQLKết luận

Đối cùng với các công ty cung ứng gỉai pháp, Apađậy Spark là 1 lá bài đặc biệt trong Việc sử dụng các technology căn bản để thiết kế đa số data warehouses hiện đại. Đây là 1 trong phân khúc thị trường mập trong nghề IT có chức năng đuc rút mặt hàng tỉ đô doanh thu từng năm.

Spark chỉ dẫn một quan niệm mới có những tiềm ẩn về sau sẽ là data lakes. Đây là một trong chỗ lưu trữ một lượng dữ liệu to đùng với nhiều format khác biệt với được truy nã vấn nhằm cách xử trí Lúc quan trọng. Data lakes giới thiệu một framework tmùi hương mại hoàn toàn có thể tạo thành một môi trường tàng trữ vô hạn bất kỳ nhiều loại dữ liệu làm sao.

Spark Demo


Danh mục Khái niệm Thẻ apabít spark,big data Để lại bình luận Điều phía bài xích viết
Hadoop là gì
Google File System – Tìm gọi về phong thái quản lý cơ sở tài liệu của Google

Viết một bình luận Hủy

Bình luận

TênThư điện tửTrang web

Lưu thương hiệu của mình, tin nhắn, và website trong trình chú ý này cho lần bình luận tiếp nối của mình.


Tìm kiếm cho:
Hành Trang Lập Trình

Thẻ


.htaccess.net coreangularangular cliangularjsapache sparkAWSAWS LambdaBAbig dataBootstrapBootstrap 4Business AnalystCC#C++ccucloud computingCSSDapperelasticsearchgitgithubHadoopHọc lập trìnhJavajavascriptLập trình gameLập trình webNgôn ngữ lập trìnhNgôn ngữ thiết kế webNodeJSNPMOwnCloudphppythonReactJSReact Nativesearch engineServerlessswiftTrí tuệ nhân tạotypescriptTự học Lập trìnhwordpress
*
Đây là CMS vị thiết yếu tôi code, Ko cần sử dụng Wordpress, Ko PHPhường., ko dính virut, CLOUD cùng thiết kế website chỉ dùng kéo thả, CSS ...