HƯỚNG DẪN SỬ DỤNG HADOOP

Tự học tập lập trình sẵn Android, apk wear – lập trình sẵn smartwatch, Windows phone, Web service, C++, C#, java, Swift, Pydong dỏng, kotlin…

Big Data đang biến 1 phần cố khỏe mạnh cùng là gia tài không hề nhỏ của từng cửa hàng, tổ chức, cá nhân…, và Hadoop là 1 trong số technology chủ quản cho vấn đề tàng trữ cùng truy cập tài liệu mập, nhất là phong cách thiết kế phân tán.

Bạn đang xem: Hướng dẫn sử dụng hadoop

Bài Blog này vẫn trình bày qua loa lý thuyết về Hadoop với bí quyết thiết đặt Hadoop trên hệ quản lý điều hành Windows.

Nội dung tài liệu tất cả những phần dưới đây:

Giới thiệu HadoopCài đặt Java JDK 1.8Thiết lập vươn lên là môi trường mang đến Java JDKTải Hadoop cùng bung file vào ổ CThiết lập phát triển thành môi trường mang đến HadoopCấu hình các tập tin cho HadoopCập nhật những Hadoop ConfigurationsHoàn thành thiết lập Hadoop và kiểm tra nghiên cứu cùng với start-all.cmd

Lưu ý: Mọi tlỗi mục sở hữu đặt: Không gồm lốt + không tồn tại khoảng chừng trắng

Mục 1. Giới thiệu Hadoop, bài bác Blog này tìm hiểu thêm từ:

mastercode.vnbigdataviet.earlsdaughter.com.comtopdev.vn

Phần thiết lập Hadoop tham khảo từ:

brain-mentors.com

Cuối nội dung bài viết Tui có nhằm tệp tin PDF tổng đúng theo toàn thể bài này nhằm chúng ta download về làm tư liệu nếu như yêu cầu.

1. Giới thiệu Hadoop

Mấy kim chỉ nan phần reviews này có nhiều trên mạng, những chúng ta có thể tra cứu kiếm thấy nó rất nhiều. Tui tổng hòa hợp cầm tắt lại thôi nha (Không phải Tui từ bỏ nghĩ ra, các link tìm hiểu thêm sẽ nói ở trên. Tui sửa đổi lại bố cục xíu cho tương xứng với bài blog hướng dẫn).

1.1 Hadoop là gì?

Hadoop là 1 Apabít framework mã nguồn msinh sống chất nhận được phát triển các ứng dụng phân tán nhằm lưu trữ cùng làm chủ những tập tài liệu béo. Hadoop hiện thực quy mô MapReduce, quy mô nhưng ứng dụng sẽ tiến hành chia nhỏ tuổi ra thành những phân đoạn không giống nhau được chạy tuy nhiên tuy nhiên trên những node không giống nhau.

Hadoop được viết bằng Java mặc dù vẫn cung ứng C++, Pythuôn, Perl bởi hình thức streaming.

Hadoop gồm các điểm lợi sau:

Robus and Scalable – Có thể thêm node mới với biến hóa chúng Lúc bắt buộc.Affordable and Cost Effective – Không yêu cầu phần cứng đặc trưng để chạy Hadoop.Adaptive sầu & Flexible – Hadoop được xây cất với tiêu chuẩn xử lý tài liệu có kết cấu cùng ko cấu tạo.Highly Available and Fault Tolerant – Khi 1 node lỗi, gốc rễ Hadoop tự động gửi sang node khác.

1.2 Chức năng trọng trách của Hadoop

Xử lý cùng thao tác cân nặng dữ liệu đẩy đà tính bởi Petabyte.Xử lý vào môi trường xung quanh phân tán, dữ liệu tàng trữ sinh sống phần nhiều cứng khác nhau, yên cầu cách xử trí đồng bộCác lỗi xuất hiện tiếp tục.Băng thông thân những Hartware vật lý cất tài liệu phân tán có số lượng giới hạn.

1.3 Kiến trúc Hadoop

Một các Hadoop bé dại bao gồm 1 master node với nhiều worker/slave sầu node. Toàn bộ cụm đựng 2 lớp, một tấm MapReduce Layer và lớp cơ là HDFS Layer. Mỗi lớp có các yếu tố liên quan riêng biệt. Master node gồm JobTracker, TaskTracker, NameNode, cùng DataNode. Slave/worker node gồm DataNode, với TaskTracker. Cũng có thể slave/worker node chỉ nên dữ liệu hoặc node để tính toán thù.

*

Hadoop framework có 4 module:

Module 1: Hadoop Distributed File System (HDFS)

Đây là khối hệ thống file phân tán hỗ trợ truy cập thông lượng cao đến áp dụng khai quật tài liệu.Hadoop Distributed File System (HDFS)là khối hệ thống tập tin ảo. khi họ dịch rời 1 tập tin trên HDFS, nó tự động phân thành nhiều mảnh nhỏ dại. Các đoạn nhỏ tuổi của tập tin sẽ tiến hành nhân rộng và lưu trữ trên những máy chủ khác nhằm tăng sức Chịu lỗi và tính sẵn sàng cao.

HDFS sử dụng phong cách xây dựng master/slave, trong các số ấy master bao gồm một NameNode để cai quản hệ thống tệp tin metadata và một tuyệt những slave sầu DataNodes để lưu trữ dữ liệu thực tại.

Một tập tin với định hình HDFS được chia thành nhiều kăn năn cùng phần đông khối này được tàng trữ vào một tập những DataNodes. NameNode quan niệm ánh xạ từ những kăn năn mang đến các DataNode. Các DataNode quản lý và điều hành các tác vụ đọc và ghi tài liệu lên khối hệ thống tệp tin. Chúng cũng làm chủ vấn đề tạo ra, huỷ, và nhân rộng lớn các kăn năn trải qua những chỉ thị từ NameNode.

Module 2: Hadoop MapReduce

Đây là khối hệ thống dựa trên YARN dùng làm giải pháp xử lý tuy vậy tuy nhiên các tập dữ liệu phệ. Là cách chia một sự việc dữ liệu to hơn thành các đoạn nhỏ dại rộng và phân tán nó trên những sever. Mỗi sever có 1 tập tài nguyên ổn riêng cùng máy chủ cách xử lý tài liệu bên trên toàn cục. Lúc sever xử lý ngừng dữ liệu, chúng vẫn gởi trngơi nghỉ về máy chủ chủ yếu.

Xem thêm: Báo Giá Giấy Bạc Cách Nhiệt Hà Nội, Giấy Bạc Cách Nhiệt Ở Tại Hà Nội

MapReduce có một single master (lắp thêm chủ) JobTracker và các slave sầu (đồ vật trạm) TaskTracker trên mỗi cluster-node. Master có nhiệm vụ cai quản tài nguyên ổn, theo dõi và quan sát quy trình tiêu trúc tài nguyên ổn với lập định kỳ làm chủ những tác vụ trên các lắp thêm trạm, quan sát và theo dõi bọn chúng cùng thực thi lại các tác vụ bị lỗi. Những máy slave sầu TaskTracker thực hiện các tác vụ được master chỉ định với cung cấp tin tinh thần tác vụ (task-status) nhằm master theo dõi.

JobTracker là 1 trong điểm yếu kém của Hadoop Mapreduce. Nếu JobTracker bị lỗi thì phần đa công việc liên quan sẽ bị cách biệt.

Module 3: Hadoop Common

Đây là những tlỗi viện và ứng dụng cần thiết của Java nhằm các module không giống sử dụng. Những thỏng viện này cung ứng khối hệ thống file cùng lớp OS trừu tượng, bên cạnh đó chứa các mã lệnh Java nhằm khởi động Hadoop.

Module 4: Hadoop YARN

Quản lý tài nguim của những hệ thống lưu trữ dữ liệu cùng chạy so với.

1.4 Cơ chế buổi giao lưu của Hadoop

Giai đoạn 1:

Một user hay như là 1 vận dụng có thể submit một job lên Hadoop (hadoop job client) cùng với đề nghị giải pháp xử lý thuộc những báo cáo cơ bản:

Nơi lưu giữ (location) dữ liệu input đầu vào, output trên hệ thống dữ liệu phân tán.

Các java class ngơi nghỉ định dạng jar cất các cái lệnh thực thi những hàm bản đồ cùng reduce.

Các tùy chỉnh cấu hình ví dụ liên quan mang lại job trải qua những thông số kỹ thuật truyền vào.

Giai đoạn 2:

Hadoop job client submit job (tệp tin jar, file thực thi) cùng những cấu hình thiết lập mang lại JobTracker. Sau đó, master đã phân păn năn tác vụ cho các thứ slave sầu để quan sát và theo dõi và cai quản quá trình các đồ vật này, mặt khác đưa thông tin về tình trạng cùng chẩn đoán thù liên quan đến job-client.

Giai đoạn 3:

TaskTrackers bên trên các node khác nhau triển khai tác vụ MapReduce với trả về kết quả output được lưu lại vào khối hệ thống tệp tin.

Lúc “chạy Hadoop” có nghĩa là chạy một tập các trình nền – daemon, hoặc các chương trình hay trú, bên trên các sever khác nhau trên mạng của chúng ta. Những trình nền gồm sứ mệnh ví dụ, một số chỉ mãi sau bên trên một máy chủ, một số hoàn toàn có thể sống thọ bên trên nhiều sever.

Các daemon bao gồm:

NameNodeDataNodeSecondaryNameNodeJobTrackerTaskTracker

2. Cài đặt JDK bạn dạng 1.8 (bắt buộc)

Hadoop thực hiện JDK 1.8

Ta vào link sau:

https://www.oracle.com/java/technologies/javase/javase8-archive-downloads.html

lấy một ví dụ thiết lập bản Java SE Development Kit 8u201:

*

Bấm vào link để download, công tác lộ diện như mặt dưới:

*

Tiông chồng vào “I reviewed & accept the Oracle….”

Rồi bấm download

Chương trình hưởng thụ đăng nhập:

*

Nếu chưa xuất hiện thông tin tài khoản thì cứ ĐK “Create Account”

Khi đăng nhập thành công xuất sắc, Oracle vẫn hỏi chỗ lưu trữ tệp tin tải:

*

Ta chọn địa điểm tàng trữ rồi bấm Save

*

Tại trên ta có được JDK version 8u21, dung lượng khoảng chừng 212MB

Tiến hành thiết lập đặt:

Double click vào file vừa mua về:

*

Nhấn Next để download đặt

*

Tới chỗ này nhớ chỉnh vào Ổ C, không có vệt và ko khoảng chừng trắng

*

Sau kia nhận OK

*

Chọn được vị trí download JDK không tồn tại khoảng tầm white, thừa nhận Next nhằm tiếp tục

*

Chờ lịch trình cài đặt trả tất

*

Nếu jre thử khám phá sở hữu thì cũng chỉnh vào ổ C nlỗi trên

Bấm Next

và Tiếp tục chờ

*

Lúc xuất hiện màn hình hiển thị dưới đây Có nghĩa là sẽ hoàn tất quá trình thiết lập JDK

*

Bnóng Cđại bại nhằm trả tất

bởi vậy vẫn thiết đặt hoàn thành JDK 1.8

3) Thiết lập đổi thay môi trường xung quanh mang đến Java JDK

Cần cấu hình đổi thay môi trường thiên nhiên JAVA_HOME đến Java JDK

*

Bnóng con chuột đề nghị vào Computer / chọn Properties

*

Chọn Advanced System Settings

*

Chọn Environment Variables…

Màn hình Environment Variables đã xuất hiện thêm nhỏng bên dưới đây:

*

Trong mục user với system variables ta thông số kỹ thuật JAVA_HOME trỏ tới vị trí setup JDK (bằng phương pháp bấm vào nút New…)

*

Variable name: JAVA_HOME

Variable value: C:jdk1.8.0_201

Sau đó dìm OK

Kết quả:

*

Sau kia bnóng OK liên tục để đóng những cửa sổ cũng giống như xác thực sự cố gắng đổi

Tiếp theo cấu hình Path (cho cả user với system variable). Tìm cho tới biến đổi Path, dấn Edit:

*

Thêm lệnh: %JAVA_HOME%in

dấn OK

Kiểm tra lại quy trình cấu hình bằng phương pháp Gõ phím Windows +R–>gõ cmd:

*

Trong màn hình hiển thị command line lên gõ những lệnh trên giúp thấy kết quả:

java -version

javac -version

Kết quả:

*

4) Tải Hadoop với giải nén vào ổ C

Vào link sau download hadoop 3.3.0 về:

https://mirror.downloadvn.com/apache/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz

*

Giải nén vào ổ C

Bấm con chuột đề xuất vào “hadoop-3.3.0.tar.gz”

*

Chọn Extract files…

*

Chỉnh qua Ổ C rồi bnóng OK:

*

Mlàm việc ổ C lên–>thấy thỏng mục hadoop-3.3.0

*

5) Thiết lập biến hóa môi trường mang lại Hadoop

Tương trường đoản cú nhỏng JAVA JDK, ta đề xuất cấu hình biến môi trường xung quanh cho Hadoop (HADOOP_HOME)

*

Lần lượt trong user cùng system variable thêm trở nên HADOOP_HOME có mức giá trị là C:hadoop-3.3.0 nhưng ta bung file sống trên.

*

%HADOOP_HOME%in

%HADOOP_HOME%sbin

Nhấn Ok nhằm đóng toàn bộ những cửa ngõ sổ

Mở CMD nhằm thử nghiệm lại:

*

Gõ lệnh: hadoop version

Ta thấy công dụng là hadoop gồm version 3.3.0, điều này cấu hình thay đổi môi trường đã kết thúc.

6) Cấu hình những tập tin đến Hadoop

Trong tlỗi mục C:/Hadoop-3.3.0/etc/hadoop theo lần lượt sửa đổi các file:

core-site.xmlmapred-site.xmlhdfs-site.xmlyarn-site.xmlhadoop-env.cmd

Cấu hình core-site.xml nlỗi bên dưới đây:

fs.defaultFS hdfs://localhost:9000 Cấu hình mapred-site.xml nlỗi bên dưới đây:

mapreduce.framework.name yarn Cấu hình hdfs-site.xml nhỏng bên dưới đây:

Tạo thỏng mục “data” vào “C:/Hadoop-3.3.0”

Tạo tlỗi mục con “datanode” trong “C:/Hadoop-3.3.0/data”

Tạo tlỗi mục bé “namenode” trong “C:/Hadoop-3.3.0/data”

*

Sau đó cấu hình hdfs-site.xml như sau:

dfs.replication 1 dfs.namenode.name.dir /hadoop-3.3.0/data/namenode dfs.datanode.data.dir /hadoop-3.3.0/data/datanode Cấu hình yarn-site.xml nhỏng bên dưới đây:

yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apađậy.hadoop.mapred.ShuffleHandler Cấu hình hadoop-env.cmd:

Msinh sống tệp tin này lên cùng tìm tới lệnh:

phối JAVA_HOME=%JAVA_HOME%

sửa %JAVA_HOME% thành băng thông cài đặt JDK vào ổ C:

phối JAVA_HOME= C:/jdk1.8.0_201

7) Cập nhật những Hadoop Configurations

Tải https://github.com/s911415/apache-hadoop-3.1.0-winutils

Tải về giải nén ra thấy thỏng mục bin sống bên trong

Chnghiền đtrằn tlỗi mục bin này trong thỏng mục bin của C:hadoop-3.3.0in

Sau đó format lại namenode cùng datanode: mlàm việc commvà line lên, gõ lệnh sau:

hdfs namenode –formathdfs datanode -format
*

Bước format này chỉ việc có tác dụng 1 lần.

*Tiếp theo sao chép file:

“C:/hadoop-3.3.0/share/hadoop/yarn/timelineservice/ hadoop-yarn-server-timelineservice-3.3.0.jar”

vào “C:/hadoop-3.3.0/share/hadoop/yarn/hadoop-yarn-server-timelineservice-3.3.0.jar”

8) Hoàn thành setup Hadoop và test phân tách cùng với start-all.cmd

Để thử nghiệm Hadoop, ta msinh hoạt commvà line cùng dịch rời cho tới thư mục

C:/hadoop-3.3.0/sbin

Sau đó gõ lệnh:

Start-all.cmd

Chi ngày tiết coi hình những lệnh bên dưới đây:

*

Sau khi gõ lệnh trên, hệ thống đang chạy Hadoop

Phải bảo đảm các vận dụng sau được chạy:

– Hadoop Namenode

– Hadoop datanode

– YARN Resource Manager

– YARN Node Manager

*

bởi vậy ta đã khởi cồn thành công:

vào http://localhost:8088

*

vào http://localhost:9870

*

Bởi vậy ta sẽ chạy thử thành công

Hình như ta rất có thể tách chạy 2 lệnh:

– Khởi đụng namenode và datanode :

start-dfs.cmd

– Khởi hễ yarn bằng lệnh:

start-yarn.cmd

do đó Tui vẫn hướng dẫn chi tiết xong xuôi từng bước một phương thức cấu hình Hadoop trên Windows. Các bài sau Tui đã trình bày cáhc thức chạy một vài giải thuật bên trên Hadoop này.