Cara Install dan Konfigurasi Apache Hadoop pada Satu Node di CentOS 7


Apache Hadoop adalah kerangka kerja Sumber Terbuka yang dibuat untuk penyimpanan Big Data terdistribusi dan pemrosesan data di seluruh kluster komputer. Proyek ini didasarkan pada komponen-komponen berikut:

  1. Hadoop Common – berisi pustaka Java dan utilitas yang diperlukan oleh modul Hadoop lainnya.
  2. HDFS – Sistem File Terdistribusi Hadoop – Sistem file skalabel berbasis Java yang didistribusikan ke beberapa node.
  3. MapReduce – Kerangka kerja YARN untuk pemrosesan data besar paralel.
  4. Hadoop YARN: Kerangka kerja untuk pengelolaan sumber daya kluster.

Artikel ini akan memandu Anda tentang cara menginstal Apache Hadoop pada cluster node tunggal di CentOS 7 (juga berfungsi untuk RHEL 7 dan Fedora 23+ versi). Jenis konfigurasi ini juga disebut sebagai Mode Terdistribusi Semu Hadoop.

Langkah 1: Instal Java di CentOS 7

1. Sebelum melanjutkan instalasi Java, login terlebih dahulu dengan pengguna root atau pengguna dengan hak akses root, siapkan nama host mesin Anda dengan perintah berikut.

hostnamectl set-hostname master

Juga, tambahkan catatan baru di file host dengan FQDN mesin Anda sendiri untuk menunjuk ke Alamat IP sistem Anda.

vi /etc/hosts

Tambahkan baris di bawah ini:

192.168.1.41 master.hadoop.lan

Ganti nama host dan data FQDN di atas dengan pengaturan Anda sendiri.

2. Selanjutnya, buka halaman unduh Oracle Java dan ambil versi terbaru Java SE Development Kit 8 di sistem Anda dengan bantuan curl memerintah:

curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”

3. Setelah pengunduhan biner Java selesai, instal paket dengan mengeluarkan perintah di bawah ini:

rpm -Uvh jdk-8u92-linux-x64.rpm

Langkah 2: Instal Kerangka Hadoop di CentOS 7

4. Selanjutnya, buat akun pengguna baru di sistem Anda tanpa kekuatan root yang akan kami gunakan untuk jalur instalasi Hadoop dan lingkungan kerja. Direktori home akun baru akan berada di direktori /opt/hadoop.

useradd -d /opt/hadoop hadoop
passwd hadoop

5. Pada langkah selanjutnya, kunjungi halaman Apache Hadoop untuk mendapatkan tautan untuk versi stabil terbaru dan mengunduh arsip di sistem Anda.

curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz 

6. Ekstrak arsip, salin konten direktori ke jalur beranda akun hadoop. Selain itu, pastikan Anda mengubah izin file yang disalin.

 tar xfz hadoop-2.7.2.tar.gz
cp -rf hadoop-2.7.2/* /opt/hadoop/
chown -R hadoop:hadoop /opt/hadoop/

7. Selanjutnya, login dengan pengguna hadoop dan konfigurasikan Hadoop dan Variabel Lingkungan Java di sistem Anda dengan mengedit < file kode>.bash_profile.

su - hadoop
vi .bash_profile

Tambahkan baris berikut di akhir file:

## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

8. Sekarang, inisialisasi variabel lingkungan dan periksa statusnya dengan mengeluarkan perintah di bawah ini:

source .bash_profile
echo $HADOOP_HOME
echo $JAVA_HOME

9. Terakhir, konfigurasikan autentikasi berbasis kunci ssh untuk akun hadoop dengan menjalankan perintah di bawah ini (ganti nama host atau FQDN terhadap perintah ssh-copy-id yang sesuai).

Selain itu, biarkan kolom frasa sandi kosong agar dapat login secara otomatis melalui ssh.

ssh-keygen -t rsa
ssh-copy-id master.hadoop.lan