Cara Install dan Konfigurasi Apache Hadoop pada Satu Node di CentOS 7
Apache Hadoop adalah kerangka kerja Sumber Terbuka yang dibuat untuk penyimpanan Big Data terdistribusi dan pemrosesan data di seluruh kluster komputer. Proyek ini didasarkan pada komponen-komponen berikut:
- Hadoop Common – berisi pustaka Java dan utilitas yang diperlukan oleh modul Hadoop lainnya.
- HDFS – Sistem File Terdistribusi Hadoop – Sistem file skalabel berbasis Java yang didistribusikan ke beberapa node.
- MapReduce – Kerangka kerja YARN untuk pemrosesan data besar paralel.
- Hadoop YARN: Kerangka kerja untuk pengelolaan sumber daya kluster.
Artikel ini akan memandu Anda tentang cara menginstal Apache Hadoop pada cluster node tunggal di CentOS 7 (juga berfungsi untuk RHEL 7 dan Fedora 23+ versi). Jenis konfigurasi ini juga disebut sebagai Mode Terdistribusi Semu Hadoop.
Langkah 1: Instal Java di CentOS 7
1. Sebelum melanjutkan instalasi Java, login terlebih dahulu dengan pengguna root atau pengguna dengan hak akses root, siapkan nama host mesin Anda dengan perintah berikut.
hostnamectl set-hostname master
Juga, tambahkan catatan baru di file host dengan FQDN mesin Anda sendiri untuk menunjuk ke Alamat IP sistem Anda.
vi /etc/hosts
Tambahkan baris di bawah ini:
192.168.1.41 master.hadoop.lan
Ganti nama host dan data FQDN di atas dengan pengaturan Anda sendiri.
2. Selanjutnya, buka halaman unduh Oracle Java dan ambil versi terbaru Java SE Development Kit 8 di sistem Anda dengan bantuan curl memerintah:
curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”
3. Setelah pengunduhan biner Java selesai, instal paket dengan mengeluarkan perintah di bawah ini:
rpm -Uvh jdk-8u92-linux-x64.rpm
Langkah 2: Instal Kerangka Hadoop di CentOS 7
4. Selanjutnya, buat akun pengguna baru di sistem Anda tanpa kekuatan root yang akan kami gunakan untuk jalur instalasi Hadoop dan lingkungan kerja. Direktori home akun baru akan berada di direktori /opt/hadoop
.
useradd -d /opt/hadoop hadoop
passwd hadoop
5. Pada langkah selanjutnya, kunjungi halaman Apache Hadoop untuk mendapatkan tautan untuk versi stabil terbaru dan mengunduh arsip di sistem Anda.
curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz
6. Ekstrak arsip, salin konten direktori ke jalur beranda akun hadoop. Selain itu, pastikan Anda mengubah izin file yang disalin.
tar xfz hadoop-2.7.2.tar.gz
cp -rf hadoop-2.7.2/* /opt/hadoop/
chown -R hadoop:hadoop /opt/hadoop/
7. Selanjutnya, login dengan pengguna hadoop dan konfigurasikan Hadoop dan Variabel Lingkungan Java di sistem Anda dengan mengedit < file kode>.bash_profile.
su - hadoop
vi .bash_profile
Tambahkan baris berikut di akhir file:
## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar
## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
8. Sekarang, inisialisasi variabel lingkungan dan periksa statusnya dengan mengeluarkan perintah di bawah ini:
source .bash_profile
echo $HADOOP_HOME
echo $JAVA_HOME
9. Terakhir, konfigurasikan autentikasi berbasis kunci ssh untuk akun hadoop dengan menjalankan perintah di bawah ini (ganti nama host atau FQDN terhadap perintah ssh-copy-id
yang sesuai).
Selain itu, biarkan kolom frasa sandi kosong agar dapat login secara otomatis melalui ssh.
ssh-keygen -t rsa
ssh-copy-id master.hadoop.lan