Persiapan Sebelum Setup/Instalasi Hadoop Cluster

cluter

Tulisan kali ini balik ke teknis Big Data Hadoop setelah dua tulisan sebelumnya lebih ke non teknis alias manajerial view dari Big Data. Tulisan ini berdasarkan pengalaman dalam menginstall Hadoop di cluster sendiri (bukan layanan cloud computing seperti rackspace, linode, ovh, dsb-nya). Meskipun demikian tidak ada perbedaan signifikan meskipun diterapkan di cluster dari layanan cloud computing.

Memang semua Hadoop Distribution mencantumkan dokumentasi yang berisi petunjuk untuk instalasi. Tetapi berdasarkan pengalaman petunjuk ini kurang lengkap. Ada beberapa hal yang tidak dicantumkan disana. tulisan berikut berniat untuk memberikan pemaparan yang lebih lengkap mengenai hal-hal yang perlu dipertimbangkan dan dikerjakan dalam rangka mempersiapkan cluster sebelum menginstall Hadoop. berikut langkah-langkahnya.

Persiapan infrastruktur tempat cluster berada. infrastruktur disini adalah segala sesuatu yang diperlukan oleh semua node di cluster untuk berjalan dan sudah pasti akan gagal tanpa adanya infrastruktur ini. Yang pertama sudah pasti adalah pasokan listrik. Memang terkesan remeh tetapi ini mutlak harus ada. Aliran listrik yang tiba-tiba mati bisa merusak seluruh cluster. Sistem operasi bisa corrupt dan akhirnya bukan cuma harus install ulang hadoop tetapi juga install ualng sistem operasi di semua node di dalam cluster. Yang kedua dari infrastruktur adalah koneksi internet dan jaringan yang bagus. Internet diperlukan untuk mendownload dan menginstall seluruh komponen Hadoop dan software yang diperlukan. Koneksi ini juga harus stabil sehingga tidak ada proses yang tiba-tiba terhenti dan gagal terinstall. Selain itu jaringan yang menghubungkan komputer kita (sebagi orang yang menginstall Hadoop) dan cluster juga harus bagus. Sehingga dalam proses instalasi tidak terputus yang bisa membuat instalasi gagal.

Spesifikasi hardware dari node dalam cluster. Beberapa Hadoop distributions tidak menyebutkan secara spesifik kriteria minimum hardware. Tetapi dari pengalaman ada beberapa spesifikasi minimum yang diperlukan supaya Hadoop bisa berjalan dengan baik untuk kelas cluster yang kecil. RAM untuk tiap node usahakan paling tidak 4GB. Semakin besar semakin baik, terutama untuk node-node yang merupakan node master misalnya namenode, HBase master dsb-nya. Spesifikasi untuk node-node master sebaiknya lebih tinggi daripada node slave. Prosesor minimal dual core dengan kecepatan paling tidak 2GHz. Kalau bisa quad Core atau misalnya intel Xeon lebih baik. HardDisk dengan kapasitas sebaiknya diatas 200GB karena Hadoop memang ditujukan untuk menangani data yang besar. Kalau kapasitas bisa sampai 1TB juga lebih bagus.

Spesifikasi sistem operasi dari node dalam cluster. Hadoop bisa diinstall di banyak jenis sistem operasi. Kebanyakan Hadoop di install di Linux dan Windows. Saya pribadi lebih menyarankan Linux karena selain itu gratis, opensource juga lebih tangguh. Linux yang sebaiknya digunakan adalah jenis Linux yang kualifikasi server dan bukan Linux Desktop, apalagi Linux Mobile. Contoh jenis Linux ini antara lain RedHat Enterprise Linux (RHEL), CentOS yang merupakan varian gratis/free dari RHEL, Ubuntu Server, dan SuSE Linux Enterprise Server (SLES). Pertimbangan berikutnya untuk memilih diantara Linux Server ini antara lain compability dengan komponen Hadoop terutama Apache Ambari. Apache Ambari adalah salah satu komponen Hadoop yang digunakan untuk instalasi, monitoring dan manajemen cluster Hadoop. Beberapa Hadoop Distribution memiliki komponen serupa untuk Apache Ambari misalnya Cloudera memiliki CDH Manager. Tetapi saya pribadi lebih memilih Ambari karena open source dan memang dikembangkan di Apache khusus untuk Hadoop. Untuk saat ini Apache Ambari baru bisa untuk RHEL, CentOS dan SLES. Ubuntu server belum disupport oleh Ambari.

Spesifikasi dari software dalam node dalam cluster. Software disini yang dimaksud adalah software bawaan dari sistem operasi tempat Hadoop diinstall. Ada beberapa jenis software yang harus ada dalam instalasi Hadoop:

  1. Package manager seperti Apt-get di ubuntu, yum di RHEL/CentOS dan Zypper di SLES.
  2. Download manager seperti wget.
  3. Python. Usahakan versi dari python ini adalah 2.7 atau minimal 2.6.8. Hal in  karena nanti ada komponen Hadoop yang memerlukan python minimal versi 2.6.8. Untuk Linux yang python bawaannya adalah 2.6.6 atau sebelumnya, berhati-hatilah dalam menginstall / upgrade ke versi python yang lebih tinggi karena bisa merusak sistem Linux itu sendiri jika tidak dilakukan dengan hati-hati. Ikuti petunjuk yang biasanya ada di manual atau forum Linux tersebut.
  4. Network Time Protocol. Ini adalah komponen yang lazim ditemukan dan diperlukan pada aplikasi-aplikasi paralel processing pada cluster.
  5. Java. Sebaiknya gunakan versi minimal Java 1.7. kalau menggunakan Ambari dalam menginstall Hadoop, maka proses instalasi Java sudah termasuk. Karena itu saya merekomendasikan untuk menggunakan Apache Ambari.

Pemilihan Hadoop Distributions dan metode instalasi. Seperti tulisan sebelumnya mengenai Hadoop Distribution, sebaiknya kita memilih Hadoop Distribution daripada menginstall sendiri semua komponen Hadoop satu-persatu. Ada beberapa pilihan Hadoop Distribution seperti pada tulisan diatas. Dari hasil survey saya, ada dua Hadoop Distribution yang simple dan tidak terlalu membingungkan dengan pilihan-pilihan instalasi, yaitu Cloudera dan Hortonworks. Tetapi silakan saja jika memang lebih nyaman memakai MapR. Untuk Cloudera saya gagal menginstallnya. Entah kenapa CDH Manager berhenti menginstall dan akhirnya gagal. Kemungkinan karena infrastruktur internet yang kurang stabil. Akhirnya pilihan jatuh ke Hortonworks dengan menggunakan Apache Ambari. Apapun pilihan Hadoop Distributionnya pastikan, dokumentasinya engkap dan forum serta supportnya membantu. Karena cepat atau lambat pasti akan ada masalah dengan hadoop Anda. Dan memiliki dokumentasi yang lengkap serta forum yang responsif akan sangat membantu mengatasi masalah tersebut.

Setelah semua langkah tersebut dilakukan, silakan membaca manual instalasi Hadoop dari Hadoop Distribution pilihan Anda. Alokasikan waktu yang cukup karena instalasi Hadoop di cluster membutuhkan waktu yang cukup banyak minimal 2 jam (seringkali lebih dari dua jam bisa sekitar 8 jam). Dan bisa lebih lama jika clusternya besar atau koneksi internet yang gak bagus sehingga harus berkali-kali download ulang. Setiap ada masalah atau error jangan langsung buru-buru melakukan undo / menghapus semua yang telah Anda lakukan. Coba cari solusinya dahulu di internet karena seringkali solusi untuk masalah itu jauh lebih simple daripada harus mengulang semua langkah isntalasi yang telah Anda lakukan.

Semoga tulisan ini membantu. Happy Hadoop-ing 🙂

Persiapan Sebelum Setup/Instalasi Hadoop Cluster

Leave a Reply

Your email address will not be published. Required fields are marked *