Big Data Kecil (Little Big Data)

bigdata1_699316668

Tulisan kali ini intinya adalah tentang efisiensi. Efisiensi baik dari sisi teknis maupun sisi ekonomis. Hal ini karena banyak yang mengira bahwa adopsi Big Data terutama dengan Hadoop harus secara keseluruhan. Semua komponen Hadoop diinstall untuk mendapatkan hasil maksimal. Memang solusi tersebut bisa dibilang solusi paling jitu dan efektif saat ini. Tetapi solusi tersebut tidak efisien pada kebanyakan kasus yang menyatakan mereka membutuhkan Big Data. Karena tidak semua komponen Hadoop dipergunakan. Bahkan komponen inti dari Hadoop seperti HDFS dan Map Reduce tak perlu digunakan tergantung dari data yang digunakan.

Lalu bagaimana kita menilai bahwa solusi itu cukup efektif dan efisien? Sesuai dengan tulisan sebelumnya tentangstrategi implementasi big Data, yang pertama dilakukan adalah apa masalah yang ingin kita cari solusinya. Kedua data yang akan kita gunakan untuk mencari solusi. Di langkah kedua ini kuncinya. Jenis data yang menentukan apakah Big Data, dengan Hadoop, diperlukan adalah yang memiliki kriteria 3 V. Volume, Variety dan Velocity seperti di posting tentang definisi Big Data. Salah satu kriteria dari data itu tidak ada maka sebaiknya dicari solusi selain Hadoop yang lebih efisien.

Kalau ada argumen bahwa meskipun data yang ada sekarang belum memenuhi kriteria 3V diatas, tetapi ada kemungkinan ke depannya akan memenuhi syarat 3V diatas jadi sebaiknya dari sekarang mulai membangun infrastruktur Hadoop secara lengkap. Sah-sah aja kalau menginginkan seperti itu. Tetapi akan lebih baik jika memulai dari yang kecil dahulu lalu secara incremental sampai jika memang waktunya tiba baru Hadoop diimplementasi secara penuh.

Salah satu sifat yang saya sukai dari Hadoop dan komponen-komponennya adalah, kebanyakan bisa diimplementasikan terpisah. Dengan demikian memulai dengan yang paling diperlukan sekarang lalu mengembangkan infrastruktur secara incremental adalah langkah yang baik. Misalnya adalah HDFS, Map Reduce dan YARN yang menyusun komponen inti dari Hadoop. Sifat dari data yang 3V diatas memerlukan komponen inti mutlak diperlukan. Kalau streaming processing tidak diperlukan maka Apache Storm tidak perlu di implementasikan. Apache HBase untuk berjalan optimal di cluster membutuhkan HDFS jadi disarankan tidak menginstall Apache Hbase tanpa komponen inti Hadoop terinstall di cluster.

Strategi implementasi yang efisien untuk, paling tidak, efisiensi dalam migrasi dari data manajemen konvensional ke Big Data. Saya menyebutnya The Little Big Data atau Big Data kecil.

Pada umumnya, sistem konvensional, data diolah/dianalisis dengan sistem. Data tersebut berada di DBMS. Analisisnya bisa menggunakan analytic tool seperti Business intelligence dan sejenisnya. dalam strategi Little Big Data, yang pertama dilakukan adalah mencari komponen dari Hadoop yang bisa melakukan hal yang sama untuk sistem konvensional tersebut.

Pada tahap ini biasanya kondisi 3V belum terpenuhi. Data yang disimpan di DBMS pada sistem konvensional bisa saja jumlahnya besar, tetapi masih dalam bentuk terstruktur sehingga Variety tidak terpenuhi. Dengan demikian, HDFS sebagai inti storage dari Hadoop tidak diperlukan.

Selanjutnya adalah mencari data storage atau database NoSQL yang scalable dan tidak tergantung pada HDFS. Ada beberapa alternatif untuk hal ini yaitu Apache Cassandra, MongoDB, dll. Selain scalability, hal paling penting yang dipertimbangkan adalah interoperabilitynya dengan Hadoop. karena kemungkinan dimasa depan sistem ini harus memasukkan juga Hadoop (HDFS, MapReduce dan YARN).

Lalu menentukan processing system atau jenis sistem yang akan menganalisa dan memproses data. Untuk streaming dan realtime data bisa digunakan Apache Kafka danApache Storm yang bisa di deploy tanpa komponen inti Hadoop. Untuk Pemrosesan secara batch bisa digunakan aplikasi biasa yang menggunakan scheduler. Beberapa komponen Hadoop seperti Apache Mahout juga bisa digunakan dalam aplikasi batch ini yang jalan berdasarkan scheduler.

Untuk menambah kelebihan dari little big Data ini bisa ditambahkan Search Platform seperti Apache Solr atau ElasticSearch. Search platform ini bisa digunakan untuk user atau pengguna sistem Little Big Data ini atau digunakan untuk membantu pemrosesan data baik oleh Apache Storm atau Aplikasi batch proses.

Jika nanti data yang digunakan sudah memenuhi 3V komponen Hadoop lainnya bisa ditambahkan. Demikian tulisan ini dibuat untuk memberi petunjuk untuk efisiensi dalam mengadopsi dan mengimplementasi Big Data dengan strategi Little Big Data.

https://openbigdata.wordpress.com/2014/11/23/big-data-kecil-little-big-data/

Leave a Reply

Your email address will not be published. Required fields are marked *