Category Archives: Big Data

4 Cara Big Data Akan Merubah Setiap Bisnis

Surabaya (Wowrack) – Benarkah Big Data tidak relevan dengan bisnis yang Anda jalankan? Anggapan ini masih saja keluar dari pikiran para pelaku bisnis. Sebenarnya, jika pelaku bisnis memahami betapa pentingnya Big Data untuk usaha mereka, maka pelaku usaha akan berbondong-bondong mencari tahu apa itu sebenarnya Big Data dan Kegunaannya.

Tidak peduli apapun bidang yang Anda tekuni dalam menjalankan bisnis, kegunaan Big Data akan tetap menjadi salah satu acuan penting untuk mengembangkan bisnis Anda di masa yang akan datang. Dengan Big Data ini pula Amda dapat mengumpulkan data, analisis dan interpretasi untuk bisnis Anda menjadi lebih mudah di akes. Big Data pula akan memberikan dampak yang cukup penting untuk bisnis jika dilakukan dengan benar.

Lalu, bagaimana cara Big Data merubah bisnis Anda?

1. Data menjadi aset untuk setia bisnis
Setiap bisnis tidak lepas dari data hal itu sudah kita ketahui bersama-sama. Contoh kecilnya adalah, ketika Anda membuat sebuah website, pengunjung A membeli produk A melalui website Anda, dan kemudian datang pelanggan B, C dan seterusnya. Ketika semua pelanggan itu pergi, para pelanggan meninggalkan informasi transaksi. Dari informasi transaksi yang ada pada database website, pengusaha dapat melihat dengan detail produk mana yang laku keras, dan produk mana yang sepi peminat.

Dengan pengetahuan inilah, perusahaan bisa mengembangkan bisnis melalui aset data yang sudah dimiliki. Jika seseorang bertanya, bagaimana Anda mengembangkan bisnis, Anda sudah bisa menjawab Anda memiliki data, aset data yang Anda miliki akan menjadi penentu arah bisnis Anda.

2. Big Data memungkinkan perusahaan mengetahui pasar dengan lebih baik
Banyak perusahaan yang melakukan atau menjalankan bisnis tapi belum mengetahui bahwa masih begitu banyak hal yang bisa dikembangkan dari perusahaan. Alasan utamanya, mereka tidak mengerti kebutuhan pelanggan dan minat pelanggan yang semakin meningkat.

Dengan Big Data inilah perusahaan akan bisa mengembangkan bisnis dengan lebih baik dan menentukan pasar yang lebih akurat. Dengan demikian, perusahaan akan berkembang lebih baik dari sebelumnya karena sudah memilki data-data yang lengkap dan sesuai dengan tujuan pengembangkan

3. Efisiensi internal dan operasional perusahaan
Semua data yang terkumpul akan membuat perusahaan lebih mudah dalam menganalisa apa-apa yang sudha di capai oleh perusahaan. Selain itu, Big Data yang digunakan untuk internal perusahaan juga bisa membantu pimpinan mengawasi kinerja staff dan karyawan yang ada dalam perusahaan. Dengan demikian, itu menandakan bahwa, Big Data bukan hanya untuk kelangsungan penjualan / marketing perusahaan, namun Big data juga bisa untuk mencari dan menganalisa sumber daya manusia internal perusahaan.

4. Meningkatkan pengalaman pelanggan dan membangun data yang besar dalam penawaran produk.
Seluruh perusahaan pasti membutuhkan data, baik data yang dikumpulkan secara manual ataupun data yang tersimpan secara digital. Kegunaan data-data inilah yang akan membawa perusahaan melebarkan sayap dalam memasarkan produk serta memberikan keuntungan pula untuk aset nyata perusahaan yaitu pealnggan. (Ulum/wwrk)

Big Data Kecil (Little Big Data)

bigdata1_699316668

Tulisan kali ini intinya adalah tentang efisiensi. Efisiensi baik dari sisi teknis maupun sisi ekonomis. Hal ini karena banyak yang mengira bahwa adopsi Big Data terutama dengan Hadoop harus secara keseluruhan. Semua komponen Hadoop diinstall untuk mendapatkan hasil maksimal. Memang solusi tersebut bisa dibilang solusi paling jitu dan efektif saat ini. Tetapi solusi tersebut tidak efisien pada kebanyakan kasus yang menyatakan mereka membutuhkan Big Data. Karena tidak semua komponen Hadoop dipergunakan. Bahkan komponen inti dari Hadoop seperti HDFS dan Map Reduce tak perlu digunakan tergantung dari data yang digunakan.

Lalu bagaimana kita menilai bahwa solusi itu cukup efektif dan efisien? Sesuai dengan tulisan sebelumnya tentangstrategi implementasi big Data, yang pertama dilakukan adalah apa masalah yang ingin kita cari solusinya. Kedua data yang akan kita gunakan untuk mencari solusi. Di langkah kedua ini kuncinya. Jenis data yang menentukan apakah Big Data, dengan Hadoop, diperlukan adalah yang memiliki kriteria 3 V. Volume, Variety dan Velocity seperti di posting tentang definisi Big Data. Salah satu kriteria dari data itu tidak ada maka sebaiknya dicari solusi selain Hadoop yang lebih efisien.

Kalau ada argumen bahwa meskipun data yang ada sekarang belum memenuhi kriteria 3V diatas, tetapi ada kemungkinan ke depannya akan memenuhi syarat 3V diatas jadi sebaiknya dari sekarang mulai membangun infrastruktur Hadoop secara lengkap. Sah-sah aja kalau menginginkan seperti itu. Tetapi akan lebih baik jika memulai dari yang kecil dahulu lalu secara incremental sampai jika memang waktunya tiba baru Hadoop diimplementasi secara penuh.

Salah satu sifat yang saya sukai dari Hadoop dan komponen-komponennya adalah, kebanyakan bisa diimplementasikan terpisah. Dengan demikian memulai dengan yang paling diperlukan sekarang lalu mengembangkan infrastruktur secara incremental adalah langkah yang baik. Misalnya adalah HDFS, Map Reduce dan YARN yang menyusun komponen inti dari Hadoop. Sifat dari data yang 3V diatas memerlukan komponen inti mutlak diperlukan. Kalau streaming processing tidak diperlukan maka Apache Storm tidak perlu di implementasikan. Apache HBase untuk berjalan optimal di cluster membutuhkan HDFS jadi disarankan tidak menginstall Apache Hbase tanpa komponen inti Hadoop terinstall di cluster.

Strategi implementasi yang efisien untuk, paling tidak, efisiensi dalam migrasi dari data manajemen konvensional ke Big Data. Saya menyebutnya The Little Big Data atau Big Data kecil.

Pada umumnya, sistem konvensional, data diolah/dianalisis dengan sistem. Data tersebut berada di DBMS. Analisisnya bisa menggunakan analytic tool seperti Business intelligence dan sejenisnya. dalam strategi Little Big Data, yang pertama dilakukan adalah mencari komponen dari Hadoop yang bisa melakukan hal yang sama untuk sistem konvensional tersebut.

Pada tahap ini biasanya kondisi 3V belum terpenuhi. Data yang disimpan di DBMS pada sistem konvensional bisa saja jumlahnya besar, tetapi masih dalam bentuk terstruktur sehingga Variety tidak terpenuhi. Dengan demikian, HDFS sebagai inti storage dari Hadoop tidak diperlukan.

Selanjutnya adalah mencari data storage atau database NoSQL yang scalable dan tidak tergantung pada HDFS. Ada beberapa alternatif untuk hal ini yaitu Apache Cassandra, MongoDB, dll. Selain scalability, hal paling penting yang dipertimbangkan adalah interoperabilitynya dengan Hadoop. karena kemungkinan dimasa depan sistem ini harus memasukkan juga Hadoop (HDFS, MapReduce dan YARN).

Lalu menentukan processing system atau jenis sistem yang akan menganalisa dan memproses data. Untuk streaming dan realtime data bisa digunakan Apache Kafka danApache Storm yang bisa di deploy tanpa komponen inti Hadoop. Untuk Pemrosesan secara batch bisa digunakan aplikasi biasa yang menggunakan scheduler. Beberapa komponen Hadoop seperti Apache Mahout juga bisa digunakan dalam aplikasi batch ini yang jalan berdasarkan scheduler.

Untuk menambah kelebihan dari little big Data ini bisa ditambahkan Search Platform seperti Apache Solr atau ElasticSearch. Search platform ini bisa digunakan untuk user atau pengguna sistem Little Big Data ini atau digunakan untuk membantu pemrosesan data baik oleh Apache Storm atau Aplikasi batch proses.

Jika nanti data yang digunakan sudah memenuhi 3V komponen Hadoop lainnya bisa ditambahkan. Demikian tulisan ini dibuat untuk memberi petunjuk untuk efisiensi dalam mengadopsi dan mengimplementasi Big Data dengan strategi Little Big Data.

https://openbigdata.wordpress.com/2014/11/23/big-data-kecil-little-big-data/

Persiapan Sebelum Setup/Instalasi Hadoop Cluster

cluter

Tulisan kali ini balik ke teknis Big Data Hadoop setelah dua tulisan sebelumnya lebih ke non teknis alias manajerial view dari Big Data. Tulisan ini berdasarkan pengalaman dalam menginstall Hadoop di cluster sendiri (bukan layanan cloud computing seperti rackspace, linode, ovh, dsb-nya). Meskipun demikian tidak ada perbedaan signifikan meskipun diterapkan di cluster dari layanan cloud computing.

Memang semua Hadoop Distribution mencantumkan dokumentasi yang berisi petunjuk untuk instalasi. Tetapi berdasarkan pengalaman petunjuk ini kurang lengkap. Ada beberapa hal yang tidak dicantumkan disana. tulisan berikut berniat untuk memberikan pemaparan yang lebih lengkap mengenai hal-hal yang perlu dipertimbangkan dan dikerjakan dalam rangka mempersiapkan cluster sebelum menginstall Hadoop. berikut langkah-langkahnya.

Persiapan infrastruktur tempat cluster berada. infrastruktur disini adalah segala sesuatu yang diperlukan oleh semua node di cluster untuk berjalan dan sudah pasti akan gagal tanpa adanya infrastruktur ini. Yang pertama sudah pasti adalah pasokan listrik. Memang terkesan remeh tetapi ini mutlak harus ada. Aliran listrik yang tiba-tiba mati bisa merusak seluruh cluster. Sistem operasi bisa corrupt dan akhirnya bukan cuma harus install ulang hadoop tetapi juga install ualng sistem operasi di semua node di dalam cluster. Yang kedua dari infrastruktur adalah koneksi internet dan jaringan yang bagus. Internet diperlukan untuk mendownload dan menginstall seluruh komponen Hadoop dan software yang diperlukan. Koneksi ini juga harus stabil sehingga tidak ada proses yang tiba-tiba terhenti dan gagal terinstall. Selain itu jaringan yang menghubungkan komputer kita (sebagi orang yang menginstall Hadoop) dan cluster juga harus bagus. Sehingga dalam proses instalasi tidak terputus yang bisa membuat instalasi gagal.

Spesifikasi hardware dari node dalam cluster. Beberapa Hadoop distributions tidak menyebutkan secara spesifik kriteria minimum hardware. Tetapi dari pengalaman ada beberapa spesifikasi minimum yang diperlukan supaya Hadoop bisa berjalan dengan baik untuk kelas cluster yang kecil. RAM untuk tiap node usahakan paling tidak 4GB. Semakin besar semakin baik, terutama untuk node-node yang merupakan node master misalnya namenode, HBase master dsb-nya. Spesifikasi untuk node-node master sebaiknya lebih tinggi daripada node slave. Prosesor minimal dual core dengan kecepatan paling tidak 2GHz. Kalau bisa quad Core atau misalnya intel Xeon lebih baik. HardDisk dengan kapasitas sebaiknya diatas 200GB karena Hadoop memang ditujukan untuk menangani data yang besar. Kalau kapasitas bisa sampai 1TB juga lebih bagus.

Spesifikasi sistem operasi dari node dalam cluster. Hadoop bisa diinstall di banyak jenis sistem operasi. Kebanyakan Hadoop di install di Linux dan Windows. Saya pribadi lebih menyarankan Linux karena selain itu gratis, opensource juga lebih tangguh. Linux yang sebaiknya digunakan adalah jenis Linux yang kualifikasi server dan bukan Linux Desktop, apalagi Linux Mobile. Contoh jenis Linux ini antara lain RedHat Enterprise Linux (RHEL), CentOS yang merupakan varian gratis/free dari RHEL, Ubuntu Server, dan SuSE Linux Enterprise Server (SLES). Pertimbangan berikutnya untuk memilih diantara Linux Server ini antara lain compability dengan komponen Hadoop terutama Apache Ambari. Apache Ambari adalah salah satu komponen Hadoop yang digunakan untuk instalasi, monitoring dan manajemen cluster Hadoop. Beberapa Hadoop Distribution memiliki komponen serupa untuk Apache Ambari misalnya Cloudera memiliki CDH Manager. Tetapi saya pribadi lebih memilih Ambari karena open source dan memang dikembangkan di Apache khusus untuk Hadoop. Untuk saat ini Apache Ambari baru bisa untuk RHEL, CentOS dan SLES. Ubuntu server belum disupport oleh Ambari.

Spesifikasi dari software dalam node dalam cluster. Software disini yang dimaksud adalah software bawaan dari sistem operasi tempat Hadoop diinstall. Ada beberapa jenis software yang harus ada dalam instalasi Hadoop:

  1. Package manager seperti Apt-get di ubuntu, yum di RHEL/CentOS dan Zypper di SLES.
  2. Download manager seperti wget.
  3. Python. Usahakan versi dari python ini adalah 2.7 atau minimal 2.6.8. Hal in  karena nanti ada komponen Hadoop yang memerlukan python minimal versi 2.6.8. Untuk Linux yang python bawaannya adalah 2.6.6 atau sebelumnya, berhati-hatilah dalam menginstall / upgrade ke versi python yang lebih tinggi karena bisa merusak sistem Linux itu sendiri jika tidak dilakukan dengan hati-hati. Ikuti petunjuk yang biasanya ada di manual atau forum Linux tersebut.
  4. Network Time Protocol. Ini adalah komponen yang lazim ditemukan dan diperlukan pada aplikasi-aplikasi paralel processing pada cluster.
  5. Java. Sebaiknya gunakan versi minimal Java 1.7. kalau menggunakan Ambari dalam menginstall Hadoop, maka proses instalasi Java sudah termasuk. Karena itu saya merekomendasikan untuk menggunakan Apache Ambari.

Pemilihan Hadoop Distributions dan metode instalasi. Seperti tulisan sebelumnya mengenai Hadoop Distribution, sebaiknya kita memilih Hadoop Distribution daripada menginstall sendiri semua komponen Hadoop satu-persatu. Ada beberapa pilihan Hadoop Distribution seperti pada tulisan diatas. Dari hasil survey saya, ada dua Hadoop Distribution yang simple dan tidak terlalu membingungkan dengan pilihan-pilihan instalasi, yaitu Cloudera dan Hortonworks. Tetapi silakan saja jika memang lebih nyaman memakai MapR. Untuk Cloudera saya gagal menginstallnya. Entah kenapa CDH Manager berhenti menginstall dan akhirnya gagal. Kemungkinan karena infrastruktur internet yang kurang stabil. Akhirnya pilihan jatuh ke Hortonworks dengan menggunakan Apache Ambari. Apapun pilihan Hadoop Distributionnya pastikan, dokumentasinya engkap dan forum serta supportnya membantu. Karena cepat atau lambat pasti akan ada masalah dengan hadoop Anda. Dan memiliki dokumentasi yang lengkap serta forum yang responsif akan sangat membantu mengatasi masalah tersebut.

Setelah semua langkah tersebut dilakukan, silakan membaca manual instalasi Hadoop dari Hadoop Distribution pilihan Anda. Alokasikan waktu yang cukup karena instalasi Hadoop di cluster membutuhkan waktu yang cukup banyak minimal 2 jam (seringkali lebih dari dua jam bisa sekitar 8 jam). Dan bisa lebih lama jika clusternya besar atau koneksi internet yang gak bagus sehingga harus berkali-kali download ulang. Setiap ada masalah atau error jangan langsung buru-buru melakukan undo / menghapus semua yang telah Anda lakukan. Coba cari solusinya dahulu di internet karena seringkali solusi untuk masalah itu jauh lebih simple daripada harus mengulang semua langkah isntalasi yang telah Anda lakukan.

Semoga tulisan ini membantu. Happy Hadoop-ing 🙂

Persiapan Sebelum Setup/Instalasi Hadoop Cluster

Apa itu Structured Data dan Unstructured Data?

Surabaya (Wowrack) – Sering kali kita mendengar kata data terstruktur (structured) dan juga Data Tidak Terstruktur (Unstructured).  Namun, bagi sebagian orang ada yang belum mengerti apa arti sebenarnya dari kedua data tersebut.

Pada kesempatan kali ini, Wowrack ingin memberikan sedikit informasi tentang Data terstruktur dan juga data tidak terstruktur untuk WowFriends yang masih awam tentang kedua data ini.
Data terstruktur adalah data yang berada dalam satu tempat baik berbetuk sebuah file termasuk data yang berada dalam database ataupun spreadsheet. Data terstruktur adalah yang membuat model data. Contohnya adalah data CRM, Industry Research Data dan lain sebagainya.

Data terstruktur biasanya dijalankan untuk mengakses database yang disebut dengan Structured Query Languange atau yang lebih dikenal dengan SQL.

Berikut adalah ilustrasi tentang SQL. Anda ingin melihat daftar buku yang memiliki harga diatas 1000 dan di urutkan sesuai dengan judul, Anda bisa menggunakan

SELECT * FROM buku WHERE harga > 1000 ORDER BY judul;

Dari situ Anda akan mendapatkan data dari database sesuai permintaan Anda yaitu memunculkan buku yang memiliki harga diatas dan otomatis diurutkan sesuai judul.

Sedangkan Data tidak terstruktur adalah data yang tidak mudah diklasifikasi dan dimasukan kedalam sebuah kotak dengan rapi. Contohnya adalah foto, gambar grafis, streaming instrument data, webpages, pdf, PowerPointpresentations, konten blog dan lain sebagainya.

Nah, Wowfriends sudah bias membedakan mana data terstruktur dan mana data tidak terstruktur. Semoga informasi ringan ini bisa bermanfaat untuk WowFriends yang baru belajar tentang data. (Ulum/wwrk)

Driving Innovation With Big Data

Surabaya (Wowrack) – Sejarah Inovasi muncul dengan cara-cara yang berbeda, ada inovasi yang berhasil karena sebuah insiden kebetulan/Tidak disengaja. Ada juga inovasi yang berhasil karena memang dibuat kaena melalui rancangan yang dibuat sebelumnya.

Hal ini juga berlaku delam dunia digital, dimana perkembangan teknologi juga bergantung pada banyaknya visi lateral dan perspektif yang lebih luas pada potensi penggunaan teknologi dan informasi yang ada. Dimana Inovasi juga terkadang muncul dari hal kecil yang diciptkana secara sengaja maupun secara kebetulan.

Dalam dunia Big Data dimana peningkatan volume dari informasi yang berasal dari berbagai sumber yang lebih luas menciptkan dan meningkatkan tingkat kecepatan dalam mengolah data. Tantangan dalam pengolahan data itu juga menjadi tujuan khusus dalam inovasi teknologi informatika. Bagaimana kita bisa mengolah data dengan cepat dari berbagai tempat bersamaan tanpa membocorkan data-data yang kita miliki.

Ada beberapa kasus penjualan sebuah produk menurun akibat adanya informasi bahwa produk itu tidak bisa menjamin privasi penggunannya. Untuk itu, Big Data ini mencoba untuk mengatasi permasalahan tersebut.

Lalu, bagaimana cara agar bisa tetap menjaga data tersebut?

Memanfaatkan nilai data
Terkadang, sebuah perusahaan membutuhkan pihak ketiga untuk dapat mengoptimalkan data yang sudah terkumpul. Namun, bukan berarti dengan data tersebut harus dibocorkan dengan mudah. Untuk itu, kenali nilai data yang pantas dan tidak pantas untuk dijaga kerahasaiannya. Sehingga, semakin jeli dalam memilih nilai data tersebut maka risiko yang diambil akan berkurang.

Tapi, perusahaan juga tetap harus memilih pihak ketiga yang dapat menyimpan data dengan kepercayaan tinggi agar, data pelanggan Anda tidak tersebar ke tempat lain.

Memanage Data Pribadi
Bagaimana Anda bisa mengatur data yang dimiliki tidak sampai bercampur aduk dengan data perusahaan. Hal ini sebenarnya sudah sering terjadi ketika teknologi belum se Modern saat ini. Contoh saja dokumen pribadi terkadang bercampur dengan data perusahaan di lemari atau di tempat-tempat lain.

Untuk itu, memanage data pribadi ini menjadi hal yang memang harus diperhatikan. Meskipun sudah dalam dunia digital, kesalahan seperti contoh diatas masih bisa terjadi. Mengingat manusia yang sebagai operator dari pengolahan data tersebut. (Ulum/wwrk)