Yuk Belajar Algoritma Dasar pada Machine Learning!
Algoritma machine learning adalah program logika dan matematika yang dapat menyesuaikan diri agar dapat bekerja lebih baik saat bekerja dengan lebih banyak data. Secara singkat, algoritma machine learning adalah program dengan cara khusus untuk menyesuaikan parameternya sendiri dengan memberikan umpan balik pada kinerja sebelumnya dalam membuat prediksi tentang kumpulan data. Algoritma machine learning dibagi menjadi dua fase, yaitu fase training dan fase testing. Agar lebih mudah dipahami, kita akan jelaskan dua fase ini menggunakan ilustrasi. Pada fase training, misalkan kita mengambil apel secara acak dari pasar. Apel ini diibaratkan sebagai data training, lalu mencatat semua karakteristik dari apel tersebut seperti warna, ukuran, bentuk, dan lain sebagainya. Kita masukkan data training beserta karakteristiknya ke dalam sebuah algoritma machine learning dan algoritma akan mempelajari model dari data tersebut. Setelah model jadi, selanjutnya kita masuk ke fase testing. Misalnya kita sedang pergi ke supermarket dan membeli apel lagi. Jika ingin mengetahui karakteristik apel tersebut, kita tidak perlu mencatatnya lagi. Cukup masukkan apel tersebut ke dalam algoritma dan mesin akan mengetahui bagaimana karakteristik apel tersebut berdasarkan data training.
Saat ini, algoritma machine learning sudah banyak berkembang. Hal ini karena semakin banyak industri yang mulai memanfaatkan machine learning untuk mendukung produktivitas perusahaan sehingga banyak algoritma machine learning yang telah dimodifikasi sesuai tujuan. Namun, ada algoritma-algoritma dasar yang harus kamu kuasai sebelum terjun ke dunia industri karena algoritma-algoritma ini merupakan dasar dari algoritma-algoritma yang saat ini banyak digunakan. Penasaran apa saja algoritma tersebut? Yuk baca artikel ini sampai selesai!
1. Regresi Linier
Regresi linier merupakan algoritma machine learning yang sangat sederhana. Persamaan umum regresi linier adalah y = ax + b. y adalah output atau prediksi yang dibuat oleh algoritma. y ini juga biasa dikenal dengan variabel dependen. a merupakan koefisien dan melambangkan kemiringan garis yang menyatakan hubungan antara x dan y. x adalah data input atau biasa dikenal dengan variabel independen. b adalah titik potong dimana garis memotong sumbu y. Pada dasarnya regresi linier adalah algoritma yang menunjukkan hubungan linier antara variabel independen (x) dengan variabel dependen (y). Regresi linier memiliki banyak jenis. Regresi linier yang hanya memiliki satu variabel independen adalah regresi linier sederhana, sedangkan regresi yang memiliki lebih dari satu variabel independen disebut regresi linier berganda.
Baca juga : 3 Jenis Algoritma Machine Learning yang Dapat Digunakan di Dunia Perbankan
2. Pohon Keputusan (Decision Tree)
Decision atau dalam bahasa indonesia berarti keputusan berasal dari bahasa latin "decidere" (de yang artinya off dan credere yang artinya cut) yang artinya memotong kemungkinan. Pohon keputusan digunakan untuk klasifikasi data. Pohon keputusan tersusun atas rangkaian node dan grafik arah yang dimulai dari dasar dengan satu node dan meluas menjadi beberapa node daun yang mewakili kategori yang dapat diklasifikasikan oleh pohon. Beberapa istilah dalam pohon keputusan adalah node akar, pemisah, decision node, leaf atau terminal node, cabang, dan node induk dan node anak. Node akar berada di awal pohon. Node ini mewakili seluruh populasi yang sedang dianalisis. Dari node akar populasi dibagi menurut berbagai fitur. Hasil pembagian ini disebut dengan decision node. Leaf node atau terminal node merupakan node yang sudah tidak terbagi. Cabang atau sub pohon adalah sebuah sub bagian dari pohon keputusan. Disebut cabang karena jika digambarkan terlihat seperti sub pada grafik. Setiap node yang berada di bawah node lain adalah node turunan atau sub node, sedangkan node yang berada di atas node turuan disebut dengan node induk.
Alasan algoritma ini populer adalah karena outputnya mudah diinterpretasikan tanpa memerlukan pengetahuan statistika, dapat digunakan untuk mengidentifikasi variabel yang signifikan dan hubungan penting antara dua variabel atau lebih, dapat digunakan pada data pencilan dan missing value, dapat digunakan untuk berbagai tipe data, misalnya data kategorik dan numerik, termasuk algoritma non parametrik yang tidak membutuhkan asumsi.
3. Random Forest
Random forest terbuat dari beberapa pohon keputusan. Setiap pohon keputusan dibuat dengan menggunakan subset dari atribut yang digunakan untuk mengklasifikasikan populasi tertentu. Algoritma random forest termasuk kedalam algoritma supervised learning. Algoritma ini akan membuat banyak pohon dan simpul-simpul pada pohonnya akan membelah secara acak. Semakin banyak pohon yang dihasilkan, maka semakin baik pula hasilnya.
Contoh algoritma random forest adalah kita ingin memprediksi apakah pengunjung e-commerce akan menyukai novel romance atau tidak. Hal pertama yang akan kita gunakan adalah mengumpulkan informasi mengenai buku-buku yang sudah pernah dibaca dan disukai oleh pengunjung. Metadata mengenai novel akan menjadi data input yang berisi jumlah halaman, penulis, penerbit, tanggal publikasi, dan lain sebagainya. Pohon keputusan berisi aturan yang berhubungan dengan fitur-fitur tersebut. Selanjutnya algoritma akan memprediksi apakah seorang pengunjung menyukai novel romance berdasarkan fitur tersebut.
Machine learning tidak akan terlepas dari data science. Kedua istilah ini sama-sama banyak digunakan di berbagai lini industri. Di era data seperti saat ini, data science banyak dimanfaatkan oleh perusahaan untuk mengolah big data menjadi insight-insight yang berguna bagi perusahaan. Ekstraksi data ini merupakan salah satu tanggung jawab seorang data scientist. Hal tersebut mengakibatkan tingginya lapangan pekerjaan data scientist. Bahkan, profesi ini dinobatkan sebagai The Sexiest Job in 21st Century. Tak heran jika saat ini mulai banyak orang khususnya milenial yang menekuni data science secara serius. Kabar baiknya, ilmu ini dapat dipelajari oleh siapapun, bahkan oleh seseorang yang tidak memiliki background programing dan statistika.
Baca juga : Belajar Data Science: Pahami Penggunaan Machine Learning pada Python
4. Yuk, BELAJAR DATA SCIENCE GRATIS DI DQLAB SELAMA 1 BULAN!
Gunakan Kode Voucher "DQTRIAL", dan simak informasi di bawah ini mendapatkan 30 Hari FREE TRIAL:
Buat Akun Gratis dengan Signup di DQLab.id/signup
Buka academy.dqlab.id dan pilih menu redeem voucher
Redeem voucher "DQTRIAL" dan check menu my profile untuk melihat masa subscription yang sudah terakumulasi.
Selamat, akun kamu sudah terupgrade, dan kamu bisa mulai Belajar Data Science GRATIS 1 bulan.
Penulis: Galuh Nurvinda Kurniawati
Editor: Annissa Widya Davita