Booklet Roadmap Data Science untuk Pemula, Mau Coba?
Roadmap Data Science merupakan salah satu trik bagi pemula untuk menekuni data science dalam waktu yang singkat. Betapa tidak, dengan adanya roadmap ini juga membantu pemula untuk upskill di bidang data science dan analytics.
Dalam roadmap data science, sahabat DQLab akan dibangun pondasinya mengenai kemampuan dalam bidang data science. Mulai dari topik yang sederhana hingga kompleks. Selain itu, kamu juga akan berkutat dengan penerapan kasus industri dan projects-projects yang dari data experts yang berpengalaman di bidangnya.
Jika kamu adalah pemula yang ingin belajar seputar Data Science maka roadmap dibutuhkan sebagai peta atau penunjuk jalan untuk meraih karir di bidang data. Topik-topik dalam Data Science juga berkembang sesuai dengan bahasa pemrograman yang ingin difokuskan. Adapun bahasa pemrograman yang kamu bisa kuasai adalah R, Python dan SQL.
Kalau kamu pengen belajar data science lebih dalam tapi bingung nggak ada panduannya atau bookletnya? Tenang aja sahabat DQLab. Pada artikel ini kita akan bahas skill-skill dan konsep apa aja sih yang bisa kamu persiapkan dan kamu pelajari untuk berkarir di bidang data. Yuk kita intip bareng-bareng Roadmapnya!
1. Programming atau Software Engineering
Konsep pertama yang bisa kamu pelajari adalah konsep programming atau bahasa pemrograman. Bahasa pemrograman paling tidak merupakan salah satu skillset yang perlu kamu pelajari. Fun factnya praktisi data seringkali menggunakan coding untuk melakukan pekerjaan yang berhubungan dengan analisis data.
Maka dari itu, paling tidak kamu pelajari bahasa pemrograman data science minimal satu saja, tidak harus semua. Mulai dari R, Python dan SQL. Kamu bisa mulai dengan mempelajari topik-topik seputar bahasa pemrograman sebagai berikut:
Konsep struktur data secara umum dalam bahasa pemrograman Python. Mulai dari mempelajari tipe data seperti list, dictionary, set dan tuple. Menuliskan kode sesuai dengan aturan penulisan Python, sorting algorithms, OOP atau object-oriented programming dan bekerja melalui external library
SQL Scripting atau penulisan sintaks SQL. Mulai dari konsep Join, aggregations dan subqueries
Membiasakan untuk menggunakan platform sebagai showcase portofolio data science seperti Github, Kaggle dan lain-lain
Baca juga: Algoritma Data Science & Contohnya Dalam Kehidupan Sehari-hari
2. Konsep Data Collection dan Cleaning Data
Bagian yang paling membutuhkan banyak waktu dalam tahapan data science adalah pengumpulan dan pembersihan data. Tahapan ini dikenal dengan data collection dan data wrangling.
Seringkali dalam tahapan ini, praktisi data menemukan banyak data yang unstructured alias berantakan. Sebagai praktisi data, konsep ini sangat diperlukan untuk membantu dalam memecahkan masalah data yang terjadi. Baik calon data scientist dan data analyst tentunya membutuhkan roadmap ini untuk melakukan cleaning data secara keseluruhan sebelum akhirnya masuk ke dalam tahapan analisis data.
Data Cleaning menjadi tugas yang harus dilakukan oleh praktisi data. Sebab dalam tahapan ini mereka memastikan apakah data tersebut dapat digunakan atau tidak, kebenaran, dan konsistensi data yang tersedia dalam dataset. Karena ini menyangkut kualitas data.
Apabila dataset yang kita miliki berkualitas buruk maka akan memberikan algoritma yang tidak bisa dilihat kebenarannya meskipun proses analisisnya sesuai dengan tracknya. Biasanya praktisi data memanfaatkan library Pandas dan Numpy untuk melakukan cleaning data dari data yang berantakan menjadi data yang bersih dan siap untuk dilakukan analisis data.
3. Exploratory Data Analysis dan Data Storytelling
Setelah paham konsep cleaning data, next step yang bisa kamu pelajari adalah Exploratory Data Analysis atau Konsep EDA. Konsep Exploratory Data Analysis merupakan pendekatan analisis untuk suatu data guna membuat gambaran keseluruhan data sehingga mudah untuk dipahami.
Langkah pertama dalam menganalisis data adalah mempelajari karakteristik data tersebut. Analisis data eksploratif sangat penting untuk menunjang statistisi dalam menelaah dan menemukan karakteristik data yang selanjutnya dapat berguna dalam pemilihan model statistika yang tepat.
Dua alat penting dalam EDA untuk menunjukkan karakteristik data adalah ringkasan numerik dan diagram kotak (boxplot). Ringkasan numerik menunjukkan dimana data memusat dan bagaimana sebaran datanya.
Sedangkan boxplot digunakan untuk mengetahui bagaimana distribusi data, dimana distribusi data ini sangat dibutuhkan untuk menentukan motode analisis statistika apa yang tepat untuk data tersebut. Dengan demikian, eksploratif dan visualisasi data sangatlah penting untuk dipelajari dalam statistika.
4. Konsep Statistik dan Matematika
Roadmap selanjutnya yang bisa kamu pelajari adalah konsep statistik dan matematika. Konsep ini menjadi sebuah pijakan dasar yang harus dilalui oleh pemula. Konsep statistik dipakai unruk dasar analisis suatu dataset. Kamu bisa mulai untuk mempelajari kompetensi dasarnya seperti Mean, Median, Modus, Standard Deviasi, Central Limit Theorem dan Confidence Intervals.
Sedangkan bagaimana dengan konsep matematika. Yap, konsep matematika digunakan untuk membangun algoritma machine learning. Pastinya kalau kamu serius untuk menekuninya maka konsep matematika harus benar-benar kamu pegang betul. Berikut adalah konsep matematika yang bisa kamu kuasai dalam membangun algoritma data science:
Kalkulus
Kalkulus digunakan untuk membantu algoritma Machine Learning meningkatkan keakuratan prediksi yang dibuatnya. Ini dilakukan dengan proses optimasi algoritma. Ini dilakukan dengan bantuan kalkulus diferensial. Kita dapat menemukan ekstrim suatu fungsi dengan memperhitungkan gradiennya menggunakan kalkulus diferensial.
Kalkulus multivariat digunakan jika ada beberapa parameter dari sebuah fungsi yang menentukan prediksi oleh model Machine Learning. Ini juga membantu model jaringan syaraf (neural networks), di mana kalkulus diferensial digunakan untuk menghitung kesalahan yang disebarkan kembali.
Selanjutnya, kalkulus integral juga digunakan untuk menghitung fungsi kerugian dalam model deep learning, dan juga untuk menggambarkan ekspektasi variabel tertentu dalam distribusi probabilitas nilai kontinu.
Probabilitas
Probabilitas digunakan untuk membuat keputusan ketika tidak ada hasil konklusif dari suatu algoritma selain distribusi probabilitas. Algoritma dapat mengeluarkan berbagai nilai dan probabilitas dari suatu nilai. Di sinilah probabilitas masuk, dan keputusan dibuat berdasarkan probabilitas variabel target.
Tidak ada algoritma yang dapat memberikan keluaran yang dapat diandalkan sepenuhnya. Oleh karena itu probabilitas digunakan untuk menentukan hasil dari area abu-abu tersebut.
Misalnya jika kita mengetahui jumlah orang yang terkena penyakit Alzheimer dan usia mereka pada sampel, kita akan menerima distribusi probabilitas usia seseorang yang terkena penyakit Alzheimer. Sekarang, jika kita diminta untuk memilih usia yang paling tinggi terkena penyakit, kita dapat mengambil rentang usia yang paling mungkin terkena penyakit. Proses pengambilan keputusan dari distribusi yang berkelanjutan ini membutuhkan probabilitas
Aljabar Linier
Aljabar linier memberikan langkah-langkah pertama ke dalam vektorisasi, menyajikan cara berpikir yang lebih dalam tentang paralelisasi operasi tertentu. Algoritme yang ditulis dalam notasi 'for-loop' standar dapat dirumuskan ulang sebagai persamaan matriks yang memberikan keuntungan signifikan dalam efisiensi komputasi.
Konsep aljabar linier tersebut dipakai dalam library Python yang digunakan seperti NumPy, SciPy, Scikit-Learn, Pandas, dan Tensorflow. GPU telah dirancang untuk menjalankan operasi aljabar linier yang dioptimalkan. Pertumbuhan eksplosif dalam pembelajaran mendalam sebagian dapat dikaitkan dengan sifat sangat paralel dari algoritme yang mendasari pada perangkat keras GPU komoditas.
Aljabar linier adalah subjek matematika kontinu tetapi pada akhirnya entitas yang dibahas di bawah ini diimplementasikan dalam lingkungan komputasi diskrit. Representasi diskrit entitas aljabar linier ini dapat menyebabkan masalah overflow dan underflow, yang mewakili batas-batas secara efektif mewakili angka yang sangat besar dan kecil secara komputasi.
5. Konsep Library Pandas Python
Seperti yang sudah dijelaskan sebelumnya bahwa Pandas Python adalah library yang berguna untuk analisis data. Pandas adalah sebuah library di Python yang berlisensi BSD dan open source yang menyediakan struktur data dan analisis data yang mudah digunakan.
Pandas biasa digunakan untuk membuat tabel, mengubah dimensi data, mengecek data, dan lain sebagainya. Struktur data dasar pada Pandas dinamakan DataFrame, yang memudahkan kita untuk membaca sebuah file dengan banyak jenis format seperti file .txt, .csv, dan .tsv.
Fitur ini akan menjadikannya table dan juga dapat mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya yang terdapat pada SQL. Dapat disimpulkan, bahwa Pandas merupakan library analisis data yang diperlukan untuk membersihkan data mentah ke dalam sebuah bentuk yang bisa untuk diolah.
Baca juga: Memahami Keunggulan dan Manfaat Data Science dalam Dunia Bisnis
Setelah kita sama-sama belajar data science dengan roadmap sebagai panduannya, kini saatnya kamu sahabat DQLab untuk cobain roadmap data science dari kita yuk. Kini tersedia Data Analyst Career Track yang bisa kamu ikuti dan kamu coba. Caranya gimana? Dengan roadmap yang telah dirancang khusus untuk instruktur dan modul-modul lengkap, kamu bisa menjadi lebih siap dengan perbekalannya menjadi seorang Data Analyst.
Dengan belajar data science di DQLab sekarang tidak perlu install software lagi. Kamu bisa langsung belajar dari sekarang karena dataset yang telah disediakan sudah sudah terintegrasi dengan live code editor.
Jika kamu penasaran dengan data science dan ingin belajar data science secara langsung, caranya mudah banget. Kamu bisa loh untuk coba bikin akun gratisnya kesini di DQLab.id dan lakukan signup untuk dapatkan info-info terbaru serta belajar data science.
Tunggu apa lagi? Yuk, signup sekarang untuk mulai belajar data science bersama DQLab!
Penulis: Reyvan Maulid