Buat Akun DQLab & Akses Kelas Data Science Python, R, SQL, Excel GRATIS!

Peranan Data Analyst dalam Proses EDA dengan Python

Belajar Data Science di Rumah 09-September-2022
https://dqlab.id/files/dqlab/cache/8fcd88776ff3f3cb0f506992afd20e62_x_Thumbnail800.jpg

Analisis Data Eksplorasi, atau EDA, adalah langkah penting dalam setiap proyek Analisis Data atau Ilmu Data. EDA adalah proses menyelidiki dataset untuk menemukan pola, dan anomali (pencilan), dan membentuk hipotesis berdasarkan pemahaman kita tentang dataset.


EDA melibatkan pembuatan ringkasan statistik untuk data numerik dalam kumpulan data dan membuat berbagai representasi grafis untuk memahami data dengan lebih baik. Pada artikel ini, kita akan memahami EDA dengan bantuan contoh dataset. Kami akan menggunakan bahasa Python (library Pandas) untuk tujuan ini.


Dalam penambangan data, Exploratory Data Analysis (EDA) adalah pendekatan untuk menganalisis kumpulan data untuk merangkum karakteristik utamanya, seringkali dengan metode visual. EDA digunakan untuk melihat apa yang data dapat memberitahu kami sebelum tugas pemodelan. 


Tidak mudah untuk melihat kolom angka atau seluruh spreadsheet dan menentukan karakteristik penting dari data. Mungkin membosankan, membosankan, dan/atau berlebihan untuk mendapatkan wawasan dengan melihat angka-angka biasa. Teknik analisis data eksplorasi telah dirancang sebagai bantuan dalam situasi ini.


Analisis data eksplorasi umumnya diklasifikasikan silang dalam dua cara. Pertama, setiap metode bersifat non-grafis atau grafis. Dan kedua, setiap metode bersifat univariat atau multivariat (biasanya hanya bivariat).


Bagaimana Proses EDA pada data analyst? Yuk simak selengkapnya sekarang!


1.  Mengimpor kumpulan data yang berfungsi

Pipa analisis data dimulai dengan impor atau pembuatan kumpulan data yang berfungsi. Fase analisis eksplorasi dimulai segera setelahnya. Mengimpor kumpulan data sederhana dengan Pandas melalui fungsi yang didedikasikan untuk membaca data. Jika dataset kami adalah file .csv, kami hanya dapat menggunakan

df = pd.read_csv("jalur/ke/file saya.csv")


df adalah singkatan dari dataframe, yang merupakan objek Pandas yang mirip dengan lembar Excel. Nomenklatur ini sering digunakan di lapangan. Fungsi read_csv mengambil jalur file yang ingin kita baca sebagai input.


Masih banyak argumen lain yang bisa kita tentukan. Format .csv bukan satu-satunya yang dapat kami impor sebenarnya ada banyak format lain seperti Excel, Parket, dan Feather.


Baca juga : Kenali Perbedaan Data Scientist, Data Analyst dan Data Engineer


2. Memahami Kebutuhan melalui Gambaran Besarnya

Pada fase pertama ini, tujuan kami adalah untuk memahami apa yang kami lihat, tetapi tanpa menjelaskan secara detail. Kami mencoba memahami masalah yang ingin kami pecahkan, memikirkan seluruh kumpulan data dan arti dari variabel.


Fase ini bisa lambat dan terkadang bahkan membosankan, tetapi ini akan memberi kita kesempatan untuk membuat opini tentang kumpulan data kita.


3. Statistik Deskriptif

Sempurna! Data terlihat seperti yang kita inginkan. Anda dapat dengan mudah mengetahui hanya dengan melihat database yang berisi data tentang siswa yang berbeda di sekolah/perguruan tinggi, dan nilai mereka dalam 3 mata pelajaran. Mari kita mulai dengan melihat parameter statistik deskriptif untuk dataset.


4. Pahami Tujuan utama EDA 

adalah untuk mendeteksi kesalahan, outlier serta untuk memahami pola yang berbeda dalam data. Ini memungkinkan Analis untuk memahami data dengan lebih baik sebelum membuat asumsi apa pun. Hasil EDA membantu bisnis untuk mengenal pelanggan mereka, memperluas bisnis mereka dan mengambil keputusan yang sesuai.


Baca juga : Data Analyst vs Data Scientist, Yuk Kenali Perbedaannya 


Belajar memulai karir sebagai praktisi data science dengan menggunakan Python, R dan SQL sederhana dengan sign up dan login melalui DQLab Academy! Yuk nikmati kemudahan belajar tanpa ribet melalui live code editor DQLab. Belajar sambil buat portfolio dengan modul DQLab! 


Signup sekarang atau isi form dibawah ini ya Sahabat DQ!


Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login