Buat Akun DQLab & Akses Kelas Data Science Python, R, SQL, Excel GRATIS!

Cara Implementasi Teknik Analisis Data dengan Metode NLP

Belajar Data Science di Rumah 05-April-2022
https://dqlab.id/files/dqlab/cache/a1ebe92cee45fe53c69d02906e468233_x_Thumbnail800.jpg

Sebelum lebih jauh membahas cara implementasi teknik analisis data sahabat DQ tahu ngga sih, apa itu analisis data? Analisis data adalah proses pengumpulan, pemodelan, dan menganalisis data untuk mengekstraksi wawasan yang mendukung pengambilan keputusan. Ada beberapa metode dan teknik untuk melakukan analisis tergantung pada industri dan tujuan analisis datanya. NLP (Natural Language Processing) adalah cabang dari bidang keilmuan Artificial Intelligence yang berhubungan dengan interaksi manusia dengan mesin. Sebagai contoh ketika sahabat DQ memesan makanan menggunakan aplikasi ojek online, sahabat DQ biasanya harus memilih titik peta sesuai dengan lokasi kamu. Nah, dengan bantuan NLP, pemilihan titik lokasi menjadi lebih sesuai dan tepat. 


NLP menggunakan bahasa yang tidak terstruktur atau tidak bersifat tabular, yakni data teks. 

Jadi, jika kamu memiliki kumpulan data berupa teks tapi bingung bagaimana cara implementasinya mengingat untuk mengolah data dengan machine learning saja biasanya dalam bentuk angka-angka. Jawabannya dari permasalahan tersebut adalah dengan menggunakan teknik analisis data dengan metode NLP. So, penasaran kan? Yuk, simak artikel ini sampai selesai. Jangan lupa siapkan camilan dan notebook kamu.


1. Tokenizing

Tokenizing atau tokenisasi adalah langkah pertama dalam analisis teks. Proses memecah paragraf teks menjadi potongan-potongan yang lebih kecil seperti kata-kata disebut tokenizing. Token adalah entitas tunggal yang membangun blok untuk kalimat atau paragraf. Sebagian proyek NLP (Natural Language Processing) menggunakan tahap tokenizing sebagai langkah pertama karena ini adalah dasar untuk mengembangkan atau membangun pemodelan dengan menggunakan algoritma machine learning yang paling baik dan membantu lebih memahami dataset teks yang kamu miliki. 


Pada python sudah tersedia library NLP, kamu hanya perlu menginstalnya saja di environment kamu caranya adalah dengan cara dibawah ini 

Teknik Analisis Data

Jika proses sudah selesai kamu bisa melanjutkan untuk mengimport library nltk sebagai berikut:

Teknik Analisis Data

Teknik Analisis Data

Kemudian kamu bisa menginputkan sample paragraf apapun ke dalam sebuah variabel, dalam hal ini DQLab akan menginputkan paragraf tersebut ke dalam variabel teks sebagai berikut:

Teknik Analisis Data


Selanjutnya kamu bisa melakukan tokenizing dengan memanggil variabel teks tadi disertai fungsi word_tokenize seperti pada gambar dibawah ini.


Teknik Analisis Data


Baca Juga : Langkah-Langkah Menggunakan Teknik Analisis Data Kualitatif


2. Stopwords

Stopwords adalah kata-kata umum yang sering muncul dan tidak memberikan informasi penting yang biasanya tidak diacuhkan atau dibuang misalnya dalam membuat indeks atau daftar kata. Stopwords juga sering dianggap sebagai noise dalam teks. Teks mungkin berisi kata-kata seperti œdi, œke,yang, dan lain sebagainya. Di NLTK untuk menghapus stopwords, sahabat DQ perlu membuat list stopwords dan memfilter dari token kamu berdasarkan list tersebut seperti pada gambar dibawah ini.

Teknik Analisis Data

Untuk teks bahasa indonesia kamu bisa menggunakan stopword sastrawi.


3. Stemming

Stemming adalah proses normalisasi linguistik yang mengurangi kata-kata dengan melibatkan pemotongan akhir atau awal kata yang diubah ke bentuk akarnya dengan tujuan menghilangkan imbuhan seperti œbi di awal kata œbicycle, œer di akhir kata œlighter. Algoritma yang paling umum untuk membendung bahasa inggris, dan salah satu yang telah berulang kali terbukti secara empiris sangat efektif adalah algoritma porter.


Teknik Analisis Data


4. Lemmatization

Lemmatization mengurangi kata-kata ke kata dasar mereka, yang secara linguistik benar sehingga lebih mudah untuk dianalisis. Contoh dari œswim, œswimming,swims adalah semua bentuk dari kata œswim. Nah berarti semua kata tersebut adalah sama yaitu œswim. 

Teknik Analisis Data


Baca Juga : Metode Pengolahan Data: Ketahui Proses Pengolahan Data Dengan Metode Analisis Deskriptif


5. Upgrade Skill Analisis Data di Tahun 2022 Bersama DQLab, Yuk!

Teknik Analisis Data


Gabung dengan DQLab adalah solusi buat kamu yang ingin self learning tapi takut overdosis informasi. Kamu tidak akan bingung dengan urusan waktu, karena dengan kursus data science online waktu belajar kamu bisa lebih fleksibel dan dapat diakses dimanapun dan kapanpun. 


Kamu bisa belajar materi dasar hingga kompleks meskipun kamu ngga punya basic IT, lho. Disini kamu akan belajar skill data analyst mulai dari tools-tools pengolahan data dasar hingga advanced seperti python, sql, R, bahkan excel juga ada, lho. 


Dengan bermodalkan koneksi internet kamu bisa belajar secara fleksibel dan dapat diakses dimanapun dan kapanpun. Materinya pun disusun oleh mentor-mentor yang kompeten di bidangnya dari perusahaan unicorn dan startup. 


Jadi, jangan khawatir, kamu bisa mulai kursus data science online bersama DQLab! Sign up sekarang di DQLab.id atau klik button dibawah ini untuk nikmati pengalaman belajar yang seru dan menyenangkan!


Penulis: Rian Tineges

Editor: Annissa Widya Davita


Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login