Pengaplikasian Distribusi Probabilitas Statistik dengan Software R
Statistika adalah salah satu ilmu yang mendasari lahirnya ilmu Data Science. Jika berbicara tentang statistika, orang pasti akan langsung mengarah ke data dan peluang. Yup, betul sekali, hal-hal tersebutlah yang memang menjadi inti dari ilmu statistika sendiri. Dalam statistika, distribusi data menjadi salah satu hal yang cukup penting untuk diperhatikan. Distribusi data akan menunjukkan peluang yang mungkin terjadi dalam penelitian (untuk kepentingan akademik maupun untuk memecahkan masalah perusahaan), baik yang dilakukan secara berulang ataupun tidak.
Dalam beberapa metode statistika, kita tidak bisa menggunakannya begitu saja karena metode tersebut mensyaratkan distribusi data tertentu. Sehingga mengetahui distribusi yang dimiliki oleh data yang akan digunakan sebagai sumber utama analisis data tentu menjadi hal yang sangat krusial. Jika sebelumnya sudah sempat dibahas mengenai distribusi data yang sering digunakan secara teori, maka saat ini kita akan membahas jika distribusi tersebut diaplikasikan ke dalam software R. Kira-kira harus menggunakan syntax seperti apa ya? Yuk, simak artikelnya!
1. Distribusi Binomial
Dalam R, kita bisa menghitung beberapa hal yang berkaitan dengan distribusi probabilitas seperti nilai densitas, probabilitas kumulatif, menghitung kuantil, hingga memanggil nilai random dari probabilitas tersebut. Untuk distribusi binomial sendiri, kita bisa menggunakan syntax berikut:
dbinom (x, size, prob) : digunakan untuk menghitung densitas dari distribusi binomial
pbinom (x, size, prob) : untuk menghitung densitas kumulatif pada distribusi binomial
qbinom (p, size, prob) : untuk menghitung kuantil ke-p pada distribusi binomial
rbinom (n, size, prob) : memanggil n nilai random dari distribusi binomial
Agar tidak bingung, berikut adalah salah satu contohnya:
Misalkan sebuah kuis yang terdiri dari 10 soal pilihan ganda masing-masing memiliki 5 alternatif dan hanya satu pilihan yang benar, sehingga peluang jawaban benar untuk masing-masing pertanyaan adalah 0.20. Berapa peluang banyaknya jawaban yang bisa terjawab dengan benar kurang dari 7?
P(X<7) akan dianggap sama dengan P(X<= 6). Maka kita bisa menggunakan syntax berikut:
pbinom (6, 10, 0.2), maka hasilnya adalah 0.9991356
Baca juga : Pengolahan Data Statistik Parametrik dan Non-Parametrik
2. Distribusi Multinomial
Distribusi multinomial sebenarnya sama saja dengan distribusi binomial yang dilakukan secara berulang-ulang. Sehingga untuk syntax yang akan digunakan di R juga akan terlihat mirip hanya saja terlihat lebih complicated. Untuk distribusi ini kita bisa menggunakan fungsi dmnom(x, size, prob) yang ada di bawah library combinat untuk fungsi densitas dan rmultinomial() dan rmultz2() yang ada di bawah library multinomRob untuk membangkitkan nilai acak dari distribusi multinomial.
Misalkan pengamatan multinomal akan dikelompokkan menjadi 3 kelompok terhadap 8 objek. Peluang untuk keempat kelompok tersebut secara berturut-turut adalah 0.5, 0.25, dan 0.25. Berapa peluang untuk mendapatkan X1 = 5, X2 = 2, dan X3 = 1?
Maka kita bisa menggunakan syntax berikut:
library (combinat)
dmnom(c(5,2,1), 8, c(0.5, 0.25, 0.25))
Hasil yang didapatkan adalah 0.08203125
3. Distribusi Poisson
Distribusi Poisson adalah distribusi yang berkaitan peluang yang mungkin terjadi dalam rentang waktu atau daerah tertentu. Fungsi R yang umum digunakan untuk distribusi ini adalah dpois(), ppois(), qpois(), dan rpois(). Agar lebih paham, berikut contohnya:
Misalkan seorang karyawan bisa melakukan kesalahan input rata-rata sebanyak 4 dalam rentang waktu 1 jam, kira-kira berapakah peluang karyawan tersebut melakukan kesalahan kurang dari 3 dalam rentang waktu tersebut?
P(X< 3) bisa juga dikatakan sebagai P(X<=2), maka syntax R yang bisa digunakan adalah:
ppois(2,4)
Hasilnya adalah 0.238103
4. Distribusi Normal
Distribusi normal termasuk distribusi yang cukup sering digunakan sebagai syarat untuk menggunakan analisis tertentu, salah satunya adalah sebagai syarat untuk menggunakan metode statistika parametrik. Distribusi normal akan sangat bergantung pada nilai rata-rata () dan standar deviasi (). Contoh penerapan distribusi normal dalam R adalah sebagai berikut:
Misalkan kita ingin membangkitkan 100 data random, syntax yang digunakan sangat simpel yaitu:
rnorm(100)
Maka nanti akan muncul 100 angka random yang berdistribusi normal.
Kemudian misalkan diketahui rata-ratanya adalah 1, standar deviasi nya 4, kita diminta untuk mencari peluang X=2, maka syntax nya adalah:
dnorm(2,1,4)
Hasilnya adalah 0.09666703
Baca juga : Yuk Pelajari Macam-Macam Metode Analisis Statistika
5. Belajar Metode Statistik di DQLab, Yuk!
Untuk menguasai ilmu Data Science, tentu kamu harus menguasai ilmu yang mendasarinya. Salah satunya adalah statistika. Kamu bisa mempelajari tentang basic statistika di DQLab loh. Caranya sangat gampang, kamu cukup bergabung untuk menjadi member DQLab dengan biaya yang sangat murah. Namun jika kamu masih ragu, kamu juga bisa mencoba free modul yang disediakan, yaitu œIntroduction to Data Science with R dan œIntroduction to Data Science with Python. Yuk, tunggu apa lagi? Buruan gabung dan nikmati semua fasilitasnya!
Penulis: Gifa Delyani Nursyafitri