ANALISIS PENGARUH METODE COMBINE SAMPLING DALAM CHURN PREDICTION UNTUK PERUSAHAAN TELEKOMUNIKASI

Angelina Sagita Sastrawan, ZK Abdurahman Baizal, Moch. Arif Bijaksana

Abstract


Churn prediction pada pelanggan telekomunikasi merupakan upaya memprediksi/mengklasifikasi pelanggan jasa telekomunikasi yang berhenti atau berpindah berlangganan dari suatu operator ke operator yang lain. Namun dataset pada kasus churn ini biasanya memiliki kelas yang imbalance dimana jumlah instance suatu kelas (kelas active atau tidak churn atau mayor atau negatif) jauh lebih besar dari jumlah kelas yang lain (kelas churn atau minor atau positif). Akibatnya, kebanyakan classifier cenderung memprediksi kelas mayor dan mengabaikan kelas minor sehingga akurasi kelas minor sangat kecil. Salah satu pendekatan yang dilakukan untuk menangani permasalahan ini adalah dengan memodifikasi distribusi instances dari dataset yang digunakan atau yang lebih dikenal dengan pendekatan sampling-based. Teknik resampling ini meliputi oversampling, under-sampling, dan combine-sampling. Analisis yang dilakukan pada penelitian ini adalah mengetahui bagaimana pengaruh metode combine sampling yang digunakan terhadap akurasi prediksi data churn dengan melakukan penghitungan akurasi model churn prediction yang dinyatakan dalam bentuk lift curve, top decile dan gini coefficient serta f-measure untuk penghitungan akurasi prediksi data sebagai data yang imbalance. Hasil yang didapat dari penelitian menunjukkan bahwa metode combine sampling belum sesuai diterapkan pada data churn, karena cenderung masih menghasilkan nilai top decile yang kecil. Tetapi secara umum metode combine sampling ini mampu meningkatkan akurasi untuk memprediksi data minor. Dengan penerapan metode combine sampling, data churn yang memiliki tingkat imbalance yang besar dapat diklasifikasi tanpa mengorbankan data minor yang menjadi fokus penelitian. Metode combine sampling yang digunakan juga memiliki hasil evaluasi yang berbeda terhadap dataset sebagai data churn dan sebagai data
imbalance.


References


Batista, Gustavo E.A.P.A., Prati, Ronaldo C., and Maria Carolina., (2004), “A Study of the Behavior of Several Methods for Balancing Machine Learning Training Data”. SIGKDD Explorations 6(1): 20-29

Cardell, Scott., Golovnya, Mikhail., Steinberg, Dan., (2003)., Churn Modeling for Mobile Telecommunications. Salford Systems. California.

Chawla, Bowyer, Hall, and Kegelmeyer. (2002) “SMOTE : Synthetic Minority Oversampling Technique”. Journal of Artificial Intelligence Research 16. Page 321-357.

Han, Hui., Wang, Wen-Yuan., Mao, Bing-Huan., (2005), ”Borderline-SMOTE A New Over-Sampling Method in Imbalanced Data Sets Learning”. Beijing. China

Lemmens, Aurelie., Croux, Christophe., (2006).,”Bagging and Boosting Classification Trees”. Journal of Marketing Research, 43(2) 276-286.

Laurikkala, Jorma. (2001)”Improving Identification of Difficult Small Classes by Balancing Class Distribution”. University of Tampere. Finland..

Machado, Emerson Lopes., Ladeira, Marcelo., (2007) “Dealing With Rare Cases and Avoiding Overfitting : Combining Cluster Based Oversampling and SMOTE”. Department of Computer Science. Brazil.


Refbacks

  • There are currently no refbacks.