PENINGKATAN KINERJA CLUSTERING DOKUMEN TEKS MENGGUNAKAN PEMBOBOTAN SAMPEL

Amir Hamzah

Abstract


Algoritma clustering berbasis pembobotan sampel (sample weighting) saat ini banyak diteliti. Ada beberapa model pembobotan yang pada prinsipnya bertujuan untuk merubah nilai vektor sampel dan formula similaritas vektor sampel dengan pusat clusternya. Dalam dokumen teks pembobotan dapat berupa konektifitas antar dokumen, misalnya dalam dokumen akademik yang ada koneksi referensi. Namun dalam dokumen berita koneksi referensi mungkin jarang ditemukan. Dalam makalah ini teknik pembobotan baru diajukan, yaitu menggunakan kata-kata yang muncul dalam kata kunci (keyword) dan judul (title ) dari suatu dokumen teks. Eksperimen dilakukan terhadap abstrak dokumen akademik sebanyak 500 dokumen dan dokumen berita. Sebanyak 3000 dokumen Algoritma yang diuji kinerjanya adalah algoritma K-Means clustering dan algoritma Fuzzy C-Means clustering. Parameter kinerja algoritma digunakan nilai F-measure dari hasil clustering sebelum dilakukan pembobotan sampel dan setelah dilakukan pembobotan sampel. Hasil eksperimen menunjukkan bahwa pembobotan sampel dapat meningkatkan kinerja clustering sebesar 12,8% untuk pembobotan dengan keyword dan title dan meningkatkan kinerja clustering 9.8% untuk pembobotan dengan title saja.


References


Bao, Z., Han, B., and Wu, S., 2006, A General Weighted Fuzzy Clustering Algorithm, Lecture Notes in Computer Science, Volume 4142/2006, 102-109,DOI:10.1007/11867661_10.

Chisholm, E. and T. G. Kolda, 1999, New Term Weighting Formula for the Vector Space Method in Information Retrieval, Research Report, Computer Science and Mathematics Division, Oak Ridge National Library, Oak Ridge, TN 3781-6367, March 1999.

Hamzah, A, A. Susanto, F. Soesianto, J.E. Istiyanto, 2008, Studi Kinerja Fungsi-Fungsi Jarak Dan Similaritas Dalam Clustering Dokumen Teks Berbahasa Indonesia, Seminar Nasional Informatika, Prosiding Seminar Nasional SEMNASIF2008, Universitas Pembangunan Nasional “Veteran”, Yogyakarta 24 Mei

Hamzah, A, 2009, Penerapan Clustering Dokumen untuk Meningkatkan Efektifitas Sistem Temu Kembali Informasi Dokumen Berbahasa Indonesia, Disertasi, Fakultas Teknik, Universitas Gadjah Mada, Yogyakarta.

Han, J., and Kamber, M., 2000, Data Mining: Concept and Techniques, Morgan Kaufman.

Grossman, D. A. and O. Frieder, 2004, Information Retrieval Algorithms and Heuristics, Springer, 2nd edition, 2004.

Li, Jie, Gao, X., and Jiao, L., 2005, A Novel typical-Sample-Weighted Clustering Algorithm for Large Data Sets, LNAI3801, 696-703

Karypis, G. and Han Eui-Hong, 2000, Concept Indexing A Fast Dimensionality Reduction Algorithm with Applications to Document Retrieval and Categorization, Technical Report TR-00-0016, University of Minnesota. www.cs.umn.edu/karypis

Nock, R., and Nielsen, F., 2004, An Abstract Wegihting Framework for Clustering Algorithms, in:Proceedings of the Fourth International SIAM Conference on Data Mining, 200-209.

Rijsbergen, C. J.,1979, Information Retrieval, Information Retrieval Group, University of Glasgow , UK

Salton, G. and Mcgill,M.C., 1983,Introduction to Modern Information Retrieval, McGraw-Hill Book, Co., New York.

Zhang, C., Su, Z., and Zhou, D., 2006, Document Clustering Using Sample Weighting, Nanjing University of Science & Technology (NO.JGQN0701).


Refbacks

  • There are currently no refbacks.