Penerapan Metode Winnowing Fingerprint dan Naive Bayes untuk Pengelompokan Dokumen
DOI:
https://doi.org/10.24014/coreit.v3i2.4418Abstract
Keanekaragaman dokumen teks serta jumlahnya saat ini terus bertambah yang menyebabkan penumpukan dokumen. Dokumen yang tersebar dan tidak terkoordinasi dengan baik akan menyulitkan pencari informasi dalam mendapatkan informasi yang diinginkan, maka perlu dibuatnya suatu sistem yang dapat mengelompokkan dokumen. Penelitian ini menerapkan metode winnowing untuk pemilihan fitur yaitu fingerprint dan naive bayes untuk pengelompokan. Pengelompokan dokumen dengan menggunakan winnowing fingerprint dan naive bayes mempunyai 8 bidang keahlian dengan menggunakan 1050 dokumen abstrak dengan 90% data latih dan 10% data uji. Pengujian menghasilkan akurasi 40% (k-gram=3, bilangan prima=2 dan jumlah window=8), 49,52% (k-gram=5, bilangan prima=2 dan jumlah window=8), 84,76% (k-gram=8, bilangan prima=2 dan jumlah window=8) dan 67,61% (k-gram=12, bilangan prima=2 dan jumlah window=8). Sedangkan pengujian menggunakan data yang seimbang, yaitu 400 data latih (masing-masing kelas memiliki 50 dokumen) menghasilkan akurasi 20% (k-gram=3, bilangan prima=2 dan jumlah window=8), 27,5% (k-gram=5, bilangan prima=2 dan jumlah window=8), 70% (k-gram=8, bilangan prima=2 dan jumlah window=8) dan 47,5% (k-gram=12, bilangan prima=2 dan jumlah window=8). Konfigurasi winnowing dengan nilai k-gram=8, bilangan prima=2 dan jumlah window=8 akan menghasilkan ciri dokumen yang terbaik untuk pengelompokan dokumen.
Kata kunci – Text Mining, Winnowing, Naive Bayes, Fingerprint, Pengelompokan Dokumen
References
Anggono, R., Suryani, A. A., & Kurniati, A. P. (2009). Analisis Perbandingan Metode K-Nearest Neighbor Dan Naive Bayes Classifier Dalam Klasifikasi Teks. Universitas Telkom.
Elbegbayan, N. (2005). Winnowing , a Document Fingerprinting Algorithm. TDDC03 Projects. Linkoping University.
Han, J., Kamber, M., & Pei, J. (2006). Data Mining. Concepts and Techniques.
Jurafsky, D., & Martin, J. H. (2015). Speech and Language Processing. In Classification: Naive Bayes, Logistic Regression, Sentiment.
Kurniawati, A., & Wicaksana, I. W. S. (2008). Perbandingan Pendekatan Deteksi Plagiarism Dokumen Dalam Bahasa Inggris. In KOMMIT 2008 (pp. 20–21). Depok.
Kusrini, & Luthfi, Emha. (2009). Algoritma Data Mining. Yogyakarta : Penerbit Andi.
Ridho, M. (2013). Rancang Bangun Aplikasi Pendeteksi Penjiplakan Dokumen Menggunakan Algoritma Biword Winnowing. Universitas Islam Negeri Sultan Syarif Kasim Riau.
Sanjaya, S., & Absar, E. A. (2015). Pengelompokan Dokumen Menggunakan Winnowing Fingerprint dengan Metode K - Nearest Neighbour. Jurnal CoreIT, 1(2), 50–56.
Sathya, S., & Rajendran, N. (2015). A Review on Text
Mining Techniques, 3(5), 274–284.
Schleimer, S., Wilkerson, D. S., Aiken, A., & Berkeley, U. C. (2003). Winnowing : Local Algorithms for Document Fingerprinting. SIGMOD 2003.
Tan, A. (1999). Text Mining : The state of the art and the challenges Concept-based. Singapore.
Xhemali, D., Hinde, C. J., & Stone, R. G. (2009). Naïve Bayes vs . Decision Trees vs . Neural Networks in the Classification of Training Web Pages. IJCSI International Journal of Computer Science Issues, 4(1), 16–23.
Yanti, D. (2013). Analisis Akurasi Algoritma Naive Bayes Pada Klasifikasi Dokumen Berkategori. Universitas Sumatera Utara.
Downloads
Published
Issue
Section
License
The Authors submitting a manuscript do so on the understanding that if accepted for publication, copyright of the article shall be assigned to CoreIT journal and published by Informatics Engineering Department Universitas Islam Negeri Sultan Syarif Kasim Riau as publisher of the journal.
Authors who publish with this journal agree to the following terms:
Authors automatically transfer the copyright to the journal and grant the journal right of first publication with the work simultaneously licensed under a Creative Commons Attribution-ShareAlike (CC BY SA) that allows others to share the work with an acknowledgement of the work's authorship and initial publication in this journal.
Authors are able to enter into separate permission for non-exclusive distribution of the journal's published version of the work (e.g., post it to an institutional repository or publish it in a book), with an acknowledgement of its initial publication in this journal.
Authors are permitted and encouraged to post their work online (e.g., in institutional repositories or on their website) prior to and during the submission process, as it can lead to productive exchanges, as well as earlier and greater citation of published work (See The Effect of Open Access).