Pengelompokan Dokumen Menggunakan Winnowing Fingerprint dengan Metode K-Nearest Neighbour
DOI:
https://doi.org/10.24014/coreit.v1i2.1229Abstract
Text mining dapat didefinisikan sebagai suatu proses menggali informasi oleh seorang user yang berinteraksi dengan sekumpulan dokumen menggunakan tools analisis yang merupakan komponen- komponen dalam data mining. Dalam text mining dikenal beberapa metode untuk klasifikasi teks, salah satunya adalah K-Nearest Neightbour (KNN). KNN adalah sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut. Pada penelitian ini akan dilakukan klasifikasi terhadap dokumen teks menggunakan metode KNN berdasarkan winnowing fingerprint. Winnowing adalah algoritma yang biasa digunakan untuk mendeteksi kesamaan isi suatu dokumen teks dengan cara memecah kalimat yang ada pada dokumen teks menjadi beberapa karakter sepanjang k-grams dan menghasilkan output berupa kumpulan nilai hash yang disebut fingerprint. Penelitian ini mencoba untuk menjadikan fingerprint sebagai ciri suatu dokumen teks lalu mengelompokkan dokumen teks berdasarkan ciri tersebut. Proses klasifikasi diawali dengan mengumpulkan dokumen latih yang akan dijadikan sebagai acuan dalam pengelompokan dokumen. Dokumen latih tersebut diproses dengan metode winnowing untuk mendapatkan ciri dari dokumen tersebut. Dokumen uji yang ingin dikelompokkan juga harus melewati proses winnowing, setelah fingerprint didapat maka dilanjutkan dengan proses klasifikasi menggunakan metode KNN. Dari hasil pengujian terhadap 10 dokumen uji didapat nilai akurasi pengelompokan 80%.
References
Han, J & Kamber, M. 2006. Data Mining Concepts and Techniques. San Fransisco Morgan Kaufmann Publishers.
Priantara, I Wayan Surya., Diana Puspitasari., Umi Laili Yuhana. 2011. Implementasi Deteksi Penjiplakan Dengan Algoritma Winnowing Pada Dokumen Terkelompok. Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh November Surabaya.
Diana, Widia Nur., Achmad Ridok., M. Tanzil Furqon. 2011. Penerapan Algoritma Improved K-Nearest Neighbors Untuk Pengkategorian Dokumen Teks Berita Berbahasa Indonesia. Jurusan Matematika Program Studi Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Brawijaya.
Even,Y. & Zohar. 2002. Introduction to Text Mining. Automated Learning Group National Center For Supercomputing Aplications.
University of Illionis.
Schleimer, Saul., Daniel S. Wilkerson, dan Alex Aiken. 2003. Winnowing : Local Algorithms for Document Fingerprint. San diego: In Proceedings Of The ACM SIGMOD International Conference On Management Of Data.
Kusrini, & Luthfi, Emha. 2009. Algoritma Data Mining. Yogyakarta:Penerbit Andi.
Rifqi, Maharani., Shaufiah. 2011. Analisis dan Implementasi Klasifikasi Data Mining Menggunakan Jaringan Syaraf Tiruan dan Evolution Strategis. Institut Teknologi Telkom Bandung.
Larose, Daniel T. 2005. Discovering Knowledge in Data: An Introduction to Data Mining. United States of America: John Wiley & Sons, Inc.
Xhemali, D., Hinde, C.J. & Stone, R.G. 2009. Naive Bayes vs Decision Trees vs Neural Networks in the Classification of Training
Web Pages. International Journal of Computer Science Issues.
Downloads
Issue
Section
License
The Authors submitting a manuscript do so on the understanding that if accepted for publication, copyright of the article shall be assigned to CoreIT journal and published by Informatics Engineering Department Universitas Islam Negeri Sultan Syarif Kasim Riau as publisher of the journal.
Authors who publish with this journal agree to the following terms:
Authors automatically transfer the copyright to the journal and grant the journal right of first publication with the work simultaneously licensed under a Creative Commons Attribution-ShareAlike (CC BY SA) that allows others to share the work with an acknowledgement of the work's authorship and initial publication in this journal.
Authors are able to enter into separate permission for non-exclusive distribution of the journal's published version of the work (e.g., post it to an institutional repository or publish it in a book), with an acknowledgement of its initial publication in this journal.
Authors are permitted and encouraged to post their work online (e.g., in institutional repositories or on their website) prior to and during the submission process, as it can lead to productive exchanges, as well as earlier and greater citation of published work (See The Effect of Open Access).