ANALISIS PEMBOBOTAN KATA PADA KLASIFIKASI TEXT MINING

Agatha Deolika, Kusrini Kusrini, Emha Taufiq Luthfi

Abstract


Abstract - In this era, we need to extract the text needed to visualize or need knowledge from a large collection of document texts. Text mining is the process of obtaining high-quality information from text. High-quality information obtained because of attention to patterns and trends by reading statistical patterns. In the process of extracting the text, we need to pay for the words offered to give value/weight to the terms provided in a document. The weight given to the term depends on the method used. In weighting many words such as algorithms for example such as TF, IDF, RF, TF-IDF, TF.RF, TF.CHI, WIDF. This research will be analyzed and compared with the TF-IDF, TF.RF, and WIDF algorithms. For the test method, the naïve Bayes classification method will be used and the valuation analysis using the confusion matrix. With a dataset used as many as 130 documents in which 100 data transfer and 30 test data. Based on the analysis of the results of the classification that has been done, it can determine the weighting of TF.RF with naif classification is better than weighting TF.IDF and WIDF with Accuracy values of 98.67%, Precision 93.81%, and Recall 96.67%.

Keywords - Text Mining, TF-IDF, TF-RF, WIDF, Classification, Naïve Bayes.

 


Abstract - Pada era sekarang ini pemanfaatan text mining sangatlah diperlukan untuk mevisualkan atau mengevaluasi pengetahuan dari kumpulan besar dari teks dokumen. Text mining adalah proses untuk memperoleh informasi berkualitas tinggi dari teks. Informasi berkualitas tinggi biasanya didapatkan karena memperhatikan pola dan tren dengan cara mempelajari pola statistik. Pada proses teks mining terdapat pembobobtan kata yang bertujuan untuk memberikan nilai/bobot pada term yang terdapat pada suatu dokumen. Bobot yang diberikan pada term tergantung kepada metode yang digunakan. Dalam pembobotan kata banyak sekali terdapat algoritma-algoritma contohnya seperti TF, Idf, RF, TF-IDF, TF.RF, TF.CHI, WIDF. Pada penelitian ini akan dianalisis dan dibandingkan algoritma  TF-IDF, TF.RF, dan WIDF. Untuk metode pengujiannya akan digunakan metode klasifikasi naïve bayes  dan analisis perbandingannya menggunakan confussion matrix. Dengan dataset yang digunakan sebanyak 130 dokumen yang mana 100 data traning dan 30 data uji. Berdasarkan analisa pada hasil klasifikasi yang telah dilakukan, dapat disimpulkan bahwa pembobotan TF.RF dengan klasifikasi Naïve bayes lebih baik dari pembobotan TF.IDF dan WIDF dengan nilai Accuracy 98,67%, Precision 93,81%, dan Recall 96,67%.   

Kata Kunci - Text Mining, TF-IDF, TF-RF, WIDF, Klasifikasi, Naïve Bayes.


Keywords


Text Mining, TF-IDF, TF-RF, WIDF, Classification, Naïve Bayes

Full Text:

PDF

References


Tokunaga T. & Iwayama, M, Text Categorization Based On Weighted Inverse Document Frequency. Tokyo, Japan: Tokyo Institute of Technology, 1994.

Lan, Man, A New Term Weighting Method for Text Categorization. National University of Singapore. Singapore, 2006.

Diki Susandi, Pemanfaatan Vector Space Model pada Penerapan Algoritma Nazief Adriani, KNN dan Fungsi Similarity Cosine untuk Pembobotan IDF dan WIDF pada Prototipe Sistem Klasifikasi Teks Bahasa Indonesia. Jurnal ProTekInfo Vol. 3 No. 1 ISSN: 2406-7741, 2016.

Thopo Martha Akbar, Analisis Perbandingan Metode Pembobotan Kata Tf.Idf Dan Tf.Rf Terhadap Performansi Kategorisasi Teks. Tugas Akhir Teknik Informatika Universitas Telkom, 2012.

Mandias, F. A., Penerapan Data Mining Untuk Evaluasi Kinerja Akademik Mahasiswa Di Universitas Klabat Dengan Metode Klasifikasi, Konferensi Nasional Sistem & Informatika 2015, STIKOM Bali, 9-10 Oktober 2015, 2015.

Fitri, Meisya. (2013). Perancangan Sistem Temu Balik Informasi Dengan Metode Pembobotan Kombinasi Tf-Idf Untuk Pencarian Dokumen Berbahasa Indonesia. Universitas Tanjungpura : Semarang, 2013.

M. Syukri Mustafa, Implementasi Data Mining untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes Classifier, Citec Journal, Vol. 4, No. 2 2460-4259, 2017.

Olsen, D. L., Delen, D, Advanced Data Mining Techniques, Penerbit pringer, USA, 2008.

Han, J., and M.Kamber, Data Mining Concept and Techniques Second Edition, Elsevier, San Frasisco, 2006.

Fitri Handayani, Implementasi Algoritma Naive Bayes Classifier dalam Pengklasifikasian Teks Otomatis Pengaduan dan Pelaporan Masyarakat melalui Layanan Call Center 110. Vol. 7 No. 1, Jurnal Teknik Elektro, Semarang, 2015.




DOI: https://doi.org/10.36294/jurti.v3i2.1077

Refbacks

  • There are currently no refbacks.


Copyright (c) 2020 JurTI (Jurnal Teknologi Informasi)

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

JurTI (Jurnal Teknologi Informasi) terindex :

 

JurrTI (Jurnal Teknologi Informasi)

Program Studi Program Studi Teknik Informatika, Fakultas Teknik, Universitas Asahan.

Jl. Jend. Ahmad Yani, Kisaran – 21224  – Sumatera Utara

Telp/WA : 082370952109 - 081268777854

E-Mail : jurtischolar@gmail.com

JurTI (Jurnal Teknologi Informasi) s licensed under a Creative Commons Attribution-ShareAlike 4.0 International License