A Comprehensive Review of Clasifier used with Imbalanced Data in Machine Learning

DOI: https://doi.org/10.33650/jeecom.v6i1.8510

Authors (s)


(1) * Muammar Reza Pahlawan   (Magister of Informatics, Universitas AMIKOM Yogyakarta)  
        Indonesia
(2)  Arief Setyanto   (Magister of Informatics, Universitas AMIKOM Yogyakarta)  
        Indonesia
(3)  M. Rudyanto Arief   (Magister of Informatics, Universitas AMIKOM Yogyakarta)  
        Indonesia
(*) Corresponding Author

Abstract


Dengan majunya perkembangan teknologi beberapa tahun terakhir, menghadirkan banyak konten digital. Hal ini juga menghadirkan kesempatan dalam bidang penelitian seperti halnya Machine Learning. Salah satu metode dalam Machine Learning adalah klasifikasi. Klasifikasi bertujuan untuk mengelompokkan data sesuai dengan kelasnya. Akan tetapi faktor seperti data imbalance dapat menyebabkan hasil dari metode ini menjadi kurang sesuai dengan yang diharapkan. Penelitian ini menyajikan tinjauan komprehensif tentang metode klasifikasi dalam pengolahan teks, dengan fokus pada penanganan tantangan yang ditimbulkan oleh data yang tidak seimbang. Dengan pertumbuhan eksponensial konten digital, kebutuhan untuk mengkategorikan dan menganalisis data teks secara efektif telah menjadi semakin kritis. Metode klasifikasi memainkan peran penting dalam upaya ini, memfasilitasi tugas seperti analisis sentimen, klasifikasi dokumen, dan pengambilan informasi. Namun, keberadaan data imbalance, ditandai oleh distribusi kelas yang condong, menimbulkan hambatan signifikan terhadap keandalan dan efektivitas model klasifikasi. Dengan penelitian ini diharapkan pembaca, dapat mengetahui metode apa saja yang umumnya digunakan dalam metode klasifikasi. Kemampuan metode klasifikasi tersebut pada umumnya ketika dihadapkan pada kasus tertentu seperti data imbalance. Tinjauan ini menyoroti Support Vector Machine (SVM) sebagai metode klasifikasi paling menonjol sebesar 25%, diikuti oleh K-Nearest Neighbours (KNN) dan Random Forest dengan persentase 19%, Decision Tree, dan Naïve Bayes. Metode alternatif yang disesuaikan dengan tujuan penelitian dan tantangan tertentu juga dieksplorasi. Hasil persentase penggunaan metode tersebut didapat dari kumpulan jurnal yang peneliti kumpulkan dan teliti


Keywords

Classification Methods; Super Vector Machine (SVM); K-Nearest Neighbors (KNN); Random Forest, Imbalance Data



Full Text: PDF



Article View

Abstract views : 85 times | PDF files viewed : 25 times

Dimensions, PlumX, and Google Scholar Metrics

10.33650/jeecom.v6i1.8510


Refbacks

  • There are currently no refbacks.


Copyright (c) 2024 Muammar Reza Pahlawan, Arief Setyanto, M. Rudyanto Arief

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Creative Commons License
 
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Journal of Electrical Engineering and Computer (JEECOM)
Published by LP3M Nurul Jadid University, Indonesia, Probolinggo, East Java, Indonesia.