Deteksi Akun Kaggle Bot Menggunakan Linear Regression
AbstractPenelitian ini mengkaji permasalahan pemalsuan akun pada platform Kaggle dengan fokus pada pengembangan model prediksi menggunakan metode Linear Regression untuk mendeteksi akun bot. Kaggle, sebagai platform terkemuka dalam bidang ilmu data, menghadapi tantangan serius terkait integritas data akibat praktik bot voting yang berdampak pada keaslian kompetisi dan dataset yang diunggah. Studi ini memanfaatkan dataset Kaggle Bot Account yang terdiri dari lebih dari satu juta entri, dengan variabel independen mencakup jumlah pengikut, interaksi dengan konten, dan aktivitas pengguna lainnya. Metode Linear Regression dipilih karena kemampuannya dalam memodelkan hubungan linear antar variabel, sementara evaluasi kinerja model dilakukan melalui confusion matrix. Hasil penelitian menunjukkan bahwa model mampu mengidentifikasi 318 akun palsu dari 143.771 data testing, dengan tingkat akurasi sebesar 0,9968 atau 99,68%. Meskipun demikian, terdapat beberapa kesalahan dalam prediksi akun palsu, yang mengindikasikan perlunya pengembangan lebih lanjut untuk meningkatkan ketepatan deteksi. Kesimpulan penelitian ini menegaskan potensi metode Linear Regression dalam mendukung integritas platform Kaggle dengan mengurangi dampak negatif akibat keberadaan akun palsu. Penelitian ini memberikan kontribusi signifikan dengan mengeksplorasi karakteristik unik Kaggle dan merekomendasikan penelitian lanjutan untuk mengembangkan metode deteksi yang lebih efektif di masa mendatang. |
Full Text:
References
M. Sigala, A. Beer, L. Hodgson, and A. O’Connor, “Big data for measuring the impact of tourism economic development programmes: A process and quality criteria framework for using big data,” in Big Data and Innovation in Tourism, Travel, and Hospitality: Managerial Approaches, Techniques, and Applications, 2019. doi: 10.1007/978-981-13-6339-9_4.
G. Nguyen et al., “Machine Learning and Deep Learning frameworks and libraries for large-scale data mining: a survey,” Artif Intell Rev, vol. 52, no. 1, 2019, doi: 10.1007/s10462-018-09679-z.
C. Zhang, C. Diao, and T. Guo, “GeoAI for Agriculture,” in Handbook of Geospatial Artificial Intelligence, 2023. doi: 10.1201/9781003308423-16.
M. Mittal, K. Kumar, and S. Behal, “Deep learning approaches for detecting DDoS attacks: a systematic review,” 2023. doi: 10.1007/s00500-021-06608-1.
R. W. D. Pramita, N. Rizal, and R. B. Sulistyan, Metode Penelitian Kuantitatif. 2021.
L. Liu, “Intelligent Detection and Diagnosis of Power Failure Relying on BP Neural Network Algorithm,” Comput Intell Neurosci, vol. 2022, 2022, doi: 10.1155/2022/3758660.
K. Hayawi, S. Saha, M. M. Masud, S. S. Mathew, and M. Kaosar, “Social media bot detection with deep learning methods: a systematic review,” 2023. doi: 10.1007/s00521-023-08352-z.
O. Ozdemir, R. L. Russell, and A. A. Berlin, “A 3D Probabilistic Deep Learning System for Detection and Diagnosis of Lung Cancer Using Low-Dose CT Scans,” IEEE Trans Med Imaging, vol. 39, no. 5, 2020, doi: 10.1109/TMI.2019.2947595.
Kaggle, “Kaggle: Your Home for Data Science,” Website.
A. M. Priyatno, M. M. Muttaqi, F. Syuhada, and A. Z. Arifin, “Deteksi bot spammer twitter berbasis time interval entropy dan global vectors for word representations tweet’s hashtag,” Register: Jurnal Ilmiah Teknologi Sistem Informasi, vol. 5, no. 1, 2019, doi: 10.26594/register.v5i1.1382.
V. F. Jahriyah, Moch. Tommy Kusuma, Kuni Qonitazzakiyah, and Muh. Ali Fathomi, “Kebebasan Berekspresi di Media Elektronik Dalam Perspektif Pasal 27 Ayat (3) Undang- Undang Nomor 19 Tahun 2016 Perubahan Atas Undang- Undang Nomor 11 Tahun 2008 Tentang Informasi dan Pelayanan Transaksi Elektronik (UU ITE),” Sosio Yustisia: Jurnal Hukum dan Perubahan Sosial, vol. 1, no. 2, 2021, doi: 10.15642/sosyus.v1i2.96.
P. Wanda, M. E. Hiswati, M. Diqi, and R. Herlinda, “Re-Fake: Klasifikasi Akun Palsu di Sosial Media Online menggunakan Algoritma RNN,” Prosiding Seminar Nasional Sains Teknologi dan Inovasi Indonesia (SENASTINDO), vol. 3, 2021, doi: 10.54706/senastindo.v3.2021.139.
H. Kurniawan, “Deteksi Twitter Bot menggunakan Klasifikasi Decision Tree,” Jurnal Sustainable: Jurnal Hasil Penelitian dan Industri Terapan, vol. 9, no. 1, 2020, doi: 10.31629/sustainable.v9i1.2347.
S. Sheikhi, “An efficient method for detection of fake accounts on the instagram platform,” 2020. doi: 10.18280/ria.340407.
A. Mustofa et al., “Twitter Buzzer Detection System Using Tweet Similarity Feature And Support Vector Machine,” NJCA (Nusantara Journal of Computers and Its Applications), vol. 8, no. 1, 2023, doi: 10.36564/njca.v8i1.306.
M. Pal and P. Bharati, “Introduction to Correlation and Linear Regression Analysis,” in Applications of Regression Techniques, 2019. doi: 10.1007/978-981-13-9314-3_1.
S. Rath, A. Tripathy, and A. R. Tripathy, “Prediction of new active cases of coronavirus disease (COVID-19) pandemic using multiple linear regression model,” Diabetes and Metabolic Syndrome: Clinical Research and Reviews, vol. 14, no. 5, 2020, doi: 10.1016/j.dsx.2020.07.045.
F. Nur Fajri, A. Tholib, and W. Yuliana, “Application of Machine Learning Algorithm for Determining Elective Courses in Informatics Study Program,” Jurnal Teknik Informatika dan Sistem Informasi, vol. 8, no. 3, 2022, doi: 10.28932/jutisi.v8i3.3990.
Sarmanu, Dasar Metodologi Penelitian Kuantitatif Kualitatif dan Statistika. 2017.
E. P. Ariesanto Akhmad, “Data Mining Menggunakan Regresi Linear untuk Prediksi Harga Saham Perusahaan Pelayaran,” Jurnal Aplikasi Pelayaran dan Kepelabuhanan, vol. 10, no. 2, 2020, doi: 10.30649/japk.v10i2.83.
A. Luthfiarta, A. Febriyanto, H. Lestiawan, and W. Wicaksono, “Analisa Prakiraan Cuaca dengan Parameter Suhu, Kelembaban, Tekanan Udara, dan Kecepatan Angin Menggunakan Regresi Linear Berganda,” JOINS (Journal of Information System), vol. 5, no. 1, 2020, doi: 10.33633/joins.v5i1.2760.
B. A. Wisudaningsi, I. Arofah, and K. A. Belang, “Pengaruh Kualitas Pelayanan Dan Kualitas Produk Terhadap Kepuasan Konsumen Dengan Menggunakan Metode Analisis Regresi Linear Berganda,” STATMAT : JURNAL STATISTIKA DAN MATEMATIKA, vol. 1, no. 1, 2019, doi: 10.32493/sm.v1i1.2377.
S. Sudriyanto, “Optimizing Neural Networks Using Particle Swarm Optimization (PSO) Algorithm for Hypertension Disease Prediction,” JEECOM Journal of Electrical Engineering and Computer, vol. 5, no. 2, 2023, doi: 10.33650/jeecom.v5i2.6759.
S. Sudriyanto, A. Khairi, and A. S. Hikam, “Penerapan Algoritma K-Means Untuk Clustering Santri Pra-Sejahtera Di Yayasan Bantuan Sosial (Ybs) Az-Zainiyyah Pondok Pesantren Nurul Jadid,” NJCA (Nusantara Journal of Computers and Its Applications), vol. 8, no. 1, 2023, doi: 10.36564/njca.v8i1.234.
R. Hidayad, R. A. Ronaldo, R. A. Prasetiyo, and S. A. Edho Wicaksono, “Optimasi Parameter Support Vector Machine Menggunakan Algoritma Genetika untuk Meningkatkan Prediksi Pergerakan Harga Saham,” COREAI: Jurnal Kecerdasan Buatan, Komputasi dan Teknologi Informasi, vol. 3, no. 1, 2022, doi: 10.33650/coreai.v3i1.3859.
S. Soewignjo, Sediono, M. F. F. Mardianto, and E. Pusporani, “Prediksi Harga Saham Bank BCA (BBCA) Pasca Stock Split dengan Artificial Neural Network dengan Algoritma Backpropagation,” G-Tech: Jurnal Teknologi Terapan, vol. 7, no. 4, 2023, doi: 10.33379/gtech.v7i4.3363.
10.33650/jeecom.v6i2.9251 |
Refbacks
- There are currently no refbacks.
Copyright (c) 2024 Sudriyanto Sudriyanto, Muhammad Ali Hafid, Moch. Ade Kurniawan
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.