MENERAPKAN SMOTE PADA KLASIFIKASI DATA PENYAKIT STROKE
Keywords:
Imbalanced, Dataset, SMOTE, Random Forest, Penyakit StrokeAbstract
Masalah ketidakseimbangan kelas (imbalanced dataset) merupakan tantangan utama dalam pengolahan data, terutama pada sistem klasifikasi biner seperti prediksi penyakit stroke. Model klasifikasi cenderung bias terhadap kelas mayoritas, yang menyebabkan performa rendah dalam mendeteksi kelas minoritas. Penelitian ini menerapkan metode SMOTE (Synthetic Minority Over-sampling Technique) untuk menyeimbangkan dataset stroke dari Kaggle yang terdiri dari 5110 data pasien. Model klasifikasi yang digunakan adalah Random Forest, dengan pembagian data 80% untuk pelatihan dan 20% untuk pengujian. Hasil eksperimen menunjukkan bahwa sebelum penerapan SMOTE, model memiliki akurasi tinggi sebesar 93,93% namun gagal mendeteksi kasus stroke (precision, recall, dan F1-score = 0%). Setelah penerapan SMOTE, recall meningkat menjadi 14,52%, precision menjadi 15,52%, dan F1-score menjadi 15,00%, meskipun akurasi menurun menjadi 90,02%. Hal ini menunjukkan bahwa SMOTE berhasil meningkatkan sensitivitas model terhadap kelas minoritas, menjadikannya lebih efektif untuk deteksi kondisi medis yang jarang terjadi.