Tingkat kemacetan di Jakarta saat ini tergolong tinggi dan memiliki tren yang meningkat setiap tahu. Terdapat berbagai upaya yang dilakukan oleh pihak manajemen kemacetan untuk mengurangi kemacetan. Salah satu komponen yang perlu diperhatikan pada perencanaan upaya dalam mengurangi kemacetan adalah penemuan atribut yang memiliki pengaruh kepada tingkat kemacetan. Pendekatan machine learning (ML) pada beberapa tahun terakhir memberi hasil yang baik berdasarkan nilai metrik performa model. Maka, penelitian ini menggunakan algoritma ML, yaitu support vector machine (SVM), k-nearest neighbors (KNN), dan random forest (RF) untuk membangun model dalam memprediksi kemacetan serta menemukan faktor yang memiliki pengaruh terhadap kemacetan di ruas jalan. Variabel independen yang digunakan pada penelitian ini adalah jam, hari kerja, tanggal merah, curah hujan, ada tidaknya event, jam ganjil genap, volume motor, volume mobil, serta volume bus dan truk. Variabel dependen yang digunakan adalah tingkat kemacetan yang mewakili kecepatan rata-rata kendaraan di ruas jalan. Model dijalankan pada dua data, yakni pada data dengan variabel volume kendaraan dan data tanpa variabel kendaraan. Hasil penelitian menunjukkan model SVM, KNN, dan RF memberikan nilai akurasi, precision, recall, dan F1 score di atas 80% pada kedua data. Adapun faktor yang memiliki pengaruh kuat terhadap tingkat kemacetan terdiri dari jam dan jam ganjil genap pada data tanpa volume kendaraan serta volume motor, volume mobil, volume bus dan truk, jam, dan jam ganjil genap pada data dengan volume kendaraan.
The level of congestion in Jakarta is currently high and has an increasing trend every year. There are various efforts made by congestion management to reduce congestion. One component that needs to be considered in planning efforts to reduce congestion is the discovery of attributes that have an influence on the level of congestion. Machine learning (ML) approaches in recent years have provided good results based on the value of model performance metrics. So, this study uses ML algorithms, namely support vector machine (SVM), k-nearest neighbors (KNN), and random forest (RF) to build a model to predict congestion and find factors that have an influence on congestion on road sections. The independent variables used in this study are hours, weekdays, red dates, rainfall, presence or absence of events, even odd hours, motorcycle volume, car volume, and bus and truck volume. The dependent variable used is the level of congestion, which represents the average speed of vehicles on the road. The model was run on two data, namely on data with vehicle volume variables and data without vehicle variables. The results showed that the SVM, KNN, and RF models provided accuracy, precision, recall, and f1 score values above 80% on both data. The factors that have a strong influence on the level of congestion consist of hours and even odd hours on data without vehicle volume and motorcycle volume, car volume, bus and truck volume, hours, and even odd hours on data with vehicle volume.