Penelitian ini menyimulasikan sistem pengendalian temperatur dan ketinggian air pada sistem pengendali MIMO, yang bekerja dengan cara mengendalikan debit air dingin dan air panas untuk menghasilkan temperatur dan ketinggian air yang diinginkan. Simulasi ini dilakukan dengan menggunakan pengendali Reinforcement Learning dengan algoritma Proximal Policy Optimization (PPO) pada Simulink MATLAB. Tujuan dari penelitian ini, sistem dapat menjaga temperatur campuran dan ketinggian air yang terukur agar tetap berada di daerah set point yang ditentukan. Hasil training pengendali PPO diuji dengan melakukan perubahan set point, baik penambahan nilai ataupun pengurangan nilai set point. Pada penelitian ini diasumsikan bahwa proses pencampuran temperatur terdistribusi secara sempurna dan tangki tidak menyerap kalor. Penelitian ini memiliki batasan dimana temperatur air dingin 25℃ dan air panas 90℃ serta ketinggian maksimum tangki sebesar 7,5 dm. Kemampuan agent PPO dilihat dari beberapa parameter seperti overshoot, settling time, rise time, dan error steady state sebagai data kualitatif. Berdasarkan hasil simulasi, secara keseluruhan agent PPO meiliki hasil settling time dan rise time yang berbanding lurus dengan banyaknya perubahan set point. Nilai error steady state tertinggi sebesar 0.98%, terjadi pada pengendalian ketinggian air. Sedangkan nilai overshoot tertinggi sebesar 1,02% dan terjadi pada pengendalian ketinggian air juga.
This research simulates water level and temperature control system on MIMO control system, which works by controlling the flow of cold water and hot water to produce the desired temperature and water level. This simulation is carried out using Reinforcement Learning with Proximal Policy Optimization algorithm on Simulink MATLAB. The purpose of this research, the system can maintain measured temperature of mixture and water level in order to remain in the set point area. The results training of the PPO controller set point, either adding or reducing the set point. In this study, it is assumed that the temperature mixing process is perfectly distributed and the tank does not absorb heat. This research has a limit where the temperature of cold water is 25 and hot water is 90, and the maximum height of the tank is 7.5 dm. The ability agent of the PPO can be seen from overshoot, settling time, rise time, and steady state error as qualitative data. Based on the result of simulation, overall the agent PPO has settling time and rise time that is directly proportional to the number of changes at set point. The highest value of steady state error is 0.98%, occurred in controlling water level. While the highest value of overshoot is 1.02% and occurs in controlling water level as well.