Penggunaan komputer sebagai alat komputasi yang menyangkut aplikasi-aplikasi yang bersifat kritis memerlukan kemampuan fault-tolerance, karena jika terjadi suatu kerusakan akan berakibat kerugian yang sangat besar. Untuk meningkatkan kehandalan dan keberadaan suatu sistem komputer, disediakan sumber daya tambahan (redundant resources) yang mampu mengambil alih proses jika terjadi kegagalan. Penambahan ini akan menaikkan biaya (cost), namun biaya tersebut akan menjadi murah jika dibandingkan dengan terjadinya kegagalan.
Sistem komputasi fault-tolerant yang dirancang dengan menggunakan metode tertentu harus mampu meminimasi waktu yang terbuang saat terjadinya recovery sistem (rollback recovery). Metode optimasi checkpointing merupakan metode yang handal mengingat biaya dan waktu yang terbuang saat terjadinya recovery sistem. Metode tersebut menggunakan sejumlah checkpoint (keadaan proses yang dibutuhkan untuk melanjutkan komputasi) (yang optimal, sehingga dapat meminimasi waktu yang terbuang yang diperlukan untuk recovery.
Penyisipan sejumlah checkpoint dalam proses komputasi tersebut berguna untuk mencegah terjadinya komputasi dari awal pada pelayan cadangan (redundant resources), bila terjadi kegagalan pada pelayan utama. Prosedur pembuatan checkpoint perlu dibuat secara efisien mengingat aplikasi-aplikasi yang diterapkan pada sistem ini membutuhkan kecepatan yang tinggi.
Pada Penelitian ini dibahas implementasi sistem komputasi fault-tolerant dengan menggunakan metode optimasi checkpointing dan rollback recovery yang diterapkan pada sistem jaringan (distributed system). Penentuan jumlah checkpoint yang optimal dilakukan melalui analisa matematis dan uji coba hasil rancangan sistem dengan mengubah-ubah jumlah checkpoint tersebut.