Hingga saat ini, penderita kecacatan pendengaran masih memerlukan alat bantu untuk berkomunikasi, terutama untuk komunikasi lisan yang merupakan bagian penting dalam kehidupan sehari-hari. Skripsi ini membahas pengembangan sistem alat bantu pembacaan bibir (Lip Reading) dengan metode MDTW (Multidimension Dynamic Time Warping). Metode ini memanfaatkan aspek-aspek fisik bibir manusia untuk mendeteksi kata-kata yang diucapkan. Aspek-aspek yang digunakan adalah tinggi bibir, lebar bibir, rasio tinggi-lebar, dan area dari bibir. Dari video, sistem mendeteksi lokasi bibir dan menerjemahkan gerak bibir menjadi kata-kata yang dapat dimengerti pengguna. Video input akan divariasikan berdasarkan resolusi, frame rate, noise, dan jumlah database. Kata-kata yang diterjemahkan dibatasi untuk Bahasa Indonesia dan Bahasa Inggris. Hasil eksperimen menggunakan bahasa Indonesia sebanyak 308 sampel dan bahasa Inggris dengan 160 sampel, masing-masing menunjukkan akurasi tertinggi sebesar 72.5% untuk bahasa Inggris dan 63% untuk bahasa Indonesia. Tingkat akurasi pada resolusi 1280×720, 1024×768, 720×576, 720×480 masing-masing sebesar 72.5%, 70%, 68.75%, dan 62.5%. Tingkat akurasi pada frame rate 30fps, 25fps, dan 20fps masing-masing sebesar 72.5%, 70%, dan 68.75%. Tingkat akurasi menggunakan noise salt & pepper dengan kepadatan sebesar 0.01 hingga 0.1 menghasilkan akurasi antara 48.75 hingga 63.75%. Berdasarkan eksperimen ini, tingkat akurasi akan dipengaruhi resolusi, frame rate, noise, dan jumlah database.
Until now, persons with hearing disabilities need hearing aids for communication, especially in oral communication which is a very important part in daily life. This research report describes about development of lip reading system using MDTW (Multidimension Dynamic Time Warping). This methods implements physical aspects from human lips recorded to recognize the speaker‟s words. There are 4 physical aspects from lips that will be used, i.e. lip‟s heights, lip‟s width, lip‟s height-width ratio, and area. Video processing is performed to locate the lips and translate the lips motion into understandable words for user. In the Model, Indonesian and English simplewords istranslated. Words recognition accuracy is analyzed based on various input videos and other parameters. Experiments using Indonesian languange resulted on 63% accuracy and English languange resulted on 72.5% accuracy. This experiment used 4 type of resolutions, 1280×720, 1024×768, 720×576, and 720×480. Each resolution resulted on 72.5%, 70%, 68.75%, and 62.5% accuracy respectively. This experiment used 3 types of frame rates, 30fps, 25fps, and 20 fps. Each frame rate resulted on 72.5%, 70%, and 68.75% accuracy respectively. This experiment used salt and pepper noise, varied with density between 0.01 and 0.1. The accuracy with noise varied between 48.75 and 63.75%. Accuracy will be based on resolution, frame rate, noise, and databse size.