Hasil Pencarian

Ditemukan 122301 dokumen yang sesuai dengan query

Amalia Zahra

Penyusunan kamus fonetik dalam pengembangan sistem pengenalan suara otomatis untuk bahasa Indonesia

"Dengan adanya internet, media televisi, dan radio, data yang tersedia sangat banyak, termasuk data suara. Oleh karena itu, dibutuhkan suatu cara untuk mengorganisasikannya, yakni dengan mengubah data suara menjadi teks terlebih dahulu. Pengolahan selanjutnya cukup dilakukan terhadap teks. Proses konversi data suara menjadi teks inilah yang dikenal dengan sistem pengenalan suara (SPS) otomatis.

Saat ini, SPS untuk berbagai bahasa di dunia telah berkembang pesat, seperti Bahasa Inggris, Perancis, Jepang, Thai, dan lain-lain, sedangkan penelitian SPS untuk Bahasa Indonesia sudah dimulai, namun masih dalam tahap awal. Adanya kebutuhan akan SPS dan perkembangan SPS bahasa lain yang pesat memotivasi penulis untuk melakukan penelitian SPS untuk Bahasa Indonesia.

Fokus penelitian ini adalah pembuatan model akustik yang berkaitan erat dengan kamus fonetik yang digunakan. Oleh karena itu, penulis melakukan eksperimen menggunakan enam jenis kamus fonetik, yaitu IPA, SAMPA, ARPABET, Lestari [LEST06], Sakti [SAKT08], dan kamus yang dikembangkan oleh penulis (kamus Zahra). Eksperimen terbagi menjadi dua proses besar, yaitu pelatihan, dengan menggunakan 1.000 data suara rekaman telepon, dan pengujian terhadap 250 data suara rekaman telepon.

Hasil eksperimen menunjukkan bahwa akurasi SPS tertinggi diperoleh saat menggunakan kamus Zahra, yakni sebesar 73,5%. Dengan menggunakan kamus fonetik yang sama, pengujian terhadap 100 berkas rekaman berita RRI menghasilkan akurasi maksimum sebesar 71,6% dengan OOV (Out of Vocabulary) sebesar 8,92%. Kamus tersebut merupakan kamus fonetik yang paling tepat untuk mendefinisikan bunyi dalam Bahasa Indonesia, dengan total simbol yang digunakan adalah 33 simbol."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

Qisas Tazkia Hasanudin

Rancang Bangun Sistem Transkripsi Otomatis Bahasa Indonesia Bersifat Luring Dengan Input Banyak Mikrofon Menggunakan Mozilla DeepSpeech = Development of an Offline Indonesian Language Automated Transcription System with Multiple Microphone Input Using Mozilla DeepSpeech

Salah satu teknologi berbasis kecerdasan buatan yang kini semakin dibutuhkan adalah ASR (Automatic Speech Recognition), atau lebih sering disebut sebagai speech-to-text. Teknologi ini memiliki potensi untuk diterapkan di berbagai bidang, salah satunya adalah mentranskripsi naskah rapat atau persidangan. Tujuan dari penelitian ini adalah untuk mengembangkan sistem transkripsi otomatis Bahasa Indonesia yang dapat berjalan secara luring dan dapat memproses masukan dari beberapa mikrofon secara bersamaan.

Penelitian ini berhasil mengembangkan sistem transkripsi otomatis dengan mengkombinasikan teknologi ASR, pemrograman Python, aplikasi word editor seperti Microsoft Word, dan komputer yang terhubung dengan banyak mikrofon. Teknologi ASR pada sistem ini terdiri dari acoustic model yang dibuat menggunakan DeepSpeech dengan metode fine-tuning dan language model yang dibuat menggunakan KenLM. Sistem transkripsi otomatis dapat dijalankan pada komputer 64-bit dengan sistem operasi Windows yang di dalamnya terdapat Microsoft Word tanpa memerlukan spesifikasi hardware minimum tertentu.

Hasil pengujian terhadap performa sistem menunjukkan bahwa sistem hanya bersifat CPU-intensive, dan ini hanya terjadi apabila seluruh pembicara berbicara pada mikrofon secara sekaligus, yang mengakibatkan tingginya jumlah thread yang aktif. Hasil pengujian terhadap acoustic model menunjukkan bahwa model tersebut dapat menghasilkan WER terbaik sebesar 73,33% dan CER terbaik sebesar 23,59% apabila dilatih menggunakan learning rate sebesar 0,01 dan dropout rate sebesar 0,3. Hasil pengujian terhadap language model menunjukkan bahwa model yang dibuat dengan dataset teks bertopik umum dan berukuran besar dapat membantu acoustic model menghasilkan WER dan CER yang lebih baik lagi, yaitu 28,76% dan 14,68%.

One of the artificial intelligence-based technologies that is increasingly needed is ASR (Automatic Speech Recognition), or more commonly referred to as speech-to-text. This technology has the potential to be applied in various fields, one of which is generating transcripts for meetings or trials. The purpose of this research is to develop an Indonesian automatic transcription system that can run offline and can process input from multiple microphones simultaneously.
This study succeeded in developing an automatic transcription system by combining ASR technology, Python programming, word editor applications such as Microsoft Word, and computers connected to multiple microphones. The ASR technology in this system consists of an acoustic model created using DeepSpeech with a fine-tuning method and a language model created using KenLM. The automatic transcription system can be run on 64-bit computers with Windows operating system that has Microsoft Word installed on it. It does not require certain minimum hardware specifications.
Test results on system performance show that the system is only CPU-intensive, and this only occurs when all participants are speaking into all microphones at once, resulting in a high number of active threads. The test results on the acoustic model show that the model can produce the best WER of 73.33% and the best CER of 23.59% when trained using a learning rate of 0.01 and a dropout rate of 0.3. The test results on the language model show that the model made with a text dataset that has a large size and no particular topic can help the acoustic model produce better WER and CER, which are 28.76% and 14.68%, respectively."

Depok: Fakultas Teknik Universitas Indonesia, 2022

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Wikky Fawwaz Al Maki

Simulasi dan analisis perbandingan algoritma-algoritma vector quantization untuk sistem pengenalan sinyal akustik ikan-ikan soniferous berbasis text dependent voice recognition yang menggunakan hidden Markov model

"Skripsi ini berisi tentang perbandingan dari 3 jenis algoritma VQ (Vector Quantization) yaitu Traditional K-Means Clustering, LBG (Linde, Buzo, and Gray), dan Sucessive Binary Split yang digunakan dalam proses pengenalan sinyal akustik (Suara) dari berbagai jenis ikan. Dalam proses pengenalan sinyal akustik ikan yang menggunakan HMM (Hidden Markov Model), sinyal akustik ikan yang akan dideteksi, terlebih dahulu dikuantisasi dengan menggunakan algoritma VQ.

Pada sistem pengenalan sinyal akustik ikan, sinyal akustik ikan diubah terlebih dahulu ke dalam bentuk diskrit dengan cara sampling. Sinyal diskrit ini diekstraksi agar diperoleh karakteristiknya dengan menggunakan MFCC (Mel Frequency Cepstrum Coefficient). Vektor data yang terbentuk kemudian dikuantisasi dengan menggunakan 3 jenis algoritma VQ. Pada tahap pengenalan sinyal akustik ikan (recognition) yang memanfaatkan model HMM, ketiga jenis algoritma VQ ini diteliti unjuk kerjanya berdasarkan tingkat akurasi yang diperoleh.

Berdasarkan hasil simulasi, algoritma Sucessive Binary Split merupakan algoritma paling optimum untuk sistem pengenalan sinyal akustik ikan karena memiliki tingkat akurasi tertinggi (pada ukuran codebook < 64) dengan kebutuhan kapasitas memori dan waktu komputasi (saat pembuatan codebook dan model HMM) paling kecil. Untuk memperoleh sistem pengenalan sinyal akuslik ikan dengan tingkat akurasi yang paling baik, algoritma LBG dapat digunakan dengan ukuran codebook > 128 tetapi kapasitas memori dan waktu komputasi yang dibutuhkan makin besar. Tingkat akurasi (recognition rate) pada sistem pengenalan sinyal akustik ikan yang menggunakan VQ dan HMM dapat ditingkatkan dengan memperbesar ukuran codebook, jumlah iterasi algoritma VQ, dan jumlah iterasi pada Baum Welch Algorithm."

Depok: Fakultas Teknik Universitas Indonesia, 2004

S40061

UI - Skripsi Membership Universitas Indonesia Library

Arief Saferman

Rancang Bangun Sistem Automatic Speech Recognition untuk Bahasa Indonesia Berbasis Wav2Letter dengan Loss Function CTC dan ASG = Development of Automatic Speech Recognition System for Indonesian Language Based on Wav2Letter with Loss Function CTC and ASG

Selama masa pandemi COVID-19, teknologi Automatic Speech Recognition (ASR) menjadi salah satu fitur yang sering digunakan pada komputer untuk mencatat di kelas online secara realtime. Teknologi ini akan bekerja dimana setiap suara yang muncul akan langsung dikenali dan dicatat pada halaman terminal. Dalam penelitian ini, model ASR Wav2Letter akan digunakan menggunakan CNN (Convolution Neural Network) dengan loss function CTC (Connectionist Temporal Classification) dan ASG (Auto Segmentation Criterion). Selama proses pembuatannya, berbagai hyperparameter acoustic model dan language model dari model ASR Wav2Letter terkait dengan implementasi batch normalization¸ learning-rate, window type, window size, n-gram language model, dan konten language model diuji pengaruh variasinya terhadap performa model Wav2Letter. Dari pengujian tersebut, ditemukan bahwa model ASR Wav2Letter menunjukkan performa paling baik ketika acoustic model menggunakan metode ASG dengan learning-rate 9 × 10−5 , window size 0.1, window type Blackman, serta 6-gram language model. Berdasarkan hasil akurasi WER CTC unggul 1,2% dengan 40,36% berbanding 42,11% dibandingkan ASG, namun jika dilihat lamanya epoch dan ukuran file model, loss function ASG memiliki keunggulan hampir dua kalinya CTC, dimana ASG hanya membutuhkan setengah dari jumlah epoch yang dibutuhkan oleh CTC yakni 24 epoch berbanding dengan 12 epoch dan ukuran file model ASG setengah lebih kecil dibandingkan CTC yakni 855,2 MB berbanding dengan 427,8 MB. Pada pengujian terakhir, model ASR Wav2Letter dengan loss function ASG mendapatkan hasil terbaik dengan nilai WER 29,30%. Berdasarkan hasil tersebut, model ASR Wav2Letter dengan loss function ASG menunjukkan perfoma yang lebih baik dibandingkan dengan CTC.

During the COVID-19 pandemic, Automatic Speech Recognition technology (ASR) became one of features that most widely used in computer to note down online class in real-time. This technology works by writing down every word in terminal from voice that is recognized by the system. ASR Wav2Letter model will use CNN (Convolutional Neural Network) with loss function CTC (Connectionist Temporal Classification) and ASG (Auto Segmentation Criterion). While developing Wav2Letter, various hyperparameter from acoustic model and language model is implemented such as batch normalization, learning rate, window type, window size, n-gram language model, and the content of language model are examined against the performance of Wav2Letter model. Based on those examination, Wav2Letter shows best performance when it uses ASG loss function learning rate 9 × 10−5 , window size 0.1, window type Blackman, and 6-gram language model. With that configuration, WER of CTC outplay ASG around 1.2% with 40.36% compare to 42,11%, but another parameter shows ASG are way more superior than CTC with less time epoch training which are 24 epoch for CTC against 12 epoch for ASG and the size of memory model shows CTC has bigger size than ASG with 855.2 MB against 427.8 MB. In the last test, ASR Wav2Letter model with ASG loss function get the best WER value around 29.3%. Based on those results, ASR Wav2Letter Model shows its best performance with ASG loss function than CTC.

Depok: Fakultas Teknik Universitas Indonesia, 2022

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Muhammad Aljundi

Pengembangan Simple-O (Sistem Penilaian Esai Otomatis) Ujian Bahasa Jepang dengan Menggunakan DeepSpeech = Development of Simple-O (Automated Essay Scoring System) for Japanese Examination Using DeepSpeech

"Skripsi ini membahas mengenai pengembangan sistem ujian lisan Bahasa Jepang yang dirancang dengan mengintegrasikan automatic speech recognition dengan sistem penilaian esai otomatis. Sistem yang dikembangkan menggunakan arsitektur client-server. Client merupakan aplikasi yang dikembangkan menggunakan cross-platform framework Flutter dan dapat dijalankan pada platform web maupun Android. Back-end server pada cloud dibangun menggunakan bahasa pemrograman Python dengan database PostgreSQL serta memanfaatkan teknologi kontainerisasi dengan Docker. Sistem speech recognition yang digunakan adalah DeepSpeech dengan model di-training untuk dapat mengubah pengucapan dalam bahasa Jepang menjadi teks dengan huruf hiragana. Model yang dihasilkan memiliki rata-rata WER sebesar 20,6%. Sistem plenilaian esai otomatis yang digunakan adalah SIMPLE-O dengan metode LSA. Uji coba dilaksanakan secara online pada 36 responden dengan tingkat kefamiliaran terhadap bahasa Jepang yang bervariasi. Hasil uji coba mendapatkan nilai rata-rata sebesar 49,62 dari nilai maksimum sebesar 100. Akurasi sistem penilaian ujian lisan bahasa Jepang ini didefinisikan sebagai nilai rata-rata hasil uji coba, dibagi dengan akurasi speech recognition, yaitu sebesar 62,5%.

This thesis discusses about the development of a Japanese language verbal exam system designed by integrating automatic speech recognition with an automatic essay scoring system. The system developed uses a client-server architecture. The client is an application developed using the cross-platform framework Flutter and can be run on the web or Android platforms. Back-end servers in the cloud are built using the Python programming language with the PostgreSQL database and utilize containerization technology with Docker. The speech recognition system used is DeepSpeech with a training model to be able to convert Japanese pronunciation into text using hiragana letters. The resulting model has an average WER of 20.6%. The automatic essay scoring system used is SIMPLE-O with the LSA method. The trial was carried out online with 36 respondents with different levels of familiarity with Japanese language. The test results obtained an average score of 49.62 out of a maximum score of 100. The accuracy of the Japanese verbal exam scoring system is defined as the average value of the test results, divided by the accuracy of speech recognition, which is equal to 62.5%."

Depok: Fakultas Teknik Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Mohammad Salman Alfarisi

Rancang Bangun Sistem Automatic Speech Recognition untuk Bahasa Indonesia Berbasis Wav2Vec 2.0 = Development of Automatic Speech Recognition System for Indonesian Language Based on Wav2Vec 2.0

Salah satu permasalahan yang terdapat pada sistem Automatic Speech Recognition (ASR) yang sudah ada adalah kurangnya transparansi dalam penanganan data suara, yang tentunya membuat adanya keraguan terhadap privasi data tersebut. Di sisi lainnya, untuk mengembangkan sebuah sistem ASR yang memiliki akurasi memadai dan dapat bekerja secara luring membutuhkan jumlah data yang banyak, khususnya data suara yang sudah diiringi dengan transkripnya. Hal ini menjadi salah satu hambatan utama pengembangan sistem pengenalan suara, terutama pada yang memiliki sumber daya minim seperti Bahasa Indonesia. Oleh karena itu, dalam penelitian ini dilakukan perancangan sistem pengenalan suara otomatis berbasis model wav2vec 2.0, sebuah model kecerdasan buatan yang dapat mengenal sinyal suara dan mengubahnya menjadi teks dengan akurasi yang baik, meskipun hanya dilatih data dengan label yang berjumlah sedikit. Dari pengujian yang dilakukan dengan dataset Common Voice 8.0, model wav2vec 2.0 menghasilkan WER sebesar 25,96%, dua kali lebih baik dibandingkan dengan model Bidirectional LSTM biasa yang menghasilkan 50% namun membutuhkan jumlah data dengan label 5 kali lipat lebih banyak dalam proses pelatihan. Namun, model wav2vec membutuhkan sumber daya komputasi menggunakan 2 kali lebih banyak RAM dan 10 kali lebih banyak memori dibandingkan model LSTM

One of the main problems that have plagued ready-to-use Automatic Speech Recognition (ASR) Systems is that there is less transparency in handling the user’s voice data, that has raised concerns regarding the privacy of said data. On the other hand, developing an ASR system from scratch with good accuracy and can work offline requires a large amount of data, more specifically labeled voice data that has been transcribed. This becomes one of the main obstacles in speech recognition system development, especially in low-resourced languages where there is minimal data, such as Bahasa Indonesia. Based on that fact, this research conducts development of an automatic speech recognition system that is based on wav2vec 2.0, an Artificial Model that is known to recognize speech signals and convert it to text with great accuracy, even though it has only been trained with small amounts of labeled data. From the testing that was done using the Common Voice 8.0 dataset, the wav2vec 2.0 model produced a WER of 25,96%, which is twice as low as a traditional Bidirectional LSTM model that gave 50% WER, but required 5 times more labeled data in the training process. However, the wav2vec model requires more computational resource, which are 2 times more RAM and 10 times more storage than the LSTM model.

Depok: Fakultas Teknik Universitas Indonesia, 2022

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Mohamad Irfan Fanani

Rancang Bangun Sistem Pencarian Kata pada Terjemahan Al-Qur’an Berbasis Website dengan Node.Js dan Google Speech-To-Text API = Design and Develop a Word Search System in Website-Based Translation of The Quran with Node.Js And Google Speech-To-Text API

"Penelitian ini membahas tentang pengembangan sistem pencarian kata pada terjemahan Al-Qur’an berbasis website dengan menggunakan Node.JS, Google Speech-to-Text API, dan alquran.cloud API sebagai komponen utamanya. Masukan sistem berupa suara yang pada proses selanjutnya diubah menjadi teks oleh Google Speech-to-Text API lalu teks digunakan sebagai kata kunci untuk mencari terjemahan menggunakan alquran.cloud API. Keluaran sistem berupa tampilan pada halaman website yang berisikan tabel daftar nama surat dan nomor ayat yang mengandung kata kunci. Pembuatan website menggunakan HTML, CSS, dan fungsi JavaScript untuk menyatukan web API dalam satu website. Fungsi JavaScript yang dibuat untuk melakukan fetch data dan menampilkan tabel keluaran dieksekusi di client, sedangkan fungsi untuk masukan sinyal suara dan transkripsi dieksekusi di server. Hasil percobaan menghasilkan akurasi sebesar 86% pada hasil transkripsi Google Speech-to-Text API yang digunakan pada sistem. Akurasi pada penguji perempuan lebih tinggi 14% dibanding penguji laki-laki dengan akurasi penguji perempuan sebesar 92%. Diamati juga waktu dalam kecepatan proses transkripsi, kecepatan fetch data dari alquran.cloud API, dan kecepatan sistem dalam menampilkan keluaran.

This study discusses the development of a word search system for website-based translation of the Qur'an using Node.JS, Google Speech-to-Text API, and alquran.cloud API as the main components. The system input is in the form of voice which in the next process is converted into text by the Google Speech-to-Text API and then the text is used as keywords to search for translations using the alquran.cloud API. The system output is in the form of a display on a website page that contains a table listing letter names and verse numbers containing keywords. Website are created using HTML, CSS, and JavaScript functions to unify the web API in one website. JavaScript functions that are created to fetch data and display an output table are executed on the client, while functions for voice signal input and transcription are executed on the server. The experimental results yield an accuracy of 86% on the transcription results of the Google Speech-to-Text API used in the system. The accuracy of the female examiners was 14% higher than the male examiners with the female examiners' accuracy of 92%. Also observed is the speed of the transcription process, the speed of fetching data from the alquran.cloud API, and the speed of the system in displaying the output."

Depok: Fakultas Teknik Universitas Indonesia, 2022

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Arina Haq

Sistem pengenalan suara menggunakan metode deepspeech architecture pada komunikasi radio VHF bagi petugas kapal tanker di pelabuhan laut = Speech recognition system using deepSpeech architecture method on VHF radio communication for tanker ship officers at sea ports

"Aktivitas bongkar muat kargo bahan bakar dengan kapal tanker di pelabuhan di Indonesia memiliki kekurangan terkait efisiensi waktu dan kecepatan. Sebuah virtual robotic dibuat untuk dapat meningkatkan efisiensi waktu terhadap proses bongkar muat tersebut. Namun dibutuhkan suatu cara agar robot dapat berkomunikasi dengan petugas kapal tanker selama proses bongkar muat dilakukan. Karena pelabuhan tempat proses bongkar muat termasuk kedalam lokasi berbahaya dan mudah meledak, maka komunikasi yang diperbolehkan hanyalah komunikasi suara melalui radio Very High Frequency (VHF) laut. Solusi untuk mengatasi masalah tersebut adalah dengan merancang teknologi yang dapat melakukan pengenalan suara melalui radio VHF laut, salah satunya dengan metode Deep Learning menggunakan arsitektur DeepSpeech. Skripsi ini telah mengembangkan simulasi pengenalan suara menggunakan metode DeepSpeech architecture pada komunikasi radio VHF bagi petugas kapal tanker di pelabuhan laut. Skripsi ini telah mengembangkan uji coba dengan arsitektur DeepSpeech untuk menghasilkan model pengenalan suara dengan hasil keluaran nilai rata-rata Word Error Rate (WER) sebesar 0,335 dan rata-rata Character Error Rate (CER) sebesar 0,263. Skripsi ini juga menganalisa pengaruh variasi nilai learning rate, dropout rate, dan epoch untuk mendapatkan model sistem pengenalan suara terbaik.

The loading and unloading of fuel cargo by tanker ships at ports in Indonesia has a problem in terms of time efficiency and speed. A virtual robotic is created to increase the time efficiency of the loading and unloading process. However, the robot needs a way to communicate with the tanker ship officers during the process. Because the port where the loading and unloading process took place is considered as a dangerous and explosive location, the only communication allowed is through voice communication via marine Very High Frequency (VHF) radio. The solution to overcome this problem is to design a technology that can perform speech recognition via marine VHF radio, one of which is using the Deep Learning method with DeepSpeech architecture. This thesis has simulated speech recognition system using DeepSpeeh architecture method on VHF radio communication for tanker ship officers at sea ports. This thesis has tested the DeepSpeech architecture to produce a speech recognition model with an average WER value of 0,335 and an average CER value of 0,263. This thesis also analyzes the effect of variations in learning rate, dropout rate, and epoch value to get the best speech recognition system model."

Depok: Fakultas Teknik Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Evando Wihalim

Pengembangan Plugin Platform MOOC Untuk Pembangkit Subtitle Video Pemelajaran, Studi Kasus SCeLE Fasilkom UI = MOOC Platform Plugin Development For Learning Video Subtitle Generator, Case Study: SCeLE Fasilkom UI

"Dengan berkembangnya pengetahuan di bidang teknologi, kegiatan belajar mengajar tidak hanya dapat dilakukan secara tatap muka. Kegiatan belajar mengajar ini dapat didukung dengan memanfaatkan suatu learning management system (LMS) berbasis web. LMS biasanya mampu untuk menyimpan video pemelajaran baik itu rekaman kelas maupun rekaman materi yang disampaikan oleh pengajar. Video pemelajaran pada LMS ini dapat diakses oleh semua orang termasuk para pelajar tunarungu. Video pemelajaran biasanya terdiri atas kumpulan gambar dan suara. Suara ini sulit didengar oleh penyandang tunarungu sehingga mereka mengalami kesulitan dalam memahami isi video pemelajaran. Untuk melawan keterbatasan pendengaran, penyandang tunarungu kerap menggunakan komunikasi total dalam keseharian mereka. Komunikasi total adalah komunikasi yang tidak hanya melibatkan mulut dan telinga namun juga mata, gerakan bibir, gerakan tangan, dan lain-lain. Untuk menghadirkan komunikasi total pada video pemelajaran, dibutuhkan suatu sistem yang dapat mengubah video menjadi gerakan animasi bahasa isyarat. Fasilkom UI telah mengembangkan modul untuk mengubah teks menjadi animasi bahasa isyarat. Dengan demikian, diperlukan suatu sistem yang dapat mengubah video menjadi teks. Pada penelitian ini, dikembangkan sistem pengubah video menjadi teks yang dapat diintegrasikan dengan LMS khususnya Moodle. Pada penelitian ini juga dibahas mengenai perbandingan dua model Automatic Speech Recogniton (ASR), yakni: Google Speech-to-Text dan Wav2Vec2-Large-XLSRIndonesian. Pada penelitian ini didapatkan kesimpulan bahwa pengembang dapat membuat sebuah modul aktivitas Moodle yang dapat diintegrasikan dengan LMS Moodle dan layanan lain di luar LMS. Tak hanya itu, berdasarkan hasil analisis yang dilakukan pada penelitian ini, model Google Speech-to-Text terbukti mampu memberikan rata-rata hasil transkripsi video pemelajaran yang lebih akurat dan lebih cepat daripada model Wav2Vec2-Large-XLSR-Indonesian.

With the growth of technology, teaching and learning activities are no longer limited to classroom. Now teaching and learning activities can be supported by utilizing Learning Management System (LMS). LMS often have the feature to store recordings, be it class session recordings or learning materials video. These recordings could be accessed by anyone, from normal students to students with hearing impairment. These learning videos are composed of images and sounds. Students with hearing impairment would have trouble with hearing those sounds. To combat their hearing problems, students with hearing impairment would use total communication in their everyday lives. Total communication is a communication that not only involves the mouth and the ears, but also eyes, lips, hand movements, and so on. To bring this total communication into the video, a system that could convert the video into sign language animation is needed. Fasilkom UI have developed a system that could convert text into a sign language animation. And so, a system that could convert the video into a text. In this research a system that could convert video into text that could be integrated with LMS, especially Moodle, will be developed. This research also discusses the comparison between two Automatic Speech Recognition (ASR) models, one from Google, and one being a community-developed open-source project. This research managed to develop a Moodle activity module that could be integrated with the LMS itself and other remote services. And also, this research founds that, based on our analysis, the Google Speech-to-text model could give better and faster transcription results of the learning videos compared to Wav2Vec2-Large-XLSR-Indonesian model."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Gemilang Madyakusuma

Sistem pengenalan ucapan vokal dan kata menggunakan jaringan saraf tiruan ART 2 dan Hidden Markov model

"Sejak awal ditemukannya komputer hingga kini, manusia berinteraksi dengan komputer melalui papan ketik (keyboard). Upaya untuk memberikan kemampuan guna mengenali ucapan oleh komputer akan memperluas lingkup penggunaanya. Meciptakan komputer yang dapat mengenali ucapan manusia merupakan hal yang kompleks dan melibatkan berbagai disiplin ilmu. Dalam skripsi ini akan digrnikan perancangan sistem pengenalan ucapan untuk mengenali ke-6 vokal dalam Bahasa Indonesia dan kata dalam bahasa Indonesia dengan metoda-metoda yang sebagian besar merupakan peniruan dari fungsi (kemampuan) manusia. Metoda-metoda yang digunakan meliputi pemisahan sinyal ucapan dengan bukan ucapan (kesenyapan atau derau latar belakang). Ekstraksi ciri dengan pengkodean prediksi linear (Linear Predictive Code, LPQ yang dapat dengan baik merepresentasikan produksi suara manusia. Jaringan Saraf Tiruan ART 2 yang bersifat adaptif digunakan untuk pengenalan vokal, serta Hidden Markov Model digunakan untuk pengenalan kata karena dapat mendeteksi informasi dari masukan yang temporal."

Depok: Fakultas Teknik Universitas Indonesia, 1997

S39007

UI - Skripsi Membership Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian