Ditemukan 2 dokumen yang sesuai dengan query
Martin Novela
"Salah satu faktor keberhasilan suatu model pembelajaran dalam machine learning atau deep learning adalah dataset yang digunakan. Pemilihan dataset yang digunakan untuk pelatihan suatu model sangat penting dalam pemrosesan yang dilakukan. Beberapa model deep learning seperti sistem pemrosesan text-to-speech pada model Tacotron2 sangat bergantung dengan dataset yang dipilih. Hal tersebut dikarenakan dalam pelatihan yang dilakukan untuk pembentukan suatu model pada bahasa tertentu harus menggunakan bahasa tersebut agar kualitas dari suara sintesis yang dihasilkan dapat mendekati pelafalan yang seharusnya untuk bahasa yang ditentukan. Pada penelitian ini dilakukan pelatihan yang bertujuan untuk pembentukan model Tacotron2 pada Bahasa Indonesia, sehingga untuk mendapatkan hasil yang lebih baik, maka digunakan dataset berbahasa Indonesia dari rekaman podcast dan talk show. Pada penelitian ini dilakukan dua skenario untuk mendapatkan hasil yang paling optimal. Skenario pertama adalah melakukan pelatihan pada model Tacotron2 menggunakan dataset berbahasa Indonesia yang terdiri dari banyak pembicara. Skenario kedua adalah melakukan pelatihan pada model Tacotron2 menggunakan dataset berbahasa Indonesia yang terdiri dari satu pembicara. Dalam pemrosesan pelatihan untuk pembentukan model Tacotron2 pada Bahasa Indonesia dilakukan dengan menggunakan pre-trained dan hyperparameter berdasarkan penelitian sebelumnya (Shen, et al., 2018). Hasil dari setiap skenario dievaluasi menggunakan Mean Opinion Score (MOS). Kuesioner disebarkan kepada 25 responden untuk menilai kualitas dari suara yang terbentuk berdasarkan kriteria penilaian pada MOS. Suara yang dibentuk oleh model Tacotron2 pada skenario pertama menghasilkan nilai MOS sebesar 4.01. Sedangkan suara yang dibentuk oleh model Tacotron2 pada skenario kedua menghasilkan nilai MOS sebesar 3.78. Hal tersebut menunjukkan bahwa penggunaan dataset berbahasa Indonesia dari rekaman podcast dan talk show dalam pembentukan model Tacotron2 untuk Bahasa Indonesia menghasilkan kualitas yang cukup baik.
One of the success factors of a learning model in machine learning or deep learning is the dataset used. The selection of the dataset used for training a model is very important. Some deep learning models such as the text-to-speech processing system in Tacotron2 are highly dependent on the selected dataset. This is because the training for forming a model in a particular language must use the same language so that the quality of the synthetic sound produced can resemble the proper pronunciation and prosody. In this study, training is aimed to form Tacotron2 model in Bahasa Indonesia. So, to get better results, a dataset in Bahasa Indonesia from recorded podcasts and talk shows are developed. Based on the dataset, two scenarios of training were conducted to obtain the most optimal results. The first scenario is to conduct training on the Tacotron2 model using the dataset consisting of many speakers. The second scenario is to conduct training on the Tacotron2 model the dataset consisting of only one speaker. Both scenarios employed the Tacotron2 model and the hyperparameters used in previous work (Shen, et al., 2018).The results of each scenario are evaluated using the Mean Opinion Score (MOS). Questionnaires are distributed to 25 respondents to assess the quality of the sound formed based on the MOS assessment criteria. The sound formed by the Tacotron2 model in the first scenario produces an MOS value of 4,012. While the sound formed by the Tacotron2 model in the second scenario produces an MOS value of 3.78. This shows that the use of Indonesian language dataset from recorded podcasts and talk shows in the formation of the Tacotron2 model for Bahasa Indonesia produces a good quality."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
T-pdf
UI - Tesis Membership Universitas Indonesia Library
Alvin Subakti
"Text clustering adalah teknik pengelompokan teks sehingga teks di dalam kelompok yang sama memiliki tingkat similaritas yang lebih tinggi satu sama lain dibandingkan dengan teks pada kelompok yang berbeda. Proses pengelompokkan teks secara manual membutuhkan waktu dan sumber daya yang banyak sehingga digunakan machine learning untuk melakukan pengelompokan secara otomatis. Representasi dari teks perlu diekstraksi sebelum dimasukkan ke dalam model machine learning. Metode yang umumnya digunakan untuk mengekstraksi representasi data teks adalah TFIDF. Namun, metode TFIDF memiliki kekurangan yaitu tidak memperhatikan posisi dan konteks penggunaan kata. Model BERT adalah model yang dapat menghasilkan representasi kata yang bergantung pada posisi dan konteks penggunaan suatu kata dalam kalimat. Penelitian ini menganalisis kinerja model BERT sebagai metode representasi data teks dengan membandingkan model BERT dengan TFIDF. Selain itu, penelitian ini juga mengimplementasikan dan membandingkan kinerja metode ekstraksi dan normalisasi fitur yang berbeda pada representasi teks yang dihasilkan model BERT. Metode ekstraksi fitur yang digunakan adalah max dan mean pooling. Sementara itu, metode normalisasi fitur yang digunakan adalah identity, layer, standard, dan min-max normalization. Representasi teks yang diperoleh dimasukkan ke dalam 4 algoritma clustering berbeda, yaitu k-means clustering, eigenspace-based fuzzy c-means, deep embedded clustering, dan improved deep embedded clustering. Kinerja representasi teks dievaluasi dengan menggunakan metrik clustering accuracy, normalized mutual information, dan adjusted rand index. Hasil simulasi menunjukkan representasi data teks yang dihasilkan model BERT mampu mengungguli representasi yang dihasilkan TFIDF pada 28 dari 36 metrik. Selain itu, implementasi ekstraksi dan normalisasi fitur yang berbeda pada model BERT memberikan kinerja yang berbeda-beda dan perlu disesuaikan dengan algoritma yang digunakan.
Text clustering is a task of grouping a set of texts in a way such that text in the same group will be more similar toward each other than to those from different group. The process of grouping text manually requires significant amount of time and labor. Therefore, automation utilizing machine learning is necessary. Text representation needs to be extracted to become the input for machine learning models. The common method used to represent textual data is TFIDF. However, TFIDF cannot consider the position and context of a word in a sentence. BERT model has the capability to produce text representation that incorporate position and context of a word in a sentence. This research analyzed the performance of BERT model as a text representation method by comparing it with TFIDF. Moreover, various feature extraction and normalization methods are also applied in text representation from BERT model. Feature extraction methods used are max and mean pooling. On the other hand, feature normalization methods used are identity, layer, standard, and min-max normalization. Text representation obtained become an input for 4 clustering algorithms, k-means clustering, eigenspace-based fuzzy c-means, deep embedded clustering, and improved deep embedded clustering. Performance of text representations in text clustering are evaluated utilizing clustering accuracy, normalized mutual information, and adjusted rand index. Simulation results showed that text representation obtained from BERT model outperforms representation from TFIDF in 28 out of 36 metrics. Furthermore, different feature extraction and normalization produced varied performances. The usage of these feature extraction and normalization must be altered depending on the text clustering algorithm used."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership Universitas Indonesia Library