Hasil Pencarian

Ditemukan 106058 dokumen yang sesuai dengan query

Michael Harditya

Pengembangan Abstractive-Extractive Text Summarization dengan BART untuk Teks Berita Bahasa Indonesia = Development of Abstractive-Extractive Text Summarization with BART for Indonesian News Text

"Penelitian ini melakukan pengembangan integrasi metode perangkum abstraktif dengan metode ekstraktif dalam merangkum teks berita yang melebihi input maksimal dari model machine learning. Penggabungan metode abstraktif dan ekstraktif menciptakan rangkuman yang lebih natural tanpa kehilangan makna semantiknya, serta menyelesaikan keterbatasan jumlah input maksimal dari model machine learning yang digunakan pada metode abstraktif. Bagian abstraktif dibuat menggunakan model machine learning yang menggunakan arsitektur Transformer, yaitu model BART. Bagian ekstraktif menggunakan algoritma gabungan untuk melakukan pembobotan tiap kalimat menggunakan term frequency – inverse document frequency (TF-IDF), konjungsi antar kalimat, dan peletakan kalimat pada paragraf yang dapat diidentifikasi menggunakan algoritma pemrograman. Dataset yang digunakan adalah benchmark IndoSum, yaitu dataset bahasa Indonesia untuk merangkum teks, sehingga dapat dievaluasikan dengan model pada penelitian yang serupa. Beberapa pengujian dilakukan pada model BART dan tokenizer, dengan nilai ROUGE Score menunjukan adanya peningkatan pada tokenizer bahasa Indonesia ketimbang bahasa Inggris. Hasil evaluasi pada finetuning model BART mendapatkan nilai ROUGE Score sebesar 0,725 untuk ROUGE-1, 0,635 untuk ROUGE-2, 0,699 untuk ROUGE-L, dan 0,718 untuk ROUGE-Lsum, menjadikan model BART lebih tinggi pada beberapa model lainnya pada riset terkait. Human evaluation dilakukan pada hasil integrasi, menunjukan hasil yang baik untuk morfologi, semantik, dan kenaturalan rangkuman, namun masih buruk untuk kesalahan pengetikan.

This research develops the integration of abstractive summarization methods with extractive methods in summarizing news texts that exceed the maximum input from the machine learning model. Combining abstractive and extractive methods creates a more natural summary without losing its semantic meaning, and resolves the limitations of the maximum number of inputs from the machine learning model used in the abstractive method. The abstractive part was created using a machine learning model that uses the Transformer architecture, namely the BART model. The extractive section uses a combined algorithm to weight each sentence using term frequency - inverse document frequency (TF-IDF), conjunctions between sentences, and placement of sentences in paragraphs that can be identified using a programming algorithm. The dataset used is the IndoSum benchmark, namely an Indonesian language dataset for summarizing text, so that it can be evaluated with models in similar research. Several tests were carried out on the BART model and tokenizer, with the ROUGE Score showing an increase in the Indonesian language tokenizer compared to English. The evaluation results of finetuning the BART model obtained a ROUGE Score of 0.725 for ROUGE-1, 0.635 for ROUGE-2, 0.699 for ROUGE-L, and 0.718 for ROUGE-Lsum, making the BART model higher than several other models in related research. Human evaluation was carried out on the integration results, showing good results for morphology, semantics and naturalness of summaries, but still poor results for typing errors."

Depok: Fakultas Teknik Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Gibran Brahmanta Patriajati

Analisis Performa Pendekatan Topic Modeling dan Similarity Measure untuk Text Summarization secara Ekstraktif pada Teks Berbahasa Indonesia = Performance Analysis of Topic Modeling and Similarity Measure Approach for Extractive Text Summarization in Indonesian Text

"Text Summarization secara ekstraktif merupakan suatu isu yang dapat meningkatkan kualitas pengalaman pengguna ketika menggunakan suatu sistem perolehan informasi. Pada bahasa Inggris, terdapat beberapa penelitian terkait Text Summarization secara ekstraktif salah satunya adalah penelitian Belwal et al. (2021) yang memperkenalkan suatu metode Text Summarization secara ekstraktif yang berbasiskan proses Topic Modeling serta Semantic Measure menggunakan WordNet. Sementara pada bahasa Indonesia, juga terdapat beberapa penelitian terkait Text Summarization secara ekstraktif tetapi belum ada yang menggunakan metode yang sama seperti yang diperkenalkan oleh Belwal et al. (2021). Agar metode yang diperkenalkan Belwal et al. (2021) dapat digunakan pada bahasa Indonesia, proses Semantic Measure menggunakan WordNet harus diganti dengan Similarity Measure menggunakan Vector Space Model karena tidak adanya model WordNet bahasa Indonesia yang dapat digunakan oleh umum. Dalam menggunakan metode yang diperkenalkan oleh Belwal et al. (2021) pada bahasa Indonesia, terdapat beberapa metode yang dapat digunakan untuk melakukan Topic Modeling, Vector Space Model, serta Similarity Measure yang terdapat di dalamnya. Penelitian ini berfokus untuk mencari kombinasi metode ketiga hal yang telah disebutkan sebelumnya yang dapat memaksimalkan performa metode Text Summarization yang diperkenalkan oleh Belwal et al. (2021) pada bahasa Indonesia dengan menggunakan pendekatan hill-climbing. Proses evaluasi dilakukan dengan menggunakan metrik ROUGE-N dalam bentuk F-1 Score pada dua buah dataset yaitu Liputan6 serta IndoSUM. Hasil penelitian menemukan bahwa kombinasi metode yang dapat memaksimalkan performa metode Text Summarization secara ekstraktif yang diperkenalkan oleh Belwal et al. (2021) adalah Non-Negative Matrix Factorization untuk Topic Modeling, Word2Vec untuk Vector Space Model, serta Euclidean Distance untuk Similarity Measure. Kombinasi metode tersebut memiliki nilai ROUGE-1 sebesar 0.291, ROUGE-2 sebesar 0.140, dan ROUGE-3 sebesar 0.079 pada dataset Liputan6. Sementara pada dataset IndoSUM, kombinasi metode tersebut memiliki nilai ROUGE-1 sebesar 0.455, ROUGE-2 sebesar 0.337, dan ROUGE-3 sebesar 0.300. Performa yang dihasilkan oleh kombinasi metode tersebut bersifat cukup kompetitif dengan performa metode lainnya seperti TextRank serta metode berbasiskan model Deep Learning BERT apabila dokumen masukannya bersifat koheren.

Extractive text summarization is an issue that can improve the quality of user experience when using an information retrieval system. Research related to extractive text summarization is a language-specific research. In English, there are several studies related to extractive text summarization, one of them is the research of Belwal et al. (2021) They introduced an extractive Text Summarization method based on the Topic Modeling process and Semantic Measure using WordNet. While in Indonesian, there are also several studies related to extractive text summarization, but none have used the same method as introduced by Belwal et al. (2021). In order to use the method introduced by Belwal et al. (2021) in Indonesian, the Semantic Measure process using WordNet must be replaced with Similarity Measure using the Vector Space Model because there is no Indonesian WordNet model that can be used by the public. When using the method introduced by Belwal et al. (2021) in Indonesian, there are several methods that can be used to perform Topic Modeling, Vector Space Model, and Similarity Measure that contained in there. This study focuses on finding a combination of the three methods previously mentioned that can maximize the performance of the Text Summarization method introduced by Belwal et al. (2021) in Indonesian using hill-climbing approach. The evaluation process is carried out using the ROUGE-N metric in the form of F-1 Score on two datasets, namely Liputan6 and IndoSUM. The results of the study found that the combination of methods that can maximize the performance of the extractive text summarization method introduced by Belwal et al. (2021) are Non-Negative Matrix Factorization for Topic Modeling, Word2Vec for Vector Space Model, and Euclidean Distance for Similarity Measure. The combination of those methods has a ROUGE-1 value of 0.291, ROUGE-2 value of 0.140, and ROUGE-3 value of 0.079 in the Liputan6 dataset. Meanwhile, in the IndoSUM dataset, the combination of those methods has a ROUGE-1 value of 0.455, ROUGE-2 value of 0.337, and ROUGE-3 value of 0.300. The performance generated by the combination of those methods is quite competitive with the performance of other methods such as TextRank and Deep Learning BERT model based method if the input document is coherent."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Jauzak Hussaini Windiatmaja

Text Classification untuk Verifikasi Fakta pada Kanal Berita Bahasa Indonesia menggunakan Deep Learning dengan Ensemble Technique = Text Classification for Fact Verification for Indonesian News Channel Using Deep Learning with Ensemble Technique

"Sumber informasi di jejaring berita daring adalah instrumen yang memungkinkan individu membaca berita, menerbitkan berita, dan berkomunikasi. Hal ini sudah menjadi tren dalam masyarakat yang sangat mobile. Oleh karena itu, proses verifikasi fakta suatu pemberitaan menjadi sangat penting. Dengan pertimbangan tersebut, sebuah tools berbasis web service untuk verifikasi fakta menggunakan metode deep learning dengan teknik ensemble dibangun. Penggunaan teknik ensemble pada model deep learning adalah proses beberapa model pembelajaran mesin digabungkan secara strategis untuk menyelesaikan masalah menggunakan lebih dari satu model. Untuk melatih model, dibangun sebuah dataset. Dataset berisi pasangan klaim dan label. Klaim dibangun dengan data crawling di kanal berita berbahasa Indonesia. Tiga model deep learning dibangun dan dilatih menggunakan dataset yang dibuat, dengan arsitektur jaringan dan hyperparameter yang berbeda. Setelah model dilatih menggunakan dataset, ketiga model diagregasikan untuk membentuk sebuah model baru. Untuk memastikan bahwa model agregat berfungsi lebih baik daripada model tunggal, performa model deep learning ensemble dibandingkan dengan model deep learning dasar. Hasil penelitian menunjukkan bahwa model ensemble memiliki akurasi 85,18% sedangkan model tunggal memiliki akurasi 83,9%, 83,19%, dan 81,94%. Hasil ini menunjukkan bahwa model ensemble yang dibangun meningkatkan kinerja verifikasi fakta dari tiga model tunggal. Hasil penelitian juga menunjukkan bahwa metode deep learning mengungguli performa metode machine learning lain seperti naive bayes dan random forest. Untuk memvalidasi kinerja tools yang dibangun, response time dari web service diukur. Hasil pengukuran menunjukkan rata-rata response time 6.447,9 milidetik.

Information sources on social networks are instruments that allow individuals to read news, publish news, and communicate. This is a trend in a highly mobile society. Therefore, the process of verifying facts is very important. With these considerations, we built a web service-based tool for fact verification using deep learning methods with ensemble technique. The use of ensemble techniques in deep learning models is a process in which several machine learning models are combined to solve problems. To train the model, we created a dataset. Our dataset of Indonesian news contains pairs of claims along with labels. Claims are built by crawling data on Indonesian news channels. Three deep learning models have been built and trained using the previously created dataset with different network architectures and hyperparameters. After the model is trained, three models are aggregated to form a new model. To ensure that the aggregated model performs better than the single model, the deep learning ensemble model is compared to the single models. The results showed that the ensemble model has an accuracy of 85.18% while the single models have an accuracy of 83.9%, 83.19%, and 81.94% consecutively. These results indicate that the ensemble model built improves the fact-verification performance of the three single models. The results also show that by using the same dataset, deep learning methods outperform other machine learning methods such as naive bayes and random forest. To validate the performance of the tools we created, the response time of the web service is measured. The measurement result shows an average response time of 6447.9 milliseconds."

Depok: Fakultas Teknik Universitas Indonesia, 2021

T-Pdf

UI - Tesis Membership Universitas Indonesia Library

Dita Anggraeni Kusumaningrum

Evaluasi ulasan pelanggan bandara dengan pendekatan analisis sentimen dan text summarization = Evaluation of airport customer reviews using sentiment analysis and text summarization

"Kepuasan pelanggan merupakan salah satu faktor penting bagi keberhasilan suatu bisnis, termasuk pada industri jasa penerbangan yang mengalami peningkatan dari tahun ke tahun. Salah satu cara untuk mengukur tingkat kepuasan pelanggan adalah dengan cara penyampaian opini atau ulasan. Opini atau ulasan disampaikan melalui pesan singkat, kotak saran, media sosial maupun halaman web sehingga data yang tersedia berjumlah banyak. Pendekatan text mining tepat digunakan untuk mengekstrak informasi dari data ulasan yang berjumlah banyak secara otomatis. Penelitian ini mengevaluasi dan menganalisis ulasan pelanggan terhadap layanan dan fasilitas Bandara Soekarno-Hatta yang merupakan bandara terbesar di Indonesia. Penelitian ini mengombinasikan pendekatan text mining berupa analisis sentimen dan text summarization. Teknik klasifikasi digunakan untuk mengidentifikasi sentimen positif atau negatif yang terkandung dalam kalimat ulasan. Teknik klasifikasi yang digunakan adalah support vector machine yang cocok digunakan untuk data yang berjumlah besar dan na ve bayes classifier yang hanya membutuhkan jumlah data latihan yang kecil untuk menentukan estimasi parameter dalam proses pengklasifikasian. Text summarization dengan teknik k-medoids clustering digunakan untuk memperoleh kalimat representatif yang menggambarkan keseluruhan isi ulasan. Hasil dari teknik klasifikasi pada penelitian ini menunjukkan bahwa algoritme support vector machine menghasilkan nilai akurasi yang lebih tinggi dibandingkan algoritme na ve bayes classifier dalam menganalisis sentimen. Tahap text summarization dengan teknik k-medoids clustering menghasilkan nilai Davies-Bouldin Index yang mendekati nol. Luaran dari penelitian ini berupa identifikasi aspek layanan dan fasilitas bandara yang menjadi kekuatan dan kelemahan serta penentuan prioritas perbaikan dan peningkatan kualitas aspek layanan dan fasilitas yang masih menjadi kelemahan.

Customer satisfaction is an important factor for the business rsquo success, including airline service industry which is increasing from year to year. One way to measure customer satisfaction level is by customer opinions or reviews. Opinions or reviews are conveyed via short messages, suggestion boxes, social media and web pages so customer reviews provided are numerous. Text mining is a right approach to extract information from a large number of review data automatically. This study evaluates and analyzes customer reviews of services and facilities of Soekarno Hatta Airport as the largest airport in Indonesia. This study combines text mining approach of sentimental analysis and text summarization. The classification technique is used to identify the positive or negative sentiments contained in the review sentence. The classification technique used is a support vector machine suitable for large amounts of data and na ve bayes classifier which requires only a small amount of exercise data to determine parameter estimation in the classification process. Text summarization with k medoids clustering technique is used to obtain representative sentences that describe the entire contents of the review. The results of the classification technique in this study indicate that support vector machine algorithm has a higher accuracy value than na ve bayes classifier algorithm in analyzing sentiments. Text summarization stage with k medoids clustering technique yields a near zero Davies Bouldin Index value. The output of this research is identification of service aspect and airport facility which become the strength and weakness as well as the improvement prioritization of aspects that still become weakness."

Depok: Fakultas Teknik Universitas Indonesia, 2018

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Puteri Prameswari

Penggalian ulasan hotel online pada destinasi wisata unggulan Indonesia dengan pendekatan sentiment analysis dan text summarization = Mining online reviews in Indonesia s priority tourist destinations using sentiment analysis and text summarization approach

"Ulasan hotel online di era modern ini memiliki peran besar mengingat hotel merupakan faktor penentu daya saing sebuah daerah wisata, namun pemanfaatannya masih jarang ditemukan. Berkaitan dengan rencana pemerintah untuk meningkatkan kunjungan wisatawan ke Indonesia, penelitian ini mengaplikasikan text mining terhadap ulasan hotel online untuk menemukan pengetahuan yang bermanfaat dalam membangun sektor perhotelan sebagai bagian integral dalam industri pariwisata. Teknik klasifikasi teks digunakan untuk mendapatkan informasi sentimen yang terkandung dalam kalimat ulasan melalui analisis sentimen, serta teknik klasterisasi pada text summarization untuk menemukan kalimat representatif yang mampu menggambarkan keseluruhan isi ulasan. Percobaan dengan ulasan hotel di Labuan Bajo, Lombok, dan Bali menghasilkan luaran yang memuaskan, di mana akurasi model penggolong klasifikasi sebesar 78 dan Davies-Bouldin Index DBI sebesar 0.071 untuk proses klasterisasi. Luaran penelitian ini diharapkan mampu menggambarkan kondisi hotel di daerah wisata unggulan Indonesia sehingga dapat berkontribusi dalam peningkatan kualitas sektor perhotelan sebagai penunjang industri pariwisata di Indonesia.

In this modern era, online hotel reviews have a big role considering the hotel is one the aspects in determining the competitiveness in the tourist area, but its implementation is still rare. Regarding the government 39 s plan to increase tourist arrivals to Indonesia, this research utilized text mining towards online hotel reviews to find useful knowledge in building the hospitality sector as an integral part of the tourism industry. Text classification technique was used to obtain sentiment information contained in review sentences through sentiment analysis, as well as clustering technique as a part of text summarization to find representative sentences that are able to describe the entire contents of the review. Experiments with hotel reviews in Labuan Bajo, Lombok and Bali generated surprising outcomes, where the accuracy of classification model reaches 78 and the Davies Bouldin Index DBI of clustering algorithm strikes 0.071. The output of this research is expected to be able to describe the condition of the hotel in tourist area based on the different level of tourism development so that it can contribute to improving the quality of the hotel industry as well as supporting the tourism industry in Indonesia."

Depok: Fakultas Teknik Universitas Indonesia, 2017

T48159

UI - Tesis Membership Universitas Indonesia Library

Carles Octavianus

Aplikasi Bidirectional Encoder Representations from Transformers untuk Pemeringkatan Teks Bahasa Indonesia = Bidirectional Encoder Representations from Transformers Application for Text Ranking in Indonesian

"Peningkatan jumlah data teks digital membuat manusia membutuhkan mekanisme untuk mengembalikan teks yang efektif dan efisien. Salah satu mekanisme untuk mengembalikan teks adalah dengan pemeringkatan teks. Tujuan dari pemeringkatan teks adalah menghasilkan daftar teks yang terurut berdasarkan relevansinya dalam menanggapi permintaan kueri pengguna. Pada penelitian ini, penulis menggunakan Bidirectional Encoder Representations from Transformers (BERT) untuk membangun model pemeringkatan teks berbahasa Indonesia. Terdapat 2 cara penggunaan BERT untuk pemeringkatan teks, yaitu BERT untuk klasifikasi relevansi dan BERT untuk menghasilkan representasi vektor dari teks. Pada penelitian ini, 2 cara penggunaan BERT tersebut terbagi menjadi 4 model, yaitu BERTCAT, BERTDOT, BERTDOTHardnegs, BERTDOTKD. Penggunaan BERT memberikan peningkatan kualitas pemeringkatan teks bila dibandingkan dengan model baseline BM25. Peningkatan kualitas pemeringkatan teks tersebut dapat dilihat dari nilai metrik recriprocal rank (RR), recall (R), dan normalized discounted cumulative gain (nDCG).

The increase in the amount of digital text data has led humans to require mechanisms for effectively and efficiently retrieving text. One mechanism for text retrieval is text ranking. The goal of text ranking is to generate a list of texts sorted based on their relevance in response to user query requests. In this study, the author uses Bidirectional Encoder Representations from Transformers (BERT) to build a text ranking model for the Indonesian language. There are 2 ways to use BERT for text ranking, namely BERT for relevance classification and BERT for generating vector representations of text. In this study, these 2 ways of using BERT are divided into 4 models, namely BERTCAT, BERTDOT, BERTDOTHardnegs, BERTDOTKD. The use of BERT improves the quality of text ranking compared to the baseline BM25 model. The improvement in the quality of text ranking can be seen from the values of the reciprocal rank (RR), recall (R), and normalized discounted cumulative gain (nDCG) metrics."

Depok: Fakultas Matematika Dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Erica Harlin

Penanganan Noisy Text untuk Meningkatkan Akurasi Lemmatisasi dan POS Tagging untuk Bahasa Indonesia Informal = Handling Noisy Text to Improve Lemmatization and POS Tagging Accuracy for Informal Indonesian Text

"Aksara adalah sebuah NLP tool yang menuruti Universal Dependencies (UD) v2. Penelitian terakhir terkait pemrosesan bahasa informal pada Aksara adalah v1.2 yang berfokus pada kemampuan Aksara untuk memproses kata-kata dasar informal dan kata-kata dengan afiksasi informal. Penelitian ini bertujuan untuk mengembangkan kemampuan Aksara dalam memproses noisy text. Dalam penelitian ini, terdapat 5 metode yang dipertimbangkan untuk menormalisasikan noisy text, yaitu: Levenshtein distance, Damerau-Levenshtein distance, perbandingan subsequence, longest common subsequence (LCS), dan SymSpell. Untuk menentukan metode mana yang paling cocok, kami membangun dataset sintetis berukuran 20.000 kata, lalu mengukur dan membandingkan performa metode yang satu dengan yang lain dalam menormalisasikan dataset sintetis tersebut. Metode yang akhirnya dipilih adalah SymSpell karena metode ini yang menghasilkan akurasi yang paling tinggi. Versi Aksara yang dihasilkan oleh penelitian ini adalah Aksara v1.4 (Aksara baru). Untuk mengevaluasi Aksara baru, dipakai gold standard yang terdiri dari 152 kalimat dan 1786 token. Hasil evaluasi menunjukkan lemmatizer Aksara baru memiliki akurasi senilai 90.99% dan 91.66% untuk kasus case-sensitive dan case-insensitive. Untuk POS tagger, Aksara baru memiliki akurasi senilai 83%, recall senilai 83%, dan F1 score senilai 83%.

Aksara is an Indonesian NLP tool that conforms to Universal Dependencies (UD) v2. The latest work on Aksara pertaining to its informal language processing ability is Aksara v1.2, which is focused on Aksara’s ability to process informal root words and words with informal affixation. This work aims to enable Aksara to process noisy texts. In this research, there are 5 methods considered for normalizing noisy texts: Levenshtein distance, Damerau-Levenshtein distance, subsequence comparison, longest common subsequence (LCS), and SymSpell. To determine which method is best suited for this purpose, we built a synthetic dataset of 20,000 words, then measured and compared each method’s performance in normalizing the synthetic data. The chosen method is SymSpell as it yields the highest accuracy. This chosen method along with a context dictionary will be integrated into Aksara as a text normalizer. To evaluate new Aksara’s performance, a gold standard consisting of 152 sentences and 1786 tokens is used. The evaluation result shows that the new Aksara’s lemmatizer has an accuracy of 90.99% and 91.61% for case-sensitive and case-insensitive cases. For POS tagger, the new Aksara has an accuracy of 83%, a recall of 83%, and an F1 score of 83%."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Bayu G. Wundari

Sistem text-to-speech dengan metode unit selection synthesis untuk Bahasa Indonesia = Text-to-speech system with unit selection synthesis method for Bahasa Indonesia

"Skripsi ini membahas tentang sistem Text-to-Speech (TTS) untuk Bahasa Indonesia dengan Unit Selection Synthesis sebagai metodenya untuk mensintesa ucapan. Unit yang yang digunakan pada sistem TTS ini berupa suku kata Bahasa Indonesia. Sistem TTS yang dibuat pada skripsi ini memiliki 2 modul utama, yaitu modul Natural Language Processing (NLP) dan modul Digital Signal Processing (DSP). Modul NLP bertugas untuk memroses input teks yang masuk guna mendapatkan informasi dari teks itu berupa unit suku kata dengan pitch dan ToBI (Tone and Break Indices) yang bersesuaian dengan kalimat pada teks masukan, Informasi ini kemudian digunakan oleh modul DSP untuk menghasilkan ucapan. Pada modul DSP ini, metode sintesa ucapan yang digunakan adalah Unit Selection Synthesis yang merupakan generasi ketiga setelah Concatenative Synthesis. Metode Unit Selection Synthesis menggunakan database yang sangat banyak sekali untuk dapat menghasilkan ucapan dengan tingkat kealamian yang tinggi. Untuk tiap unit suku kata memiliki karakteristik seperti pitch, durasi, Mel Frequency Cepstrum Coefficient (MFCC), dan ToBI yang berbeda-beda dengan unit yang lain walaupun suku kata yang digunakan adalah sama. Suku kata dengan karakteristik yang berbeda tersebut diperoleh dari hasil pemotongan file wav suatu rekaman ucapan. Dari segi intellijibilitas, ucapan yang dihasilkan tidaklah baik. Hal ini disebabkan database yang dimiliki sangat kurang dan rekaman ucapan yang dijadikan sumber data memiliki banyak noise sehingga mengganggu proses pemotongan file wav untuk mendapatkan suku kata. Namun tingkat kealamian ucapan yang diperoleh dari sistem TTS ini dapat dikatakan cukup baik karena pitch dari suku kata yang cukup bervariasi sehingga intonasi yang terdengar tidak mendatar saja.

This undergraduate thesis discusses about a Text-to-Speech system with Unit Selection Synthesis as it's method to synthesize speech. Units which are used as the units for the synthesizer are Bahasa Indonesia syllables. In this study, the TTS system uses 2 main modules, they are Natural Language Processing module (NLP) and Digital Signal Processing Module (DSP). The NLP module processes input text for retrieving information from the input in the form of syllables with their pitch and ToBI (Tone and Break Indices) associated with the sentences in the text. The retrieved information then used by DSP module to produce speech. The third generation synthesizer after concatenative synthesis, Unit Selection Synthesis, is chosen as the speech synthesizer in the DSP module. To get speech with high naturalness, the synthesizer must uses a large speech database. Each and every syllable has it?s own characteristics such as pitch, duration, Mel Frequency Cepstrum Coefficient (MFCC), and ToBI that are different from other units eventhough the syllables are the same. The author get the syllables by trimming a wav file of recorded speech. From the intelligibility point of view, the quality of the produced speech is not good. It is because the quality of the possessed database is poor and the recorded speech chockablock with noise in such a way that unsettles the process of trimming the wav file in order to get the syllables. Yet, from the naturalness point of view, the quality of the speech could be accepted because of the variety of the pitch of the syllables so that the perceived speech is not monotone."

Depok: Fakultas Teknik Universitas Indonesia, 2009

S51375

UI - Skripsi Open Universitas Indonesia Library

Wisnu Linggakusuma Wardhana

Peringkas multi-dokumen untuk bahasa Indonesia menggunakan teknik centroid-based summarization dan teknik k-means-based summarization

"Tersedianya sumber informasi yang tidak terbatas pada saat ini, menjadikan perolehan informasi melibatkan banyak sumber informasi. Hal-hal tersebut memicu penelitian mengenai metode peringkasan dokumen yang semula ditujukan untuk membuat sebuah ringkasan dari sebuah dokumen menjadi metode peringkasan yang ditujukan untuk menghasilkan ringkasan dari banyak dokumen. Peringkasan multi-dokumen merupakan suatu metode yang ditujukan untuk menyampaikan informasi-informasi utama dari banyak dokumen dalam ringkasan. Penelitian yang dilakukan oleh penulis ini merupakan penelitian dengan topik peringkasan multi-dokumen untuk dokumen berbahasa Indonesia. Pada penelitian ini, penulis menggunakan dua buah teknik peringkasan multi-dokumen yaitu centroidbased summarization dan k-means-based summarization. Pada penelitian ini penulis mencoba untuk mengaplikasikan kedua teknik tersebut untuk membuat ringkasan dari dokumen berbahasa Indonesia.

Untuk mengukur kualitas ringkasan yang dihasilkan oleh kedua teknik tersebut, penulis membuat ringkasan referensi untuk masing-masing sumber dokumen yang dibuat secara manual sebagai perbandingan. Hasilnya adalah pada teknik centroidbased summarization, kualitas ringkasan yang dihasilkan akan semakin bagus jika kelompok dokumen yang digunakan sebagai masukan berisi dokumen-dokumen yang relevan terhadap topik. Sedangkan pada teknik k-means-based summarization, kualitas ringkasan yang dihasilkan akan semakin bagus jika kelompok dokumen yang digunakan sebagai masukan merupakan kelompok dokumen yang besar (lebih banyak mengandung dokumen/kalimat). Evaluasi terhadap kualitas ringkasan juga dilakukan dengan menggunakan juri/penilai manusia. Hasilnya adalah pada teknik centroid-based summarization, para juri menilai ringkasan yang dihasilkan sudah bagus. Pada teknik k-means-based summarization dengan 10% compression rate, para juri menilai bahwa ringkasan."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

Tatag Aziz Prawiro

Pembangunan Model Normalisasi Teks Bahasa Indonesia dengan Pendekatan Statistical Machine Translation Secara Semi-Supervised = Semi-Supervised Statistical Machine Translation Model for Indonesian Text Normalization

"Normalisasi teks merupakan task pada NLP yang dapat digunakan untuk meningkatkan performa dari aplikasi-aplikasi NLP lain. Penelitian tentang normalisasi teks pada bahasa Indonesia masih jarang dan kebanyakan masih hanya menormalisasi pada tingkat token. Penelitian ini bertujuan untuk mengevaluasi pembangunan model normalisasi dengan menggunakan algoritma statistical machine translation (SMT). Isu dari pendekatan machine translation dalam penyelesaian task normalisasi teks

adalah butuhnya data yang relative banyak. Penelitian ini juga melihat bagaimana pengaruh dari pemelajaran semi-supervised dengan cara menggunakan pseudo-data dalam pembangunan model normalisasi teks dengan algoritma statistical machine translation. Model SMT memiliki performa yang cukup baik pada data tanpa tanda baca, namun memiliki performa yang buruk pada data bertanda baca karena banyaknya noise. Pendekatan semi-supervised menurunkan performa SMT secara keseluruhan, namun, pada jenis data tidak bertanda baca penurunan relatif tidak signifikan.

Text normalization is a task in NLP which can be used to improve the performance of other NLP
applications. Research on text normalization in Indonesian language is still rare and most only
normalize at the token level. This study attempts to improve the development of the normalization
model by using the statistical machine translation (SMT) algorithm. The issue in building a good
performing text normalization model using the machine translation approach is the relatively large
data needs. This research also looks at how using semi-supervised learning by using pseudo-data as
training data in SMT approach affects text normalization performance. The SMT model has a fairly
good performance on data without punctuation, but has poor performance on data with a punctuation
due to the amount of noise. The semi-supervised approach reduces the overall performance of the
SMT model, but the reduction in performance is relatively insignificant on data without punctuation."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian