Hasil Pencarian

Ditemukan 3 dokumen yang sesuai dengan query

Michael Harditya

Pengembangan Abstractive-Extractive Text Summarization dengan BART untuk Teks Berita Bahasa Indonesia = Development of Abstractive-Extractive Text Summarization with BART for Indonesian News Text

"Penelitian ini melakukan pengembangan integrasi metode perangkum abstraktif dengan metode ekstraktif dalam merangkum teks berita yang melebihi input maksimal dari model machine learning. Penggabungan metode abstraktif dan ekstraktif menciptakan rangkuman yang lebih natural tanpa kehilangan makna semantiknya, serta menyelesaikan keterbatasan jumlah input maksimal dari model machine learning yang digunakan pada metode abstraktif. Bagian abstraktif dibuat menggunakan model machine learning yang menggunakan arsitektur Transformer, yaitu model BART. Bagian ekstraktif menggunakan algoritma gabungan untuk melakukan pembobotan tiap kalimat menggunakan term frequency – inverse document frequency (TF-IDF), konjungsi antar kalimat, dan peletakan kalimat pada paragraf yang dapat diidentifikasi menggunakan algoritma pemrograman. Dataset yang digunakan adalah benchmark IndoSum, yaitu dataset bahasa Indonesia untuk merangkum teks, sehingga dapat dievaluasikan dengan model pada penelitian yang serupa. Beberapa pengujian dilakukan pada model BART dan tokenizer, dengan nilai ROUGE Score menunjukan adanya peningkatan pada tokenizer bahasa Indonesia ketimbang bahasa Inggris. Hasil evaluasi pada finetuning model BART mendapatkan nilai ROUGE Score sebesar 0,725 untuk ROUGE-1, 0,635 untuk ROUGE-2, 0,699 untuk ROUGE-L, dan 0,718 untuk ROUGE-Lsum, menjadikan model BART lebih tinggi pada beberapa model lainnya pada riset terkait. Human evaluation dilakukan pada hasil integrasi, menunjukan hasil yang baik untuk morfologi, semantik, dan kenaturalan rangkuman, namun masih buruk untuk kesalahan pengetikan.

This research develops the integration of abstractive summarization methods with extractive methods in summarizing news texts that exceed the maximum input from the machine learning model. Combining abstractive and extractive methods creates a more natural summary without losing its semantic meaning, and resolves the limitations of the maximum number of inputs from the machine learning model used in the abstractive method. The abstractive part was created using a machine learning model that uses the Transformer architecture, namely the BART model. The extractive section uses a combined algorithm to weight each sentence using term frequency - inverse document frequency (TF-IDF), conjunctions between sentences, and placement of sentences in paragraphs that can be identified using a programming algorithm. The dataset used is the IndoSum benchmark, namely an Indonesian language dataset for summarizing text, so that it can be evaluated with models in similar research. Several tests were carried out on the BART model and tokenizer, with the ROUGE Score showing an increase in the Indonesian language tokenizer compared to English. The evaluation results of finetuning the BART model obtained a ROUGE Score of 0.725 for ROUGE-1, 0.635 for ROUGE-2, 0.699 for ROUGE-L, and 0.718 for ROUGE-Lsum, making the BART model higher than several other models in related research. Human evaluation was carried out on the integration results, showing good results for morphology, semantics and naturalness of summaries, but still poor results for typing errors."

Depok: Fakultas Teknik Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Gibran Brahmanta Patriajati

Analisis Performa Pendekatan Topic Modeling dan Similarity Measure untuk Text Summarization secara Ekstraktif pada Teks Berbahasa Indonesia = Performance Analysis of Topic Modeling and Similarity Measure Approach for Extractive Text Summarization in Indonesian Text

"Text Summarization secara ekstraktif merupakan suatu isu yang dapat meningkatkan kualitas pengalaman pengguna ketika menggunakan suatu sistem perolehan informasi. Pada bahasa Inggris, terdapat beberapa penelitian terkait Text Summarization secara ekstraktif salah satunya adalah penelitian Belwal et al. (2021) yang memperkenalkan suatu metode Text Summarization secara ekstraktif yang berbasiskan proses Topic Modeling serta Semantic Measure menggunakan WordNet. Sementara pada bahasa Indonesia, juga terdapat beberapa penelitian terkait Text Summarization secara ekstraktif tetapi belum ada yang menggunakan metode yang sama seperti yang diperkenalkan oleh Belwal et al. (2021). Agar metode yang diperkenalkan Belwal et al. (2021) dapat digunakan pada bahasa Indonesia, proses Semantic Measure menggunakan WordNet harus diganti dengan Similarity Measure menggunakan Vector Space Model karena tidak adanya model WordNet bahasa Indonesia yang dapat digunakan oleh umum. Dalam menggunakan metode yang diperkenalkan oleh Belwal et al. (2021) pada bahasa Indonesia, terdapat beberapa metode yang dapat digunakan untuk melakukan Topic Modeling, Vector Space Model, serta Similarity Measure yang terdapat di dalamnya. Penelitian ini berfokus untuk mencari kombinasi metode ketiga hal yang telah disebutkan sebelumnya yang dapat memaksimalkan performa metode Text Summarization yang diperkenalkan oleh Belwal et al. (2021) pada bahasa Indonesia dengan menggunakan pendekatan hill-climbing. Proses evaluasi dilakukan dengan menggunakan metrik ROUGE-N dalam bentuk F-1 Score pada dua buah dataset yaitu Liputan6 serta IndoSUM. Hasil penelitian menemukan bahwa kombinasi metode yang dapat memaksimalkan performa metode Text Summarization secara ekstraktif yang diperkenalkan oleh Belwal et al. (2021) adalah Non-Negative Matrix Factorization untuk Topic Modeling, Word2Vec untuk Vector Space Model, serta Euclidean Distance untuk Similarity Measure. Kombinasi metode tersebut memiliki nilai ROUGE-1 sebesar 0.291, ROUGE-2 sebesar 0.140, dan ROUGE-3 sebesar 0.079 pada dataset Liputan6. Sementara pada dataset IndoSUM, kombinasi metode tersebut memiliki nilai ROUGE-1 sebesar 0.455, ROUGE-2 sebesar 0.337, dan ROUGE-3 sebesar 0.300. Performa yang dihasilkan oleh kombinasi metode tersebut bersifat cukup kompetitif dengan performa metode lainnya seperti TextRank serta metode berbasiskan model Deep Learning BERT apabila dokumen masukannya bersifat koheren.

Extractive text summarization is an issue that can improve the quality of user experience when using an information retrieval system. Research related to extractive text summarization is a language-specific research. In English, there are several studies related to extractive text summarization, one of them is the research of Belwal et al. (2021) They introduced an extractive Text Summarization method based on the Topic Modeling process and Semantic Measure using WordNet. While in Indonesian, there are also several studies related to extractive text summarization, but none have used the same method as introduced by Belwal et al. (2021). In order to use the method introduced by Belwal et al. (2021) in Indonesian, the Semantic Measure process using WordNet must be replaced with Similarity Measure using the Vector Space Model because there is no Indonesian WordNet model that can be used by the public. When using the method introduced by Belwal et al. (2021) in Indonesian, there are several methods that can be used to perform Topic Modeling, Vector Space Model, and Similarity Measure that contained in there. This study focuses on finding a combination of the three methods previously mentioned that can maximize the performance of the Text Summarization method introduced by Belwal et al. (2021) in Indonesian using hill-climbing approach. The evaluation process is carried out using the ROUGE-N metric in the form of F-1 Score on two datasets, namely Liputan6 and IndoSUM. The results of the study found that the combination of methods that can maximize the performance of the extractive text summarization method introduced by Belwal et al. (2021) are Non-Negative Matrix Factorization for Topic Modeling, Word2Vec for Vector Space Model, and Euclidean Distance for Similarity Measure. The combination of those methods has a ROUGE-1 value of 0.291, ROUGE-2 value of 0.140, and ROUGE-3 value of 0.079 in the Liputan6 dataset. Meanwhile, in the IndoSUM dataset, the combination of those methods has a ROUGE-1 value of 0.455, ROUGE-2 value of 0.337, and ROUGE-3 value of 0.300. The performance generated by the combination of those methods is quite competitive with the performance of other methods such as TextRank and Deep Learning BERT model based method if the input document is coherent."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Rizky Juniastiar

Model bahasa generatif pembuat berita untuk Automatic Indonesian News Generation System = News generative language model for Automatic Indonesian News Generation System

"Kebutuhan akan informasi yang cepat dan valid semakin mendesak di tengah arus in- formasi yang cepat. Kemajuan teknologi memberikan dampak signi kan terhadap in- dustri jurnalisme untuk mengakomodasi kebutuhan informasi tersebut. Proses produksi berita, yang tradisionalnya memakan waktu, terus dihadapkan pada tuntutan untuk meng- hasilkan informasi dengan cepat dan akurat. Penelitian ini merespon tantangan terse- but dengan melakukan pengembangan model generatif yang dapat melakukan pembuatan berita secara otomatis. Dalam pengembangan model generatif, penulis melakukan bebe- rapa skenario percobaan untuk menguji pengaruh ukuran jumlah parameter, jenis prompt- ing, dan penggunaan delimiter pada prompt yang digunakan terhadap kualitas model yang dihasilkan. Percobaan dilakukan dengan melakukan ne tuning pada dua buah large language model yang memiliki arsitektur berbeda, yaitu Falcon dan BLOOM. Pengem- bangan large language model selanjutnya dilakukan proses evaluasi dengan menggunakan metrik measurement BLEU, ROUGE, perplexity, dan human evaluation kepada wartawan terhadap berita yang dihasilkan. Hasil yang penulis dapatkan menunjukkan bahwa terda- pat beberapa aspek yang memengaruhi kualitas berita yang dihasilkan oleh model dalam proses ne tuning. Beberapa aspek tersebut di antaranya adalah ukuran jumlah parameter, jenis prompting, dan penggunaan delimiter pada prompt yang digunakan. Model terbaik yang didapatkan dari keseluruhan model percobaan adalah BLOOM dengan jumlah pa- rameter 7B yang mendapatkan hasil evaluasi ROUGE-1 sebesar 0,3856 dan perplexity sebesar 5,79809. Model ini juga dapat menghasilkan berita yang sesuai dengan kebu- tuhan wartawan dalam proses human evaluation, baik dari kesesuaian dengan kaidah ke- bahasaan dan penulisan berita maupun ketepatan berita dengan fakta sebenarnya. Model ini mendapatkan penilaian sebesar 4,25 dari 5,00 untuk kesesuaian dengan kaidah keba- hasaan dan 4,27 dari 5,00 untuk ketepatan dengan fakta sebenarnya.

The escalating need for swift and accurate information in today's dynamic information landscape poses a significant challenge. Technological advancements have profoundly impacted the journalism industry, necessitating adaptations to fulfill evolving information requirements. The traditional, time-consuming news production process is under constant pressure to deliver information swiftly and accurately. This research tackles these challenges by developing a generative model capable of automating news creation. The author explores various experimental scenarios in the generative model development, investigating the influence of parameters' quantity, prompting techniques, and the use of delimiters in prompts on the resulting model's quality. The experiments involve fine-tuning two large language models with different architectures, Falcon and BLOOM. The subsequent evaluation process utilizes metrics such as BLEU, ROUGE, perplexity, and human evaluation by journalists to assess the quality of the generated news. The findings underscore that several factors, including parameter quantity, prompting techniques, and delimiter use, impact the news model's quality during the fine-tuning process. Significantly, among the experimented models, the BLOOM model with 7B parameters emerges as the overall best performer. This model achieves a ROUGE-1 evaluation of 0.38656 and a perplexity of 5.79809. In human evaluation, the BLOOM model excels in linguistic adherence and factual accuracy, receiving ratings of 4,25 out of 5.00 and 4,27 out of 5.00, respectively."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian