Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 105557 dokumen yang sesuai dengan query
cover
Hendrico Kristiawan
"Pertanyaan konsultasi pada sebuah forum daring perlu dijawab oleh dokter spesialis yang tepat agar jawaban yang diberikan akurat dan bermanfaat bagi pengguna yang bertanya. Terkait hal tersebut, penelitian ini membahas tentang pengembangan model yang dapat secara otomatis mengarahkan sebuah pertanyaan konsultasi kesehatan ke dokter dengan spesialisasi yang sesuai. Lebih jauh lagi, model yang dibangun merupakan model klasifikasi multi-label karena sebuah pertanyaan dapat terasosiasi dengan lebih dari satu spesialisasi. Penelitian ini dimulai dengan mengevaluasi keefektifan metode pemetaan berbasis aturan dalam memprediksi data yang dianotasi oleh pakar, dan diperoleh hasil yang menunjukkan tingkat keberhasilan yang cukup. Selanjutnya, dikembangkan sebuah model machine learning yang melakukan klasifikasi domain spesialis dokter. Pelatihan model dilakukan dengan berbagai metode, termasuk supervised, unsupervised, serta semi-supervised learning. Model terbaik ditemukan melalui metode domain adaptive pre-training dengan IndoBERT-large sebagai model acuan dan melibatkan unsupervised learning. Selain itu, model supervised learning juga digunakan dengan menggunakan model konvensional, dan hasilnya digunakan untuk analisis kontribusi dari fitur-fitur yang digunakan dalam klasifikasi. Terakhir, penelitian ini mengevaluasi kembali anotasi yang dilakukan oleh manusia dengan menggunakan kata kunci sebagai pendekatan untuk mengurangi kesalahan dalam dataset. Dengan pendekatan ini, berhasil ditemukan beberapa kesalahan anotasi pada dataset yang dianotasi oleh manusia.

The consultation questions on an online forum need to be answered by the appropriate specialist doctors to provide accurate and beneficial answers to the users asking the questions. In relation to this, this study discusses the development of a model that can automatically direct a health consultation question to a doctor with the corresponding specialization. Furthermore, the constructed model is a multi-label classification model because a question can be associated with more than one specialization. There are several issues addressed in this work. This research begins by evaluating the effectiveness of rule-based mapping methods in predicting data annotated by experts, and the results show a satisfactory level of success. Furthermore, a multi-label classification model is developed to classify the specialist domains of doctors. The model training is performed using various methods, including supervised learning, unsupervised learning, and semi-supervised learning. The best model is found through domain adaptive pre-training using IndoBERT-large as the reference model and involving unsupervised learning. Additionally, the supervised learning model is also used with a conventional model, and the results are used to analyze the contribution of the features used in the classification. Lastly, this research re-evaluates the annotations made by humans using keyword-based approaches to reduce errors in the dataset. With this approach, several annotation errors were successfully identified in the dataset annotated by humans.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Kaysa Syifa Wijdan Amin
"Saat ini, dataset yang tersedia untuk melakukan analisis emosi di Indonesia masih terbatas, baik dari segi jumlah data, cakupan emosi, serta sumbernya. Pada penelitian ini, peneliti membangun dataset besar untuk tugas analisis emosi pada data teks berbahasa Indonesia, di mana dataset ini dikumpulkan dari berbagai domain dan sumber. Dataset ini mengandung 33 ribu teks, yang terdiri dari tweet yang dikumpulkan dari Twitter, serta komentar unggahan yang dikumpulkan dari Instagram dan Youtube. Domain yang dicakup pada dataset ini adalah domain olahraga, hiburan, dan life chapter. Dataset ini dianotasi oleh 36 annotator dengan label emosi fine-grained secara multi-label, di mana label emosi yang digunakan ini merupakan hasil dari taksonomi emosi baru yang diusulkan oleh peneliti. Pada penelitian ini, peneliti mengusulkan taksonomi emosi baru yang terdiri dari 44 fine-grained emotion, yang dikelompokkan ke dalam 6 basic emotion. Selain itu, peneliti juga membangun baseline model untuk melakukan analisis emosi. Didapatkan dua baseline model, yaitu hasil fine-tuning IndoBERT dengan f1-score micro tertinggi sebesar 0.3786, dan model hierarchical logistic regression dengan exact match ratio tertinggi sebesar 0.2904. Kedua baseline model tersebut juga dievaluasi di lintas domain untuk dilihat seberapa general dan robust model yang telah dibangun.

Currently, no research in Indonesia utilises fine-grained emotion for emotion analysis. In addition, the available datasets for analysing emotions still need to be improved in terms of the amount of data, the range of emotions, and their sources. In this study, researchers built a large dataset for analysing emotion. This dataset contains 33k texts, consisting of tweets collected from Twitter and comments collected from Instagram and Youtube posts. The domains covered in this dataset are sports, entertainment, and life chapter. Thirty-six annotators annotated this dataset with fine-grained emotion labels and a multi-label scheme, where the emotion labels resulted from a new emotion taxonomy proposed by the researcher. In this study, the researchers propose a new emotion taxonomy consisting of 44 fine-grained emotions which are grouped into six basic emotions. Two baseline models were obtained, the first one is the fine-tuned IndoBERT model, which achieved the highest f1-score micro of 0.3786, and the second one is hierarchical logistic regression model, which achieved the highest exact match ratio of 0.2904. Both baseline models were also evaluated to determine their cross-domain applicability. The dataset and baseline models that are produced in this study are expected to be valuable resources for future research purposes."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Gilang Catur Yudishtira
"Saat ini, dataset yang tersedia untuk melakukan analisis emosi di Indonesia masih terbatas, baik dari segi jumlah data, cakupan emosi, serta sumbernya. Pada penelitian ini, peneliti membangun dataset besar untuk tugas analisis emosi pada data teks berbahasa Indonesia, di mana dataset ini dikumpulkan dari berbagai domain dan sumber. Dataset ini mengandung 33 ribu teks, yang terdiri dari tweet yang dikumpulkan dari Twitter, serta komentar unggahan yang dikumpulkan dari Instagram dan Youtube. Domain yang dicakup pada dataset ini adalah domain olahraga, hiburan, dan life chapter. Dataset ini dianotasi oleh 36 annotator dengan label emosi fine-grained secara multi-label, di mana label emosi yang digunakan ini merupakan hasil dari taksonomi emosi baru yang diusulkan oleh peneliti. Pada penelitian ini, peneliti mengusulkan taksonomi emosi baru yang terdiri dari 44 fine-grained emotion, yang dikelompokkan ke dalam 6 basic emotion. Selain itu, peneliti juga membangun baseline model untuk melakukan analisis emosi. Didapatkan dua baseline model, yaitu hasil fine-tuning IndoBERT dengan f1-score micro tertinggi sebesar 0.3786, dan model hierarchical logistic regression dengan exact match ratio tertinggi sebesar 0.2904. Kedua baseline model tersebut juga dievaluasi di lintas domain untuk dilihat seberapa general dan robust model yang telah dibangun.

Currently, no research in Indonesia utilises fine-grained emotion for emotion analysis. In addition, the available datasets for analysing emotions still need to be improved in terms of the amount of data, the range of emotions, and their sources. In this study, researchers built a large dataset for analysing emotion. This dataset contains 33k texts, consisting of tweets collected from Twitter and comments collected from Instagram and Youtube posts. The domains covered in this dataset are sports, entertainment, and life chapter. Thirty-six annotators annotated this dataset with fine-grained emotion labels and a multi-label scheme, where the emotion labels resulted from a new emotion taxonomy proposed by the researcher. In this study, the researchers propose a new emotion taxonomy consisting of 44 fine-grained emotions which are grouped into six basic emotions. Two baseline models were obtained, the first one is the fine-tuned IndoBERT model, which achieved the highest f1-score micro of 0.3786, and the second one is hierarchical logistic regression model, which achieved the highest exact match ratio of 0.2904. Both baseline models were also evaluated to determine their cross-domain applicability. The dataset and baseline models that are produced in this study are expected to be valuable resources for future research purposes."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nabila Dita Putri
"Saat ini, dataset yang tersedia untuk melakukan analisis emosi di Indonesia masih terbatas, baik dari segi jumlah data, cakupan emosi, serta sumbernya. Pada penelitian ini, peneliti membangun dataset besar untuk tugas analisis emosi pada data teks berbahasa Indonesia, di mana dataset ini dikumpulkan dari berbagai domain dan sumber. Dataset ini mengandung 33 ribu teks, yang terdiri dari tweet yang dikumpulkan dari Twitter, serta komentar unggahan yang dikumpulkan dari Instagram dan Youtube. Domain yang dicakup pada dataset ini adalah domain olahraga, hiburan, dan life chapter. Dataset ini dianotasi oleh 36 annotator dengan label emosi fine-grained secara multi-label, di mana label emosi yang digunakan ini merupakan hasil dari taksonomi emosi baru yang diusulkan oleh peneliti. Pada penelitian ini, peneliti mengusulkan taksonomi emosi baru yang terdiri dari 44 fine-grained emotion, yang dikelompokkan ke dalam 6 basic emotion. Selain itu, peneliti juga membangun baseline model untuk melakukan analisis emosi. Didapatkan dua baseline model, yaitu hasil fine-tuning IndoBERT dengan f1-score micro tertinggi sebesar 0.3786, dan model hierarchical logistic regression dengan exact match ratio tertinggi sebesar 0.2904. Kedua baseline model tersebut juga dievaluasi di lintas domain untuk dilihat seberapa general dan robust model yang telah dibangun.

Currently, no research in Indonesia utilises fine-grained emotion for emotion analysis. In addition, the available datasets for analysing emotions still need to be improved in terms of the amount of data, the range of emotions, and their sources. In this study, researchers built a large dataset for analysing emotion. This dataset contains 33k texts, consisting of tweets collected from Twitter and comments collected from Instagram and Youtube posts. The domains covered in this dataset are sports, entertainment, and life chapter. Thirty-six annotators annotated this dataset with fine-grained emotion labels and a multi-label scheme, where the emotion labels resulted from a new emotion taxonomy proposed by the researcher. In this study, the researchers propose a new emotion taxonomy consisting of 44 fine-grained emotions which are grouped into six basic emotions. Two baseline models were obtained, the first one is the fine-tuned IndoBERT model, which achieved the highest f1-score micro of 0.3786, and the second one is hierarchical logistic regression model, which achieved the highest exact match ratio of 0.2904. Both baseline models were also evaluated to determine their cross-domain applicability. The dataset and baseline models that are produced in this study are expected to be valuable resources for future research purposes."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Bagaskara Ghanyvian Istiqlal
"Kualitas tidur yang baik sangatlah penting untuk berbagai aspek kehidupan seperti kesehatan fisik, kesehatan mental, keselamatan, konsentrasi, performa, penyembuhan, dan lain-lain. Kualitas tidur tidak hanya mencakup aspek fisiologis, tetapi juga memperhatikan aspek mental seperti: kondisi setelah tidur, kepuasan dengan tidur, dan pengaruh pada kehidupan sehari-hari. Penelitian ini mengusulkan penggabungan data objektif yang berasal dari Fitbit dan kuesioner subjektif untuk mengklasifikasi kualitas tidur menggunakan K-Nearest Neighbor. Klasifikasi ini bertujuan untuk mempelajari fitur-fitur yang paling pengaruh dalam kualitas tidur. Data objektif yang berisikan data fisiologis dan aspek tidur terukur oleh Fitbit, serta data subjektif mengenai aspek mental, keduanya dijadikan fitur deskriptif dalam model. Analisa fitur yang paling berpengaruh dilakukan dari dua sudut pandang model, yaitu fitur target kualitas tidur subjektif dan fitur target kualitas objektif. Kedua model dilatih dengan serangkaian data preprocessing yang termasuk didalamnya terdapat seleksi fitur dan ekstraksi fitur. Seleksi fitur berbasis ANOVA F Test akan dibandingkan dengan ekstraksi fitur Principal Component Analysis (PCA) dan Neighborhood Component Analysis(NCA). Seleksi fitur ANOVA F-Test lebih baik dari PCA dan NCA dengan peningkatan skor sebesar 0,06-0,08 pada model objektif, dan 0,01-0,06 pada model subjektif. Skor terbaik terbaik dari model subjektif yaitu 0,52 dengan parameter jumlah fitur = 3 dan k-neighbors = 27. Skor terbaik terbaik dari model objektif yaitu 0,72 dengan parameter jumlah fitur = 7 dan k-neighbors = 4. Pada akhirnya, ditemukan 3 Fitur yang paling berpengaruh dalam klasifikasi subjektf, dan 7 fitur yang paling berpengaruh dalam klasifikasi objektif.

Good quality sleep is very important for various aspects of life such as physical health, mental health, safety, concentration, performance, healing, and others. Sleep quality does not only include physiological aspects, but also pay attention to mental aspects such as condition after sleep, satisfaction with sleep, and influence on daily life. This study proposes combining objective data from Fitbit and subjective questionnaires to classify sleep quality using K-Nearest Neighbor. This classification aims to study the features that have the most influence in sleep quality. Objective data containing physiological data and sleep aspects measured by Fitbit, as well as subjective data on mental aspects, are both used as descriptive features in the model. The analysis of the most influential features is carried out from two viewpoints of the model, namely the subjective sleep quality target feature and the objective quality target feature. Both models are trained with a series of preprocessing data which includes feature selection and feature extraction. ANOVA F Test based on feature selection will be compared with feature extraction of Principal Component Analysis (PCA) and Neighborhood Component Analysis (NCA). ANOVA F-Test feature selection is better than PCA and NCA with an increase in scores of 0.06-0.08 in the objective model, and 0.01-0.06 in the subjective model. The best score of the subjective model is 0.52 with the parameter number of features = 3 and k-neighbors = 27. The best score of the objective model is 0.72 with the parameter number of features = 7 and k-neighbors = 4. In the end, it was found 3 the most influential features in the subjective classification, and 7 the most influential features in the objective classification."
Depok: Fakultas Teknik Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Shinta Nataya Paramesti
"Identifikasi wajah berdasarkan ciri bibir berpengaruh pada keberhasilan pencarian citra wajah orang dikarenakan adanya variasi bentuk bibir yang dapat menjadi pembeda tiap individu. Untuk mempercepat pencarian pelaku kriminal, sebuah sistem aplikasi identifikasi wajah berdasarkan ciri bibir menjadi suatu kebutuhan. Sistem tersebut harus dapat mengekstrak ciri bibir dari sebuah citra digital menggunakan metode ekstraksi ciri yang akurat dan cepat.
Penelitian ini melakukan studi analisis kinerja metode eigenface dengan eigen fuzzy set (himpunan fuzzy eigen) untuk ekstraksi ciri bibir dalam sistem identifikasi wajah. Eigenface adalah metode ekstraksi ciri yang telah terbukti keberhasilannya dalam mengekstrak ciri wajah, sedangkan metode eigen fuzzy set dikembangkan berdasarkan teori himpunan fuzzy dan dapat digunakan untuk analisa citra. Metode deteksi bibir otomatis berdasarkan ciri warna juga dievaluasi efektifitasnya untuk perolehan citra dalam penelitian ini. Analisis dilakukan dengan metode analisis statistik desktiptif dan statistik inferensi. Uji coba dilakukan untuk dua skenario yang dibedakan berdasarkan citra bibir hasil segmentasi manual dan otomatis.
Hasil uji coba menunjukkan bahwa hasil deteksi otomatis hanya efektif mendeteksi bibir sebanyak 61.4% dan precision-recall perolehan wajah pada skenario 2 lebih rendah dari skenario 1. Metode eigen fuzzy set memiliki waktu komputasi lebih rendah dibandingkan metode eigenface. Sedangkan nilai precision-recall tertinggi dihasilkan oleh metode eigenface dengan rata-rata nilai 0.22%. Dari hasil ini disimpulkan bahwa metode ekstraksi ciri eigenface lebih efektif dibandingkan eigen fuzzy set. Sistem identifikasi wajah dengan metode eigenface untuk ekstraksi ciri kedepannya dapat dikembangkan menjadi sistem identifikasi wajah berbasis komponen wajah."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2007
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Aldi Naufal Fitrah
"Dengan bertambahnya jumlah pengguna internet seiring waktu, bertambah pula jumlah data yang dihasilkan dari aktivitas yang berasal dari media sosial. Data tersebut dapat digunakan untuk berbagai keperluan, salah satunya untuk keperluan moderasi supaya aktivitas pengguna internet tetap tunduk pada hukum yang berlaku. Namun, diperlukan cara yang optimal untuk melakukan proses tersebut mengingat data yang jumlahnya sangat besar. Penelitian ini mengajukan sebuah platform yang dapat menjadi salah satu pilihan untuk memproses data media sosial yang berjumlah besar tersebut. Rancangan platform pada penelitian ini ditujukan untuk dapat memiliki throughput yang besar. Selain itu, platform dirancang untuk dapat dimodifikasi demi memenuhi berbagai kebutuhan. Karenanya, aspek extensibility juga menjadi perhatian utama dalam proses pengembangan platform. Kedua tujuan utama dalam pengembangan platform ini dapat diwujudkan dengan bantuan sebuah klaster Apache Kafka yang membuat platform memiliki sifat loosely-coupled dan juga extensible. Dengan berpusat pada klaster Apache Kafka, proses pengolahan data yang ada dapat dilakukan secara paralel, dan terbukti dapat meningkatkan throughput dari platform secara keseluruhan. Sebagai pembanding, penelitian ini diuji coba dengan suatu skenario bersama dengan platform Tweetream yang dikembangkan oleh Susanto (2022). Hasil dari uji coba tersebut membuktikan bahwa platform pada penelitian ini dapat mengungguli Tweetream.

As the number of internet users increases over time, so does the amount of data generated from activities originating from social media. This data can be used for various purposes, one of which is for moderation purposes so that the activities of internet users remain subject to applicable laws. However, an optimal way to do the process is needed considering the huge amount of data. This research proposes a platform that can be one of the options for processing large amounts of social media data. The design of the platform in this research is intended to have a large throughput. In addition, the platform is designed to be modifiable to meet various needs. Therefore, extensibility is also a major concern in the platform development process. These two main objectives in the development of the platform can be realized with the help of an Apache Kafka cluster that makes the platform loosely-coupled and extensible. By centering on the Apache Kafka cluster, the data processing can be done in parallel, which has been proven to increase the throughput of the platform as a whole. For comparison, this study was tested in a scenario with the Tweetream platform developed by Susanto (2022). The results of the test proved that the platform in this study can outperform Tweetream."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Rahmad Nur Iman
"Penelitian ini bertujuan untuk mengetahui tingkat kesadaran pengguna terkait informasi data pribadi, dan berbagai informasi data pribadi yang terdaftar di media sosial pengguna. Penelitian ini menggunakan pendekatan kualitatif dengan wawancara metode dan studi literatur. Subjek penelitian ini adalah mahasiswa S1 di Universitas Muhammadiyah Malang Universitas Indonesia dengan total 8 orang, yang ditentukan oleh a model convenience sampling. Hasilnya menunjukkan tahap kesadaran muncul ketika pengguna berpikir kritis dalam keputusan dimasukkannya pribadi informasi data. Hasil penelitian juga menunjukkan bahwa pengguna tahu beragam informasi data pribadi, yang sesuai untuk latar belakang setiap pengguna. Di Selain itu, perlu diperhatikan bahwa pengguna media sosial memperhatikan informasi data pribadi karena kekhawatiran tentang potensi penyalahgunaan informasi data pribadi, yang berasal dari pengguna lain dan penyedia media sosial tersebut. Penelitian ini mengidentifikasi bahwa pengguna media sosial harus memberikan diri mereka sendiri pengetahuan penggunaan media sosial. Pengetahuan seperti itu juga harus disertai dengan pengetahuan tentang pentingnya data pribadi bagi pengguna.

This study aims to determine the users level of awareness related to personal data information, and various personal data information that is registered on the users social media. This study uses a qualitative approach with interview methods and literature studies. The subjects of this study were S1 students at the University of Muhammadiyah Malang University of Indonesia with a total of 8 people, which was determined by a convenience sampling model. The results indicate the stage of awareness arises when users think critically in the decision of the inclusion of personal data information. The results also show that users know a variety of personal data information, which is appropriate for each users background. In addition, it should be noted that social media users pay attention to personal data information because of concerns about the potential misuse of personal data information, which comes from other users and social media providers. This research identifies that social media users must give themselves knowledge use of social media. Such knowledge must also be accompanied by knowledge of the importance of personal data for users."
Depok: Fakultas Ilmu Pengetahuan Budaya Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Sangeeta Gupta
"The massive amounts of data collected from numerous sources like social media, e-commerce websites are a challenging aspect for analysis using the available storage technologies. Relational databases are a traditional approach of data storage more suitable for structured data formats and are constrained by Atomicity, Consistency, Isolation, and Durability (ACID) properties. In the modern world, data in the form of word documents, pdf files, audio and video formats are unstructured. Therefore, tables and schema definition are not a major concern, Relational databases, such as Mysql, may not be suitable to serve such Bigdata. An alternate approach is to use the emerging Nosql databases. In this work, a comprehensive performance and scalability evaluation of large web collection data in data stores, such as Nosql-Cassandra and relational-Mysql, is presented. These systems are evaluated with data and workloads that can be found related to Bigdata, yielding scalability of applications. The insights presented in this work serve not only for performance and scalability, but also as lessons learned and experiences relating to the configuration complexity and evaluation in sorting out the complex queries of what data storage can be used on which usage cases for large data sets. The results show how the Bigdata collected across the Web with billions of records generating continuously are poorly evaluated with Mysql in terms of ‘write’ operations, but how these perform well with Nosql-Cassandra. This paper yields a new approach which is unique in representing Nosql-Cassandra’s poor performance in retrieval of records and disk utilisation with ever-increasing loads. The results presented in this paper show an improvement in ‘read’ performance with the proposed architecture and configuration over Mysql, achieving cost saving benefits to any organisation willing to use Nosql-Cassandra for managing Bigdata for heavy loads."
Depok: Faculty of Engineering, Universitas Indonesia, 2015
UI-IJTECH 6:4 (2015)
Artikel Jurnal  Universitas Indonesia Library
cover
Rafi Dwi Rizqullah
"Media sosial telah berkembang pesat dalam masyarakat dunia. Tak terkecuali Twitter yang mendapatkan peningkatan baik dalam jumlah pengguna maupun konten yang dibuat. Namun, Twitter memiliki batasan karakter dalam satu tweet yang menyebabkan perubahan pada pola penulisan para penggunanya. Pengguna Twitter mulai memodifikasi penulisan dengan kata baku menjadi kata tidak baku, salah satunya dengan menggunakan bahasa campuran. Untuk keperluan analisis tweet, normalisasi teks diperlukan untuk mengubah kata tidak baku menjadi baku untuk memudahkan analisis. State-of-the-art pada normalisasi teks Twitter berbahasa campuran Indonesia dan Inggris saat ini adalah model statistical machine translation (SMT), namun model SMT masih memiliki kelemahan pada beberapa jenis perubahan kata. Penelitian ini berfokus pada normalisasi teks Twitter Indonesia berbahasa campuran Indonesia dan Inggris dengan menggunakan salah satu model transformer yaitu UFAL ByT5. Terdapat dua model UFAL ByT5 yang digunakan masing-masing untuk bahasa Indonesia serta bahasa Inggris. Hasil penelitian menunjukkan model UFAL ByT5 unggul dalam normalisasi teks dibandingkan model SMT, dengan selisih nilai BLEU 0,88 persen lebih besar.

Social media has been grown rapidly in the global community. It also includes Twitter, which is getting increase in both users and content created. However, Twitter has character limit in one tweet which causes changes to the writing patterns of its users. Twitter users began to modify their writing from using formal words into non-formal words, one of which was using code-mixed language. For tweet analysis purposes, text normalization is required to transform non-formal words into formal ones to help analysis process. The recent state-of-the-art for Indonesian-English code-mixed Twitter text normalization is with statistical machine translation (SMT) models, however the SMT model still has weakness in word recognition. This research focuses on the Indonesian and English code-mixed Twitter text normalization using one of transformer model which is UFAL ByT5. There are two UFAL ByT5 models that were used, each of them are for Indonesian and English language. Research result shows that UFAL ByT5 model outperform SMT model on text normalization by 0.88 percent of BLEU score in difference."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>