Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 132710 dokumen yang sesuai dengan query
cover
Ezra Pasha Ramadhansyah
"Sistem perolehan pertanyaan serupa diimplementasikan pada banyak situs tanya jawab, khususnya pada forum tanya jawab kesehatan. Implementasi dari sistem pencarian pertanyaan serupa dapat beragam seperti text based retriever dan neural ranker. Permasalahan utama dari neural ranker adalah kurangnya penelitian dalam bahasa indonesia untuk modelnya, khususnya untuk yang menggunakan BERT sebagai model untuk deteksi pertanyaan serupa. Pada penelitian ini akan dicari tahu sejauh apa neural re-ranker BERT dapat memperbaiki kualitas ranking dari text-based retriever jika diterapkan fine-tuning pada model. Model yang digunakan oleh penelitian berupa BERT dan test collection yang digunakan merupakan dataset forum kesehatan yang disusun oleh Nurhayati (2019). Untuk mengetahui sejauh mana model berbasis BERT dapat berguna untuk re-ranking, eksperimen dilakukan pada model pre-trained multilingualBERT, indoBERT, stevenWH, dan distilBERT untuk melihat model yang terbaik untuk di-fine-tune. Penelitian juga mengusulkan dua metode fine-tuning yakni attention mask filter dengan IDF dan freezed layer dengan melakukan freezing pada beberapa layer di dalam BERT. Model dan metode ini kemudian diuji pada beberapa skenario yang telah ditentukan. Hasil dari eksperimen menunjukkan bahwa re-ranker dapat meningkatkan kualitas text based retriever bila di-fine-tune dengan metode dan skenario tertentu.
Beberapa model memberikan hasil yang lebih baik dengan dataset forum kesehatan dan dengan text based retriever BM25 dan TF-IDF. Model multilingualBERT dan metode fine-tuning layer freezing memberikan hasil yang terbaik dari semua kombinasi. Kenaikan tertinggi terdapat pada kombinasi BM25 dan multilingualBERT dengan layer freezing dengan kenaikan sebesar 0.051 dibandingkan BM25.

The system of acquiring similar questions is implemented on many Question and Answering sites, including health forums. Implementations of similar question search systems can vary, such as text-based retrievers and neural rankers. The main issue with neural rankers is the lack of research in Indonesian language for neural ranker models, especially those using BERT. This study aims to investigate how far BERT as a neural re-ranker can improve the ranking quality of a text-based retriever when applied with fine-tuning. The model used in this research is BERT, and the test collection used is a health forum dataset compiled by Nurhayati (2019). To answer the research question, experiments were conducted on multiple pre-trained models: multilingual BERT, IndoBERT, stevenWH, and distilBERT to identify the best model for fine-tuning. This study also proposes two new fine-tuning methods: attention mask filter with IDF threshholding and frozen layer by freezing some layers within BERT. These models and methods were then tested under predefined scenarios. The experiment results show that the re-ranker can enhance the quality of the text-based retriever when fine-tuned with specific methods and scenarios. These models perform especially well using the health form dataset aswell as using the text based retrievers BM25 and TF-IDF. Out of all models, multilingulBERT performed the best with freezed layer fine-tuning performing as the best fine-tuning method. The most significant increase of all combinations is the combination of BM25 and multilingualBERT with freezed layer fine-tuning with a 0.051 increase compared to the baseline BM25."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Febi Imanuela
"Perkembangan teknologi pada bidang kesehatan di Indonesia telah menghadirkan layanan konsultasi dengan dokter melalui forum tanya jawab kesehatan. Seiring dengan berjalannya waktu, muncul permasalahan pertanyaan duplikat pada forum. Permasalahan ini perlu ditangani agar dapat mempercepat proses pengembalian jawaban untuk keluhan yang serupa dan menjaga jumlah pertanyaan agar tetap scalable dengan kapasitas dokter penjawab. Namun, pertanyaan duplikat merupakan suatu tantangan tersendiri karena kompleksitas bahasa natural. Penelitian ini memanfaatkan pendekatan Information Retrieval untuk mengidentifikasi pasangan pertanyaan duplikat pada domain ini sebagai suatu pasangan query dan dokumen yang relevan. Setelah melakukan ranking awal menggunakan BM25 sebagai model baseline, performa hasil ranking ditingkatkan melalui proses re-ranking menggunakan model learning-to-rank LambdaMART yang berbasis fitur. Penelitian ini memanfaatkan fitur perhitungan jarak dan similaritas antara pasangan vektor representasi query dan dokumen, yang diperoleh dari model word embeddings dan transformer. Selain itu, diusulkan fitur scoring yang diperoleh dari model Cross Encoder, serta model BM25 yang menjadi model baseline. Penelitian ini juga mengusulkan fitur-fitur yang mempertimbangkan jumlah keywords gagasan utama query yang dikandung dokumen. Evaluasi eksperimen dilakukan menggunakan cross validation dan error analysis, dengan MRR sebagai metrik utama. Performa tertinggi yang dicapai eksperimen adalah MRR senilai 0,951 dengan p value senilai 0,016 yang signifikan terhadap baseline. Dengan demikian, penelitian ini menunjukkan dukungan empiris terhadap peningkatan efektivitas model re-ranking yang diusulkan untuk melakukan identifikasi otomatis terhadap karakteristik query dan dokumen yang relevan, yakni pasangan pertanyaan duplikat dalam konteks ini.

The development of technology in the healthcare sector in Indonesia has introduced consultation services with doctors through consumer health forums. Over time, the issue of duplicate questions on these forums emerged. This problem needs to be addressed to accelerate the response process for similar questions and to keep the number of questions scalable with the capacity of the responding doctors. However, duplicate questions present their own challenge due to the complexity of natural language. This study utilizes Information Retrieval approach to identify pairs of duplicate questions in this domain as query and relevant document pairs. After initial ranking using BM25 as the baseline model, the ranking performance is improved through a re-ranking process using the feature-based LambdaMART model. This study leverages features that calculate the distance and similarity between vector representations of the query and document, obtained from word embedding and transformer models. Additionally, scoring features derived from the Cross Encoder model and the BM25 baseline model are proposed. The study also suggests features that consider the number of main idea keywords from the query that is also contained within the document. Experiment evaluation is conducted using cross validation and error analysis, with Mean Reciprocal Rank (MRR) as the primary metric. The highest performance achieved in the experiments is an MRR of 0.951 with a p-value of 0.016, which is significant to the baseline. Thus, this study provides empirical support for the effectiveness of the proposed re-ranking model for automatic identification of the query and relevant document, specifically duplicate question pairs in this context."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Heidi Renata Halim
"Seiring dengan majunya teknologi di Indonesia, banyak layanan kesehatan online yang bermunculan. Pengguna bisa bertanya langsung pada tenaga medis profesional tiap mereka memiliki masalah kesehatan ringan yang tidak membutuhkan janji temu langsung dengan dokter. Sebagai pengguna, tentunya mereka mengharapkan respon yang cepat dari situs yang mereka gunakan, hal ini kedengarannya mustahil dilakukan karena tidak semua tenaga medis profesional yang bekerja pada layanan medis tersebut ada setiap saat memantau semua pertanyaan yang masuk. Namun, hal ini bisa dilakukan dengan cara mencocokan pertanyaan yang baru dimasukkan dan mencari pertanyaan yang sudah pernah ditanyakan di masa lalu yang memiliki persamaan dengan pertanyaan yang baru dimasukkan. Secara singkat, kita bisa mencari duplikat dari pertanyaan yang ditanyakan oleh pengguna dan mengembalikan jawaban dari pertanyaan duplikat tersebut daripada menunggu jawaban langsung dari dokter. Penelitian ini akan menggunakan pendekatan temu balik informasi dalam mendeteksi pertanyaan duplikat yang pernah ditanyakan di masa lalu. Selain itu, penelitian ini juga akan mengkombinasikan ekspansi kata yang dilakukan kepada kueri, dokumen, serta filter kata-kata stopword untuk meningkatkan skor reciprocal-rank dan recall dari model yang digunakan. Hasil penelitian ini menyimpulkan bahwa ekspansi kata yang dilakukan pada kueri serta dokumen tidak menghasilkan skor reciprocal rank dan recall yang lebih baik. Penggunaan word embedding untuk memperbanyak kata stopword yang dihapus dari data mampu menghasilkan skor reciprocal rank yang lebih tinggi meskipun nilainya belum signifikan.

With the advancement of technology and internet in Indonesia, many online healthcare services have emerged where users can directly consult with medical professionals if they have minor health issues that do not require an in-person appointment with a doctor. As users, they naturally expect quick responses from the sites they use. This seems impossible to do as not all medical professionals working who are working on these services are always available to monitor every incoming question. However, this can be achieved by matching newly submitted questions with previously asked questions that have similarities. In short, we can search for duplicates of the questions asked by users and return answers from those duplicate questions instead of waiting for a direct response from a doctor. This research will use an information retrieval approach to detect duplicate questions that have been asked in the past. Additionally, this study will combine query expansion, document expansion, and stopwords filtering to improve the reciprocal-rank and recall scores of the model used. This research concludes that query and document expansion do not yield better reciprocal rank and recall scores. On the other hand, using
word embedding to expand the stopwords list removed from the data can help achieve higher reciprocal rank scores, although the improvement displays are still not significant enough to be categorized as a major change."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ilhan Firka Najia
"Penelitian ini mengeksplorasi efektivitas penggunaan neural rerankers yang telah dilatih sebelumnya dalam meningkatkan kinerja model berbasis text matching seperti BM25 untuk digunakan dalam deteksi pertanyaan duplikat pada consumer health forum. Studi ini juga meneliti metode agregasi hasil reranking dari berbagai neural rerankers untuk menghasilkan performa yang lebih baik dibandingkan penggunaan reranker individual. Metode reranking pertama menggunakan BM25, diikuti oleh reranking kedua menggunakan model neural seperti cross-encoder/ms-marco-MiniLM-L-12-v2, paraphrase-MiniLM-L6-v2, dan lainnya. Tahap ketiga melibatkan teknik rank fusion seperti Borda Fuse, Condorcet, dan Weighted Combsum. Hasil menunjukkan bahwa kombinasi reranking dengan neural reranker secara signi kan meningkatkan efektivitas model BM25, terutama saat menggunakan teknik rank fusion yang lebih canggih seperti Weighted Combsum. Studi ini menyarankan bahwa agregasi hasil reranking dapat mengatasi kelemahan individual reranker dan memberikan hasil yang lebih konsisten dan efektif. Penelitian ini membuka jalan untuk eksplorasi lebih lanjut dalam optimisasi kombinasi model untuk pencarian informasi yang lebih akurat dan e sien.

This study explores the effectiveness of using pre-trained neural rerankers in improving the performance of text matching based models such as BM25 for use in duplicate question detection in textitconsumer health forum. This study also examines the method of aggregating reranking results from various neural rerankers to produce better performance than using individual rerankers. The rst reranking method used BM25, followed by the second reranking using neural models such as cross-encoder/ms-marco-MiniLM-L-12-v2, paraphrase-MiniLM-L6-v2, and others. The third stage involves rank fusion techniques such as BordaFUSE, Condorcet, and Weighted COMBSUM. Results show that the combination of reranking with neural rerankers signi cantly improves the effectiveness of the BM25 model, especially when using more advanced rank fusion techniques such as Weighted COMBSUM. This study suggests that aggregation of reranking results can overcome the weaknesses of individual rerankers and provide more consistent and effective results. This research paves the way for further exploration in model combination optimization for more accurate and ef cient information retrieval."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Mahardika Krisna Ihsani
"Penelitian pada data berbahasa Inggris menemukan bahwa Dense Passage Retriever atau DPR mempunyai keterbatasan dalam hal menangani kondisi out-of-distribution data termasuk out-of-domain data. Saat ini, data latih berbahasa Indonesia yang bisa digunakan untuk melatih DPR cukup terbatas. Semua data latih tersebut berasal dari domain umum yang jika digunakan untuk melatih DPR mungkin menghasilkan performa yang rendah pada data uji dengan domain spesifik. Penelitian ini membandingkan antara performa DPR yang dilatih pada data latih dengan domain berbeda dengan domain data uji dan performa sparse retriever model untuk mengetahui apakah fenomena performa DPR yang tidak terlalu baik pada kondisi out-of-domain data juga terjadi pada bahasa Indonesia. Selain itu, penelitian ini mengevaluasi dua pendekatan untuk memperbaiki performa DPR dan mengatasi permasalahan keterbatasan data latih yakni pendekatan untuk memasukkan informasi exact-term matching kepada DPR dan pendekatan untuk mencoba melatih DPR pada beberapa jenis synthetic dataset berbahasa Indonesia. Hasil eksperimen menunjukkan bahwa performa DPR yang tidak terlalu baik pada data uji out-of-domain juga terjadi pada bahasa Indonesia yang ditunjukkan dengan skor evaluasi DPR yang relatif rendah terhadap skor evaluasi sparse retriever model. Selain itu, salah satu metode pemasukan informasi exact-term matching pada DPR yakni hybrid DPR-sparse retriever model menghasilkan skor BPref yang cenderung lebih baik dibandingkan skor BPref DPR pada seluruh eksperimen. Hasil pengujian pendekatan pelatihan DPR dengan synthetic dataset menunjukkan bahwa DPR yang dilatih dengan synthetic dataset pada penelitian ini menghasilkan skor BPref yang mengimbangi skor BPref DPR yang dilatih dengan data latih yang memang bisa digunakan untuk melatih DPR. Investigasi lebih lanjut pada hasil pengujian tersebut menunjukkan bahwa proses fine-tuning dan faktor domain data latih mungkin bisa mempengaruhi performa DPR. Selain itu, panjang token data latih dan faktor ukuran data latih tidak mempunyai korelasi terhadap performa DPR.

Researches on English data found that Dense Passage Retriever (DPR), a neural information retrieval model, has limitation on handling out-of-distribution data, including out-of-domain data. Information retrieval datasets in Indonesian that can be used for training DPR are quite scarce. All of those datasets are open-domain which may produce low model performance when the DPR tested on certain domain-specific dataset. This research compared the DPR performance to sparse retriever model performance to check whether DPR’s lack of performance when it’s tested on out-of-domain also can occur on Indonesian dataset. This research also tested two approaches that might improve DPR performance on that condition and also might overcome the training data scarcity problem that consist of methods to embed exact-term matching information into DPR and DPR fine-tuning on several Indonesian synthetic training datasets. The experiment result shows that DPR’s lack of performance on out-of-domain data also occur in Indonesian dataset which can be shown that all evaluation scores produced by DPR which is trained on out-of-domain training data are lower than any sparse retriever model’s evaluations scores. Result shows that hybrid DPR-sparse retriever model produced relatively higher BPref than DPR BPref. Additionally, result shows that DPR which is fine-tuned on synthetic datasets that were used on this research produced relatively in-par BPref score in compare to BPref score that is produced by DPR which is fine-tuned on training datasets that are inherently can be used to fine-tune DPR. Further investigation on the synthetic dataset training approach results found that fine-tuning process and training data’s domain may affect DPR performance. Additionally, training data token length and training data size don’t have correlation with the DPR performance according to this experiment."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Dimas Ichsanul Arifin
"Volume data hukum yang dihasilkan semakin besar setiap harinya. Oleh karena itu, kebutuhan akan sistem otomatis dan semi-otomatis, seperti sistem temu-balik informasi meningkat. Sistem temu-balik informasi dokumen hukum membantu praktisi hukum menemukan dokumen yang relevan dengan cepat dan efisien. Terkait hal tersebut, penelitian ini mengeksplorasi penggunaan model neural re-ranker pada sistem temu-balik informasi dokumen hukum dalam bahasa Inggris dan bahasa Indonesia. Tidak hanya itu, penelitian ini juga membahas beberapa pendekatan untuk meningkatkan efektivitas proses fine-tune dari model neural re-ranker. Model neural re-ranker dikembangkan untuk melakukan pengurutan ulang terhadap hasil pencarian awal yang didapat dari model pencocokan teks BM25. Implementasi ini menggunakan beberapa model neural re-ranker seperti BERT, IndoBERT, mBERT, dan XLM-RoBERTa yang melalui proses fine-tune. Hasil eksperimen menunjukkan bahwa model neural re-ranker BERT, IndoBERT, dan mBERT dapat meningkatkan performa dari sistem temu-balik informasi dokumen hukum yang sebelumnya hanya memanfaatkan model berbasis pencocokan teks seperti TF-IDF dan BM25. Peningkatan ini terlihat dari Skor Mean Average Percision (MAP) yang meningkat dari 0,760 menjadi 0,834 pada salah satu skenario yang dilakukan. Hal ini menunjukkan kinerja keseluruhan sistem temu-balik informasi yang lebih baik pada berbagai kueri. Sementara itu, pendekatan berupa pembekuan lapisan encoder berguna untuk meningkatkan efektifitas dari implementasi dari sistem temu-balik informasi yang memanfaatkan model neural re-ranker.

The volume of legal data produced is getting bigger every day. Therefore, the need for automated and semi-automatic systems, such as information retrieval systems, is increasing. Legal document information retrieval systems help legal practitioners find relevant documents quickly and efficiently. In this regard, this research explores the use of the neural re-ranker model in a legal document information retrieval system in English and Indonesian. Not only that, this research also discusses several approaches to increase the effectiveness of the fine-tune process of the neural re-ranker model. A neural re-ranker model was developed to re-rank the initial search results obtained from the BM25 text matching model. This implementation uses several neural re-ranker models such as BERT, IndoBERT, mBERT, and XLM-RoBERTa which go through a fine-tune process. Experimental results show that the neural re-ranker models BERT, IndoBERT, and mBERT can improve the performance of legal document information retrieval systems that previously only utilized text matching-based models such as TF-IDF and BM25. This improvement can be seen from the Mean Average Percision (MAP) score which increased from 0,760 to 0,834 in one of the scenarios carried out. This indicates better overall performance of the information retrieval system on various queries. Meanwhile, the approach of freezing the encoder layer is useful for increasing the effectiveness of the implementation of an information retrieval system that utilizes the neural re-ranker model."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Radhimas Djan
"ABSTRACT
A conversational agent is a software that can communicate with humans by using natural language. Earlier approaches to build conversation agents were rule-based. With the rise of deep learning, the neural network models have been used to automatically infer the conversations used by the agents. This method allows skipping the cumbersome feature engineering process in the training and results in the application of conversational agents to the various field. There is one major problem in the neural network called catastrophic forgetting, a condition where the neural network will forget knowledge learned in the previous training phase and a new knowledge will be acquired. This problem can be mitigated by using a continuous learning model to sustain the old knowledge while keep learning new knowledge. In this project, we propose the application of neural conversational model on Dota 2, an online game with the continuous update, bug fixes, and new features. The continuous update feature has led to players struggling to stay informed of changes in the game features and characters. We propose the usage of a conversational agent with a continuous learning model to learn the everchanging patch notes while still maintaining previous patches knowledge. Our project has shown that elastic weight consolidation is not suitable for a dataset with text properties and would be better to be applied in other types of datasets which has been conducted in previous studies.

ABSTRACT
Conversational agent, adalah perangkat lunak yang digunakan untuk berkomunikasi dengan user menggunakan natural language. Pembuatan conversational agent sebelumnya menggunakan rule-based. Dengan munculnya Deep learning, model menggunakan neural network untuk menyimpulkan pembicaraan di dalam percakapan secara otomatis. Metode ini memungkinkan untuk melewati proses feature engineering di masa pelatihan dan menghasilkan conversational agent dalam banyak bidang. Namun ada satu masalah besar menggunakan neural network yaitu model akan melupakan pengetahuan yang sudah dipelajari dalam masa pelatihan sebelumnya dan pengetahuan baru akan didapatkan. Masalah ini bias di mitigasi dengan menggunakan continuous learning model untuk mempertahankan pengetahuan lama sambal mempelajari pengetahuan baru. Di dalam proyek ini, kami mengusulkan penerapan model percakapan neural network pada Dota 2, game online yang memiliki pembaruan berkelanjutan seperti memberbaiki bug dan fitur baru. Fitur pembaruan berkelanjutan telah meyebabkan pemain berupaya untuk tetap mendapatkan informasi tentang perubahan fitur dan karakter. Kami mengusulkan penggunaan conversational agent dengan continuous learning agar model dapat mempelajari perubahan yang terjadi di dalam permainan tersebut dan mempertahankan pengetahuan sebelumnya. Project ini telah menunjukkan bahwa elastic weight consolidation tidak cocok untuk dataset dengan property teks dan akan lebih baik untuk diterapkan pada jenis dataset lain yang telah dilakukan dalam studi sebelumnya"
2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Oki Saputra Jaya
"ABSTRAK
Analisis sentimen adalah kegiatan untuk mengklasifikasikan opini publik tentang entitas dalam data tekstual menjadi positif atau negatif. Salah satu metode otomatis untuk analisis sentimen adalah convolution neural network CNN. CNN terdiri dari banyak lapisan dengan banyak parameter yang dapat disesuaikan sesuai kebutuhan untuk membentuk arsitektur tertentu. CNN terbukti efektif untuk penggunaan satu domain data. Namun, CNN kurang akurat jika digunakan dalam domain yang berbeda. Oleh karena itu, digunakan transfer learning untuk mentransfer pengetahuan dari source domain ke target domain yang berbeda namun terkait. Dalam penelitian ini, diuji sensitivitas parameter dan akurasi CNN untuk transfer learning pada analisis sentimen tweet berbahasa Indonesia. Simulasi pada penelitian ini menunjukkan bahwa parameter CNN sangat sensitif dan akurasi transfer learning mendapatkan hasil yang berbeda tergantung pada skenario transfer learning yang digunakan.

ABSTRACT
Sentiment analysis is an activity to classify public opinion about entities in textual data into positive or negative. One of the automatic methods for sentiment analysis is convolution neural network CNN. CNN consists of many layers with many parameters that can be adjusted as needed to form a specific architecture. CNN works well for the use of a single data domain. However, CNN is less accurate if used in different domains. Therefore, transfer learning is used to transfers knowledge from source domains to different but related target domains. In this reserach, examined parameter sensitivity and accuracy of CNN for transfer learning of sentiment analysis in Indonesian tweets. Simulations in this paper show that CNN parameters are very sensitive and the accuracy of learning transfer gets different results depending on the scenario of transfer learning. "
2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Amanda Nydia Augustizhafira
"Analisis sentimen merupakan bagian dari data mining text mining , yaitu proses memahami, mengekstrak, dan mengolah data tekstual secara otomatis untuk mendapatkan informasi. Pada penelitian ini, analisis sentimen diterapkan pada salah satu media sosial, yaitu Twitter. Analisis sentimen tergolong sebagai masalah klasifikasi yang dapat diselesaikan menggunakan salah satu metode machine learning, yaitu Neural Network. Pada machine learning, data dibagi menjadi data pelatihan dan data pengujian yang berasal dari domain yang sama.
Permasalahan utama pada penelitian ini adalah data pelatihan dan data pengujian berasal dari dua domain yang berbeda, sehingga perlu diterapkan pembelajaran lain selain machine learning. Masalah tersebut dapat diselesaikan dengan menggunakan transfer learning. Transfer learning merupakan suatu pembelajaran model yang dibangun oleh suatu data pelatihan dari suatu domain dan diuji oleh suatu data pengujian dari domain yang berbeda dari domain data pelatihan. Simulasi dalam penelitian ini menghasilkan suatu akurasi transfer learning dengan metode Neural Network yang nantinya akan diuji dengan fitur n-gram bi-gram dan tri-gram serta satu metode seleksi fitur, yaitu Extra-Trees Classifier.
Dalam penelitian ini, nilai akurasi transfer learning tertinggi didapat saat hidden layer berjumlah satu. Sebagian besar nilai akurasi tertinggi didapat saat penggunaan 250 neuron pada hidden layer. Fungsi aktivasi ReLU dan tanh menghasilkan nilai akurasi yang lebih tinggi dibandingkan fungsi aktivasi logistic sigmoid. Penggunakan metode seleksi fitur dapat meningkatkan kinerja transfer learning sehingga nilai akurasinya lebih tinggi dibandingkan simulasi tanpa penggunaan metode seleksi fitur.

Sentiment analysis is a part of data mining text mining , which is the process of understanding, extracting, and processing textual data automatically to obtain information. In this research, sentiment analysis is applied to one social media called Twitter. Sentiment analysis is categorized as a classification problem that can be solved using one of machine learning methods, namely Neural Network. In machine learning, data is divided into training data and test data from the same domain.
The main problem in this research is training data and test data come from two different domains, so it is necessary to apply other learning beside machine learning. The problem can be solved by using transfer learning. Transfer learning is a model learning constructed by a training data from a domain and tested by a test data from a different domain from the training data domain. The simulation in this research resulted in an accuracy of learning transfer with Neural Network method which will be tested using n grams bi grams and tri grams and one feature selection method called Extra Trees Classifier.
In this research, the highest value of transfer learning accuracy is obtained when one hidden layer is used. Most of the highest accuracy values are obtained from the use of 250 neurons on the hidden layer. The activation function of ReLU and tanh yield a higher accuracy value than the logical activation function sigmoid . The use of feature selection method can improve the transfer learning performance so that the accuracy value is higher than simulation without the use of feature selection method.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Tsaqif Naufal
"Seiring dengan semakin banyaknya masyarakat yang menggunakan forum tanya-jawab kesehatan online, kebutuhan akan adanya sistem tanya-jawab kesehatan yang dapat berjalan secara otomatis semakin besar. Salah satu bagian penting dari sistem tanya-jawab kesehatan otomatis adalah question processing untuk mendapatkan informasi relevan dari pertanyaan pengguna. Terdapat beberapa task yang merupakan bagian dari question processing, di antaranya pengenalan pertanyaan, pengenalan entitas kesehatan, dan ekstraksi frase kunci. Pada penelitian ini, penulis mencoba tiga model untuk menyelesaikan ketiga task tersebut, yaitu IndoDistilBERT, IndoDistilBERT-BiLSTMs, dan IndoDistilBERT-BiLSTMs-CRF. Hasil eksperimen menunjukkan bahwa IndoDistilBERT-BiLSTMs-CRF memberikan hasil terbaik untuk task pengenalan pertanyaan dengan skor F1 sebesar 94,45%, lebih baik 3,15% dibandingkan baseline. Untuk task pengenalan entitas kesehatan, IndoDistilBERT-BiLSTMs memberikan hasil terbaik dengan skor F1 sebesar 73,78%, lebih baik 3,53% dibandingkan baseline. Untuk task ekstraksi frase kunci, model IndoDistilBERT-BiLSTMs memberikan hasil terbaik dengan skor F1 sebesar 77,42%, lebih baik 4,25% dibandingkan baseline. Selain itu, percobaan dengan pendekatan multi-task learning untuk menyelesaikan task pengenalan entitas kesehatan dan ekstraksi frase kunci belum mampu mengungguli hasil dari pendekatan single-task learning untuk masing-masing task.

With the increasing number of people who use health question-and-answer online forum, the need for a health question-and-answer system that can run automatically is getting bigger. One of the important parts of an automated health question-and-answer system is question processing to get relevant information from user queries. There are several tasks which are part of question processing, including question recognition, medical entity recognition, and keyphrases extraction. On this research, we try three models to solve those three tasks, namely IndoDistilBERT, IndoDistilBERT-BiLSTMs, and IndoDistilBERT-BiLSTMs-CRF. Our experiment shows that IndoDistilBERT-BiLSTMs-CRF gives the best results for question recognition task with F1-score of 94,45%, 3,15% better than baseline. For medical entity recognition task, IndoDistilBERT-BiLSTMs gives the best results with F1-score of 73,78%, 3,53% better than baseline. For keyphrases extraction task, IndoDistilBERT-BiLSTMs gives the best results with F1-score of 77,42%, 4,25% better than baseline. Besides that, experiments with multi-task learning approach to solve medical entity recognition and keyphrases extraction have not been able to outperform the results of single-task learning approach for each task."
Depok: Fakultas Ilmu komputer Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>