Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 40133 dokumen yang sesuai dengan query
cover
Siregar, Ahmad Hasan
"Visual Question Answering (VQA) adalah sebuah tugas pembelajaran mesin di mana diberikan pasangan gambar dan pertanyaan visual dalam bahasa natural, mesin harus memprediksi jawaban yang tepat. Kesulitan dari tugas VQA adalah masukan melibatkan dua media informasi (modality), yaitu gambar dan teks. VQA masih merupakan bidang penelitian yang aktif yang setiap tahunnya berbagai peneliti mempublikasikan model VQA, sebuah respons terhadap VQA challenge, dengan akurasi state-of-the-art tahun 2016 di 66.47% dan akurasi state-of-ther-art terakhir tahun 2019 masih di 75.23%. Diketahui bahwa tidak ada data VQA yang tersedia dalam bahasa Indonesia, data VQA Monas disusun dalam bahasa tersebut dengan fokus Monas sebagai konteksnya yang merupakan objek pariwisata di Jakarta. Metode pembelajaran mesin multimodal diajukan menggunakan CNN sebagai image embedding dan beberapa teknik di bidang linguistik sebagai sentence embedding, yaitu Bag-of-Words, fastText, BERT, dan [Bi-]LSTM. Akurasi sebesar 68.39% dicapai pada model dengan performa terbaik. Studi ablasi juga dilaporkan untuk menganalisis pengaruh dari sebuah lapisan individu terhadap akurasi model secara keseluruhan.

Visual Question Answering (VQA) is a machine learning task, given a pair of image and natural language visual question, machine should predict an accurate answer. Difficulty of VQA lies in the fact that the inputs has two information media (modality), i.e. image and text. VQA is an active research field as each year researchers still publish VQA models, a response to a VQA challenge, with state-of-the-art accuracy in 2016 at 66.47% and the latest state-of-the-art accuracy in 2019 is still at 75.23%. Known that there is no VQA dataset available in Bahasa Indonesia, a VQA Monas dataset is established in that language with focus on Monas as the context, a Jakarta tourism object. A multimodal machine learning method is proposed based on CNN for image embedding and several techniques in linguistic field for sentence embedding, i.e. Bag-of-Words, fastText, BERT, and [Bi-]LSTM. Accuracy of 68.39% is achieved on the best performing model. Ablation studies is also shown to analyze the impact of a layer to model’s accuracy as a whole."
Depok: Fakultas Ilmu Kompter Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nur Rachmawati
"Metadata statistik memiliki peran yang sangat penting bagi masyarakat. Dengan adanya metadata statistik, kita dapat mengetahui segala informasi mengenai semua kegiatan statistik yang dilakukan. Pada penelitian ini kami akan membangun sistem Closed Domain Question Answering (CDQA) mengenai metadata statistik (CDQA-Metadata Statistik). Sistem ini dibangun dengan menggunakan metode transfer learning pada data human question dan automatic question. Penggunaan metode transfer learning digunakan karena benchmark yang besar mengenai metadata statistik belum ada sama sekali. Pada penelitian ini kami akan menggunakan arsitektur retriever(BM25)-reader(IndoBERT) berbasis transfer learning. Ada tiga eksperimen utama yang kami lakukan. Hasil eksperimen pertama kami menunjukkan bahwa pada data human question model twostage fine-tuning (human) yang merupakan model dengan metode transfer learning secara statistik sangat signifikan mengguguli model non transfer learning dengan peningkatan exact match sebesar 53 kali lipat dan f1-score sebesar 9 kali lipat. Kemudian pada data automatic question, model two-stage fine-tuning (automatic) yang merupakan model dengan metode transfer learning secara statistik signifikan mengguguli model non transfer learning dengan peningkatan 80 kali lipat untuk exact match dan 13 kali lipat untuk f1-score. Hasil eksperimen kedua kami menujukkan bahwa sistem CDQAMetadata Statistik berbasis transfer learning secara statistik signifikan lebih baik pada data automatic question dibandingkan data human question. Hal ini mungkin disebabkan pada data automatic question memiliki term-of overlap yang lebih banyak dibandingkan data human question. Lalu pada hasil eksperimen ketiga menunjukkan bahwa pada data human question, penambahan data automatic question saat fine-tuning tidak dapat meningkatkan performa CDQA-Metadata Statistik. Begitu juga pada data automatic question, penambahan data human question saat fine-tuning ternyata tidak dapat meningkatkan performa CDQA-Metadata Statistik.

Statistical metadata plays a very important role in society. With statistical metadata, we can find out all the information regarding all statistical activities carried out. In this research we will build a Closed Domain Question Answering system (CDQA) regarding statistical metadata (CDQA-Statistical Metadata). This system was built using the transfer learning method on human question and automatic question data. The use of the transfer learning method is used because large benchmarks regarding statistical metadata do not yet exist. In this research we will use a retriever (BM25)-reader (IndoBERT) architecture based on transfer learning. There were three main experiments we conducted. The results of our first experiment show that in human question data the two-stage fine-tuning (human) model, which is a model using the transfer learning method, is statistically very significantly superior to the non-transfer learning model with an increase in exact match of 53 times and f1-score of 9 times. Then in the automatic question data, the two-stage fine-tuning (automatic) model, which is a model using the transfer learning method, statistically significantly outperforms the non-transfer learning model with an increase of 80 times for exact match and 13 times for f1-score. The results of our second experiment show that CDQA-Metadata Statistik system based on transfer learning significantly as statistics get better performance in automatic question data than in human question data. This is because automatic question data have more term-of overlap than human question data. Then the results of the third experiment show that for human question data, the addition of the automatic question data during fine-tuning cannot improve the performance of CDQA-Metadata Statistics. Likewise for automatic question data, the addition of a human question data during fine-tuning apparently did not improve the performance of CDQA-Metadata Statistics."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Median Hardiv Nugraha
"Sektor pariwisata menjadi salah satu sektor yang memiliki banyak potensipemasukan anggaran negara. Salah satu cara untuk meningkatkan pemasukanmelalui sektor pariwisata adalah dengan memanfaatkan teknologi informasi agardapat menarik lebih banyak wisatawan yang datang. Pemanfaatan teknologitersebut adalah dengan menggunakan smart tourism. Implementasi smart tourismyang digunakan pada pariwisata di Indonesia, khususnya untuk objek wisataMonumen Nasional (Monas) adalah dengan memanfaatkan aplikasi telepon pintarberbasis Visual Question Answering (VQA) untuk memberikan informasi detailmengenai objek pariwisata yang sedang diamati dari kamera ponsel. Fokus dariskripsi ini adalah untuk menghasilkan model latihan dengan akurasi deteksi objekyang baik. Hasil dari proses latihan model akan dijadikan sebagai model untukdeteksi objek yang ada di sekitar Monas yang akan digunakan untuk melakukan VQA. Dataset yang digunakan dalam penelitian ini adalah gambar Monas besertaobjek-objek sekitarnya sebanyak 600 gambar dengan label kelas sebanyak 25 kelasobjek. Jaringan yang digunakan untuk melakukan deteksi objek adalah denganmenggunakan YOLO dan RetinaNet, dimana nantinya kedua jaringan ini akandilakukan komparasi dengan mencari skor akhir dari hasil evaluasi kedua modelyang telah dihasilkan. Dengan menggunakan dataset orisinil, pada jaringan YOLO mean average precision (mAP) yang didapatkan dengan rentang nilai confidencelevel threshold 0,1 sampai 0,9 berkisar antara 60,77% sampai 71,99%, sedangkanuntuk jaringan RetinaNet mAP yang didapatkan berkisar antara 72,18% sampai92,98%. Dengan menggunakan dataset augmentasi, pada jaringan YOLO mAPyang didapatkan berkisar antara 52,51% sampai 93,72%, sedangkan untuk jaringanRetinaNet mAP yang didapatkan berkisar antara 23,8% sampai 56,19%. Untuk skorArea Under Curve (AUC) pada dataset orisinil sebesar 0,99 dan 0,96 pada datasetaugmentasi. Berdasarkan hasil eksperimen ini dapat disimpulkan model YOLOdapat mendeteksi lebih baik dibandingkan dengan RetinaNet dan datasetaugmentasi dapat menghasilkan deteksi gambar lebih baik dibandingkan dengandataset orisinil.

Tourism sector has become one of the most potential income for some countires.One of the way to increase income from tourism sector is to implement informationtechnology so it can attract more tourists to come. The technology that can beimplemented is smart tourism. One of the smart tourism implementations forIndonesia tourism, especially for Monumen Nasional (Monas) tourism destinationis mobile based Visual Question Answering (VQA) application that can providedetailed information about tourism object from mobile phone camera. Focus of thisthesis is to produce training model with good detection accuracy. The result of themodel training process will be used as model for object detection model that willbe used for doing VQA. Dataset that will be used for this research are 600 picturescontaining Monas and 25 surrounding objects called class. The networks that willbe used for object detection is using YOLO and RetinaNet, where both of thesenetworks will be compared each other by searching the accuracy from evaluationmetric from both networks. By using original dataset, in YOLO network the meanaverage precision (mAP) score is between 60.77% to 71.99% with 0.1 to 0.9confidence level threshold range and in RetinaNet network the mAP score isbetween 72.18% to 92.98%. By using augmented dataset, in YOLO network themAP score is between 52.51% to 93.72% and in RetinaNet network the mAP scoreis between 23,8% to 56,19%. The Area Under Curve (AUC) score for originaldataset is 0.99 and 0.96 for augmented dataset using YOLO network. Based on theevaluation result, YOLO can detect objects better than RetinaNet and augmenteddataset can produce better detection than original dataset.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Irfan Budi Satria
"Dalam proses berkendara, pengemudi memiliki keterbatasan akan informasi selain dari panel instrumen (dashboard) dan penglihatan mereka, sehingga selalu terdapat resiko bahwa pengemudi lengah dan melakukan kesalahan. Untuk membantu pengemudi, salah satu pengembangan terkini di industri otomotif adalah Driver Assistence System atau DAS, yang ditujukan untuk membantu dengan cara memberikan informasi yang komprehensif mengenai kondisi kendaraan maupun kondisi sekitar kendaraan. Informasi yang didapatkan dapat berupa data kendaraan melalui sensor internal, serta data sensor eksternal seperti Kamera. Sebuah kendala dalam menelaah informasi dari Kamera adalah kemampuan untuk mendeteksi jalan dan mengidentifikasi objek yang ada di sekitar, yang umumnya memerlukan biaya komputasi yang cukup besar, sehingga masih tergolong kurang aksesibel.
Dalam penelitian ini, dikembangkan sebuah rancangan sistem gabungan perangkat elektronik dan software, dengan kemampuan membaca data internal kendaraan melalui Sensor Grabber, serta menerima dan menelaah data visual dari Kamera. Algoritma deteksi jalan dan pendeteksian objek dikembangkan menggunakan teknik Image Processing serta Deep Neural Network atau Deep Learning. Data kemudian dapat ditampilkan secara visual melalui Graphical User Interface (GUI) yang dikembangkan dengan bahasa Python.
Sistem dilatih dengan sampel berjumlah 816 gambar. Setelah melakukan pengujian, data internal kendaraan dapat diperoleh secara real-time, pendeteksian jalan dapat dilakukan dengan tingkat akurasi sebesar 84.96%, dan objek di sekitar kendaraan dapat diprediksi serta diketahui jarak dan posisinya menggunakan Deep Learning dengan tingkat kepresisian hingga 63.6%, dengan waktu komputasi total 121.68ms.

During driving, the driver does not have much information regarding the vehicle and its surroundings aside from the instrument panel and their own eyes, therefore there is always the risk of getting caught off-guard and making a mistake. To assist the driver, one of the current breakthroughs in the industry is Driver Assistance System (DAS), which is meant to help drivers by giving them comprehensive information regarding their vehicle or its surroundings. The given information can be the vehicle's data from internal sensors, and data from external sensors such as Cameras. A problem regarding analyzing visual data is how to detect road edges and identify the surrounding objects, which usually requires a sizable amount of computing power, therefore causing the technology to still remain less accessible to the public.
In this research, a system consisting of Electronics and software with the ability to retrieve vehicle data via a Sensor Grabber, as well as obtain and analyze visual data via a camera is designed. A Road Edge Detection an Object Detection Algorithm is developed with Image Processing and Deep Neural Network or Deep Learning Techniques. The data is then visualized through a Graphical User Interface (GUI) developed in Python.
The system is trained using a sample of 816 images. After a testing process, the internal data of the vehicle can be retrieved in real-rime, road edge detection can be achieved with 84.96% accuracy, and object detection with distance calculation using Deep Learning can be done with 63.6% accuracy, using total computation time of only 121.68ms.
"
Depok: Fakultas Teknik Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
"Fokus dari penelitian ini adalah untuk mengembangkan data dan sistem Question Answering (QA) Bahasa Indonesia untuk pertanyaan non-factoid. Penelitian ini merupakan penelitian QA non-factoid pertama untuk Bahasa Indonesia. Adapun sistem QA terdiri atas 3 komponen yaitu penganalisis pertanyaan, pengambil paragraf, dan pencari jawaban. Dalam komponen penganalisis pertanyaan, dengan asumsi bahwa pertanyaan yang diajukan merupakan pertanyaan sederhana, digunakan sistem yang berbasis aturan sederhana dengan mengandalkan kata pertanyaan yang digunakan (?apa?, ?mengapa?, dan ?bagaimana?). Paragraf diperoleh dengan menggunakan pencarian kata kunci baik dengan menggunakan stemming ataupun tidak. Untuk pencari jawaban, jawaban diperoleh dengan menggunakan pola kata-kata khusus yang ditetapkan sebelumnya untuk setiap jenis pertanyaan. Dalam komponen pencari jawaban ini, diperoleh kesimpulan bahwa penggunaan kata kunci non-stemmed bersamaan dengan kata kunci hasil stemming memberikan nilai akurasi jawaban yang lebih baik, jika dibandingkan dengan penggunaan kata kunci non-stemmed saja atau kata kunci stem saja. Dengan menggunakan 90 pertanyaan yang dikumpulkan dari 10 orang Indonesia dan 61 dokumen sumber, diperoleh nilai MRR 0.7689, 0.5925, dan 0.5704 untuk tipe pertanyaan definisi, alasan, dan metode secara berurutan.

Abstract
Focus of this research is to develop QA data and system in Bahasa Indonesia for non-factoid questions. This research is the first non-factoid QA for Bahasa Indonesia. QA system consists of three components: question analyzer, paragraph taker, and answer seeker. In the component of question analyzer, by assuming that the question posed is a simple question, we used a simple rule-based system by relying on the question word used (?what?, ?why?, and ?how?). On the components of paragraph taker, the paragraph is obtained by using keyword, either by using stemming or not. For answer seeker, the answers obtained by using specific word patterns that previously defined for each type of question. In the component of answer seeker, the conclusion is the use of non-stemmed keywords in conjunction with the keyword stemming results give a better answer accuracy compared to non-use of the keyword or keywords are stemmed stem only. By using 90 questions, we collected from 10 people of Indonesia and the 61 source documents, obtained MRR values 0.7689, 0.5925, and 0.5704 for type definition question, reason, and methods respectively.
"
[Fakultas Ilmu Komputer Universitas Indonesia, Institut Teknologi Bandung. Sekolah Teknik Elektro dan Informatika], 2011
pdf
Artikel Jurnal  Universitas Indonesia Library
cover
Febrian Faqih Abdullah
"Pada penelitian ini dilakukan penggabungan citra dari dua sumber energi yang berbeda berdasarkan kerangka kerja deep learning. Tujuannya untuk menghasilkan citra objek dengan material penyusun lebih dari satu yang lebih baik dan lebih informatif. Hasil penelitian menunjukkan bahwa metode yang diajukan dapat menghasilkan citra yang lebih minim noise, kontras yang baik, dan dapat mempertahankan struktur objek. Evaluasi kualitas citra menggunakan metrik objektif, seperti FMIdct, FMIpixel, FMIw, Nabf, dan SSIM, menunjukkan peningkatan dibandingkan dengan metode tradisional. Rata-rata nilai FMI yang lebih tinggi menunjukan bahwa keterkaitan informasi hasil fusi dengan kedua sumber lebih baik dibanding kedua metode pembanding. Nilai Nabf yang lebih rendah menunjukan noise yang muncul akibat dari proses fusi lebih minim dibanding kedua metode lainnya. Nilai SSIM pada hasil fusi menggunakan metode ini juga memiliki nilai yang lebih tinggi dibanding dengan kedua metode yang dibandingkan. Sampel yang memiliki rata-rata nilai metrik terbaik adalah busi dengan nilai tertinggi metrik evaluasi FMIdct adalah 2,96×10^(-1), nilai FMIpixel adalah 9,70×10^(-1), nilai FMIw adalah 3,69×10^(-1), nilai SSIM adalah 9,92×10^(-1), dan nilai Nabf terrendah adalah 3,82×10^(-3). Kesimpulannya, penelitian ini berhasil mengembangkan pendekatan baru dalam penggabungan citra CT menggunakan framework VGG19. Metode ini memiliki potensi untuk meningkatkan diagnosis dan analisis non-medis seperti pada evaluasi kualitas produksi pada industri manufaktur dengan menghasilkan citra yang lebih informatif dan akurat.

In this research, images from two different energy sources are combined based on a deep learning framework. The goal is to produce better and more informative images of objects with more than one constituent material. The results show that the proposed method can produce images with less noise, good contrast, and can maintain the structure of the object. Evaluation of image quality using objective metrics, such as FMIdct, FMIpixel, FMIw, Nabf, and SSIM, shows improvement compared to traditional methods. The higher average FMI value indicates that the fused information is better related to the two sources than the two comparison methods. The lower Nabf value indicates that the noise arising from the fusion process is more minimal than the other two methods. The SSIM value in the fusion results using this method also has a higher value than the two methods compared. The sample that has the best average metric value is the spark plug with the highest value of FMIdct evaluation metric is 2.96×10-1, FMIpixel value is 9.70×10-1, FMIw value is 3.69×10-1, SSIM value is 9.92×10-1, and the lowest Nabf value is 3.82×10-3. In conclusion, this study successfully developed a new approach in CT image fusion using the VGG19 framework. This method has the potential to improve non-medical diagnosis and analysis such as production quality evaluation in the manufacturing industry by producing more informative and accurate images."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Arief Faizin
"ABSTRAK
Marketplace terus mengalami perkembangan yang ditunjukkan oleh jumlah pelanggan dan jumlah penjualan yang terus mengalami peningkatan. Namun, penjualan secara online seperti marketplace memiliki beberapa keterbatasan untuk memberikan pengalaman pembelian yang personal. Sistem rekomendasi dapat membantu marketplace untuk mengatasi keterbatasan tersebut, sehingga pelanggan dapat menemukan produk atau layanan berdasarkan preferensi mereka. Pada penelitian ini, kami mengusulkan untuk mengembangkan sistem rekomendasi produk menggunakan algoritma Neural Collaborative Filtering (NCF). NCF adalah algoritma collaborative filtering berbasis deep learning dan faktorisasi matriks. Sistem rekomendasi produk yang akan dibangun menggunakan data umpan balik implisit dalam bentuk data pembelian dari pelanggan. Umpan balik implisit adalah jenis data yang dapat diandalkan untuk membangun sistem rekomendasi. Hasil penelitian telah menunjukkan bahwa NCF mencapai kinerja terbaik dan paling unggul dibanding metode yang lain.

ABSTRACT
Marketplace continuesly growth as indicated by the number of customers and the number of sales that continue to increase. However, online sales like a marketplace have several limitations to provide a personal purchasing experience. The recommendation system can help the online market to overcome these limitations, so that customers can find products or services based on their preferences. In this study, we propose to develop a product recommendation system using the Neural Collaborative Filtering (NCF) algorithm. NCF is a collaborative filtering algorithm based on deep learning and matrix factorization. The product recommendation system will be built using implicit feedback data in the form of customer purchase data. Implicit feedback is a type of data that can be relied upon to build a recommendation system. The results of the study have shown that NCF achieves the best performance compared to state-of-the-arts methods."
Depok: Fakultas Teknik Universitas Indonesia , 2020
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Novi Yusliani
"Fokus dari penelitian ini adalah untuk mengembangkan data dan sistem Question Answering (QA) Bahasa Indonesia untuk pertanyaan non-factoid. Penelitian ini merupakan penelitian QA non-factoid pertama untuk Bahasa Indonesia. Adapun sistem QA terdiri atas 3 komponen yaitu penganalisis pertanyaan, pengambil paragraf, dan pencari jawaban. Dalam komponen penganalisis pertanyaan, dengan asumsi bahwa pertanyaan yang diajukan merupakan pertanyaan sederhana, digunakan sistem yang berbasis aturan sederhana dengan mengandalkan kata pertanyaan yang digunakan (“apa”, “mengapa”, dan “bagaimana”). Paragraf diperoleh dengan menggunakan pencarian kata kunci baik dengan menggunakan stemming ataupun tidak. Untuk pencari jawaban, jawaban diperoleh dengan menggunakan pola kata-kata khusus yang ditetapkan sebelumnya untuk setiap jenis pertanyaan. Dalam komponen pencari jawaban ini, diperoleh kesimpulan bahwa penggunaan kata kunci non-stemmed bersamaan dengan kata kunci hasil stemming memberikan nilai akurasi jawaban yang lebih baik, jika dibandingkan dengan penggunaan kata kunci non-stemmed saja atau kata kunci stem saja. Dengan menggunakan 90 pertanyaan yang dikumpulkan dari 10 orang Indonesia dan 61 dokumen sumber, diperoleh nilai MRR 0.7689, 0.5925, dan 0.5704 untuk tipe pertanyaan definisi, alasan, dan metode secara berurutan.
Focus of this research is to develop QA data and system in Bahasa Indonesia for non-factoid questions. This research is the first non-factoid QA for Bahasa Indonesia. QA system consists of three components: question analyzer, paragraph taker, and answer seeker. In the component of question analyzer, by assuming that the question posed is a simple question, we used a simple rule-based system by relying on the question word used (“what”, “why”, and “how”). On the components of paragraph taker, the paragraph is obtained by using keyword, either by using stemming or not. For answer seeker, the answers obtained by using specific word patterns that previously defined for each type of question. In the component of answer seeker, the conclusion is the use of non-stemmed keywords in conjunction with the keyword stemming results give a better answer accuracy compared to non-use of the keyword or keywords are stemmed stem only. By using 90 questions, we collected from 10 people of Indonesia and the 61 source documents, obtained MRR values 0.7689, 0.5925, and 0.5704 for type definition question, reason, and methods respectively."
Institut Teknologi Bandung, Sekolah Teknik Elektro dan Informatika, 2011
PDF
Artikel Jurnal  Universitas Indonesia Library
cover
Goodfellow, Ian
""Deep learning is a form of machine learning that enables computers to learn from experience and understand the world in terms of a hierarchy of concepts. Because the computer gathers knowledge from experience, there is no need for a human computer operator to formally specify all the knowledge that the computer needs. The hierarchy of concepts allows the computer to learn complicated concepts by building them out of simpler ones; a graph of these hierarchies would be many layers deep. This book introduces a broad range of topics in deep learning. The text offers mathematical and conceptual background, covering relevant concepts in linear algebra, probability theory and information theory, numerical computation, and machine learning. It describes deep learning techniques used by practitioners in industry, including deep feedforward networks, regularization, optimization algorithms, convolutional networks, sequence modeling, and practical methodology; and it surveys such applications as natural language processing, speech recognition, computer vision, online recommendation systems, bioinformatics, and video games. Finally, the book offers research perspectives, covering such theoretical topics as linear factor models, autoencoders, representation learning, structured probabilistic models, Monte Carlo methods, the partition function, approximate inference, and deep generative models. Deep Learning can be used by undergraduate or graduate students planning careers in either industry or research, and by software engineers who want to begin using deep learning in their products or platforms. A website offers supplementary material for both readers and instructors"--Page 4 of cover."
Cambridge, Massachusetts: The MIT Press, 2016
006.31 GOO d
Buku Teks SO  Universitas Indonesia Library
cover
Mohammad Yani
"Performa sistem tanya jawab berbasis Knowledge Graph (KGQA) sangat dipengaruhi oleh dua tugas, yaitu deteksi entitas dan penautan entitas dan relasi. Daftar entitas dan relasi yang dihasilkan oleh tugas ini akan digunakan oleh konstruktor kueri untuk memperoleh data yang benar dari Knowledge Graph (KG). Telah ada beberapa penelitian terkait kedua tugas ini. Namun, pada kedua tugas ini masih terdapat beberapa isu. Terdapat tiga isu utama pada tugas deteksi entitas. Pertama, tidak semua entitas yang ada di dalam pertanyaan digunakan di dalam kueri. Kedua, sebuah pertanyaan menggunakan entitas, tetapi tidak dikenali oleh Named Entity Recognizer (NER), dan ketiga adalah tidak diketahuinya posisi entitas di dalam Triple. Untuk mengatasi isu pada tugas deteksi entitas ini penulis mengusulkan sebuah pendekatan pola berbasis posisi. Pendekatan ini memanfaatkan pola dari sebuah pertanyaan untuk memprediksi di mana posisi entitas berada di dalam Triple. Sementara itu, pada tugas penautan entitas dan relasi, terdapat dua isu utama yaitu isu kesenjangan leksikal dan ambiguitas entitas. Untuk mengatasi isu-isu tersebut, penulis mengusulkan sebuah pendekatan penautan entitas dan relasi dengan menggunakan konsep pencarian bertahap. Dalam pendekatan ini, prediksi relasi dilakukan sebelum penautan entitas. Selanjutnya, penautan entitas dilakukan secara bertahap dimulai dengan pencarian berbasis teks sampai dengan pencarian berbasis vektor. Hasil evaluasi menunjukkan bahwa pendekatan pola berbasis posisi untuk deteksi entitas memperoleh nilai akurasi lebih baik dari Falcon 2.0, yaitu sebesar 98,91% dan 89,52% pada SimpleQuestions dan LC-QuAD 2.0. Pendekatan pencarian bertahap untuk penautan entitas dan relasi juga menunjukkan akurasi yang lebih baik dari Falcon 2.0. Masing-masing 89,87% dan 74,83% pada SimpleQuestions dan LC-QuAD 2.0 untuk penautan entitas dan 91,74% dan 61,96% pada SimpleQuestions dan LC-QuAD 2.0 untuk penautan relasi.

The performance of knowledge graph question answering (KGQA) systems is significantly influenced by entity detection tasks and entity and relation linking tasks. The correct entities and relations output by the tasks is a must to retrieve the correct data from a KG. Some works have been proposed for the tasks. However, the tasks still have challenging issues. There are three main issues with the entity detection task. First, a question may contain an entity(s) that is/are not used in the query. Second, a question uses an unrecognizable entity(s) by Named Entity Recognizer (NER). The last one is where the position of an entity(s) is unknown in the Triple. To address the issues, we propose an approach called the position-based pattern. While the entity and relation linking task have two main issues, namely, lexical gap and entity ambiguity. To overcome the issues, we propose an approach to gradually link entities and relations. Our proposed approach predicts the relation(s) used by the question first and then gradually searches the proper entity(s) against the entity(s) of the KG by using text-based searching and vector-based searching approach. The position-based pattern outperforms the baselines on SimpleQuestions and LC-QuAD 2.0 datasets, namely 98.91% and 89.52% for SimpleQuestions and LC-QuAD 2.0, respectively. For the entity linking task, using a gradual searching approach reaches 89.87% and 74.83% for SimpleQuestions and LC-QuAD 2.0, respectively, on average. This approach outperforms the baseline for relation linking, namely, 91.74% and 61.96% for SimpleQuestions and Lc-QuAD 2.0, respectively."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
D-pdf
UI - Disertasi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>