Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 20 dokumen yang sesuai dengan query
cover
Aulia Nur Fadhilah
"Indonesia merupakan negara hukum yang mengadopsi asas Fictie Hukum. Asas tersebut memandang setiap orang tahu hukum tanpa pengecualian. Penyediaan akses yang mudah terhadap produk hukum merupakan konsekuensi dari hal tersebut. Meski telah tersedia beberapa layanan daring pencarian hukum, baik oleh pemerintah maupun swasta, layanan tersebut belum mampu menangkap relasi intradokumen dan antardokumen dengan baik. Dalam meningkatkan sistem pencarian hukum, terdapat knowledge graph (KG) bernama LexID yang menghadirkan representasi peraturan perundang-undangan Indonesia dalam sebuah graf. KG tersebut dikonstruksi dengan pendekatan rule-based. Namun, pendekatan rule-based tidak mudah beradaptasi dengan perubahan dalam format atau konten dokumen dan memerlukan pemeliharaan berkelanjutan. Penelitian ini mengusulkan pendekatan lain dalam konstruksi LexID. Proses konstruksi LexID dilakukan menggunakan pre-trained large language model (LLM) berupa CodeGemma parameter 7B, Code Llama parameter 7B, dan Phi-3 parameter 7B. Jenis prompt yang digunakan, yaitu prompt kode dan teks dengan variasi 1-shot dan 2-shot, sehingga total terdapat dua belas skenario percobaan. Hasil konstruksi KG kemudian dievaluasi terhadap KG LexID dan diukur menggunakan metrik precision, recall, dan skor F1. Dari hasil konstruksi, didapatkan skor F1 hasil dari prompt teks 1-shot: CodeGemma 0.405, CodeLlama 0.452, dan Phi 0.362; skor F1 hasil dari prompt kode 1-shot: CodeGemma 0.645, CodeLlama 0.567, dan Phi 0.526; skor F1 hasil dari prompt teks 2-shot: CodeGemma 0.572, CodeLlama 0.502, dan Phi 0.386; skor F1 hasil dari prompt kode 2-shot: CodeGemma 0.687, CodeLlama 0.583, dan Phi 0.539.

Indonesia operates under a legal system that adopts the principle of Legal Fiction, which posits that every individual is presumed to be aware of the law without exception. Consequently, providing easy access to legal documents is imperative. Despite the availability of several online legal search services offered by both government and private entities, these services have yet to effectively capture intra-document and inter-document relationships. To enhance the legal search system, a knowledge graph (KG) named LexID has been developed to represent Indonesian legislation in a graph format. This KG has traditionally been constructed using a rule-based approach. However, this approach struggles to adapt to changes in document format or content and necessitates continuous maintenance. This study proposes an alternative approach for the construction of LexID utilizing pre-trained large language models (LLMs), specifically CodeGemma with 7 billion parameters, Code Llama with 7 billion parameters, and Phi-3 with 7 billion parameters. The study employs both code and text prompts, with variations of 1-shot and 2-shot, resulting in a total of twelve experimental scenarios. The constructed KG is then evaluated against the existing LexID KG, using precision, recall, and F1 score metrics. The results of the construction indicate the following F1 scores: for 1-shot text prompts, CodeGemma achieved 0.405, Code Llama 0.452, and Phi 0.362; for 1-shot code prompts, CodeGemma achieved 0.645, Code Llama 0.567, and Phi 0.526; for 2-shot text prompts, CodeGemma achieved 0.572, Code Llama 0.502, and Phi 0.386; and for 2-shot code prompts, CodeGemma achieved 0.687, Code Llama 0.583, and Phi 0.539."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Haddad
"Indonesia merupakan negara hukum yang mengadopsi asas Fictie Hukum. Asas tersebut memandang setiap orang tahu hukum tanpa pengecualian. Penyediaan akses yang mudah terhadap produk hukum merupakan konsekuensi dari hal tersebut. Meski telah tersedia beberapa layanan daring pencarian hukum, baik oleh pemerintah maupun swasta, layanan tersebut belum mampu menangkap relasi intradokumen dan antardokumen dengan baik. Dalam meningkatkan sistem pencarian hukum, terdapat knowledge graph (KG) bernama LexID yang menghadirkan representasi peraturan perundang-undangan Indonesia dalam sebuah graf. KG tersebut dikonstruksi dengan pendekatan rule-based. Namun, pendekatan rule-based tidak mudah beradaptasi dengan perubahan dalam format atau konten dokumen dan memerlukan pemeliharaan berkelanjutan. Penelitian ini mengusulkan pendekatan lain dalam konstruksi LexID. Proses konstruksi LexID dilakukan menggunakan pre-trained large language model (LLM) berupa CodeGemma parameter 7B, Code Llama parameter 7B, dan Phi-3 parameter 7B. Jenis prompt yang digunakan, yaitu prompt kode dan teks dengan variasi 1-shot dan 2-shot, sehingga total terdapat dua belas skenario percobaan. Hasil konstruksi KG kemudian dievaluasi terhadap KG LexID dan diukur menggunakan metrik precision, recall, dan skor F1. Dari hasil konstruksi, didapatkan skor F1 hasil dari prompt teks 1-shot: CodeGemma 0.405, CodeLlama 0.452, dan Phi 0.362; skor F1 hasil dari prompt kode 1-shot: CodeGemma 0.645, CodeLlama 0.567, dan Phi 0.526; skor F1 hasil dari prompt teks 2-shot: CodeGemma 0.572, CodeLlama 0.502, dan Phi 0.386; skor F1 hasil dari prompt kode 2-shot: CodeGemma 0.687, CodeLlama 0.583, dan Phi 0.539.

Indonesia operates under a legal system that adopts the principle of Legal Fiction, which posits that every individual is presumed to be aware of the law without exception. Consequently, providing easy access to legal documents is imperative. Despite the availability of several online legal search services offered by both government and private entities, these services have yet to effectively capture intra-document and inter-document relationships. To enhance the legal search system, a knowledge graph (KG) named LexID has been developed to represent Indonesian legislation in a graph format. This KG has traditionally been constructed using a rule-based approach. However, this approach struggles to adapt to changes in document format or content and necessitates continuous maintenance. This study proposes an alternative approach for the construction of LexID utilizing pre-trained large language models (LLMs), specifically CodeGemma with 7 billion parameters, Code Llama with 7 billion parameters, and Phi-3 with 7 billion parameters. The study employs both code and text prompts, with variations of 1-shot and 2-shot, resulting in a total of twelve experimental scenarios. The constructed KG is then evaluated against the existing LexID KG, using precision, recall, and F1 score metrics. The results of the construction indicate the following F1 scores: for 1-shot text prompts, CodeGemma achieved 0.405, Code Llama 0.452, and Phi 0.362; for 1-shot code prompts, CodeGemma achieved 0.645, Code Llama 0.567, and Phi 0.526; for 2-shot text prompts, CodeGemma achieved 0.572, Code Llama 0.502, and Phi 0.386; and for 2-shot code prompts, CodeGemma achieved 0.687, Code Llama 0.583, and Phi 0.539."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Haddad
"Indonesia merupakan negara hukum yang mengadopsi asas Fictie Hukum. Asas tersebut memandang setiap orang tahu hukum tanpa pengecualian. Penyediaan akses yang mudah terhadap produk hukum merupakan konsekuensi dari hal tersebut. Meski telah tersedia beberapa layanan daring pencarian hukum, baik oleh pemerintah maupun swasta, layanan tersebut belum mampu menangkap relasi intradokumen dan antardokumen dengan baik. Dalam meningkatkan sistem pencarian hukum, terdapat knowledge graph (KG) bernama LexID yang menghadirkan representasi peraturan perundang-undangan Indonesia dalam sebuah graf. KG tersebut dikonstruksi dengan pendekatan rule-based. Namun, pendekatan rule-based tidak mudah beradaptasi dengan perubahan dalam format atau konten dokumen dan memerlukan pemeliharaan berkelanjutan. Penelitian ini mengusulkan pendekatan lain dalam konstruksi LexID. Proses konstruksi LexID dilakukan menggunakan pre-trained large language model (LLM) berupa CodeGemma parameter 7B, Code Llama parameter 7B, dan Phi-3 parameter 7B. Jenis prompt yang digunakan, yaitu prompt kode dan teks dengan variasi 1-shot dan 2-shot, sehingga total terdapat dua belas skenario percobaan. Hasil konstruksi KG kemudian dievaluasi terhadap KG LexID dan diukur menggunakan metrik precision, recall, dan skor F1. Dari hasil konstruksi, didapatkan skor F1 hasil dari prompt teks 1-shot: CodeGemma 0.405, CodeLlama 0.452, dan Phi 0.362; skor F1 hasil dari prompt kode 1-shot: CodeGemma 0.645, CodeLlama 0.567, dan Phi 0.526; skor F1 hasil dari prompt teks 2-shot: CodeGemma 0.572, CodeLlama 0.502, dan Phi 0.386; skor F1 hasil dari prompt kode 2-shot: CodeGemma 0.687, CodeLlama 0.583, dan Phi 0.539.

Indonesia operates under a legal system that adopts the principle of Legal Fiction, which posits that every individual is presumed to be aware of the law without exception. Consequently, providing easy access to legal documents is imperative. Despite the availability of several online legal search services offered by both government and private entities, these services have yet to effectively capture intra-document and inter-document relationships. To enhance the legal search system, a knowledge graph (KG) named LexID has been developed to represent Indonesian legislation in a graph format. This KG has traditionally been constructed using a rule-based approach. However, this approach struggles to adapt to changes in document format or content and necessitates continuous maintenance. This study proposes an alternative approach for the construction of LexID utilizing pre-trained large language models (LLMs), specifically CodeGemma with 7 billion parameters, Code Llama with 7 billion parameters, and Phi-3 with 7 billion parameters. The study employs both code and text prompts, with variations of 1-shot and 2-shot, resulting in a total of twelve experimental scenarios. The constructed KG is then evaluated against the existing LexID KG, using precision, recall, and F1 score metrics. The results of the construction indicate the following F1 scores: for 1-shot text prompts, CodeGemma achieved 0.405, Code Llama 0.452, and Phi 0.362; for 1-shot code prompts, CodeGemma achieved 0.645, Code Llama 0.567, and Phi 0.526; for 2-shot text prompts, CodeGemma achieved 0.572, Code Llama 0.502, and Phi 0.386; and for 2-shot code prompts, CodeGemma achieved 0.687, Code Llama 0.583, and Phi 0.539."
Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
Unggah3  Universitas Indonesia Library
cover
Muhammad Haddad
"Indonesia merupakan negara hukum yang mengadopsi asas Fictie Hukum. Asas tersebut memandang setiap orang tahu hukum tanpa pengecualian. Penyediaan akses yang mudah terhadap produk hukum merupakan konsekuensi dari hal tersebut. Meski telah tersedia beberapa layanan daring pencarian hukum, baik oleh pemerintah maupun swasta, layanan tersebut belum mampu menangkap relasi intradokumen dan antardokumen dengan baik. Dalam meningkatkan sistem pencarian hukum, terdapat knowledge graph (KG) bernama LexID yang menghadirkan representasi peraturan perundang-undangan Indonesia dalam sebuah graf. KG tersebut dikonstruksi dengan pendekatan rule-based. Namun, pendekatan rule-based tidak mudah beradaptasi dengan perubahan dalam format atau konten dokumen dan memerlukan pemeliharaan berkelanjutan. Penelitian ini mengusulkan pendekatan lain dalam konstruksi LexID. Proses konstruksi LexID dilakukan menggunakan pre-trained large language model (LLM) berupa CodeGemma parameter 7B, Code Llama parameter 7B, dan Phi-3 parameter 7B. Jenis prompt yang digunakan, yaitu prompt kode dan teks dengan variasi 1-shot dan 2-shot, sehingga total terdapat dua belas skenario percobaan. Hasil konstruksi KG kemudian dievaluasi terhadap KG LexID dan diukur menggunakan metrik precision, recall, dan skor F1. Dari hasil konstruksi, didapatkan skor F1 hasil dari prompt teks 1-shot: CodeGemma 0.405, CodeLlama 0.452, dan Phi 0.362; skor F1 hasil dari prompt kode 1-shot: CodeGemma 0.645, CodeLlama 0.567, dan Phi 0.526; skor F1 hasil dari prompt teks 2-shot: CodeGemma 0.572, CodeLlama 0.502, dan Phi 0.386; skor F1 hasil dari prompt kode 2-shot: CodeGemma 0.687, CodeLlama 0.583, dan Phi 0.539.

Indonesia operates under a legal system that adopts the principle of Legal Fiction, which posits that every individual is presumed to be aware of the law without exception. Consequently, providing easy access to legal documents is imperative. Despite the availability of several online legal search services offered by both government and private entities, these services have yet to effectively capture intra-document and inter-document relationships. To enhance the legal search system, a knowledge graph (KG) named LexID has been developed to represent Indonesian legislation in a graph format. This KG has traditionally been constructed using a rule-based approach. However, this approach struggles to adapt to changes in document format or content and necessitates continuous maintenance. This study proposes an alternative approach for the construction of LexID utilizing pre-trained large language models (LLMs), specifically CodeGemma with 7 billion parameters, Code Llama with 7 billion parameters, and Phi-3 with 7 billion parameters. The study employs both code and text prompts, with variations of 1-shot and 2-shot, resulting in a total of twelve experimental scenarios. The constructed KG is then evaluated against the existing LexID KG, using precision, recall, and F1 score metrics. The results of the construction indicate the following F1 scores: for 1-shot text prompts, CodeGemma achieved 0.405, Code Llama 0.452, and Phi 0.362; for 1-shot code prompts, CodeGemma achieved 0.645, Code Llama 0.567, and Phi 0.526; for 2-shot text prompts, CodeGemma achieved 0.572, Code Llama 0.502, and Phi 0.386; and for 2-shot code prompts, CodeGemma achieved 0.687, Code Llama 0.583, and Phi 0.539."
Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
Unggah3  Universitas Indonesia Library
cover
Muhammad Halif
"Indonesia merupakan negara hukum yang mengadopsi asas Fictie Hukum. Asas tersebut memandang setiap orang tahu hukum tanpa pengecualian. Penyediaan akses yang mudah terhadap produk hukum merupakan konsekuensi dari hal tersebut. Meski telah tersedia beberapa layanan daring pencarian hukum, baik oleh pemerintah maupun swasta, layanan tersebut belum mampu menangkap relasi intradokumen dan antardokumen dengan baik. Dalam meningkatkan sistem pencarian hukum, terdapat knowledge graph (KG) bernama LexID yang menghadirkan representasi peraturan perundang-undangan Indonesia dalam sebuah graf. KG tersebut dikonstruksi dengan pendekatan rule-based. Namun, pendekatan rule-based tidak mudah beradaptasi dengan perubahan dalam format atau konten dokumen dan memerlukan pemeliharaan berkelanjutan. Penelitian ini mengusulkan pendekatan lain dalam konstruksi LexID. Proses konstruksi LexID dilakukan menggunakan pre-trained large language model (LLM) berupa CodeGemma parameter 7B, Code Llama parameter 7B, dan Phi-3 parameter 7B. Jenis prompt yang digunakan, yaitu prompt kode dan teks dengan variasi 1-shot dan 2-shot, sehingga total terdapat dua belas skenario percobaan. Hasil konstruksi KG kemudian dievaluasi terhadap KG LexID dan diukur menggunakan metrik precision, recall, dan skor F1. Dari hasil konstruksi, didapatkan skor F1 hasil dari prompt teks 1-shot: CodeGemma 0.405, CodeLlama 0.452, dan Phi 0.362; skor F1 hasil dari prompt kode 1-shot: CodeGemma 0.645, CodeLlama 0.567, dan Phi 0.526; skor F1 hasil dari prompt teks 2-shot: CodeGemma 0.572, CodeLlama 0.502, dan Phi 0.386; skor F1 hasil dari prompt kode 2-shot: CodeGemma 0.687, CodeLlama 0.583, dan Phi 0.539.

Indonesia operates under a legal system that adopts the principle of Legal Fiction, which posits that every individual is presumed to be aware of the law without exception. Consequently, providing easy access to legal documents is imperative. Despite the availability of several online legal search services offered by both government and private entities, these services have yet to effectively capture intra-document and inter-document relationships. To enhance the legal search system, a knowledge graph (KG) named LexID has been developed to represent Indonesian legislation in a graph format. This KG has traditionally been constructed using a rule-based approach. However, this approach struggles to adapt to changes in document format or content and necessitates continuous maintenance. This study proposes an alternative approach for the construction of LexID utilizing pre-trained large language models (LLMs), specifically CodeGemma with 7 billion parameters, Code Llama with 7 billion parameters, and Phi-3 with 7 billion parameters. The study employs both code and text prompts, with variations of 1-shot and 2-shot, resulting in a total of twelve experimental scenarios. The constructed KG is then evaluated against the existing LexID KG, using precision, recall, and F1 score metrics. The results of the construction indicate the following F1 scores: for 1-shot text prompts, CodeGemma achieved 0.405, Code Llama 0.452, and Phi 0.362; for 1-shot code prompts, CodeGemma achieved 0.645, Code Llama 0.567, and Phi 0.526; for 2-shot text prompts, CodeGemma achieved 0.572, Code Llama 0.502, and Phi 0.386; and for 2-shot code prompts, CodeGemma achieved 0.687, Code Llama 0.583, and Phi 0.539."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Hana Raissya
"Perkembangan knowledge graph semakin penting sebagai sumber data dan informasi kontekstual pada ilmu data. Meskipun konsep ini telah ada selama lebih dari dua dekade, memahami data knowledge graph masih menjadi tantangan bagi pengguna. Penggunaan alat visualisasi data, misalnya seperti, Wikidata Query Service (WQS), dapat membantu mengatasi tantangan tersebut. Namun, alat tersebut difokuskan hanya pada knowledge graph tertentu dan hanya disediakan sebagai aplikasi web. Di sisi lain, visualisasi dengan Python library, kglab memfasilitasi visualisasi knowledge graph generik dengan dukungan terbatas dari jenis visualisasi dibandingkan dengan WQS. Penelitian ini mengusulkan VizKG, sebagai framework (Python library) yang menyediakan berbagai macam visualisasi untuk hasil kueri SPARQL pada knowledge graph generik. VizKG menghubungkan hasil kueri dan library visualisasi eksternal melalui pemetaan variabel terhadap komponen visualisasi yang dibutuhkan. Sebagai bentuk evaluasi pendekatan kami, penelitian ini menyertakan evaluasi use case untuk VizKG pada knowledge graph generik yang berasal dari beberapa domain. Saat ini jumlah visualisasi grafik yang didukung oleh VizKG adalah 24 jenis grafik. Fitur lainnya yang didukung VizKG termasuk rekomendasi jenis visualisasi untuk pengguna dan kemudahan ekstensibilitas bagi pengembang untuk menambahkan jenis visualisasi baru. Framework VizKG ini diharapkan dapat membantu ekstraksi dan memvisualisasikan knowledge graph untuk memahami data dan mendukung analisis lebih lanjut. VizKG tersedia secara terbuka di https://pypi.org/project/VizKG/.

Knowledge graphs become increasingly important as a source of data and contextual information in data science. Even though knowledge graphs has been around for more than two decades, understanding SPARQL query results from a knowledge graph can be challenging for users. The use of data visualization tool, such as, Wikidata Query Service (WQS) can help address this challenge. However, existing tools are either focused just on a specific knowledge graph and only provided as a web interface. On the other hand, visualization through Python library, kglab facilitates visualizing generic Knowledge graphs though with a limited support of visualization types compared to that of WQS. This study proposes VizKG, as a framework (Python library) that provides a wide range of visualizations for SPARQL query results on any knowledge graphs. VizKG connects SPARQL query results and external visualization libraries by mapping variables to the visualization components needed. To evaluate our approach, this study includes use case evaluation for the VizKG on generic knowledge graphs originated from several domains. At this stage the number of graph visualizations supported by VizKG is 24 chart types. Other features of VizKG includes recommendations of visualization type for user and easy extensibility for developers to add new types of visualizations. This framework is expected to assist extraction and visualize knowledge graphs for understanding data and support further analysis. VizKG is openly available at https://pypi.org/project/VizKG/."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Kerenza Doxolodeo
"Konstruksi dataset QA membutuhkan akses ke sumber daya dan finansial yang tidak kecil, sehingga dataset untuk bahasa-bahasa yang kurang dipelajari seperti Ba- hasa Indonesia minim. Studi ini mengkonstruksi dataset QA Indonesia yang dibuat secara otomatis dari awal hingga akhir. Proses dimulai dengan mengambil tripel dari Wikidata dan mengkonversikan tripel tersebut menjadi pertanyaan menggu- nakan CFG. Teks konteks dicari dari korpus Wikipedia Bahasa Indonesia dengan heuristik untuk mencari teks yang sesuai. Pertanyaan-pertanyaan tersebut dival- idasi dengan model M-BERT yang fungsinya sebagai proxy model yang menilai kelayakan pertanyaan. Dataset terdiri dari 134 ribu baris pertanyaan simpel dan 60 ribu pertanyaan kompleks yang menggandung dua buah fakta dalam satu per- tanyaan. Untuk pertanyaan simpel dataset mendapatkan evaluasi yang mirip oleh manusia (72% AC-IQuAD vs 67% SQuAD terjemahan) dan model QA Indonesia yang terbaik adalah yang menggabungkan dataset SQuAD Inggris dan AC-IQuAD (F1 57.03 terhadap dataset TydiQA).

Construction of QA datasets requires access to considerable resources and fi- nance, so datasets for less-learned languages such as Indonesian are scarce. This study constructs an Indonesian QA dataset that is generated automatically end- to-end. The process begins by taking triples from Wikidata and converting those triples into questions using CFG. The context text is searched from the Indonesian Wikipedia corpus with heuristics to find the appropriate text. These questions were validated with the M-BERT model which functions as a proxy model that assesses the feasibility of questions. The dataset consists of 134 thousand lines of simple questions and 60 thousand complex questions containing two facts in one ques- tion. For simple queries the datasets received similar evaluations by humans (72% AC-IQuAD vs 67% translated SQuAD) and the best Indonesian QA model was the one combining English SQuAD and AC-IQuAD datasets (F1 57.03 against TydiQA dataset)."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Amanda Carrisa Ashardian
"Frequently Asked Questions (FAQs) adalah dokumen (seperti di situs web) yang memberikan jawaban atas daftar pertanyaan umum yang mungkin ditanyakan pengguna mengenai subjek tertentu. Tokopedia adalah salah satu website e-commerce terbesar di Indonesia. Penelitian ini menyajikan konstruksi Knowledge Graph (KG) dengan data dari halaman FAQ Tokopedia. Penelitian ini mendemokan use cases yang memanfaatkan FAQ KG tersebut. Pendekatan penelitian ini melibatkan metode top- down dalam konstruksi KG, yang meliputi web scraping, part-of-speech (POS) tagging untuk mendapatkan kata benda, kata sifat, dan kata kerja dari FAQ, pembuatan ontologi kata kerja, dan pembuatan KG berbasiskan Resource Description Framework (RDF). Temuan-temuan utama mengungkapkan kemampuan baru seperti kueri untuk mencari FAQ berdasarkan suatu kata kerja dan sinonimnya, serta wawasan yang diperoleh dengan exploratory data analysis dan menggunakan kueri SPARQL. Temuan ini bisa meningkatkan layanan FAQ untuk e-commerce melalui pembuatan KG.

Frequently Asked Questions (FAQs) are documents (such as on a website) that give answers to a list of common questions that users may ask about a certain topic. Tokopedia is one of the largest e-commerce websites in Indonesia. This research presents the construction of a Knowledge Graph (KG) with data from Tokopedia's Frequently Asked Questions (FAQs) page. This research demonstrates use cases that utilize the FAQ KG. The research approach involves a top-down method in KG construction, which includes web scraping, part-of-speech (POS) tagging to obtain nouns, adjectives, and verbs from the FAQ, verb ontology generation, and Resource Description Framework (RDF)-based KG generation. The findings reveal new capabilities such as queries to search FAQs based on a verb and its synonyms, as well as insights gained by exploratory data analysis (EDA) and using SPARQL queries. These findings can improve FAQ services for e-commerce through KG generation."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Jilham Luthfi
"Perkembangan knowledge graph serta penggunaannya meningkat secara masif akhir-akhir ini. Namun, pertumbuhan knowledge graph nyatanya tidak sebanding dengan kualitas data yang dimiliki. Sementara itu, aspek kelengkapan dalam kualitas data knowledge graph memiliki peranan penting dalam pemakaian data yang sesuai dengan kebutuhan. Sayang sekali, hingga saat ini belum ada penelitian tentang penggunaan SHACL dalam melakukan validasi kelengkapan data. Penelitian ini hadir dengan tujuan untuk membuat pola-pola kelengkapan berdasarkan kondisi knowledge graph beserta instance-nya. Penelitian ini mengidentifikasi enam pola kelengkapan yang sering muncul pada knowledge graph. Dari keenam pola kelengkapan tersebut, penelitian ini berhasil membuat 360.162 instance pola kelengkapan dalam bentuk SHACL shape. Pembuatan instance pola kelengkapan menggunakan lima pendekatan, yakni pendekatan manual, otomatis, spreadsheet, ontologi, dan statistik. Semua shape tersebut kemudian digunakan untuk melakukan validasi terhadap 928.310 entitas pada knowledge graph dunia nyata, yakni Wikidata dan DBpedia. Hasil validasi population, no-value, dan label and description completeness pada Wikidata dan DBpedia mencapai skor lebih dari 90%. Sementara itu, hasil validasi property dan interlinking completeness pada Wikidata dan DBpedia berada di rentang skor 60-70%. Terakhir, validasi schema completeness pada Wikidata dan DBpedia mencapai hasil 70-90%. Selain itu, penelitian ini menyediakan aplikasi web bernama SHACL on Completeness Knowledge (SoCK) untuk mengelola dan menyediakan pola kelengkapan beserta instance-nya.

The development of knowledge graphs and their use has increased massively recently. In fact, the growth of the knowledge graph is not proportional to the quality of the data it has. Meanwhile, the completeness aspect in the quality of the knowledge graph data has an essential role in the use of data according to needs. Unfortunately, nobody has previously done research on the use of SHACL in validating data completeness.Therefore, this research focused on identifying completeness patterns based on the condition of the knowledge graph and its instances. This study identified six completeness patterns that often appear in knowledge graphs. Of the six completeness patterns, this study successfully created 360.162 completeness pattern instances in the form of SHACL shape. The instantiation of the completeness pattern used five approaches, that is, manual, automated, spreadsheet, ontology, and statistical approaches. All these shapes are used to validate 928.310 entities in a real-world knowledge graph, namely Wikidata and DBpedia. Based on the population, no-value, and label and description completeness validation, the completeness of Wikidata and DBpedia reached a score of more than 90%. Moreover, the validation results of property and interlinking completeness stated that the Wikidata and DBpedia completeness are 60-70%. Finally, schema completeness validation on Wikidata and DBpedia reached 70-90%. In addition, this research provided a web application called SHACL on Completeness Knowledge (SoCK) to manage and accommodate completeness patterns and their instances."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nurul Srianda Putri
"Seiring dengan pesatnya perkembangan volume data, kebutuhan akan data yang machine-readable tidak bisa dihindari. Akibatnya, penggunaan struktur data knowledge graph semakin populer. Dengan perkembangannya, aspek kualitas dari sebuah knowledge graph perlu diperhatikan, salah satunya adalah knowledge wealth: kekayaan informasi yang terdapat pada suatu knowledge graph. Tingginya knowledge wealth dalam suatu knowledge graph dapat menandakan tingginya kualitas suatu knowledge graph; sebaliknya, tingkat knowledge wealth yang rendah mengindikasikan buruknya kualitas suatu knowledge graph. Namun, belum terdapat cara formal yang mendefinisikan knowledge wealth dan bagaimana mengukurnya serta menganalisisnya. Penelitian ini mengusulkan sebuah framework untuk menganalisis knowledge wealthdan tingkat knowledge imbalance dalam RDF knowledge graph dengan melihat bagaimana knowledge wealth dari sebuah kelas entitas tersebar pada knowledge graph tersebut menggunakan pengukuran statistika dan bantuan visualisasi. Selain itu, framework ini juga membantu untuk mengidentifikasi grup-grup entitas berdasarkan tingkat kekayaan di dalam kelasnya, menemukan bentuk distribusi yang paling mendekati distribusi knowledge wealth, melakukan pengelompokkan kelas-kelas entitas berdasarkan bentuk distribusi knowledge wealth, hingga mendeteksi bias pada sebuah knowledge graph. Untuk mengevaluasi framework ini, dilakukan studi kasus pada beberapa kelas entitas di Wikidata. Diharapkan hasil dari penelitian ini dapat membantu dalam meneliti knowledge wealth pada knowledge graph serta dimanfaatkan untuk mengoptimalkan usaha pengeditan dan pengembangan proyek knowledge graph oleh para kontributornya.

Along with the rapid development of data volumes, the need for machine-readable data is inevitable. As a result, the use of knowledge graph data structures becomes more popular. With its development, quality aspects of a knowledge graph need to be considered, one of which is knowledge wealth: the amount of information contained in a knowledge graph. A high level of knowledge wealth in a knowledge graph may indicate the high quality of a knowledge graph; conversely, a low level of knowledge wealth can be a sign of poor quality of a knowledge graph. However, there is no formal way to define knowledge wealth and how to measure and analyze it. This study proposes a framework to analyze knowledge wealth and the level of knowledge imbalance in the RDF knowledge graph by seeing how the knowledge wealth of an entity class is spread over the knowledge graph using statistical measures and visualization. In addition, this framework also helps to identify entity groups based on the level of wealth in their class, finds the best theoretical distribution that fits best to knowledge wealth distribution, performs clustering on classes based on the shape of knowledge wealth distribution, and detects bias in a knowledge graph. To evaluate this framework, some use cases were conducted on several classes on Wikidata. It is hoped that the results of this study can assist in researching knowledge wealth in the knowledge graph and be used to optimize the efforts of editing and developing knowledge graph projects by the contributors."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2   >>