Ditemukan 3 dokumen yang sesuai dengan query
Nabila Dita Putri
"Saat ini, dataset yang tersedia untuk melakukan analisis emosi di Indonesia masih terbatas, baik dari segi jumlah data, cakupan emosi, serta sumbernya. Pada penelitian ini, peneliti membangun dataset besar untuk tugas analisis emosi pada data teks berbahasa Indonesia, di mana dataset ini dikumpulkan dari berbagai domain dan sumber. Dataset ini mengandung 33 ribu teks, yang terdiri dari tweet yang dikumpulkan dari Twitter, serta komentar unggahan yang dikumpulkan dari Instagram dan Youtube. Domain yang dicakup pada dataset ini adalah domain olahraga, hiburan, dan life chapter. Dataset ini dianotasi oleh 36 annotator dengan label emosi fine-grained secara multi-label, di mana label emosi yang digunakan ini merupakan hasil dari taksonomi emosi baru yang diusulkan oleh peneliti. Pada penelitian ini, peneliti mengusulkan taksonomi emosi baru yang terdiri dari 44 fine-grained emotion, yang dikelompokkan ke dalam 6 basic emotion. Selain itu, peneliti juga membangun baseline model untuk melakukan analisis emosi. Didapatkan dua baseline model, yaitu hasil fine-tuning IndoBERT dengan f1-score micro tertinggi sebesar 0.3786, dan model hierarchical logistic regression dengan exact match ratio tertinggi sebesar 0.2904. Kedua baseline model tersebut juga dievaluasi di lintas domain untuk dilihat seberapa general dan robust model yang telah dibangun.
Currently, no research in Indonesia utilises fine-grained emotion for emotion analysis. In addition, the available datasets for analysing emotions still need to be improved in terms of the amount of data, the range of emotions, and their sources. In this study, researchers built a large dataset for analysing emotion. This dataset contains 33k texts, consisting of tweets collected from Twitter and comments collected from Instagram and Youtube posts. The domains covered in this dataset are sports, entertainment, and life chapter. Thirty-six annotators annotated this dataset with fine-grained emotion labels and a multi-label scheme, where the emotion labels resulted from a new emotion taxonomy proposed by the researcher. In this study, the researchers propose a new emotion taxonomy consisting of 44 fine-grained emotions which are grouped into six basic emotions. Two baseline models were obtained, the first one is the fine-tuned IndoBERT model, which achieved the highest f1-score micro of 0.3786, and the second one is hierarchical logistic regression model, which achieved the highest exact match ratio of 0.2904. Both baseline models were also evaluated to determine their cross-domain applicability. The dataset and baseline models that are produced in this study are expected to be valuable resources for future research purposes."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership Universitas Indonesia Library
Kaysa Syifa Wijdan Amin
"Saat ini, dataset yang tersedia untuk melakukan analisis emosi di Indonesia masih terbatas, baik dari segi jumlah data, cakupan emosi, serta sumbernya. Pada penelitian ini, peneliti membangun dataset besar untuk tugas analisis emosi pada data teks berbahasa Indonesia, di mana dataset ini dikumpulkan dari berbagai domain dan sumber. Dataset ini mengandung 33 ribu teks, yang terdiri dari tweet yang dikumpulkan dari Twitter, serta komentar unggahan yang dikumpulkan dari Instagram dan Youtube. Domain yang dicakup pada dataset ini adalah domain olahraga, hiburan, dan life chapter. Dataset ini dianotasi oleh 36 annotator dengan label emosi fine-grained secara multi-label, di mana label emosi yang digunakan ini merupakan hasil dari taksonomi emosi baru yang diusulkan oleh peneliti. Pada penelitian ini, peneliti mengusulkan taksonomi emosi baru yang terdiri dari 44 fine-grained emotion, yang dikelompokkan ke dalam 6 basic emotion. Selain itu, peneliti juga membangun baseline model untuk melakukan analisis emosi. Didapatkan dua baseline model, yaitu hasil fine-tuning IndoBERT dengan f1-score micro tertinggi sebesar 0.3786, dan model hierarchical logistic regression dengan exact match ratio tertinggi sebesar 0.2904. Kedua baseline model tersebut juga dievaluasi di lintas domain untuk dilihat seberapa general dan robust model yang telah dibangun.
Currently, no research in Indonesia utilises fine-grained emotion for emotion analysis. In addition, the available datasets for analysing emotions still need to be improved in terms of the amount of data, the range of emotions, and their sources. In this study, researchers built a large dataset for analysing emotion. This dataset contains 33k texts, consisting of tweets collected from Twitter and comments collected from Instagram and Youtube posts. The domains covered in this dataset are sports, entertainment, and life chapter. Thirty-six annotators annotated this dataset with fine-grained emotion labels and a multi-label scheme, where the emotion labels resulted from a new emotion taxonomy proposed by the researcher. In this study, the researchers propose a new emotion taxonomy consisting of 44 fine-grained emotions which are grouped into six basic emotions. Two baseline models were obtained, the first one is the fine-tuned IndoBERT model, which achieved the highest f1-score micro of 0.3786, and the second one is hierarchical logistic regression model, which achieved the highest exact match ratio of 0.2904. Both baseline models were also evaluated to determine their cross-domain applicability. The dataset and baseline models that are produced in this study are expected to be valuable resources for future research purposes."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership Universitas Indonesia Library
Timothy Orvin Edwardo
"Data aktivitas pada Learning Management System (LMS) yang digunakan di Universitas XYZ mengalami pertumbuhan yang signifikan dan tidak terbendung. Hal ini menimbulkan tantangan dalam pemrosesan dan analisis data tersebut. Penelitian ini melakukan pemrosesan data aktivitas mahasiswa secara streaming dan analisis untuk menemukan pola aktivitas mahasiswa di LMS. Pola aktivitas yang diidentifikasi menggunakan snapshot pada periode minggu pertama perkuliahan, minggu Ujian Tengah Semester (UTS), minggu sebelum Ujian Akhir Semester (UAS), dan pada saat minggu UAS. Analisis dilakukan dengan algoritma data mining menggunakan teknik clustering dengan mengambil snapshot data pada mata kuliah Metodologi Penelitian dan Penulisan Ilmiah semester genap 2018/2019. Algoritma dari teknik clustering yang disimulasikan adalah K-Means dan agglomerative hierarchical clustering dengan menggunakan evaluasi silhouette index untuk menentukan pola dengan jumlah cluster yang sesuai. Dari eksperimen terhadap algoritma clustering, algoritma agglomerative hierarchical clustering menjadi algoritma terbaik dalam mengelompokan aktivitas mahasiswa pada periode minggu pertama, minggu UTS, minggu sebelum UAS, dan minggu UAS. Hasil clustering memperlihatkan bahwa terdapat perbedaan pola aktivitas antara periode minggu pertama, minggu UTS, minggu sebelum UAS, dan minggu UAS, di mana terjadinya peningkatan aktivitas dan terdapat perbedaan pola cluster menjelang minggu UAS. Secara umum, pola cluster terdiri dari mahasiswa yang tidak self-regulated dan mahasiswa yang self-regulated. Mahasiswa yang tidak self-regulated dapat dilakukan intervensi oleh dosen untuk dapat meningkatkan pembelajarannya.
Activity data on the Learning Management System (LMS) used at XYZ University is experiencing significant and continuous data growth. This poses challenges in processing and analyzing such data. This study performs streaming student activity data processing and analysis to find patterns of student activity in LMS. Activity patterns identified using snapshots in the period of the first week of lectures, the week of the mid-term exam, the week before the final exam, and during the final exam week. The analysis was carried out by data mining algorithms using clustering techniques using snapshot of Research Methodology and Scientific Writing course in the term of even semester 2018/2019. The algorithm of the simulated clustering technique is K-Means and agglomerative hierarchical clustering using silhouette index evaluation to determine the pattern with the optimal number of clusters. From experiments on the clustering algorithm, the hierarchical clustering algorithm became the best algorithm in clustering student activities in the first week of lectures, mid-term exam weeks, the week before final exam, and final exam weeks. The clustering results show that there are differences in activity patterns between the first week, mid-term exam week, the week before final exam, and final exam week, where there is an increase in activity and there are differences in cluster patterns before the exam week. In general, the pattern consists of non-self-regulated students and self-regulated students. Non-self-regulated students can be intervened by lecturers to improve their learning"
Jakarta: Fakultas Ilmu Komputer Universitas Indonesia, 2021
TA-pdf
UI - Tugas Akhir Universitas Indonesia Library