Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 180842 dokumen yang sesuai dengan query
Banjarnahor, Evander
"Berdasarkan data WHO pada pertengahan Juli 2021 lebih dari 185,2 juta orang di seluruh dunia terinfeksi virus corona atau Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-CoV-2). Virus ini menyerang penapasan manusia yang dapat mengakibatkan infeksi paru-paru pada manusia dan bahkan dapat menyebabkan kematian. Tercatat bahwa lebih dari 4 juta orang di seluruh dunia meninggal akibat terinfeksi virus corona. Di Indonesia sendiri pada pertengahan Juli 2021 tercatat lebih dari 2,4 juta orang ternfeksi virus corona dan lebih dari 65,4 ribu orang meninggal akibat terinfeksi virus corona. Berdasarkan data tersebut, perlu dilakukan analisis kekerabatan virus SARS-CoV-2 untuk mengurangi penyebaran dan memberikan batasan sosial dari negara satu dengan negara lainnya. Identifikasi kekerabatan dari virus covid-19 dan penyebarannya dapat dilakukan dengan cara pembentukan pohon filogenetik dan clustering. Pada penelitian ini pohon filogenetik akan dibangun berdasarkan metode Hierarchical Clustering dengan menggunakan metode Multiple Encoding Vector dan K-Mer berdasarkan translasi DNA kodon menjadi asam amino. Jarak Euclidean akan digunakan untuk menentukan matriks jarak. Penelitian ini selanjutnya menggunakan metode K- Means Clustering untuk melihat penyebarannya, dimana nilai k ditentukan dari jumlah centroid yang dihasilkan dari metode Hierarchical Clustering. Penelitian ini mengambil sampel barisan DNA SARS-CoV-2 dari beberapa negara yang tertular. Dari hasil simulasi, nenek moyang SARS-CoV-2 berasal dari China. Hasil analisis juga menunjukkan bahwa leluhur covid-19 yang paling dekat dengan Indonesia berasal dari India, Australia dan Spanyol. Selain itu dari hasil simulasi dihasilkan bahwa barisan DNA SARS-CoV-2 terdiri dari 9 cluster dan cluster keenam adalah kelompok yang memiliki anggota paling banyak. Hasil analisis juga menunjukkan bahwa metode ini sangat opitimal dalam pengelompokan data dengan nilai 97.4%.

Based on WHO data in middle of July 2021, Coronavirus or Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-CoV-2) is infecting more than 185.2 million people worldwide. The virus attacks human breathing, which can cause lung infections and can even cause death. More than 4 million people worldwide have died due to being infected with the coronavirus. In Indonesia alone, in mid-July 2021, there were more than 2.4 million people infected with the corona virus and more than 65.4 thousand people died from being infected with the corona virus. Based on those covid-19 survivor data, it is necessary to carry out a kinship analysis of the coronavirus to reduce its spreading. Identification of the kinship of the covid- 19 virus and its spread can be done by forming a phylogenetic tree and clustering. This study uses the Multiple Encoding Vector method and K-mer based on translation DNA codon to amino acid in analyzing sequences and Euclidean Distance to determine the distance matrix. This research will then use the Hierarchical Clustering method to determine the number of initial centroids and cluster, which will be used later by the K-Means Clustering method kinship in SARS-CoV-2 DNA sequence. This study took samples of DNA sequences of SARS-CoV-2 from several infected countries. From the simulation results, the ancestors of SARS-CoV-2 came from China. The results of the analysis also show that the closest ancestors of covid-19 to Indonesia came from India, Australia and Spain. In addition, the ancestors of SARS-CoV-2 came from China. The SARS- CoV-2 DNA sequence is also consisted of 9 clusters, and the sixth cluster is the group that has the most members. The results also show that this method is very optimal in a grouping of data with a value of 97.4%."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
UI - Tesis Membership  Universitas Indonesia Library
Bayu Permata Negara
"Analisis kelompok adalah metode multivariat yang bertujuan mengelompokkan pengamatan berdasarkan karakteristiknya. Salah satu metode analisis pengelompokan adalah metode cluster ensembel dengan pengelompokan dilakukan dengan satu metode berulang kali hingga diperoleh hasil yang lebih baik dibandingkan jika dilakukan satu kali. Penelitian ini mencoba menggunakan Cluster Ensemble Based Mixed Data Clustering (CEBMDC), yaitu metode pengelompokan yang biasa dilakukan untuk data dengan variabel campuran yaitu numerik dan kategorik. Tahap awal dalam metode ini yaitu membagi data awal menjadi data dengan hanya variabel-variabel numerik dan data dengan hanya variabel-variabel kategorik. Data yang telah dipisahkan berdasarkan jenis variabelnya kemudian dikelompokan menggunakan metode yang sesuai secara simultan. Hasil pengelompokan ini menjadi data baru dengan dua variabel kategorik yaitu hasil pengelompokan dengan variabel numerik dan hasil pengelompokan dengan variabel kategorik. Data baru dengan dua variabel kategorik ini kemudian dilakukan proses pengelompokan. Metode pengelompokan untuk data dengan variabel numerik adalah metode Hierarchical Agglomerative Clustering. Metode clustering untuk data kategorik adalah ROCK (RObust Clustering using linKs) dan K-medoids/PAM (Partition Around Medoids). Penelitian ini membandingkan hasil pengelompokan ROCK dan K-medoids. Pengelompokan dilakukan pada data mengenai sarana dan prasarana sekolah yang diambil dari 5.094 SMP yang ada di Jawa barat. Metode pengelompokan dengan kinerja terbaik pada penelitian ini adalah Ensemble K-medoids berdasarkan rasio antara simpangan baku di dalam kelompok (¬SW) dan simpangan baku antar kelompok (SB) terkecil. Penelitian ini menghasilkan 3 kelompok yang mencerminkan kondisi sekolah-sekolah pada jenjang SMP di Jawa Barat.
Clustering analysis is a multivariate method that aims to classify observations based on their characteristics. One method of clustering analysis is the ensemble clustering method in which the grouping is done using a method repeatedly until better results are obtained than if it is done once. This study uses the Cluster Ensemble Based Mixed Data Clustering (CEBMDC), which is a grouping method that commonly used for data with numerical and categorical variables. The first step in this method is to divide the initial data into two parts, that is data with only numerical variables and data with categorical variables. After data has been separated based on the types of variables, and then clustering using the appropriate method is conducted simultaneously. The results of these two clustering method become a new data with two categorical variables, namely the results of clustering with numeric variables and the results of clustering with categorical variables. The new data with two categorical variables are then carried out the clustering process. The clustering method for data with numerical variables is the Hierarchical Agglomerative Clustering method. Clustering methods for categorical data are ROCK (RObust Clustering using linKs) and K-medoids / PAM (Partition Around Medoids). This study compares the results of ROCK and K-medoids clustering. The study was conducted on data of school facilities and infrastructure taken from 5094 junior high schools in West Java. The best performance grouping method in this study is the Ensemble K-medoids based on the ratio between the standard deviation in the group (SW) and the smallest standard inter-group (SB) deviation. This study produced 3 groups that reflect the condition junior high schools in West Java."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
UI - Tesis Membership  Universitas Indonesia Library
Situmeang, Jason Nimrod Joshua

Penelitian ini bertujuan untuk melakukan pengelompokan varian virus SARS-CoV-2 melalui proses clustering menggunakan metode unsupervised learning. Data yang digunakan adalah sekuens protein SARS-CoV-2 yang diekstraksi fiturnya menggunakan paket Discere dalam bahasa pemrograman Python. Sebanyak 27 fitur dihasilkan dan diseleksi dengan metode seleksi fitur Least Absolute Shrinkage and Selection Operator (LASSO). Metode Elbow digunakan untuk menentukan jumlah cluster yang optimal. Dalam penelitian ini, digunakan metode clustering K-Means dan Balanced Iterative Reducing and Clustering using Hierarchies (BIRCH). Evaluasi hasil clustering dilakukan menggunakan metrik evaluasi Silhouette Score dan Davies-Bouldin Index, serta memperhatikan waktu runtime untuk setiap simulasi. Hasil evaluasi kemudian dibandingkan untuk melihat perbedaan performa antara kedua metode clustering yang digunakan, serta pengaruh seleksi fitur terhadap performa clustering. Hasil terbaik diperoleh pada simulasi dengan metode clustering BIRCH + LASSO, dengan nilai Silhouette Score 0,74186 untuk jumlah cluster k=4 dan 0,73207 untuk k=5. Nilai Davies-Bouldin Index terbaik juga diperoleh pada simulasi tersebut, yaitu 0,42697 untuk k=4 dan 0,37949 untuk k=5. Waktu runtime terbaik tercatat pada simulasi dengan metode K-Means + LASSO, yaitu 0,21551 detik untuk k=4 dan 0,17539 detik untuk k=5. Dapat disimpulkan bahwa metode BIRCH menghasilkan cluster yang lebih baik berdasarkan metrik evaluasi, namun K-Means memberikan proses clustering yang lebih cepat. Seleksi fitur dengan metode LASSO juga membantu meningkatkan performa clustering.

This study aims to perform clustering of SARS-CoV-2 virus variants using unsupervised learning methods. The data used consists of SARS-CoV-2 protein sequences whose features are extracted using the Discere package in the Python programming language. A total of 27 features are generated and selected using the Least Absolute Shrinkage and Selection Operator (LASSO) feature selection method. The Elbow method is employed to determine the optimal number of clusters for the clustering process. The clustering methods used in this research are K-Means clustering and Balanced Iterative Reducing and Clustering using Hierarchies (BIRCH). The clustering results are evaluated using the Silhouette Score and Davies-Bouldin Index metrics, while also considering the runtime for each simulation. The evaluation results are then compared to examine the performance differences between the two clustering methods and the impact of feature selection on clustering performance. The best Silhouette Score is obtained in the simulation using the BIRCH + LASSO clustering method, with a value of 0.74186 for k=4 and 0.73207 for k=5. The best Davies-Bouldin Index is also achieved in the same simulation, with values of 0.42697 for k=4 and 0.37949 for k=5. The fastest runtime is recorded in the simulation using the K-Means + LASSO method, with a time of 0.21551 seconds for k=4 and 0.17539 seconds for k=5. In conclusion, the BIRCH method yields better clustering results based on the evaluation metrics, while K-Means provides faster clustering processes. The LASSO feature selection method also aids in improving clustering performance.

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
UI - Skripsi Membership  Universitas Indonesia Library
Asita Darma Irawati
"Pertimbangan finansial menjadi salah satu penentu utama apakah seseorang akan melanjutkan
pendidikan ke tingkat yang lebih tinggi atau tidak, sehingga diperlukan beasiswa untuk
membantu mahasiswa dalam menempuh pendidikan tinggi, terutama hingga tingkat doktor.
Besar biaya yang dikeluarkan oleh lembaga penyedia beasiswa kepada penerima beasiswa
tentunya diharapkan sepadan dengan kualitas ilmu yang diperoleh. Oleh karena itu, penelitian
ini bertujuan untuk membahas analisis pengelompokan universitas terbaik dunia berdasarkan
komponen biaya pendidikan program doktor dengan metode K-Means. Universitas pada
penelitian ini diambil dari QS World University Rangkings (WUR) 2022. Analisis eksploratori
data dilakukan dan diperoleh bahwa terdapat 83 dari 472 universitas di dunia memberi bantuan
dana penuh untuk studi program doktor. Nilai Silhouette sebesar 0,72 menunjukkan bahwa tiga
merupakan jumlah kelompok yang optimal bagi data. Sehingga terbentuk kelompok A
sebanyak 328 universitas, kelompok B sebanyak 108 universitas, dan kelompok C sebanyak
36 universitas. Kelompok A terdiri dari universitas dengan SPP dan biaya hidup per bulan
relatif rendah, kelompok B sedang, dan kelompok C tinggi. Untuk biaya transportasi udara,
kelompok B cenderung rendah, sedangkan kelompok A dan C relatif serupa dan lebih mahal
dari kelompok B. Sementara untuk biaya visa, kelompok A cenderung lebih murah, sedangkan
kelompok B dan C cenderung serupa dengan biaya lebih mahal. Berdasarkan analisis ini,
penulis memberikan saran universitas yang bisa dipertimbangkan lembaga pemberi beasiswa
sebagai perguruan tinggi tujuan.

Financial concern has been one of the main reasons why an individual wants to pursue higher
education. That is why scholarship is needed to help students earn an education, especially until
doctoral degree. The amount of money spent by institution who give scholarship must be
equivalent with the quality of knowledge an awardee got. This study aims to do clustering
analysis of the world’s top universities based on tuition fee components for doctoral program
using K-Means method. The object of this study are universities based on QS World University
Rankings 2022. Exploratory data analysis is done and found that there are 83 out of 472
universities in the world who give fully funded program for doctoral study. Based on the
silhouette value of 0.72, three is the best number of clusters for the data. Group A, B, C consists
of 328, 108, and 36 universities in respective order. Group A consists of universities who have
chepear tuition fee and monthly living cost compared to Group B dan C. However, Group B
consists of universities who have cheaper transportation, meanwhile Group A and C are quiet
similar. For visa, Group A is cheaper compared to Group B and C which are similar. Based on
the results, recommendations are given to the institution who provide scholarship about the
objective university for doctoral study.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
UI - Skripsi Membership  Universitas Indonesia Library
Athiyyah Fadillah Eriri
"Pengelompokan atau clustering adalah pengelompokan objek-objek yang dilakukan atas dasar kesamaan atau jarak (perbedaan) di mana tidak ada asumsi yang dibuat mengenai banyaknya cluster atau struktur cluster. Salah satu metode yang banyak digunakan dalam penyelesaian masalah clustering adalah algoritme K-Means. Pada algoritme ini, suatu objek yang telah menjadi anggota cluster tertentu, tidak bisa menjadi anggota cluster yang lainnya. Metode ini dikenal sebagai hard clustering. Pendekatan lain dalam melakukan pengelompokan didasarkan pada teori himpunan fuzzy yang dikenal dengan pengelompokan fuzzy. Teori himpunan fuzzy memiliki nilai kekaburan antara salah atau benar. Jadi, dalam melakukan pengelompokan, setiap objek memiliki peluang menjadi anggota pada setiap cluster. Salah satu metode pengelompokan fuzzy adalah Fuzzy C-Means (FCM). Pada tugas akhir ini, metode K-Means dan FCM digunakan untuk mengelompokkan nagari-nagari di Kabupaten Agam. Nagari-nagari di Kabupaten Agam dikelompokan berdasarkan indikator pembangunan keluarga yang berasal dari Laporan Pendataan Keluarga tahun 2015 yang bersumber dari BKKBN (Badan Kependudukan dan Keluarga Berencana Nasional). Pada penelitian ini diperoleh empat cluster hasil dari indeks xie and beni. Jumlah anggota setiap cluster hasil dari algoritme K-Means adalah 32, 28, 11 dan 11. Sedangkan jumlah anggota setiap cluster hasil dari algoritme Fuzzy C-Means adalah 31, 18, 21, dan 12. Perbedaan jumlah anggota cluster yang dihasilkan algoritme K-Means dan Fuzzy C-Means adalah 14.29%. Karena rasio simpangan baku dalam dan antar cluster pada algoritme K-Means memberikan nilai yang lebih kecil dibandingkan algoritme Fuzzy C-Means maka algoritme K-Means memberikan hasil yang lebih baik dari pada algoritme Fuzzy C-Means dalam pengelompokan nagari-nagari di Kabupaten Agam.

Grouping or clustering is a method to group objects that are carried out on the basis of similarity or distance (difference) where no assumptions are made regarding the number of clusters or cluster structures. One method that is widely used in solving clustering problems is the K-Means algorithm. In this algorithm, if an object has become a member of a particular cluster, then it cannot become a member of another cluster. This method is known as hard clustering. Another approach to grouping is based on fuzzy set theory, known as fuzzy grouping. Fuzzy set theory has a blurring value between right or wrong. So, in grouping process, each object has the opportunity to become a member in each cluster. One of the fuzzy grouping methods is Fuzzy C-Means. In this study, the two methods, K-Means and Fuzzy C-Means, are used to group nagari-nagari in Agam District. Nagari is equivalent to villages in other provinces in Indonesia. The nagari grouping in Kabupaten Agam is based on family development indicators derived from the 2015 Family Data Collection Report sourced from BKKBN (Badan Kependudukan dan Keluarga Berencana Nasional). In this study four clusters were obtained based on xie and beni’s index. The numbers of members of each cluster as the result of the K-Means algorithm are 32, 28, 11 and 11. While the numbers of members of each cluster as the result of the Fuzzy C-Means algorithm are 31, 18, 21, and 12. The different cluster members produced by the K-Means and Fuzzy algorithms C-Means is 14.29%. Because the standard deviation ratio within and between clusters in the K-Means algorithm gives a smaller value than the Fuzzy C-Means algorithm, the K-Means algorithm gives better results than the Fuzzy C-Means algorithm on the nagari grouping in Agam District."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
UI - Skripsi Membership  Universitas Indonesia Library
Eryawan Deise Ulul
Hierarchical clustering merupakan metode yang efektif dalam membentuk pohon
filogenetik dengan mengetahui matriks jarak antar barisan DNA. Salah satu cara
untuk membuat matriks jarak yaitu dengan cara menggunakan metode -mer.
Kelebihan dari metode -mer yaitu lebih efisien dalam segi waktu. Langkahlangkah
dalam membuat matriks jarak dengan metode -mer dimulai dengan
membentuk -mer sparse matrix dari masing barisan DNA. Selanjutnya,
membentuk -mer singular value vector. Pada tahap akhir yaitu menghitung jarak
antar vektor. Pada tesis ini akan dilakukan analisis terhadap barisan DNA MERSCoV
dengan mengimplementasi Hierarchical clustering menggunakan -mers
sparse matrix sehingga dapat diketahui leluhur dari masing-masing barisan DNA

Hierarchical clustering is an effective method in creating phylogenetic by
knowing the distance matrix between DNA sequence. One of methods to make the
distance matrix use -mer method. -mer is more efficient than others. The steps
to make distance matrix using -mer method starts from creating -mer sparse
matrix. Then, creating -mer singular value vector. The last steps is counting
distance each vectors. This thesis will analyze the sequence of DNA MERS-CoV
by implementing Hierarchical clustering using k-mers sparse matrix so that will
be known the ancestor of each sequence of DNA MERS-CoV., Hierarchical clustering is an effective method in creating phylogenetic by
knowing the distance matrix between DNA sequence. One of methods to make the
distance matrix use -mer method. -mer is more efficient than others. The steps
to make distance matrix using -mer method starts from creating -mer sparse
matrix. Then, creating -mer singular value vector. The last steps is counting
distance each vectors. This thesis will analyze the sequence of DNA MERS-CoV
by implementing Hierarchical clustering using k-mers sparse matrix so that will
be known the ancestor of each sequence of DNA MERS-CoV.]"
UI - Tesis Membership  Universitas Indonesia Library
Meita Pusparini
"Penelitian ini bertujuan untuk mengidentifikasi segmentasi RFM pada toko kosmetik online di Indonesia. Penelitian ini menggunakan analisis RFM (Recency, Frequency, dan Monetary) yang dilanjutkan dengan K-Means Clustering dengan menggunakan Hiearchical Clustering untuk mencari nilai k. Penelitian ini menggunakan data transaksi penjualan Makeupuccino sepanjang tahun 2017 untuk segmentasi RFM. Hasilnya menunjukkan bahwa jumlah segmentasi yang paling tepat untuk toko kosmetik online adalah 4, yang dibagi menjadi Platinum, Gold, Iron, dan Lead. Keempat segmentasi tersebut memiliki marketing objective dan program marketing yang berbeda.

This research aims to identify RFM segmentation on makeup online store in Indonesia. This research uses RFM (Recency, Frequency, and Monetary) analysis and then uses K-Means Clustering with Hierarchical Clustering as the way to finds k values. This study uses transaction on Makeupuccino (one of makeup online store in Indonesia) during 2017 to get RFM segmentation. The result shows that the best RFM segmentation for makeup online store in Indonesia is 4, that divided into Platinum, Gold, Iron, and Lead. Each of segmentation has different marketing objective and marketing program.
Jakarta: Fakultas Ekonomi dan Bisnis Universitas Indonesia, 2018
UI - Tesis Membership  Universitas Indonesia Library
Iing Fitria
Menganalisis populasi bakteri Streptococcus adalah penting karena spesies ini dapat menyebabkan karies gigi, periodental (plak), halitosis (bau mulut) dan masih banyak lagi masalah yang dapat ditimbulkan. Dalam tesis ini akan dibahas hubungan kekerabatan antara bakteri Streptococcus pada air liur dengan menggunakan pohon filogenetik dari metode agglomerative clustering. Dimulai dengan adanya barisan DNA bakteri Streptococcus yang diambil dari pangkalan data gen (GenBank) yang akan disejajarkan, proses pensejajaran yang dilakukan menggunakan Algoritma Needleman-Wuncsh untuk pensejajaran global. Hasil pensejajaran tersebut berupa skor optimal yang merupakan jarak antara dua barisan DNA bakteri Streptococcus. Skor-skor optimal dikumpulkan dalam satu matriks kemudian membuat pohon filogenetik dengan metode agglomerative clustering yang terdiri atas teknik single linkage,complete linkage dan average linkage. Pada setiap teknik, banyaknya kelompok sama dengan banyaknya individu spesies. Spesies yang paling mirip dikelompokkan sampai akhirnya kemiripan berkurang maka terbentuk kelompok tunggal. Hasil dari pengelompokan berupa pohon filogenetik dan cabang-cabang yang bergabung merupakan tingkatan jarak yang terbentuk. Semakin kecil jarak, maka semakin besar kemiripan spesies serta mengimplementasikannya dengan menggunakan perangkat lunak berbasis open source (Oktave).

Analyzing population of Streptococcus bacteria is important because these spesies can cause dental caries, periodontal, halitosis (bad breath) and more problems.This paper will discuss the phylogenetically relation between the bacterium Streptococcus in saliva using a phylogenetic tree of agglomerative clustering methods. Starting with the bacterium Streptococcus DNA sequence obtained from the GenBank to be aligned, the alignment is performed using the Neddleman-Wuncsh Algorithm for global alignment. The alignment results in the optimal score or the distance between DNA sequence of the bacterium Streptococcus one another. Optimal scores collected in a single matrix. Agglomerative clustering technique consisting of single linkage, complete linkage and average linkage. In this technique the number of group sequal to the number of individual species. The most similar species is grouped until the similarity decreases and then formed a single group. Results of grouping is a phylogenetic tree and branches that join an established level of distance, that the smaller distance the more the similarity of the larger spesies implementation is using the Octave, an open source program."
UI - Tesis Membership  Universitas Indonesia Library
Julizar Isya Pandu Wangsa
"Pendeteksian topik merupakan suatu proses pengidentifikasian suatu tema sentral yang ada dalam kumpulan dokumen yang luas dan tidak terorganisir. Hal ini merupakan hal sederhana yang bisa dilakukan secara manual jika data yang ada hanya sedikit. Untuk data yang banyak dibutuhkan pengolahan yang tepat agar representasi topik dari setiap dokumen didapat dengan cepat dan akurat sehingga machine learning diperlukan. BERTopic adalah metode pemodelan topik yang memanfaatkan teknik clustering dengan menggunakan model pre-trained Bidirectional Encoder Representations from Transformers (BERT) untuk melakukan representasi teks dan Class based Term Frequency Invers Document Frequency (c-TF-IDF) untuk ekstraksi topik. Metode clustering yang digunakan pada penelitian ini adalah metode ­K-Means, Density-Based Spatial Clustering of Applications with Noise (DBSCAN), dan Hierarchical Density-Based Spatial Clustering of Applications with Noise (HDBSCAN). BERT dipilih sebagai metode representasi teks pada penelitian ini karena BERT merepresentasikan suatu kalimat berdasarkan sequence-of-word dan telah memperhatikan aspek kontekstual kata tersebut dalam kalimat. Hasil representasi teks merupakan vektor numerik dengan dimensi yang besar sehingga perlu dilakukan reduksi dimensi menggunakan Uniform Manifold Approximation and Projection (UMAP) sebelum clustering dilakukan. Model BERTopic dengan tiga metode clustering ini akan dianalisis kinerjanya berdasarkan matrik nilai coherence, diversity, dan quality score. Nilai quality score merupakan perkalian dari nilai coherence dengan nilai diversity. Hasil simulasi yang didapat adalah model BERTopic menggunakan metode clustering K-Means lebih unggul 2 dari 3 dataset untuk nilai quality score dari kedua metode clustering yang ada.

Topic detection is the process of identifying a central theme in a large, unorganized collection of documents. This is a simple thing that can be done manually if there is only a small amount of data. For large amounts of data, proper processing is needed to represent the topic of each document quickly and accurately, so machine learning is required. BERTopic is a topic modeling method that utilizes clustering techniques by using pre-trained Bidirectional Encoder Representations from Transformers (BERT) models to perform text representation and Class based Term Frequency Inverse Document Frequency (c-TF-IDF) for topic extraction. The clustering methods used in this research are the K-Means, Density-Based Spatial Clustering of Applications with Noise (DBSCAN), and Hierarchical Density-Based Spatial Clustering of Applications with Noise (HDBSCAN). BERT was chosen as the text representation method in this research because BERT represents a sentence based on sequence-of-words and has considered the contextual aspects of the word in the sentence. The result of text representation is a numeric vector with large dimensions, so it is necessary to reduce the dimensions using Uniform Manifold Approximation and Projection (UMAP) before clustering is done. The BERTopic model with three clustering methods will be analyzed for performance based on the matrix of coherence, diversity, and quality score values. The quality score value is the multiplication of the coherence value with the diversity value. The simulation results obtained are the BERTopic model using K-Means clustering method is superior to 2 of the 3 datasets for the quality score value of the two existing clustering methods."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
UI - Skripsi Membership  Universitas Indonesia Library
Wu, Junjie
"This book addresses these challenges and makes novel contributions in establishing theoretical frameworks for K-means distances and K-means based consensus clustering, identifying the "dangerous" uniform effect and zero-value dilemma of K-means, adapting right measures for cluster validity, and integrating K-means with SVMs for rare class analysis. This book not only enriches the clustering and optimization theories, but also provides good guidance for the practical use of K-means, especially for important tasks such as network intrusion detection and credit fraud prediction. The thesis on which this book is based has won the "2010 National Excellent Doctoral Dissertation Award", the highest honor for not more than 100 PhD theses per year in China."
Berlin: Springer-Verlag, 2012
eBooks  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>