Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 199160 dokumen yang sesuai dengan query
cover
Evan Haryowidyatna
"Per 9 Februari 2023, 87% dari total populasi kendaraan pribadi di Indonesia merupakan sepeda motor. Persebaran sepeda motor terpadat di Indonesia berada di Pulau Jawa dengan persentase sebesar 60%. Tingginya populasi sepeda motor dan fakta bahwa 80% rumah tangga di Pulau Jawa sudah memiliki sepeda motor membuat pasar sepeda motor semakin mengecil. Dalam jangka panjang, kondisi ini dapat berdampak buruk bagi industri sepeda motor yang terus ingin berkembang. Penelitian ini membahas tentang pengelompokan kabupaten dan kota di Pulau Jawa berdasarkan karakteristik demografinya. Kemudian, diberikan saran keputusan yang dapat dilakukan oleh industri sepeda motor berdasarkan kelompok kabupaten dan kota yang terbentuk menggunakan teknik clustering. Hal ini bertujuan agar produsen yang bergerak di industri sepeda motor dapat memfokuskan produknya pada kelompok kabupaten dan kota yang memiliki potensi terbaik. Terdapat 12 variabel demografi yang digunakan dalam penelitian ini, dan variabel tersebut terbagi menjadi tiga kategori: kondisi ekonomi masyarakat, kondisi kehidupan masyarakat, dan kondisi demografis daerah. Metode yang digunakan dalam penelitian ini adalah metode partitional hard clustering. Sebelumnya, dilakukan pembuatan dataset melalui proses data scrapping pada situs terpercaya, dan dilanjutkan dengan proses Exploratory Data Analysis (EDA) pada dataset. Setelah dataset terbentuk, dilakukan pengelompokan dengan metode partitional hard clustering yang terdiri dari metode K-Means Clustering dan metode K-Medoids Clustering. Kemudian, dilakukan evaluasi cluster untuk menentukan metode clustering yang paling sesuai dengan menggunakan empat metrik evaluasi yaitu Indeks Silhouette, Indeks Dunn, Indeks Davies Bouldin, dan Indeks Calinski Harabasz. Didapatkan hasil bahwa metode K-Medoids Clustering dengan 5 kelompok merupakan yang terbaik untuk mengelompokkan kabupaten dan kota di Pulau Jawa. Setelah kelompok terbentuk, setiap kelompok diberikan rekomendasi keputusan yang sebaiknya diambil oleh industri sepeda motor. Terdapat 4 rekomendasi yang dapat diberikan, yaitu distribusi suku cadang, pembuatan bengkel, penjualan sepeda motor kelas menengah ke atas, dan penjualan sepeda motor kelas menengah ke bawah.

As of February 9, 2023, 87% of the total population of private vehicles in Indonesia consists of motorcycles. The densest distribution of motorcycles in Indonesia is found on the Island of Java, with a percentage of 60%. The high population of motorcycles and the fact that 80% of households in Java already have motorcycles are causing the motorcycle market to shrink. In the long run, this condition can have negative impacts on the motorcycle industry that continues to seek growth. This research focuses on the clustering of regencies and cities in Java based on their demographic characteristics. Subsequently, decision recommendations will be provided for the motorcycle industry based on the formed groups using clustering techniques. The aim is to enable manufacturers in the motorcycle industry to focus their products on regencies and cities with the best potential. There are 12 demographic variables used in this research, divided into three categories: the economic conditions of society, the living conditions of society, and the demographic conditions of the region. The method used in this research is the partitional hard clustering method. Firstly, a dataset is created through the data scraping process on trusted sites, followed by the Exploratory Data Analysis (EDA) process on the dataset. Once the dataset is formed, clustering is performed using the partitional hard clustering method, consisting of the K-Means Clustering and K-Medoids Clustering methods. Subsequently, cluster evaluation is carried out to determine the most suitable clustering method using four evaluation metrics: Silhouette Index, Dunn Index, Davies Bouldin Index, and Calinski Harabasz Index. The results show that the K-Medoids Clustering method with 5 clusters is the best for grouping regencies and cities in Java. After the groups are formed, each group is given decision recommendations that the motorcycle industry should consider. There are four recommendations: spare parts distribution, workshop establishment, sales of mid- to high-end motorcycles, and sales of mid-range motorcycles and below."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ananda Sekar Ayu
"Pola konsumsi pangan didefinisikan sebagai kebiasaan makan yang berbeda antara satu individu dengan individu lainnya. Perbedaan kebiasaan makan seseorang sejatinya dapat disebabkan oleh berbagai faktor, mulai dari faktor kesehatan, faktor harga, faktor agama, dan faktor budaya. Penelitian ini bertujuan untuk mengelompokkan individu dari lima kota besar di Indonesia berdasarkan pola konsumsi pangan. Terdapat 18 variabel yang digunakan dalam penelitian ini, 6 diantaranya merupakan variabel numerik dan 12 variabel lainnya merupakan variabel kategorik. Mengingat data yang digunakan terdiri dari dua jenis variabel yang berbeda, maka pengelompokan dilakukan secara terpisah. Variabel numerik dikelompokkan menggunakan metode K-Means Clustering, sementara variabel kategorik dikelompokkan menggunakan metode ROCK Clustering. Hasil kedua pengelompokan tersebut kemudian digabungkan dan dipandang sebagai data baru yang terdiri dari dua variabel bertipe kategorik. Variabel baru tersebut kemudian dikelompokkan kembali menggunakan metode pengelompokan data kategorik yang sebelumnya digunakan, yaitu ROCK Clustering. Proses pengelompokan data gabungan tersebut kemudian dikenal sebagai Ensemble Clustering. Hasil dari penelitian ini menunjukkan bahwa kelompok optimal yang terbentuk untuk data gabungan adalah sebanyak tiga klaster. Klaster satu terdiri dari 286 individu yang pola konsumsi pangannya cenderung dipengaruhi faktor harga, agama, dan budaya. Klaster dua terdiri dari 233 individu yang pola konsumsi pangannya cenderung dipengaruhi faktor kesehatan, agama, dan budaya serta cenderung netral akan faktor harga. Sementara itu, klaster tiga terdiri dari 191 individu yang pola konsumsi pangannya dipengaruhi faktor kesehatan, agama, dan budaya.

Food consumption patterns are defined as eating habits that differ from one individual to another. Differences in a person's eating habits can be caused by various factors, ranging from health factors, price factors, religious factors, and cultural factors. This study aims to clustering individuals from five cities in Indonesia based on food consumption patterns. There are 18 variables used in this study, 6 of them are numerical variables and 12 others are categorical variables. Since the data consists of two different types of variables, the clustering process will be done separately. Numerical variables were grouped using the K-Means Clustering, while categorical variables were grouped using the ROCK Clustering. The grouping result of numerical and categorical variables are then combined into a new data with two categorical variables. The new data then regrouped using the categorical data grouping method, namely ROCK Clustering. This process then known as Ensemble Clustering. The results of this study indicate that the optimal group formed for the new categorical data is three clusters. Cluster one consists of 286 individuals, where food consumption patterns in this cluster tend to be influenced by price, religion, and culture factors. Cluster two consists of 233 individuals, where food consumption patterns in this cluster tend to be influenced by health, religion, and cultural factors and tend to be neutral on price factors. Cluster three consists of 191 individuals, where food consumption patterns in this cluster are influenced by health, religion, and cultural factors."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
K. Aparna
"Data clustering is one of the major areas in data mining. The bisecting clustering algorithm is one of the most widely used for high dimensional dataset. But its performance degrades as the dimensionality increases. Also, the task of selection of a cluster for further bisection is a challenging one. To overcome these drawbacks, we developed a novel partitional clustering algorithm called a HB-K-Means algorithm (High dimensional Bisecting K-Means). In order to improve the performance of this algorithm, we incorporate two constraints, such as a stability-based measure and a Mean Square Error (MSE) resulting in CHB-K-Means (Constraint-based High dimensional Bisecting K-Means) algorithm. The CHB-K-Means algorithm generates two initial partitions. Subsequently, it calculates the stability and MSE for each partition generated. Inference techniques are applied on the stability and MSE values of the two partitions to select the next partition for the re-clustering process. This process is repeated until K number of clusters is obtained. From the experimental analysis, we infer that an average clustering accuracy of 75% has been achieved. The comparative analysis of the proposed approach with the other traditional algorithms shows an achievement of a higher clustering accuracy rate and an increase in computation time."
Depok: Faculty of Engineering, Universitas Indonesia, 2016
UI-IJTECH 7:4 (2016)
Artikel Jurnal  Universitas Indonesia Library
cover
K. Aparna
"Data clustering is one
of the major areas in data mining. The
bisecting clustering algorithm is one of the most widely used for high
dimensional dataset. But its performance
degrades as the dimensionality increases.
Also, the task of selection of a cluster for further bisection is a
challenging one. To overcome these
drawbacks, we developed a novel partitional clustering algorithm called a HB-K-Means algorithm (High dimensional Bisecting
K-Means). In order to improve the
performance of this algorithm, we incorporate two constraints, such
as a stability-based
measure and a Mean Square Error (MSE) resulting in CHB-K-Means
(Constraint-based
High dimensional Bisecting K-Means) algorithm.
The CHB-K-Means algorithm generates two initial partitions. Subsequently, it calculates the stability and
MSE for each partition generated.
Inference techniques are applied on the stability and MSE values of the
two partitions to select the next partition for the re-clustering process. This process is repeated until K number of clusters
is obtained. From the experimental
analysis, we infer that an average clustering accuracy of 75% has been
achieved. The comparative analysis of
the proposed approach with the other traditional algorithms shows an
achievement of a higher clustering accuracy rate and an increase in
computation time."
2016
J-Pdf
Artikel Jurnal  Universitas Indonesia Library
cover
Lumbantobing, Esther Widya Impola
"Self Organizing Map (SOM) adalah metode pengelompokan yang berguna untuk mengeksplorasi karakteristik data secara visual. Pada penelitian ini metode SOM digunakan untuk mengelompokkan kecamatan-kecamatan di Pulau Sumatera berdasarkan karakteristik penggunaan fixed broadband di masing-masing wilayah tersebut. Melalui pengelompokan dengan metode SOM, didapatkan 3 kelompok kecamatan yaitu: kecamatan dengan penggunaan fixed broadband rendah, menengah dan tinggi. Agar hasil pengelompokan dapat dilihat secara detail, maka hasil SOM dipetakan ke dalam Sistem Informasi Geografis. Hasil visualisasi ini adalah peta penggunaan fixed broadband di Pulau Sumatera yang dapat digunakan untuk menggambarkan bagaimana kondisi penggunaan fixed broadband di Pulau Sumatera.

Self Organizing Map (SOM) is a powerful clustering method to explore the characteristics of the data visually. In this study, SOM is used to cluster the subdistrict regions in Sumatera based on their characteristics of fixed broadband application in each region. Through clustering with SOM, three distinct clusters of those subdistricts are found. Cluster 1 consists of subdistricts with low fixed broadband application, Cluster II consists of subdistricts with medium fixed broadband application and the last consists of subdistricts with high application in fixed broadband. In order to get a geographical representation of the clusters, the results from SOM are visualized into Geographic Information System. From this visualization, a fixed broadband map of Sumatera is created of which can be used to describe the conditions of fixed broadband application in Sumatera."
Depok: Fakultas Teknik Universitas Indonesia, 2014
S59288
UI - Skripsi Membership  Universitas Indonesia Library
cover
Moch Galih Primantara
" ABSTRAK
Clustering adalah salah satu topik penting pada bidang Data Mining. Teori graf dapat digunakan untuk membantu clustering dengan cara membuat graf yang mewakili data-data yang akan di-cluster. Salah satu metode graf clustering adalah k-way spectral clustering yang memanfaatkan sebanyak k nilai eigen dan vektor eigen pertama dari matriks Laplacian suatu graf untuk melakukan clustering dengan k adalah banyaknya cluster yang diinginkan. Pada skripsi ini dibahas mengenai algoritma k-way spectral clustering merujuk kepada Ng, Jordan, dan Weiss (2002) dan von Luxburg (2007).

ABSTRACT
Clustering is one of the most important topic in Data Mining. Graph can be used to do clustering by forming a representation graph data which is needed to be clustered. K-way spectral clustering is one of many methods of graph clustering. This method uses first-k eigen values and eigen vectors of a Laplacian matrix to cluster with k is the number of desired clusters. In this skripsi, it will be discussed a k-way spectral clustering algorithm by Ng, Jordan, and Weiss (2002) and von Luxburg (2007).
"
Universitas Indonesia, 2016
S61791
UI - Skripsi Membership  Universitas Indonesia Library
cover
Alvin Subakti
"Text clustering adalah teknik pengelompokan teks sehingga teks di dalam kelompok yang sama memiliki tingkat similaritas yang lebih tinggi satu sama lain dibandingkan dengan teks pada kelompok yang berbeda. Proses pengelompokkan teks secara manual membutuhkan waktu dan sumber daya yang banyak sehingga digunakan machine learning untuk melakukan pengelompokan secara otomatis. Representasi dari teks perlu diekstraksi sebelum dimasukkan ke dalam model machine learning. Metode yang umumnya digunakan untuk mengekstraksi representasi data teks adalah TFIDF. Namun, metode TFIDF memiliki kekurangan yaitu tidak memperhatikan posisi dan konteks penggunaan kata. Model BERT adalah model yang dapat menghasilkan representasi kata yang bergantung pada posisi dan konteks penggunaan suatu kata dalam kalimat. Penelitian ini menganalisis kinerja model BERT sebagai metode representasi data teks dengan membandingkan model BERT dengan TFIDF. Selain itu, penelitian ini juga mengimplementasikan dan membandingkan kinerja metode ekstraksi dan normalisasi fitur yang berbeda pada representasi teks yang dihasilkan model BERT. Metode ekstraksi fitur yang digunakan adalah max dan mean pooling. Sementara itu, metode normalisasi fitur yang digunakan adalah identity, layer, standard, dan min-max normalization. Representasi teks yang diperoleh dimasukkan ke dalam 4 algoritma clustering berbeda, yaitu k-means clustering, eigenspace-based fuzzy c-means, deep embedded clustering, dan improved deep embedded clustering. Kinerja representasi teks dievaluasi dengan menggunakan metrik clustering accuracy, normalized mutual information, dan adjusted rand index. Hasil simulasi menunjukkan representasi data teks yang dihasilkan model BERT mampu mengungguli representasi yang dihasilkan TFIDF pada 28 dari 36 metrik. Selain itu, implementasi ekstraksi dan normalisasi fitur yang berbeda pada model BERT memberikan kinerja yang berbeda-beda dan perlu disesuaikan dengan algoritma yang digunakan.

Text clustering is a task of grouping a set of texts in a way such that text in the same group will be more similar toward each other than to those from different group. The process of grouping text manually requires significant amount of time and labor. Therefore, automation utilizing machine learning is necessary. Text representation needs to be extracted to become the input for machine learning models. The common method used to represent textual data is TFIDF. However, TFIDF cannot consider the position and context of a word in a sentence. BERT model has the capability to produce text representation that incorporate position and context of a word in a sentence. This research analyzed the performance of BERT model as a text representation method by comparing it with TFIDF. Moreover, various feature extraction and normalization methods are also applied in text representation from BERT model. Feature extraction methods used are max and mean pooling. On the other hand, feature normalization methods used are identity, layer, standard, and min-max normalization. Text representation obtained become an input for 4 clustering algorithms, k-means clustering, eigenspace-based fuzzy c-means, deep embedded clustering, and improved deep embedded clustering. Performance of text representations in text clustering are evaluated utilizing clustering accuracy, normalized mutual information, and adjusted rand index. Simulation results showed that text representation obtained from BERT model outperforms representation from TFIDF in 28 out of 36 metrics. Furthermore, different feature extraction and normalization produced varied performances. The usage of these feature extraction and normalization must be altered depending on the text clustering algorithm used."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nadilah Tyassistha
"ABSTRAK
Mengolah data dalam bentuk graf dapat dilakukan dengan cara clustering graf, yaitu mengelompokkan graf ke dalam cluster-cluster dimana data pada satu cluster memiliki karakter yang relatif sama. Two way spectral clustering adalah salah satu cara clustering graf yang menggunakan informasi dari dua nilai eigen untuk mendapatkan dua cluster setiap melakukan proses clustering. Pada skripsi ini akan dibahas bagaimana cara clustering graf dengan metode two way spectral clustering berdasarkan kriteria partisi graf dan akan dilakukan simulasi untuk melihat hasil clustering menggunakan graf terhubung dan graf tidak terhubung.

ABSTRACT
Data processing of graph data can be done by graph clustering, where data are grouped into clusters which data on each cluster have the similar characteristic. Two way spectral clustering is one of a graph clustering which using the smallest two eigenvalues to obtain two clusters. This skripsi will discuss how to clustering graph with two way spectral clustering method based on graph partitioning criteria and moreover data simulations will be conducted to see the results of clustering using a connected and disconnected graphs.
"
2015
S61798
UI - Skripsi Membership  Universitas Indonesia Library
cover
Lista Kurniawati
"Pendeteksian topik merupakan masalah komputasi yang menganalisis kata-kata dari suatu data teks untuk menemukan topik yang ada di dalam teks tersebut. Pada data yang besar, pendeteksian topik lebih efektif dan efisien dilakukan dengan metode machine learning. Data teks harus diubah ke dalam bentuk representasi vektor numeriknya sebelum dimasukkan ke model machine learning. Metode representasi teks yang umum digunakan adalah TF-IDF. Namun, metode ini menghasilkan representasi data teks yang tidak memperhatikan konteksnya. BERT (Bidirectional Encoder Representation from Transformer) merupakan metode representasi teks yang memperhatikan konteks dari suatu kata dalam dokumen. Penelitian ini membandingkan kinerja model BERT dengan model TF-IDF dalam melakukan pendeteksian topik. Representasi data teks yang diperoleh kemudian dimasukkan ke model machine learning. Salah satu metode machine learning yang dapat digunakan untuk menyelesaikan masalah pendeteksian topik adalah clustering. Metode clustering yang populer digunakan adalah Fuzzy C-Means. Namun, metode Fuzzy C-Means tidak efektif pada data berdimensi tinggi. Karena data teks berita biasanya memiliki ukuran dimensi yang cukup tinggi, maka perlu dilakukan proses reduksi dimensi. Saat ini, terdapat metode clustering yang melakukan reduksi dimensi berbasis deep learning, yaitu Deep Embedded Clustering (DEC). Pada penelitan ini digunakan model DEC untuk melakukan pendeteksian topik. Eksperimen pendeteksian topik menggunakan model DEC (member) dengan metode representasi teks BERT pada data teks berita menunjukkan nilai coherence yang sedikit lebih baik dibandingkan dengan menggunakan metode representasi teks TF-IDF.

Topic detection is a computational problem that analyzes words of a textual data to find the topics in it. In large data, topic detection is more effective and efficient using machine learning methods. Textual data must be converted into its numerical vector representation before being entered into a machine learning model. The commonly used text representation method is TF-IDF. However, this method produces a representation of text data that does not consider the context. BERT (Bidirectional Encoder Representation from Transformers) is a text representation method that pays attention to the context of a word in a document. This study compares the performance of the BERT model with the TF-IDF model in detecting topics. The representation of the text data obtained is then entered into the machine learning model. One of the machine learning methods that can be used to solve topic detection problems is clustering. The popular clustering method used is Fuzzy CMeans. However, the Fuzzy C-Means method is not effective on high-dimensional data. Because news text data usually has a high dimension, it is necessary to carry out a dimension reduction process. Currently, there is a clustering method that performs deep learning-based dimension reduction, namely Deep Embedded Clustering (DEC). In this research, the DEC model is used to detect topics. The topic detection experiment using the DEC (member) model with the BERT text representation method on news text data shows a slightly better coherence value than using the TF-IDF text representation method.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Elfi Fauziah
"Tesis ini membahas pengelompokan virus-virus influenza A. Virus influenza A adalah virus RNA yang berbahaya, karena memiliki kemampuan mutasi yang tinggi dan menyebabkan wabah di beberapa negara. Dengan kemajuan bioinformatika, virus-virus dapat dikelompokkan dengan menganalisis sekuens-sekuens protein dari virus-virus tersebut. Markov clustering (MCL) telah diaplikasikan dengan baik pada bioinformatika, seperti; mengelompokkan jaringan-jaringan antara protein yang satu dengan yang lain, jaringan kemiripan antar protein, dan penentuan keluarga protein.
Tujuan penelitian ini adalah mengelompokkan virus-virus influenza A berdasarkan protein hemaglutinin (HA) menggunakan algoritma Markov clustering (MCL) dan program menggunakan perangkat lunak Octave berbasis open source. Simulasi program menggunakan tiga buah faktor penggelembungan yang berbeda, yaitu; r = 1.5, r = 2.0, dan r = 2.5.
Pengelompokan virus-virus influenza A menghasilkan dua kelompok. Kelompok pertama dengan pusat kelompoknya A/duck/Jiangsu/115/2011(H4N2) dan kelompok kedua dengan pusat kelompoknya A/duck/Victoria/0305-2/2012 (H5N3). Struktur pengelompokan virus-virus influenza A berdasarkan sekuens protein hemaglutinin (HA) yang diperoleh dengan menggunakan algoritma Markov clustering (MCL) mempunyai kemiripan struktur dengan struktur pengelompokan protein hemaglutinin (HA), dengan demikian pengelompokan virus-virus influenza A dapat mengacu pada pengelompokan keluarga protein hemaglutinin (HA).

The focus of this study is the clustering of influenza A viruses. Influenza A virus is an RNA virus that is dangerous, because it has a high mutation capability and caused outbreaks in several countries. With the development of bioinformatics, the viruses can be clustered by analyzing the protein sequences of these viruses. Markov clustering (MCL) has been very well applied to bioinformatics, such as to cluster protein-protein interactions (PPI) networks, determine the similarity between the protein network, and determine the protein families.
The aim of this study is to cluster influenza A viruses based on hemagglutinin protein (HA) using Markov clustering (MCL) and programs using software Octave which based on open source. The simulation of program using three different inflation factors, ie; r = 1.5, r = 2.0 and r = 2.5.
Clustering of influenza A viruses resulted in two clusters. The center of the first cluster is A / duck / Jiangsu / 115/2011 (H4N2) and the center of the second cluster is A / duck / Victoria / 0305-2 / 2012 (H5N3). Clustering structure of influenza A viruses using Markov clustering (MCL) have the similar structure with clustering structure of the hemaglutinin protein (HA), thus clustering of influenza A viruses can refer to the clustering of hemagglutinin proteins (HA) families.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2014
T42347
UI - Tesis Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>