Hasil Pencarian

Ditemukan 87558 dokumen yang sesuai dengan query

Frisca

Implementasi spectral clustering pada data microarray gen karsinoma menggunakan algoritma K-means = The implementation of spectral clustering on microarray data on carcinoma genes using K-means algorithm

"Spectral clustering adalah salah satu algoritma clustering modern yang paling terkenal. Sebagai teknik clustering yang efektif, metode spectral clustering muncul dari konsep teori graf spektral. Metode spectral clustering membutuhkan algoritma partisi. Ada beberapa metode partisi termasuk PAM, SOM, Fuzzy c-means, dan k-means. Berdasarkan penelitian yang telah dilakukan oleh Capital dan Choudhury pada 2013, ketika menggunakan Euclidian distance, k-means memberikan akurasi yang lebih baik dibandingkan dengan algoritma PAM. sehingga, makalah ini menggunakan algoritma k-means. Keuntungan utama dari spectral clustering adalah mengurangi dimensi data, terutama dalam hal ini untuk mengurangi dimensi yang besar dari data microarray.

Microarray data adalah chip berukuran kecil yang terbuat dari slide kaca yang berisi ribuan bahkan puluhan ribu jenis gen dalam fragmen DNA yang berasal dari cDNA. Aplikasi data microarray secara luas digunakan untuk mendeteksi kanker, misalnya adalah karsinoma, di mana sel-sel kanker mengekspresikan kelainan pada gen-nya. Proses spectral clustering dimulai dengan pengumpulan data microarray gen karsinoma, preprocessing, menghitung similaritas, menghitung , menghitung nilai eigen dari , membentuk matriks , dan clustering dengan menggunakan k-means. Dari hasil pengelompokan gen karsinoma pada penelitian ini diperoleh dua kelompok dengan nilai rata-rata Silhouette maksimal adalah 0.6336247. Proses clustering pada penelitian ini menggunakan program open source R.

Spectral clustering is one of the most famous modern clustering algorithms. As an effective clustering technique, spectral clustering method emerged from the concepts of spectral graph theory. Spectral clustering method needs partitioning algorithm. There are some partitioning methods including PAM, SOM, Fuzzy c means, and k means. Based on the research that has been done by Capital and Choudhury in 2013, when using Euclidian distance k means algorithm provide better accuracy than PAM algorithm. So in this paper we use k means as our partition algorithm. The major advantage of spectral clustering is in reducing data dimension, especially in this case to reduce the dimension of large microarray dataset.
Microarray data is a small sized chip made of a glass plate containing thousands and even tens of thousands kinds of genes in the DNA fragments derived from doubling cDNA. Application of microarray data is widely used to detect cancer, for the example is carcinoma, in which cancer cells express the abnormalities in his genes. The spectral clustering process is started with collecting microarray data of carcinoma genes, preprocessing, compute similarity matrix, compute , compute eigen value of , compute , clustering using k means algorithm. In this research, Carcinoma microarray data using 7457 genes. The result of partitioning using k means algorithm is two clusters clusters with maximum Silhouette value 0.6336247."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017

T47117

UI - Tesis Membership Universitas Indonesia Library

Rosalia Deviana Cahyaningrum

Implementasi metode spectral clustering-partitioning around medoids (PAM) dengan algoritma similaritas paralel berbasis cuda pada data microarray gen karsinoma = Implementation of spectral clustering partitioning around medoids (PAM) method with parallel similarity algorithm based on cuda in microarray data of carcinoma genes

"Penelitian ini bertujuan untuk mengimplementasikan spectral clustering-PAM dengan menggunakan algoritma similaritas serial dan mengimplementasikan algoritma similaritas paralel berbasis CUDA dalam metode spectral clustering pada data microarray gen karsinoma. Implementasi dibantu dengan perangkat lunak R berbasis open source yang digunakan pada algoritma spectral clustering-PAM dengan algoritma similaritas serial dan CUDA yang digunakan pada algoritma similaritas paralel. Pengelompokan data microarray gen karsinoma diawali dengan menormalisasi data menggunakan normalisasi min-max. Pada algoritma spectral clustering-PAM, pertama-tama similaritas antar gen karsinoma dihitung. Selanjutnya, membentuk matriks Laplacian ternormalisasi dari matriks diagonal dan matriks Laplacian tak ternormalisasi. Langkah berikutnya yaitu menghitung eigenvalue dari matriks Laplacian ternormalisasi dan menentukan eigenvector dari eigenvalue terkecil matriks Laplacian ternormalisasi yang disusun menjadi dataset baru untuk dipartisi setiap barisnya menggunakan metode PAM. Berdasarkan running time, waktu yang dibutuhkan untuk menghitung nilai similaritas secara paralel di CUDA 378 kali lebih cepat daripada secara serial di R. Hasil penelitian menunjukkan bahwa spectral clustering-PAM mengelompokkan data microarray gen karsinoma menjadi dua cluster dengan nilai rata-rata silhouette yaitu 0,6458276.

This research aims to implement the spectral clustering PAM using serial similarity algorithm and implement parallel similarity algorithm based on CUDA in spectral clustering method on microarray data of carcinoma genes. Implementation assisted with software based on open source R used in spectral clustering algorithm PAM with serial similarity algorithm and CUDA used to parallel similarity algorithm. Clustering microarray data of carcinoma genes preceded by normalizing the data using min max normalization. In the spectral clustering PAM algorithm, first of all, similarity between genes of carcinoma calculated. Furthermore, forming the normalized Laplacian matrix from diagonal matrix and unnormalized Laplacian matrix. The next step is to calculate the eigenvalues of normalized Laplacian matrix and determine the eigenvectors of k smallest eigenvalues of normalized Laplacian matrix is organized into a new dataset to be partitioned each line using PAM. Based on the running time, the time required to calculate the value of parallel similarity in CUDA is 378 times faster than a serial in R. The results showed that spectral clustering PAM classify microarray data of carcinoma genes into two clusters with an average silhouette value is 0,6458276."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017

T47172

UI - Tesis Membership Universitas Indonesia Library

M. Abdul Rivai

Implementasi spectral clustering-self organizing map pada data microarray ekspresi gen karsinoma = Implementation of spectral clustering self organizing map on microarray data of carcinoma genes expression / M. Abdul Rivai

"ABSTRAK

Clustering adalah metode pembagian data ke dalam kelompok homogen yang disebut cluster. Spectral clustering merupakan salah satu algoritma clustering modern yang memiliki kelebihan dapat mereduksi dimensi data. Pada penelitian ini metode partisi yang diterapkan pada spectral clustering yaitu self-organizing map SOM . SOM memiliki keunggulan tahan terhadap data noise dan outlier, serta SOM dapat mengatasi dataset yang besar. Penelitian ini bertujuan untuk mengimplementasikan spectral clustering-self organizing map pada data microarray ekspresi gen karsinoma yang terdiri dari 7457 gen dari 18 sampel normal dan 18 sampel penderita kanker karsinoma. Sebelum dilakukan spectral clustering-SOM, data microarray ekspresi gen karsinoma dinormalisasi menggunakan normalisasi min-max. Spectral clustering-SOM dilakukan dengan tahapan-tahapan berikut: menghitung matriks similaritas W , menghitung matriks laplacian ternormalisasi Lsym , menghitung eigenvalue dari Lsym, membentuk matriks U yang terdiri dari k eigenvector terkecil, membentuk vektor unit Unorm dari vektor baris pada matriks U sehingga vektor unit memiliki norm 1, mengelompokkan gen pada matriks Unorm menggunakan SOM dan menghitung nilai indeks Davies-Bouldin IDB k . Penentuan jumlah cluster terbaik berdasarkan nilai indeks Davies-Bouldin yang paling minimum. Dengan menggunakan perangkat lunak R, hasil penelitian ini menunjukkan bahwa data microarray ekspresi gen karsinoma terbagi menjadi dua cluster dengan nilai indeks Davies-Bouldin yaitu 0,5843429. Berdasarkan indeks Davies-Bouldin, hasil clustering menggunakan metode spectral clustering-SOM lebih baik daripada hasil clustering yang menggunakan metode SOM tanpa spectral clustering.

ABSTRACT

Clustering is a method the dividing data into a homogeneous group called a cluster. Spectral clustering is one of the modern clustering algorithms that has the advantage of reducing dimensions of data. In this study the partitioning method applied to spectral clustering is self organizing map. SOM has the advantage of robust to noise and outlier, and SOM can handle large datasets. This study aims to implement spectral clustering self organizing map on microarray data of carcinoma gene expression consisting of 7457 genes from 18 normal samples and 18 samples of carcinoma cancer patients. Before spectral clustering SOM, the microarray data of carcinoma genes expression was normalized using min max normalization. The Spectral clustering SOM is done by the following steps calculate similarity matrix W , calculate the normalized Laplacian matrix Lsym , calculate the eigenvalue of Lsym , forming a vector unit Unorm of the row vector of the matrix U so that the vector unit has norm 1, grouping the genes in the matrix Unorm and calculate the Davies Bouldin index values IDB k . Determination of the best number of clusters based on the minimum value of the Davies Bouldin index. By using software R, the result of this research is microarray data of carcinoma gene expression is divided into two clusters with Davies Bouldin index value is 0.5843429. Based on the Davies Bouldin index values, clustering using spectral clustering SOM is better than clustering using only SOM method without spectral clustering."

2017

T48650

UI - Tesis Membership Universitas Indonesia Library

Hendy Fergus Atheri Hura

Analisis Cluster Gen dari Microarray Data Ekspresi Gen Menggunakan Spectral Clustering dengan Metode Partisi Fuzzy C-Means = Gene Clusters Analysis of Microarray Data of Gene Expression by Using Spectral Clustering with Fuzzy C-Means Partitioning Method.

"ABSTRAK

Penelitian ini mengimplementasikan metode spectral clustering-Fuzzy C-Means pada tiga microarray data ekspresi gen, dengan tujuan untuk mengelompokkan gen-gen yang memiliki tingkat ekspresi yang similar. Spectral clustering secara teoritis terdiri dari tiga tahap utama yaitu: membangun matriks jarak, membentuk matriks Laplacian, dan proses partisi, khususnya dalam tesis ini menggunakan algoritma partisi Fuzzy C-Means. Oleh karena itu, implementasi dari spectral clustering-FCM lebih sederhana dan intuitif pada pelaksanaannya. Analisis cluster singkat juga akan dipaparkan untuk masing-masing microarray data yang digunakan yaitu: Carcinoma, Leukemia, dan Lymphoma. Hasil cluster yang sangat baik didapatkan, sehingga metode yang diusulkan memiliki potensi besar ke depannya dalam penelitan pada bidang medis.

ABSTRACT

This research implements the spectral clustering FCM method on three microarray gene expression data, with the aim of grouping genes with similar expression levels. Spectral clustering is theoretically composed of three main stages building distance matrix, forming Laplacian matrix, and partitioning process, especially in this thesis using Fuzzy C Means partition algorithm. Therefore, the implementation of spectral clustering FCM is simpler and more intuitive in its implementation. Brief cluster analysis will also be presented for each microarray data used Carcinoma, Leukemia, and Lymphoma. Excellent cluster results are obtained, so the proposed method has great potential for future research in the medical field. "

2017

T48274

UI - Tesis Membership Universitas Indonesia Library

Khoirul Umam

Penerapan TWO-level hybrid clustering menggunakan algoritma K-means dan algoritma diana pada barisan DNA human papillomavirus (HPV) = The implementation of two level hybrid clustering using k means algorithm and diana algorithm on DNA sequence of human papillomavirus (HPV)

"DNA adalah salah satu pembawa informasi genetik pada makhluk hidup. Sequencing dan clustering barisan DNA telah menjadi pekerjaan utama dan rutin dalam dunia biologi molekuler, khususnya dalam bidang terapan bioinformatika. Secara umum metode clustering dapat dibedakan menjadi dua, yaitu hirarki clustering dan partisi clustering. Penelitian ini menggabungkan dua metode clustering yaitu K-Means partisi clustering pada Level 1 dan DIANA hirarki clustering pada Level 2, oleh karena itu disebut Two-Level Hybrid Clustering. Proses awal dimulai dengan mengumpulkan barisan DNA HPV yang diperoleh dari NCBI National Centre for Biotechnology Information, Ekstraksi Ciri, dan Normalisasi. Kemudian melakukan proses clustering menggunakan algoritma K-Means pada Level 1 dan algoritma DIANA pada Level 2. Untuk menghitung jarak genetik antar barisan DNA HPV digunakan persamaan Euclidian Distance. Dan validitas klaster yang digunakan untuk menentukan banyaknya klaster yang optimum adalah Indeks Davies-Bouldin IDB. Hasil penerapan Two-Level Hybrid Clustering pada 1252 barisan DNA HPV adalah data dikelompokan menjadi 4 klaster dengan nilai IDB yaitu 0.859154564. Semua perhitungan dan proses clustering menggunakan software R.

DNA is one of the carrier of genetic information in living organisms. Sequencing and clustering DNA sequences has become the key and routine activitis in the molecular biology, in particular on bioinformatics applications. There are two type of clustering, hierarchical clustering and partitioning clustering. In this paper, we combine two type clustering proccesses including K Means partitioning clustering on Level 1 and DIANA hierarchical clustering on Level 2, therefore it called Two Level Hybrid clustering. The beginning of process is started with collecting DNA sequences of HPV from NCBI National Centre for Biotechnology Information, Characteristics Extraction, and Normalization. The next step is clustering by implementation K Means algorithm on Level 1 and DIANA algorithm on Level 2. To calculate the genetic distance we use Euclidian Distance. Moreover, in validating cluster results in order to get optimum number of clusters, we use Davies Bouldin Index DBI. The result of implementation of Two Level Hybrid Clustering on 1252 sequences of HPV is the data clustered into 4 clusters with minimal IDB value is 0.859154564. All calculating and clustering process in this paper using software R."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017

T47109

UI - Tesis Membership Universitas Indonesia Library

Bambang Novianto

Analisis Kerentanan pada Autonomous System Number di Indonesia Berdasarkan Data Shodan dengan Menggunakan Algoritma K-Means Clustering = Vulnerability Analysis of Autonomous System Number (ASN) from Indonesia Based on Exposure Data in Shodan with K-Means Clustering

"Pertumbuhan pemanfaatan internet telah meningkatkan perhatian terhadap keamanan data. Pada tahun 2014, Projek SHINE (SHodan Intelligence Extraction) telah menerbitkan laporan penilaian keamanan skala besar untuk perangkat yang terhubung ke Internet. Namun, berdasarkan laporan tersebut, jumlah informasi mengenai IP address Indonesia yang berhasil didapatkan masih sedikit. Terdapat sebanyak 7.182 IP address dari Indonesia, yaitu sekitar 0,0032% dari total 2.186.971 IP address yang berhasil dikumpulkan oleh Projek SHINE. Dalam penulisan tesis ini, penulis mengajukan inisiatif untuk melakukan analisis kerentanan semua informasi Autonomous System Number (AS Number) di Indonesia dari Shodan. Penulis telah menyusun dataset semua informasi AS Number di Indonesia antara lain 12.787 port, 79 sistem operasi, 409 produk, 3.634 domain, 145.543 IP address, dan 790 organisasi. Penulis menggunakan algoritma K-Means clustering untuk mengelompokkan AS Number ke dalam beberapa kelas sesuai dengan tingkat paparan di shodan. Berdasarkan hasil pengelompokan, penulis mendapatkan 4 kelas AS Number antara lain 1.075 AS Number di kelas: 0 (belum terdapat informasi mengenai AS Number tersebut di Shodan), 614 AS Number di kelas: 1 (tingkat paparan rendah), 9 AS Number di kelas: 2 (tingkat paparan sedang), dan 1 AS Number di kelas: 3 (tingkat paparan tinggi). Informasi ini dapat dimanfaatkan oleh Kementerian yang menangani bidang Teknologi Informasi dan Komunikasi dan Badan yang menangani Keamanan Siber di Indonesia untuk menghimbau organisasi pengelola AS Number agar mewaspadai potensi kerentanan yang dinformasikan oleh Shodan dan dimanfaatkan oleh hacker.

The growth of internet-enabled devices has increased interest in cybersecurity. In 2014, Project SHINE (SHodan INtelligence Extraction) published a report of large-scale security assessments for devices connected to the Internet. However, the number of IP addresses harvested from Indonesia in 2014 is very small. There were 7.182 IP address from Indonesia. It was about 0,0032% from the total 2.186.971 IP addresses. In this paper, we propose an initiative to gather all information for all Autonomous System Number (AS Number) from Indonesia in Shodan. We have gathered a dataset about all information of AS Numbers in Indonesia such as 12.787 unique ports, 79 unique operating systems, 409 unique products, 3.634 unique domains, 145.543 unique IP addresses, and 790 unique organizations. We use the K-Means algorithm to cluster all AS Numbers into several classes according to the exposure level in shodan. Based on the result, we have 4 classes of AS Numbers. There are 1.075 AS Numbers in class:0 (no information in Shodan yet), 614 AS Numbers in class:1 (exposure level = low), 9 AS Numbers in class:2 (exposure level = medium), and 1 AS Number in class:3 (exposure level = high). This information can be used to warn the organizations that manage AS Numbers in Indonesia to be aware of the security and the threats to their systems."

Jakarta: Fakultas Teknik Universitas Indonesia, 2020

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Khaola Rachma Adzima

Penerapan algoritma partisi k means dalam metode hopach clustering = Implementation of k means partitioning alghorithm in hopach clustering methode

"Penerapan algoritma partisi k-means dalam metode HOPACH clustering dalam penelitian ini dilakukan untuk mengelompokkan barisan DNA virus ebola. Proses dimulai dengan mengumpulkan barisan DNA virus ebola yang diambil dari GenBank, kemudian dilakukan ekstraksi ciri menggunakan n-mers frequency. Hasil ekstraksi ciri barisan DNA tersebut dikumpulkan dalam sebuah matriks dan dilakukan normalisasi menggunakan normalisasi min-max dengan interval [0, 1] yang akan digunakan sebagai data masukan. Hasil pengelompokan barisan DNA virus ebola pada penelitian ini diperoleh 8 kelompok dengan nilai MSS (Mean Split Silhouette) minimum 0,50266. Proses clustering pada penelitian ini menggunakan program open source R.

The implementation of k-means partitioning algorithm in HOPACH clustering method in this thesis is used to clustering DNA sequences of ebola viruses. The clustering process is started with collecting DNA sequences of ebola viruses that are taken from GenBank, then performing the extraction of DNA sequences using n-mers frequency. The extraction results are collected as a matrix and normalized using the min-max normalization with interval [0, 1] which will be used as an input data. As the results, we obtained 8 clusters with minimum MSS (Mean Split Silhouette) 0,50266. The clustering process in this thesis is using the open source program R."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2016

T44900

UI - Tesis Membership Universitas Indonesia Library

Syamira Merina

Implementasi algoritma biclustering binary inclusion maximal pada data ekspresi gen microarray adenoma = Implementation of the binary inclusion maximal biclustering algorithm on adenoma microarray gene expression data

"Adenoma merupakan jenis tumor jinak pada lapisan epidermis jaringan. Adenoma dapat berubah menjadi kanker ganas yang kemudian disebut Adenocarcinoma. Terdapat salah satu bentuk data biologi molekuler yang sedang berkembang saat ini, yaitu data ekspresi gen microarray. Microarray dapat digunakan untuk pendeteksian dan penelitian dalam bidang onkologi. Salah satu metode untuk mengolah dan menganalisis data ekspresi gen microarray adalah dengan biclustering. Dalam skripsi ini akan dilakukan implementasi salah satu metode biclustering pada data ekspresi gen microarray, yaitu dengan algoritma Binary Inclusion-Maximal. Algoritma akan diimplementasi pada data Adenoma kolon yang terdiri dari 7070 gen dengan 4 sampel sel adenoma dan 4 sampel sel normal. Implementasi tersebut membutuhkan waktu kurang dari 1 detik dan menghasilkan 22 bicluster yang terdiri dari 25 gen secara keseluruhan.

Adenoma is a benign type of tumor in the epidermal layer of a tissue. Adenoma can turn into a malignant cancer which is then called Adenocarcinoma. There is a form of molecular biology data which is developing today, namely microarray gene expression data. Microarray can be use for detection and research in the field of oncology. One method for processing and analyzing microarray gene data is by biclustering. In this study the writer will be using one method of biclustering, the Binary Inclusion Maximal algorithm, and implement it on microarray gene expression data. The algorithm will be implemented on Colon Adenoma data consisting of 7070 genes with 4 adenoma cell samples and 4 normal cell samples. The implementation took less than one second and resulted in 22 biclusters composed of 25 genes."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Nova Yuniarti

Penerapan algoritma K- Means clustering pada pengelompokan barisan DNA virus hepatitis B (HBV) = Application of K-Means algorithm in clustering the DNA sequences of hepatitis B virus (HBV) / Nova Yuniarti

"[ABSTRAK

Berdasarkan data WHO tahun 2014, diperkirakan sekitar 15 juta orang di dunia

yang terinfeksi hepatitis B (HBsAg+) juga terinfeksi hepatitis D. Infeksi hepatitis

D dapat terjadi bersamaan (koinfeksi) atau setelah seseorang terkena hepatitis B

kronis (superinfeksi). Penyakit hepatitis B disebabkan oleh virus HBV dan

penyakit hepatitis D disebabkan oleh virus HDV. HDV tidak dapat hidup tanpa

HBV. Hepatitis D erat hubungannya dengan infeksi virus HBV, sehingga sangat

realistis bila setiap usaha pencegahan terhadap hepatitis B, maka secara tidak

langsung mencegah hepatitis D. Pada tesis ini akan dibahas bagaimana hasil

pengelompokan barisan DNA HBV menggunakan algoritma k-means clustering

dengan menggunakan perangkat lunak R. Dimulai dengan mengumpulkan barisan

DNA HBV yang diambil dari GenBank, kemudian dilakukan ekstraksi ciri

menggunakan n-mers frequency, dan hasil ekstraksi ciri barisan DNA tersebut

dikumpulkan dalam sebuah matriks dan dilakukan normalisasi menggunakan

normalisasi min-max dengan interval [0, 1] yang akan digunakan sebagai data

masukan. Jumlah cluster yang dipilih dalam penelitian ini adalah dua dan

penentuan centroid awal dilakukan secara acak. Pada setiap iterasi dihitung jarak

masing-masing objek ke masing-masing centroid dengan menggunakan Euclidean

distance dan dipilih jarak terpendek untuk menentukan keanggotaan objek di

suatu cluster sampai akhirnya terbentuk dua cluster yang konvergen. Hasil yang

diperoleh adalah virus HBV yang berada pada cluster pertama lebih ganas

dibanding virus HBV yang berada pada cluster kedua, sehingga virus HBV pada

cluster pertama berpotensi berevolusi dengan virus HDV menjadi penyebab

penyakit hepatitis D.

ABSTRACT

Based on WHO data, an estimated of 15 millions people worldwide who are

infected by hepatitis B (HBsAg+) are also infected by hepatitis D. Hepatitis D

infection can occur simultaneously with hepatitis B (co infection) or after a person

is exposed to chronic hepatitis B (super infection). Hepatitis B is caused by the

HBV virus and hepatitis D is caused by HDV virus. HDV can not live without

HBV. Hepatitis D virus is closely related to HBV infection, hence it is really

realistic that every effort of prevention against hepatitis B can indirectly prevent

hepatitis D. This thesis discussed the clustering of HBV DNA sequences by using

k-means clustering algorithm and R programming. Clustering processes is started

with collecting HBV DNA sequences that are taken from GenBank, then

performing extraction HBV DNA sequences using n-mers frequency and

furthermore the extraction results are collected as a matrix and normalized using

the min-max normalization with interval [0, 1] which will later be used as an input

data. The number of clusters is two and the initial centroid selected of cluster is

choosed randomly. In each iteration, the distance of every object to each centroid

are calculated using the Euclidean distance and the minimum distance are selected

to determine the membership in a cluster until two convergent clusters are created.

As the result, the HBV viruses in the first cluster is more virulent than the HBV

viruses in the second cluster, so the HBV viruses in the first cluster can potentially

evolve with HDV viruses that cause hepatitis D., Based on WHO data, an estimated of 15 millions people worldwide who are