Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 18438 dokumen yang sesuai dengan query
cover
Jayanti Yusmah Sari
"Curse of dimensionality merupakan masalah yang sering dihadapi pada proses klasifikasi. Trans-formasi fitur dan seleksi fitur sebagai metode dalam reduksi fitur bisa diterapkan untuk mengatasi masalah ini. Terlepas dari performanya yang baik, transformasi fitur sulit untuk diinterpretasikan ka-rena ciri fisik dari fitur-fitur yang asli tidak dapat diperoleh kembali. Di sisi lain, seleksi fitur dengan proses komputasinya yang sederhana bisa mereduksi fitur-fitur yang tidak diperlukan dan mampu me-representasikan data untuk memudahkan pemahaman terhadap data. Pada penelitian ini diajukan metode seleksi fitur baru yang berdasarkan pada dua pendekatan filter, yaitu similarity (kemiripan) dan entropi untuk mengatasi masalah data berdimensi tinggi. Tahap awal metode ini adalah meng-hitung nilai similarity antara fitur dengan vektor kelas dari 6 data berdimensi tinggi. Kemudian diperoleh nilai similarity maksimum yang digunakan untuk menghitung nilai entropi untuk setiap fitur. Fitur yang dipilih adalah fitur yang memiliki nilai entropi lebih tinggi daripada entropi rata-rata seluruh fitur. Fuzzy k-NN diterapkan untuk tahap klasifikasi data hasil seleksi fitur. Hasil percobaan menunjukkan bahwa metode yang diajukan mampu mengklasifikasi data berdimensi tinggi dengan rata-rata akurasi 80.5%.

Curse of dimensionality is a major problem in most classification tasks. Feature transformation and feature selection as a feature reduction method can be applied to overcome this problem. Despite of its good performance, feature transformation is not easily interpretable because the physical meaning of the original features cannot be retrieved. On the other side, feature selection with its simple com-putational process is able to reduce unwanted features and visualize the data to facilitate data understanding. We propose a new feature selection method using similarity based entropy to over-come the high dimensional data problem. Using 6 datasets with high dimensional feature, we com-puted the similarity between feature vector and class vector. Then we find the maximum similarity that can be used for calculating the entropy values of each feature. The selected features are features that having higher entropy than mean entropy of overall features. The fuzzy k-NN classifier was im-plemented to evaluate the selected features. The experiment result shows that proposed method is able to deal with high dimensional data problem with mean accuracy of 80.5%."
Surabaya: Faculty of Information and Technology, Department of Informatics Institut Teknologi Sepuluh Nopember, 2014
AJ-Pdf
Artikel Jurnal  Universitas Indonesia Library
cover
Nedya Shandri
"Penyakit kronis adalah penyakit yang diderita dalam waktu panjang dan dapat berkembang secara cepat, salah satunya adalah penyakit kanker dan diabetes. Oleh karena itu, dengan melakukan pendeteksian dini maka perkembangan penyakit kanker dan diabetes akan menurun. Salah satu cara pendektesian dini dapat dilakukan oleh machine learning. Teknik machine learning banyak digunakan dalam berbagai bidang khususnya untuk analisa data medis.  Clustering merupakan salah satu metode dari machine learning yang bertujuan untuk mengelompokkan suatu dataset ke dalam subset berdasarkan ukuran jarak. Salah satu contoh metode clustering adalah metode Entropi Fuzzy C-Means yang dapat mengidentifikasi entropi disetiap titik data dan memilih pusat kluster terdekat dengan entropi minimum. Pada penelitian akan digunakan data kanker dan diabetes dari UCI Repository dengan menggunakan metode Entropi Fuzzy C-Means yang akan dimodifikasi dengan kernel RBF. Sebelum dilakukan klasifikasi, dilakukan pemilihan fitur menggunakan Chi-Square. Tujuan dari penelitian ini adalah untuk mendapatkan fitur-fitur yang optimal dan mengetahui hasil akurasi menggunakan untuk klasifikasi data diabetes dan kanker. Diperoleh hasil akurasi tertinggi pada klasifikasi data medis menggunakan metode Entropi Fuzzy C-Means berbasis kernel dengan pemilihan fitur Chi-Square yaitu sebesar 83.33% untuk data diabetes dan 77.77-100% untuk data kanker.

Chronic disease is a disease that occur for a long time and can develop quickly, one of them is cancer and diabetes. The early detection is very helpful to reduce the development of the disease. One of the ways to detect cancer and diabetes disease is using machine learning technic. Machine learning technic is widely use in many aspects especially in medical data analysis. Clustering is part of machine learning technic that is used to group a dataset into subset based on space size. Entropy Fuzzy C-Means is one of the methods which can identify entropy in every data and can choose the cluster center similar with minimum entropy. In this paper we will use cancer and diabetes medical data from UCI Repository using Entropy Fuzzy C-Means method which is modified by kernel RBF. Before classification, we will select the feature using Chi-Square  to get the optimal subset feature. The purpose of this study was to obtain optimal features and find out the results of accuracy using for the classification of diabetes and cancer data. The medical data classification using Entropy Fuzzy C-Means based on kernel with Chi-Square feature selection gives the 100% highest accuration result for cancer data and 83,33% for diabetes data."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nurul Maghfirah
"Kematian yang disebabkan oleh kanker diperkirakan akan terus meningkat, padahal jumlah kematian ini dapat dikurangi dengan adanya deteksi dini. Salah satunya adalah dengan klasifikasi data kanker. Data kanker yang digunakan merupakan data kanker berdimensi tinggi dengan ribuan fitur, tetapi tidak semua fitur yang ada merupakan fitur yang relevan. Oleh karena itu, perlu adanya proses seleksi fitur. Untuk meningkatkan tingkat akurasi yang dihasilkan, digunakan sebuah metode seleksi fitur yang meninjau adanya korelasi antar gen, yaitu CSVM-RFE. Pada metode tersebut, data yang ada diproyeksikan dan diubah menjadi sebuah data baru dengan ekstraksi fitur, dan kemudian dilakukan proses seleksi fitur. Penggunaan dua metode tersebut pada klasifikasi tiga data kanker yang ada terbukti menghasilkan tingkat akurasi yang tinggi, pada data kanker kolon tingkat akurasi yang didapatkan adalah sebesar 96.6, pada kanker prostat sebesar 98.9, dan pada kanker lymphoma sebesar 98,6.

The number of death caused by cancer expected to rise over two decades, whereas the number of death can be reduced by early detection. One of them is cancer classification. Cancer dataset is a high dimensional dataset that consist of thousands of features, but not all of these features are relevant. Therefore, it is necessary to remove the redundant features using feature selection. Feature selection can also improve the accuracy of classification. Many feature selection methods do not consider the correlated genes, so we need a new feature selection method that consider the correlated genes. It is CSVM RFE, in this method the existing data is projected and converted into a new data with feature extraction. These two methods are applied to the cancer datasets, and produce the accuracy of 96.6 using colon cancer dataset, 98.9 using prostate cancer dataset, and 98.6 using lymphoma cancer dataset."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017
S69588
UI - Skripsi Membership  Universitas Indonesia Library
cover
Sinaga, Bona Revano
"ABSTRAK
Klasifikasi data kanker dilakukan untuk mendapatkan terapi yang spesifik dengan hasil efektivitas yang maksimal dan toksisitas yang minimal. Pada tugas akhir ini, data yang digunakan berbasis micrroarray data yang berisi kumpulan ekspresi gen. Fitur pada micrroarray data tersebut diseleksi oleh feature selection guna meningkatkan keakuratan, sensitivitas, kekhususan. Pada feature selection, setiap fitur pada microarray data dilakukan clustering dengan metode k-means clustering. Fitur yang terseleksi membentuk micorarray baru. Sampel pada microarray baru tersebut diklasifikasi menggunakan metode optimisasi baru yaitu Cuckoo Optimization Algorithm yang terinsipirasi dari cara hidup burung Cuckoo. Metode ini juga disesuaikan dengan metode Cuckoo Search.

ABSTRAK
Classification of cancer data is performed to obtain specific treatment with the results have maximum effectiveness and minimum toxicity. In this thesis, the data is microarray data that contains a collection of gene expression. Features on these micrroarray data selected by the feature selection to improve the accuracy, sensitivity, specificity. In the feature selection, each feature on the microarray data were clustering with k-means clustering method. Selected features form to the new micorarray data. The new samples on the microarray are classified using new optimization methods that Cuckoo Optimization Algorithm which is inspired by the way of life of the Cuckoo. This method is also adapted from Cuckoo Search"
2016
S64957
UI - Skripsi Membership  Universitas Indonesia Library
cover
Andi Wulan Lestari A.
"Dalam dekade terakhir ini, kanker menjadi pusat perhatian dunia kesehatan dikarenakan penyakit ini termasuk dalam penyebab utama kematian di seluruh dunia. Menurut statistik GLOBOCAN, International Agency for Research on Cancer IARC pada tahun 2012, terdapat 14.067.894 kasus kanker baru dengan 8.201.575 kematian akibat kanker di seluruh dunia. Oleh sebab itu, dibutuhkan tindakan pencegahan dan pengobatan yang efektif. Salah satunya dengan metode klasifikasi kanker. Metode klasifikasi kanker dapat dijadikan sebagai alat bantu tenaga medis untuk menangani kanker. Dalam tugas akhir ini diusulkan algoritma untuk mengklasifikasikan data kanker dengan menggunakan Fuzzy Possibilistic C-means FPCM dan metode baru yang menggunakan Normed Kernel Function-based Fuzzy Possibilistic C-means NKFPCM. Tujuannya untuk mendapatkan keakuratan terbaik dalam pengklasifikasian data kanker. Untuk meningkatkan keakuratan dua metode tersebut, dilakukan evaluasi kandidat fitur dengan menggunakan pemilihan fitur. Untuk pemilihan fitur digunakan metode Laplacian Score. Hasil yang diperoleh menunjukkan perbandingan keakuratan dan running time dari FPCM dan NKFPCM tanpa dan dengan dilakukan pemilihan fitur. Hasilnya, didapatkan akurasi terbaik saat dengan menggunakan metode NKFPCM dengan dilakukan pemilihan fitur, yaitu 90,91 dengan penggunaan 750 fitur untuk data kanker kandung kemih, 100 dengan penggunaan 250 fitur untuk data kanker darah leukemia , 96,67 dengan penggunaan 3.000 fitur untuk data kanker prostat, dan 100 dengan penggunaan 250 fitur untuk data kanker lambung.

Over the past decade, cancer has become the center of attention in the medical field due to its reputation as one of the main causes of death in the worldwide. According to GLOBOCAN statistics, International Agency for Research on Cancer IARC , there were 14,067,894 new cancer cases and 8,201,575 cancer related deaths occurred in 2012. Therefore, preventive actions and effective treatments are required to reduce these threats. One method of handling of cancer using cancer classification. Cancer classification method can be used as aids to handle Cancer. This research proposed an algorithm to classify cancer data using Fuzzy Possibilistic C Means FPCM and a new method, Normed Kernel Function Based Fuzzy Possibilistic C Means NKFPCM. The purpose of this research is to obtain the best accuracy in the classification of cancer data. To improve the accuracy of these two methods, the feature candidate will be evaluated using feature selection. The feature selection was conducted using Laplacian Score. The results obtained show the comparison of the accuracy and running time of FPCM and NKFPCM without and with feature selection. The results show that the best accuracy obtained when using NKFPCM with features selection, with percentage of 90.91 by using 750 features for bladder cancer data, 100 by using 250 features for blood cancer leukemia data, 96.67 by using 3,000 features for prostate cancer data, and 100 by using 250 features for gastric cancer data.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2016
S66693
UI - Skripsi Membership  Universitas Indonesia Library
cover
Adib Hanafi
"Teknologi microarray merupakan salah satu teknologi yang berkembang dalam bidang bioinformatika. Salah satu teknologi microarray dalam bidang kesehatan, yaitu untuk mendeteksi adanya gen pada DNA individu yang menghasilkan data ekspresi gen. Pada data ekspresi gen, sering kali ditemukan informasi yang hilang sehingga membuat terhambatnya analisis lebih lanjut pada data ekspresi gen. Pada penelitian ini, diusulkan metode imputasi missing values Sequential Biclustering berbasis Shifting-and-Scaling Similarity dan Mean Square Residue (SSSim-MSR). Penentuan anggota bicluster dengan kesamaan sifat co-expressed dan pendeteksian pola shifting-and-scaling dilakukan berdasarkan pada skor Mean Squared Residue (MSR) dan skor Shifting-and-Scaling Similarity (SSSim) antara masing-masing gen dengan gen yang mengandung missing values. Performa metode diukur dengan skor korelasi Pearson dan skor NRMSE, lalu dibandingkan dengan metode Chronological Biclustering berbasis PCor-MSRE. Berdasarkan pada skor korelasi Pearson, metode Sequential Biclustering dengan basis SSSim-MSR merupakan metode yang cukup baik dibandingkan metode Chronological Biclustering berbasis PCor-MSRE pada missing rate sebesar 20% dan 50% untuk setiap nilai k. Untuk setiap missing rate pada nilai k lainnya, skor korelasi Pearson yang dihasilkan belum tentu bernilai lebih besar untuk nilai k yang lebih besar. Hal ini dapat terjadi karena perseberan porporsi pola shifting-and-scaling dan yang tidak berpola shifting-and-scaling pada data yang digunakan cenderung sama, sehingga pada tahap pembentukan bicluster yang didasarkan pada keserupaan pola dan pendeteksian pola shifting-and-scaling dapat memengaruhi keserupaan pola yang dibentuk.

Microarray technology is one of the emerging technologies in the field of bioinformatics. One of the microarray technologies in the health sector is to detect the presence of genes in individual DNA that produce gene expression data. In gene expression data, missing information is often found, which hinders further analysis of gene expression data. In this study, a method of imputing missing values Sequential Biclustering based on Shifting-and-Scaling Similarity and Mean Square Residue (SSSim - MSR) is proposed. Determination of bicluster members with similar co-expressed characteristics and detection of shifting-and-scaling patterns is carried out based on the score. Mean Squared Residue (MSR) and Shifting-and-Scaling Similarity (SSSim) scores between each gene and genes containing missing values. The performance of the method was measured by the Pearson correlation score and the NRMSE score, then compared with the Chronological Biclustering method on the basis of PCor – MSRE. Based on the Pearson correlation score, the Sequential Biclustering method on the basis of SSSim – MSR is a fairly good method compared to the Chronological Biclustering method at a missing rate of 20% and 50% for each value of k. For each other missing rate for k values, the resulting Pearson correlation score is not necessarily greater for larger k values. This can happen because the proportions of shifting-and-scaling and non-shifting-and-scaling patterns in the data used tend to be the same, so that at the stage of bicluster formation based on pattern similarity and detection of shifting-and-scaling patterns can detect similarity of pattern."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Arvan Aulia Rachman
"Klasifikasi data kanker dilakukan untuk menemukan terapi yang tepat yaitu memaksimalkan efektivitas dan meminimalkan toksisitas. Pada umumnya, data kanker terdiri dari banyak fitur. Namun, tidak semua fitur tersebut informatif. Oleh karena itu, fitur-fitur tersebut akan diseleksi menggunakan metode Fisher's Ratio untuk memilih fitur-fitur yang paling informatif. Fitur-fitur terbaik akan dibentuk data baru. Data, sebelum dan setelah dilakukan pemilihan fitur, diklasifikasi menggunakan metode Fuzzy C-Means. Akurasi dari proses klasifikasinya akan dibandingkan. Hasilnya, tanpa melakukan pemilihan fitur, diperoleh rata-rata akurasi sebesar 82.92%. Setelah dilakukan pemilihan fitur, diperoleh akurasi terbaik dengan menggunakan 150 fitur dengan rata-rata akurasi sebesar 89.68%.

Classification of cancer data is done to find the right therapy that maximize efficacy and minimize toxicity. In general, cancer data consists of many features. However, not all of these features are informative. Therefore, these features will be selected using Fisher's Ratio to choose features that are most informative. The best features to be formed new data. Data, before and after feature selection, are classified using Fuzzy C-Means. The accuracy of the classification process will be compared. As a result, without doing feature selection, the accuracy is 82.92%. After doing feature selection, the best accuracy is obtained by using 150 features with the accuracy is 89.68%.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2016
S64140
UI - Skripsi Membership  Universitas Indonesia Library
cover
Arfiani
"Stroke merupakan penyakit yang menempati urutan ketiga sebagai penyebab kematian terbesar di dunia setelah penyakit jantung dan kanker. Stroke juga menduduki posisi pertama sebagai penyakit yang dapat menyebabkan kecacatan, baik ringan maupun berat. Salah satu jenis stroke yang umum terjadi adalah infark serebri. Di Indonesia, jumlah penderita stroke, terutama infark serebri, semakin meningkat setiap tahunnya. Tidak hanya terjadi pada seseorang yang berusia lanjut, namun infark serebri juga dapat terjadi pada seseorang yang masih muda dan produktif. Oleh sebab itu, pendeteksian dini terhadap infark serebri sangatlah penting. Berbagai metode medis selalu digunakan untuk mengklasifikasi infark serebri, namun dalam penelitian ini, akan digunakan metode machine learning. Metode yang diusulkan yaitu Multiple Support Vector Machine dengan Seleksi Fitur Information Gain (MSVM-IG). MSVM-IG merupakan metode baru yang menggunakan support vector sebagai data baru untuk selanjutnya dilakukan seleksi fitur dan evaluasi performa. Data yang digunakan berupa data numerik hasil CT Scan yang diperoleh dari RSUPN dr. Cipto Mangunkusumo, Jakarta. Berdasarkan hasil uji coba, metode yang diusulkan mampu mencapai nilai akurasi sebesar 88,71%. Sehingga, metode MSVM-IG ini dapat menjadi salah satu alternatif untuk membantu praktisi medis dalam mengklasifikasi infark serebri.

Stroke is a disease that ranks third as the biggest cause of death in the world after heart disease and cancer. Stroke also occupies the first position as a disease that can cause disability, both mild and severe. One type of stroke that is common is cerebral infarction. In Indonesia, the number of stroke patients, especially cerebral infarction, is increasing every year. Not only occurs in someone who is elderly, but cerebral infarction can also occur in someone who is young and productive. Therefore, early detection of cerebral infarction is very important. Various medical methods are always used to classify cerebral infarction, but in this study, machine learning methods would be used. The proposed method is Multiple Support Vector Machine with Information Gain Feature Selection (MSVM-IG). MSVM-IG is a new method that uses support vector as a new dataset, then feature selection step and performance evaluation are performed. The data used in the form of numerical data results of CT scan obtained from RSUPN Dr. Cipto Mangunkusumo, Jakarta. Based on the results, the proposed method is able to achieve an accuracy value of 88.71%. Thus, the MSVM-IG could be an alternative to assist medical practitioners in classifying cerebral infarction."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nadisa Karina Putri
"Diabetes mellitus atau biasa disebut sebagai diabetes adalah penyakit metabolik yang disebabkan oleh penderita memiliki kadar gula darah yang tinggi dan organ pankreas tidak dapat memproduksi hormon insulin secara efektif. Diabetes dapat mengakibatkan penyakit yang lebih parah seperti kebutaan, gagal ginjal, dan penyakit jantung. Oleh karena itu, pendeteksian sejak dini dibutuhkan agar pasien dapat mencegah penyakitnya sebelum menjadi lebih parah. Karena data medis biasanya berukuran besar dan tidak berdistribusi normal, beberapa peneliti menggunakan metode klasifikasi untuk memprediksi gejala penyakit atau mendiagnosa penyakit. Pada penelitian ini, digunakan algoritma Learning Vector Quantization (LVQ) untuk klasifikasi data set diabetes dengan seleksi fitur Chi-Square. Pada penelitian ini digunakan dua data set diabetes yaitu data set I dengan 8 fitur dan data set II dengan 19 fitur. Hasil dari penelitian ini menunjukkan bahwa untuk data set dengan 8 fitur, akurasi dan performa model tertinggi diperoleh ketika data set mengandung hampir seluruh fiturnya yaitu 7 fitur dengan akurasi sebesar 76,55%. Sedangkan untuk data set dengan 19 fitur, akurasi dan performa model tertinggi diperoleh ketika data set telah melewati proses seleksi fitur dengan menggunakan metode Chi-Square yaitu pada model dengan 10 fitur dengan akurasi sebesar 78,96%.

Diabetes mellitus or commonly referred as diabetes is a metabolic disorder caused by high blood sugar level and the pancreas that does not produce insulin effectively. Diabetes can lead to more relentless disease such as blindness, kidney failure, and heart attacks. Therefore, early detection is needed in order for the patients to prevent the disease for being more severe. According to the non-normality and huge size of data in medical field, some researchers use classification methods to predict symptoms or diagnose patients. In this study, Learning Vector Quantization (LVQ) is used to classify the diabetes data set with Chi-Square Feature Selection. This study adopted two kinds of diabetes data set which are, data set I that contains 8 features and data set II that contains 19 features. The result of the experience shows that for data set I, the highest accuracy and model performance is achieved when the model contains most of its features which is the model that contains 7 features with 76,55% of accuracy. Moreover, for data set II, the highest accuracy and model performance is achieved when the model contains features that has been selected with the Chi-Square feature selection which is the model with 10 features and the accuracy achieved is 78,96%."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Sakinah Hayati
"Klasifikasi kanker berbasis microarray data telah menjawab tantangan pengobatan kanker dengan terapi kanker yang dapat dimaksimalkan dan toksisitas yang dapat diminimalkan. Pada tugas akhir ini, dibahas proses klasifikasi terhadap data kanker colon untuk menentukan apakah data tersebut merupakan data kanker atau normal. Tujuan dari penulisan tugas akhir ini adalah memperoleh keakuratan klasifikasi data kanker colon dengan menggunakan Tangent Fuzzy Possibilistic C-Means (TFPCM). Keakuratan klasifikasi tergantung pada parameter-parameter: nilai , derajat fuzzy, dan derajat possibilistic yang terdapat pada algoritma TFPCM, sehingga diperlukan nilai optimal dari parameter-parameter tersebut. Metode pada tugas akhir ini menggunakan teknik Robust Fuzzy Possibilistic C-Means (RFPCM) dengan fungsi Kernel yang digunakan adalah hyper tangent Kernel Bray Curtis.

Cancer classification based on microarray data has been able to cure cancer with cancer therapy that can be maximized and with toxicity that can be minimized. In this essay, classification process of colon cancer data will be discussed further to determine whether the data is a cancer data or normal data. The purpose of writing this essay is to obtain the accuracy of colon cancer data classification using Tangent Fuzzy Possibilistic C-Means (TFPCM). The accuracy depends on the parameters: value, degree of fuzzy, and degree of possibilistic in TFPCM algorithm, so the optimal value of those parameters are needed. The method in this essay using Robust Fuzzy Possibilistic C-Means technique (RFPCM) where the Kernel function that is being used is hyper tangent Kernel Bray Curtis.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2016
S63200
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>