Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 9 dokumen yang sesuai dengan query
cover
Bayu Distiawan Trisedya
"Klasifikasi dokumen teks adalah masalah sederhana namun sangat penting karena manfaatnya cukup besar mengingat jumlah dokumen yang ada setiap hari semakin bertambah. Namun, kebanyakan teknik klasifikasi dokumen yang ada memerlukan labeled documents dalam jumlah besar untuk melakukan tahap training. Dalam melakukan klasifikasi dokumen, pada tugas akhir ini digunakan algoritma Expectation Maximization yang dikombinasikan dengan algoritma Naïve Bayes untuk memanfaatkan unlabeled documents dengan tiga buah kumpulan data yaitu dokumen hukum, artikel media massa, dan 20Newsgroups dataset. Selain melihat pengaruh penggunaan unlabeled documents, percobaan pada tugas akhir ini juga menganalisis hasil klasifikasi dari beberapa aspek seperti pengaruh stopwords, penggunaan jumlah kategori, dan penggunaan empat buah jenis fitur yaitu presence, frequency, frequency normalized, dan pembobotan tf-idf. Secara umum, penggunaan unlabeled documents memberikan manfaat yang cukup berarti bagi peningkatan akurasi hasil klasifikasi. Dengan konfigurasi tertentu, rata-rata peningkatan akurasi yang diperoleh dapat mencapai angka 9,5%. Namun, penggunaan unlabeled documents ini harus didukung oleh penggunaan labeled documents dalam jumlah yang tepat. Dari percobaan yang telah dilakukan diperlukan sekitar 30 hingga 60 labeled documents tiap kategorinya untuk membangun initial classifier untuk dapat memanfaatkan unlabeled documents secara maksimal.

Text documents classification is a simple problem but it is very important because the benefit is quite large considering the number of documents become more and more to handle each day. However, most of the document classification technique requires large numbers of labeled documents. In performing document classification on this final project, Expectation Maximization algorithm combined with Naïve Bayes algorithm is used to take advantage of unlabeled documents with the three set of data that is legal documents, news articles collection, and 20Newsgroups dataset. In addition to see the influence of unlabeled documents, we also analyze the classification results from several aspects such as the effect of stopwords, the number of categories, and the use of four types of features namely presence, frequency, frequency normalized, and TF-IDF. In general, the uses of unlabeled documents provide a significant benefit for increasing the classification accuracy. With a certain configuration, the average escalation in accuracy can be reached 9,5%. However, the use of unlabeled documents must be supported by the use of labeled documents in the appropriate amount. From the results obtained show that to get maximum benefit from unlabeled documents required 30 to 60 labeled documents per category."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Iasha Zahra Nabila
"Abstrak. Imputasi missing values berperan penting dalam pre-processing data untuk menghasilkan data yang lengkap dan berkualitas. Dalam penelitian ini, dilakukan kombinasi dari Decision Tree dan algoritma Expectation Maximization (EM) sebagai metode imputasi dalam mengestimasi missing values. Namun, terdapat kekurangan pada metode ini, yaitu algoritma Expectation Maximization (EM) cenderung memberikan hasil imputasi yang lebih akurat jika terdapat banyak kemiripan antar atribut. Hal ini dapat diatasi dengan mempartisi segmen horisontal menggunakan algoritma Decision Tree. EM diterapkan pada berbagai segmen horisontal dari data set agar diperoleh banyak kemiripan antar atribut. Metode yang diusulkan ini kemudian dievaluasi dengan membandingkan kinerjanya dengan imputasi menggunakan mean dalam mengestimasi missing values data numerik dan dipilih Decision Tree sebagai classifier. Data yang digunakan untuk simulasi dalam penelitian ini yaitu data set PPOK-OSA. Penelitian ini menunjukkan bahwa metode imputasi missing values yang
diusulkan menghasilkan akurasi yang lebih tinggi jika dibandingkan menggunakan nilai mean dalam mengestimasi missing values. Hasil akurasi tertinggi dari metode ini yaitu83.3%, diperoleh pada saat persentase data training 10% dan rata-rata akurasi pada berbagai persentase data training sebesar 70.3%, sedangkan hasil akurasi tertinggi menggunakan nilai mean yaitu 58.3%, diperoleh pada saat persentase data training 20% dengan rata-rata akurasi
pada berbagai persentase data training sebesar 50.5%.

Abstract. Missing values imputation plays a vital role in data pre-processing for ensuring good quality of data. In this study, we present a combination of Decision Tree and
Expectation Maximization (EM) algorithm as imputation method to estimate missing values. However, there are shortcomings of method, where the Expectation Maximization algorithm tends to give more accurate imputation results if there are many similarities among attributes. Therefore, this can be overcome by partitioning the horizontal segments using the Decision
Tree algorithm. We applied EM on various horizontal segments of a data set where there are many similarities among attributes. Besides, we evaluate our proposed method by comparing its performance with mean values to impute missing values, and we choose the Decision Tree
as a classifier. Data used in this research is COPD-OSA data set. In this study shows that ourproposed method leads to higher accuracy than mean imputation. The highest accuracy results obtained from our proposed method is 83.3% when the percentage of training data is
10% and average accuracy in various percentage of training data is 70.3%, while the highest accuracy results using the mean value is 58.3% when the training data percentage is 20% and the average accuracy in various percentage of training data is 50.5%.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nyoman Arda Wibawa
"Penelitian ini bertujuan untuk mencari gen terdiferensiasi dan informasi biologis dari data ekspresi gen penyakit Alzheimer. Data yang digunakan merupakan data microarray penyakit Alzheimer yang berukuran 54675 peobes × 161 sampel. Data tersebut diperoleh dari National Centre for Biotechnology Information (NCBI) yang dapat diakses melalui laman: http://www.ncbi/nlm.nih.gov/. Gen yang memiliki ekspresi terdiferensiasi diseleksi menggunakan algoritma Delta Relative Deviation dan Absolute Deviation (DARDAD). 7089 gen dengan ekspresi terdiferensiasi pada sampel sakit selanjutnya dianalisis menggunakan metode biclustering. Bicluster didapatkan dengan menggunakan model BicMix yang memodelkan matriks ekspresi gen sebagai perkalian dua parameter ditambah matriks eror. Hasil faktorisasi dari Singular Value Decomposition (SVD) digunakan untuk menginisialisasi proses estimasi parameter model BicMix menggunakan metode iteratif Variational Expectation Maximization (VEM). Hasil bicluster selanjutnya dianalisis menggunakan Gene Ontology dan Disease Ontology. Didapatkan 30 bicluster dan beberapa penyakit yang berkaitan dengan penyakit Alzheimer.

The purpose of this research is to find genes that differentially expressed and biologic information from Alzheimer's gene expression data. Microarray data of Alzheimer's disease with 54675 probes × 161 samples were used in this research. Data downloaded from National Centre for Biotechnology Information (NCBI), http://www.ncbi/nlm.nih.gov/. Delta Relative Deviation and Absolute Deviation (DARDAD) were used to find differentially expressed genes. 7089 differentially expressed genes then analyzed using biclustering method with BicMix model. BicMix modeled gene expression matrix data as multiplication two parameters and an error matrix. Parameters in the model estimated using Singular Value Decomposition (SVD) - Variational Expectation Expectation Maximization (VEM). Bicluster result then analyzed using Gene Ontology and Disease Ontology. Result of this research are 30 biclusters and disease that are active in Alzheimer.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
T54494
UI - Tesis Membership  Universitas Indonesia Library
cover
Nico
"Coronavirus Disease 2019 (COVID-19) adalah penyakit menular yang disebabkan oleh virus severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2). Virus ini pertama kali ditemukan di Wuhan China pada desember 2019 dan pertama kali masuk ke Indonesia pada 2 Maret 2020. Selama masa pandemi COVID-19 banyak terjadi lonjakan secara tiba-tiba pada jumlah kasus baru COVID-19 yang menunjukkan bahwa adanya kesulitan dalam mengantisipasi peningkatan penyebaran COVID-19. Skripsi ini membahas pemodelan jumlah kasus baru harian COVID-19 di Indonesia menggunakan Gaussian Mixture Model (GMM) dimana model ini merupakan salah satu Mixture Model. Mixture Model merupakan penjumlahan linear berbobot dari beberapa fungsi distribusi dimana masing-masing fungsi distribusi disebut sebagai komponen campuran. Pada GMM, setiap komponen campuran diasumsikan berdistribusikan Gaussian (Normal). Pada penelitian ini, dikonstruksi beberapa GMM dengan 2, 3 dan 4 jumlah komponen untuk pemodelan data jumlah kasus baru harian COVID-19 di Indonesia dari 1 Januari 2021 sampai 31 Maret 2022 dengan interval waktu 455 hari. Parameter dari setiap GMM tersebut diestimasi menggunakan metode maximum likelihood estimation (MLE) melalui algoritma Expectation-Maximization (EM). Berdasarkan nilai Akaike Information Criteria (AIC), diperoleh GMM dengan 4 komponen merupakan model terbaik untuk pemodelan data jumlah kasus baru harian COVID-19 di Indonesia. Dengan GMM 4 komponen, diperoleh probabilitas jumlah kasus baru harian COVID-19 di Indonesia kurang dari jumlah kasus harian terendah adalah 0,009598, lebih dari jumlah kasus harian rata-rata adalah 0,299443 dan lebih dari jumlah kasus harian tertinggi adalah 0,017669.

Coronavirus Disease 2019 (COVID-19) is an infectious disease caused by Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-CoV-2). This virus was first found in Wuhan, China in December 2019 and first got into Indonesia on March 2, 2020. During the pandemic, there are a lot of sudden spikes in new COVID-19 daily cases which indicates that there is a struggle in anticipating the sudden increase in COVID-19 transmission. This research discuss about the modeling of new COVID-19 daily cases in Indonesia using Gaussian Mixture Model (GMM) which is a part of Mixture Model. Mixture Model is a linear weighted sum of some distribution function where each function is called a mixture component. In GMM, every mixture components are assumed to be normally distributed. In this research, three GMMs with 2,3 and 4 components were constructed to model new COVID-19 daily cases in Indonesia from January 1, 2021 to March 31, 2022 with a total of 455 days of observation. The parameters of each GMM were estimated with maximum likelihood estimation (MLE) method through Expectation-Maximization (EM) algorithm. According to Akaike Information Criteria (AIC) value, it was found that GMM with 4 components was the best model for modeling new COVID-19 cases in Indonesia. With this model, the probability of new COVID-19 daily cases in Indonesia are less than the lowest daily cases is 0,009598, more than the average daily cases is 0,299443 and more than the highest daily cases is 0,017669."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
"K-Mean method is a clustering method in which grouping techniques are based only on distance measure among observed objects, without considering statistical aspects...."
SIGMAAB
Artikel Jurnal  Universitas Indonesia Library
cover
Rida Martiza
"Regresi Poisson merupakan generalized linear models (GLM) yang umum digunakan untuk memodelkan hubungan antara variabel respon berbentuk count data dengan satu atau lebih kovariat. Hanya saja, kerap dijumpai count data yang tidak memenuhi asumsi equidispersion sehingga tidak dapat dimodelkan dengan regresi Poisson. Salah satu penyebabnya adalah fenomena overdispersion yang teridentifikasi dengan banyaknya observasi yang bernilai nol (excess zeros) pada count data. Model regresi Zero-Inflated Poisson (ZIP) dapat digunakan untuk memodelkan count data yang mengalami overdispersion akibat excess zeros. Namun, pada beberapa kasus, count data dapat mengandung excess zeros dan excess ones dalam suatu periode waktu tertentu. Oleh karena itu, diperkenalkan solusi atas permasalahan tersebut menggunakan sebuah distribusi baru, yaitu distribusi Zero-and-One-Inflated Poisson (ZOIP), yang dibangun berdasarkan distribusi Bernoulli dan Poisson. Pada skripsi ini, dikonstruksi model regresi ZOIP untuk memodelkan count data yang mengandung excess zeros dan excess ones dalam suatu periode waktu tertentu. Parameter model regresi ZOIP tersebut diestimasi menggunakan metode maksimum likelihood dan algoritma Expectation Maximization (EM). Selanjutnya, diaplikasikan model regresi ZOIP dengan satu kovariat dan tanpa kovariat ke data klaim asuransi mobil. Berdasarkan nilai Akaike Information Criteria (AIC), didapatkan bahwa model regresi tanpa kovariat lebih cocok untuk memodelkan data klaim asuransi mobil yang dipakai.

Poisson regression is a generalized linear model (GLM) that is commonly used to model the relationship between response variables in the form of count data with one or more covariates. However, it is often found that count data does not meet the equidispersion assumption, so it cannot be modeled using Poisson regression. One of the causes is the phenomenon of overdispersion which is identified by the number of observations that are zero (excess zeros) in the count data. The Zero-Inflated Poisson (ZIP) regression model can be used to model count data that experiences overdispersion due to excess zeros. However, in some cases, count data may contain excess zeros and excess ones in a certain period of time. Therefore, a solution to this problem was introduced using a new distribution, namely the Zero-and-One-Inflated Poisson (ZOIP) distribution, which was built based on the Bernoulli and Poisson distribution. In this thesis, a ZOIP regression model is constructed to model count data containing excess zeros and excess ones in a certain period of time. The parameters of the ZOIP regression model are estimated using the maximum likelihood method and the Expectation Maximization (EM) algorithm. Furthermore, the ZOIP regression model with a covariate and without covariates were applied to the car insurance claim data. Based on the Akaike Information Criteria (AIC) value, it was found that the regression model without covariates is more suitable for modeling the car insurance claim data used."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Arman
"ABSTRAK
Ekstraksi topik merupakan tugas utama dalam penambangan teks sebagai upaya mengeluarkan informasi yang terpendam dalam teks secara heuristik. Proses ini dilakukan lewat pemodelan topik yakni sebuah proses mengidentifikasi topik- topik yang ada dalam sebuah objek teks atau menurunkan pola-pola tersembunyi dalam sebuah korpus teks. Dalam penelitian ini pemodelan topik diaplikasikan pada data teks berbahasa Indonesia menggunakan modul program bernama Gensim dalam bahasa pemrograman Python. Dataset terdiri dari 93 dokumen berita daring Kompas dengan beragam klasifikasi. Jumlah topik optimal yang diperoleh diuji menggunakan machine learning clustering k-means. Dalam proses penelitian ini ternyata diperlukan suatu mekanisma umpanbalik manual untuk mereduksi noise agar diperoleh pemodelan topik yang lebih baik. Hasil uji memperlihatkan teknik Latent Dirichlet Allocation LDA yang telah ditingkatkan / dimodifikasi LDA as LSI memiliki koherensi topik yang jauh lebih baik dibanding teknik LDA saja dalam penelitian ini: 0.94 dibanding 0.34 . Koherensi yang tinggi mengindikasikan bahwa topik hasil pemodelan ini merupakan topik yang dapat dijelaskan dengan sedikit label.

ABSTRACT
Topic extraction is main task in text mining as an effort to dig buried information within text heuristically. This process is done through topic modeling, a process to identify topics within text object or to derive hidden patterns in a text corpus. In this research, topic modeling is applied to Indonesian language texts using Gensim module in Python programming language. The dataset consists of 93 online news documents from Indonesian national newspaper, Kompas, with several different classifications. The identified optimum number of topics k is visualized using clustering machine learning k means. In the process of this research turned out to need a mechanism of manual feedback for noise reduction in order to get better topic modeling. The test results show that enhanced modified Latent Dirichlet Allocation LDA as LSI has a much better topic coherence than LDA technique alone in this study 0.94 compared to 0.34 . High coherence indicates that topics resulting from this topic modeling is a topic that can be explained with few labels. "
2017
T47943
UI - Tesis Membership  Universitas Indonesia Library
cover
Rosalia
"

Model regresi varying intercept adalah salah satu model regresi yang diterapkan pada nested data, yaitu data yang terdiri dari beberapa grup dan setiap grupnya mengandung beberapa observasi individu. Terdapat beberapa karakteristik yang sering dijumpai pada nested data, yaitu adanya variansi antar grup dan obervasi-observasi individu yang berasal dari grup yang sama saling berkorelasi. Dengan mempertimbangkan error di dua tingkat, yaitu tingkat individu dan tingkat grup, model regresi varying intercept lebih sesuai untuk diterapkan pada nested data karena model regresi tersebut mengakomodir kedua karakteristik tersebut. Pada tugas akhir ini, dibahas model regresi varying intercept tanpa variabel prediktor dan dengan satu variabel prediktor. Model regresi tersebut mengandung beberapa parameter yang perlu ditaksir, yaitu koefisien regresi dan komponen variansi. Adapun efek acak, yaitu efek grup yang merupakan variabel acak pada model regresi tersebut yang perlu diprediksi. Metode penaksiran koefisien regresi pada model regresi varying intercept yang dibahas pada tugas akhir ini adalah Generalized Least Squares (GLS) dan Maximum Likelihood (ML) dengan algoritma Expectation-Maximization (EM). Efek acak pada model regresi varying intercept diprediksi dengan menggunakan Best Linear Unbiased Prediction (BLUP). Sedangkan, komponen variansi pada model regresi varying intercept ditaksir dengan menggunakan metode Maximum Likelihood (ML) dengan algoritma Expectation-Maximization (EM). Pada tugas akhir ini, simulasi dilakukan untuk mengetahui efek standar deviasi dari komponen error pada model regresi varying intercept dan efek banyaknya observasi individu di setiap grup terhadap standar deviasi dari komponen error. Hasil simulasi menunjukkan bahwa apabila nilai standar deviasi dari komponen error tingkat individu lebih besar dibandingkan nilai standar deviasi dari komponen error tingkat grup, pengelompokan observasi-observasi individu dapat diabaikan. Sebaliknya, apabila nilai standar deviasi dari komponen error tingkat individu lebih kecil atau sama dengan nilai standar deviasi error tingkat grup, pengelompokan observasi-observasi individu tidak dapat diabaikan. Hasil simulasi juga menunjukkan bahwa banyaknya observasi individu di setiap grup tidak berasosiasi dengan standar deviasi dari komponen error, baik standar deviasi dari komponen error di tingkat individu maupun standar deviasi dari komponen error di tingkat grup.


Varying intercept model is a regression model that is applied in nested data, which is data that consists of several groups and each group contains several individual observations. Several characteristics are often found in nested data, namely, the variance between groups and individual observations from the same group are correlated. By considering errors in two different levels, that is individual level and group level, varying intercept model is more suitable than the linear regression model in nested data because varying intercept model accommodates those characteristics. In this thesis, discussed varying intercept model without the predictor variable and varying intercept model with one predictor variable. The varying intercept model consists of several parameters that must be estimated, namely regression coefficients and variance components. There is also a random effect, which is a group effect which is a random variable. The regression coeficients are estimated using Generalized Least Squares (GLS) and Maximum Likelihood (ML) via the EM (Expectation-Maximization) Algorithm. The random effect in varying intercept model is predicted using Best Linear Unbiased Prediction (BLUP). On the other side, the variance components in varying intercept model are estimated using Maximum Likelihood via EM (Expectation-Maximization) Algorithm. In this thesis, simulation is done to analyze the effect of the standard deviation of the error components in varying intercept model and the effect of the number of individual observations in each group toward the standard deviation of the error components. The simulation results show that if the standard deviation of the error component in the individual level is larger than the standard deviation of the error component in the group level, then the classifications of individual observations into several groups should be ignored. On the other side, if the standard deviation of the error component in the individual level is smaller or equal to the standard deviation of the error component in the group level, then the classifications of individual observations into several groups should not be ignored. The simulation results also show that the number of individual observations in each group is not associated with the standard deviation of the error components.

"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Elisabeth Martha Koeanan
"Image clustering adalah pengelompokan citra berdasarkan kesamaan ciri tententu pada sekumpulan citra. Image clustering yang dilakukan berdasarkan konten citra dapat menggunakan komponen warna, tekstur, garis tepi, bentuk, dan lainnya, atau berupa gabungan dari beberapa komponen. Pada penelitian ini dilakukan image clustering berdasarkan komponen warna. Tiga hal yang diperhatikan dalam proses clustering ini adalah penggunaan ruang warna, representasi citra, dan metode clustering. Ruang warna yang digunakan dalam penelitian ini adalah RGB, HSV, dan L*a*b*. Representasi citra atau feature extraction menggunakan histogram dan Gaussian Mixture Model, sedangkan metode clustering yang digunakan adalah K-Means dan Agglomerative Hierarchical. Pada ruang warna RGB dan L*a*b*, kinerja clustering terbaik berhasil dilakukan dengan menggunakan representasi citra GMM, sedangkan pada ruang warna HSV, citra yang berhasil dikelompokan dengan kinerja paling baik menggunakan representasi citra histogram. Kemudian, metode K-Means clustering bekerja lebih baik daripada Agglomerative Hierarchical pada image clustering yang menggunakan komposisi warna.

Image clustering is a process of grouping the image based on their similarity. Image clustering based on image content usually uses the color component, texture, edge, shape, or mixture of two components, etc. This research focuses in image clustering uses color component. Three main concepts concerned on this research are color space, image representation (feature extraction), and clustering method. RGB, HSV, and L*a*b* are used in color spaces. The image representations use Histogram and Gaussian Mixture Model (GMM), whereas the clustering methods are K-Means and Agglomerative Hierarchical Clustering. The result of the experiment show that GMM representation is better used for RGB and L*a*b* color space, whereas Histogram is better used for HSV. The experiment also show that K-Means better than Agglomerative Hierarchical for clustering method."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library