Hasil Pencarian

Ditemukan 165188 dokumen yang sesuai dengan query

Pratama Amirullisan

Analisa dan rancang bangun sistem deteksi cepat konten web negatif berbasis teks menggunakan random sampling dan latent semantic analysis dengan algoritma singular value decomposition = Analysis and design of quick detection system to text based negative web content using random sampling and latent semantic analysis with singular value decomposition algorithm

"Kebutuhan terhadap Internet sudah sangat dirasakan, namun, akibat kurangnya kontrol dalam mengawasi kegiatan berselancar di dunia maya ini, menjadikan konten yang dapat merusak moral tersebar dengan sangat cepat dan begitu leluasa untuk diakses oleh setiap orang.

Penelitian ini membahas Analisa dan Rancang Bangun Sistem Deteksi Cepat Konten Web Negatif Berbasis Teks Menggunakan Random Sampling dan Latent Semantic Analysis dengan Algoritma Singular Value Decomposition yang bertujuan untuk mengklasifikasikan website-website berkonten negatif dengan langkah awal melakukan penelusuran terhadap link-link pada suatu website dengan teknik crawling oleh program web crawler untuk mengumpulkan konten website yang berupa teks. Seluruh konten teks yang telah dikumpulkan selanjutnya akan diklasifikasikan menggunakan metode Latent Semantic Analysis dengan menerapkan algoritma Singular Value Decomposition untuk menunjukkan hasil klasifikasi yang mampu membedakan antara website berkonten negatif dengan konten non-negatif. Pengujian dilakukan dengan menggunakan metode full sampling dan random sampling untuk menentukan cara pendeteksian website berkonten negatif yang lebih cepat.

Hasil pengujian pada penelitian ini menunjukkan bahwa metode Latent Semantic Analysis dengan algoritma Singular Value Decomposition berhasil mengklasifikasikan website berkonten negatif dengan batas persentase hasil klasifikasi sebesar 70% sebagai indikatornya, dan metode random sampling dengan pengambilan sample hanya 30% dari total telah berhasil meningkatkan kecepatan eksekusi program rata-rata sebesar 507.01%, dengan penurunan akurasi rata-rata hanya sebesar 27.19% dibandingkan dengan metode full sampling untuk website berkonten negatif.

The need of the Internet has been keenly felt, however, due to a lack of control in monitoring the activities of surfing in this virtual world, making contents that will damage the morale spread very quickly and so freely accessible to everyone.
This study discusses the Analysis and Design of Quick Detection System to Text-Based Negative Web Content Using Random Sampling and Latent Semantic Analysis with Singular Value Decomposition Algorithm which aims to classify negative content websites with the first step is to perform a search for links in a website using crawling technique by a web crawler program to gather website content in the text form. The entire text-based contents that have been collected will then be classified using Latent Semantic Analysis method by applying Singular Value Decomposition algorithm to show the result of classification that is able to distinguish the negative content and non-negative content website. The testing is performed using full sampling and random sampling method to determine which one is faster in doing the detection of negative content website.
The results of this study showed that Latent Semantic Analysis method with Singular Value Decomposition algorithm successfully classifies the negative content websites with the percentage of classification result by 70% as the indicator, and the random sampling method with only 30% of total samples has been successful in increasing the speed of program execution by an average of 507.01%, with decreasing accuracy by an average of only 27.19% compared to full sampling method for negative content websites."

Depok: Fakultas Teknik Universitas Indonesia, 2016

S66330

UI - Skripsi Membership Universitas Indonesia Library

Suharto Anggono

Variable latent semantic indexing sebagai teknik text retrieval yang menggunakan singular value decomposition

"Sistem text retrieval (perolehan kembali teks) menanggapi query terhadap koleksi dokumen teks. Dua teknik yang telah diperkenalkan yang dapat digunakan pada text retrieval dan melibatkan penggunaan singular value decomposition (SVD, dekomposisi nilai singular) adalah variable Latent Semantic Indexing (VLSI) serta Latent Semantic Indexing (LSI), pendahulunya. Dokumen dapat dideskripsikan oleh kumpulan term, misalnya berupa kata. Dari dokumendokumen yang ada, dapat dibentuk matriks term-dokumen, A, yang berisi bobot term berdasarkan kemunculannya dalam dokumen. Pada VLSI, sebagaimana LSI, digunakan aproksimasi rank-rendah terhadap A untuk dicocokkan dengan vektor query. Namun, berbeda dengan LSI, aproksimasi pada VLSI tergantung pada distribusi probabilitas vektor query. Distribusi itu dicirikan oleh matriks cooccurrence, CQ. Aproksimasi untuk A itu bisa didapatkan melalui SVD terhadap CQ 1/2A. Telah dilakukan penelitian terhadap VLSI dengan mempelajari literatur, mengerjakan secara manual prosedur VLSI, dan melakukan percobaan penggunaan VLSI. Percobaan dilakukan dengan koleksi 100 dokumen yang pernah digunakan pada mata kuliah Pemrosesan Teks, koleksi 9 dokumen berupa judul technical memo, koleksi MED, dan koleksi CACM. Dari analisis, ditemukan bahwa yang dikalikan dengan A untuk kemudian di- SVD tidak harus CQ 1/2. Dari percobaan dengan koleksi MED dan koleksi CACM, ditemukan bahwa perolehan dokumen dengan VLSI bisa bagus dalam hal precision pada sedikit dokumen berperingkat teratas."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2007

T-Pdf

UI - Tesis Membership Universitas Indonesia Library

Dian Rismawati

Analisis penerapan algoritma support vector machine pada sistem deteksi plagiarisme berbasis latent semantic analysis = Analysis of support vector machine algorithm implementation in plagiarism detection system based on latent semantic analysis

"Departemen Teknik Elektro Universitas Indonesia telah mengembangkan suatu sistem berbasis Latent Semantic Analysis (LSA) untuk mendeteksi plagiarisme pada karya tulis berbahasa Indonesia dan Inggris. Data keluaran sistem deteksi plagiarisme berbasis LSA adalah nilai frobenius norm, slice, dan pad. Pada skripsi ini akan menjelaskan serta memberikan analisis pada pengembangan sistem deteksi plagiarisme yang telah ada yaitu dengan menerapkan algoritma Support Vector Machine (SVM).

Support Vector Machine (SVM) adalah suatu Learning Algoritm yang bertujuan untuk menemukan suatu hipotesis berupa bidang pemisah (hyperplan) terbaik dari sekumpulan data yang dapat dipisahkan secara linear maupun tidak linear. SVM akan memisahkan data hasil keluaran sistem deteksi plagiat bebasis LSA menjadi dua kelas yaitu "plagiat" dan "tidak plagiat" dengan menggunakan 2 metode yaitu kombinasi data input dan kombinasi data output dengan metode AND. Beberapa modifikasi terhadap imput program dilakukan diantaranya memvariasikan parameter-parameter pembelajaran dan memvariasikan data hasil keluaran program deteksi plagiarisme berbasis LSA.

Hasil dari analisis serta pengujian yang telah dilakukan yaitu jika menggunakan parameter serta kombinasi data yang tepat, SVM mampu untuk meningkatkan akurasi sistem dari sistem yang menggunakan metode Learning Vector Quantization (LVQ) pada penelitian sebelumnya hingga menghasilkan akurasi sebesar 63,15% hal ini dilihat jika mempertimbangkan keseimbangan terhadap aspek presisi dan relevansi program sedangkan jika dilihat melalui presentase jumlah data yang berhasil diklasifikasikan dengan tepat, SVM mampu menghasilkan akurasi sebesar 97,04%.

Department of Electrical Engineering, University of Indonesia has developed a system based on Latent Semantic Analysis (LSA) to detect plagiarism between two paper written in different languages, which are Indonesian and English. The output data of plagiarism detection system are frobenius norm, slice, and pad. This thesis will explain and provide analysis of the development of plagiarism detection system that already exist by applying Support Vector Machine (SVM) algorithm.
Support Vector Machine (SVM) is a Learning Algorithm that aims to find a best hypothetical form called hyperplan to separated a set of data that can be separated linearly and nonlinearly. SVM will separate output data of plagiarism detection system into two classes, "plagiat" class and "tidak plagiat" class by using two methods: combination of input data method and output data combined with AND method. Some modifications to input program are made, such as variating the parameters of learning and variating the output data of plagiarism detection program.
The results of analysis and test that has been done are: if the system use correct parameters and correct combinations of the data, SVM is able to improve accuracy of the system from the last research that using Learning Vector Quantization (LVQ). The accuracy of SVM is 63,15% if considering the balance of precision and relevance of the program, while when viewed through a percentage of the amount of data that appropriately classified, the accuracy of SVM is 97.04%."

Depok: Fakultas Teknik Universitas Indonesia, 2016

S65023

UI - Skripsi Membership Universitas Indonesia Library

Laskito Harmantyo

Implementasi latent semantic indexing dengan singular value decomposition pada aplikasi information retrieval untuk dokumen berbahasa Indonesia = Implementation of latent semantic indexing with singular value decomposition

"Aplikasi information retrieval dalam wujud mesin pencari atau search engine sudah dikenal luas oleh pengguna internet. Informasi bisa didapatkan dengan melakukan pencocokan istilah dalam dokumen dengan istilah yang ingin dicari. Kata yang dimasukkan dalam query dicari kehadirannya dalam sejumlah dokumen. Pencocokan ini merupakan pencocokan secara harfiah atau yang dikenal dengan lexical matching. Metode pencocokan secara harfiah ini dapat memberikan hasil yang kurang akurat karena pencocokan harfiah hanya melihat kesamaan bentuk kata atau istilah saja tanpa melihat makna dan korelasi istilah tersebut. Latent Semantic Indexing (LSI) mengatasi masalah tersebut dengan menggunakan pendaftaran dan penyusunan istilah secara statistik. Struktur laten dituangkan dan digambarkan secara matematis dalam elemen-elemen matriks yang terukur. Teknik Singular Value Decomposition (SVD) digunakan untuk melakukan estimasi struktur penggunaan kata dalam dokumen-dokumen. SVD juga dipakai untuk meminimalisasi perhitungan dan meningkatkan performa information retrieval. Pembobotan pada dokumen dan query ditambahkan untuk meningkatkan performa relevansi perolehan dokumen. Implementasi LSI dengan SVD dilakukan secara web-based, dengan koleksi dokumen berupa judul dan abstrak dari sejumlah skripsi mahasiswa teknik elektro. Hasil ujicoba memberikan kesimpulan bahwa dari seluruh rangkaian proses perolehan informasi, 95% waktunya dihabiskan untuk kalkulasi SVD. Selain itu, pemakaian fitur klasifikasi dapat mempercepat proses sampai 64 kali waktu tanpa klasifikasi. Berbagai metode pembobotan juga terbukti memberikan hasil perolehan dokumen yang berbeda pada query yang sama, dengan tingkat relevansi yang berbeda. Berdasarkan perhitungan Non Interpolated Average Precision, skema pembobotan frekuensi kata untuk dokumen dan query merupakan skema yang paling baik dalam hal presisi.

Information retrieval in form like search engine has already known by a lot of internet users. Information can be obtained by doing terms matching. Terms in documents are matched dan compared by terms given by users in query. Such method like this known as lexical matching. This method can give inaccurate results because the mechanism is only matching and seeing the similarities of words without giving any concern of meaning or relevancy. Latent Semantic Indexing (LSI) try to compensate this problem by doing indexing and arranging terms in statistical manner. Latent structures are developed in mathematical way as values in matrices elements. Singular Value Decomposition (SVD) is used to estimating the structure of words in documents. In addition, SVD minimalize the matrices calculation and improves the performance of information retrieval application. Weighting scheme to documents and query added to improves the performance of relevancy retrieval. LSI with SVD implemented in web based way, with title and abstract from student of electrical engineering papers as document corpus. The experiment gives a fact that from all LSI process time, for about 95% is spent for SVD calculation. Classification feature of this application gives an acceleration up to 64 times of common process time (without classification). The number of user agent accessing the application gives a slow effect of processing time in linear manner. The great number of user, the longer process time. Various kind of weighting scheme makes a different documents retrieval result at the same queries. Calculation of Non-Interpolated Average Precision stated that word frequency weighting scheme for both document and query is the best in precision performance."

Depok: Fakultas Teknik Universitas Indonesia, 2007

S40368

UI - Skripsi Membership Universitas Indonesia Library

Muhammad Yusuf Irfan Herusaktiawan

Pengembangan sistem deteksi plagiarisme karya tulis digital dua bahasa (Indonesia - Inggris) menggunakan algoritma latent semantic analysis dan backpropagation neural network = Development of bilingual (Indonesian - English) plagiarism detection system in digital papers using latent semantic analysis and backpropagation neural network algorithm

"Penelitian ini mengembangkan dan menganalisa sistem pendeteksi plagiarisme dua bahasa berbasis Latent Semantic Analysis untuk karya tulis berbahasa Indonesia dan referensi berbahasa Inggris. Sistem pendeteksi plagiarisme menggunakan algoritma backpropagation neural network untuk melakukan klasifikasi pasangan karya tulis berbahasa Indonesia dan Inggris yang sudah dinilai tingkatan plagiarismenya secara manual. Sistem dapat memperoleh klasifikasi akurasi F-measure sampai dengan 92.75.

Hasil percobaan menunjukkan bahwa akurasi tertinggi dapat diperoleh jika menggunakan metode term frequency binary dalam penghitungan jumlah kata dan penggunaan frobenius norm, vector angle slice, dan vector angle pad sebagai pilihan fitur untuk masukan backpropagation neural network.

This research aims to develop and analyse dual language plagiarism detection system based on Latent Semantic Analysis for papers with Indonesian language and reference text with English language. The plagiarism detection system uses backpropagation neural network algorithm to classify pairs of Indonesian and English papers which plagiarism levels has been graded manually. The system has reached classification accuracy using F measure metric up to 92.75.
Experiment results show that the highest accuracy obtained when using term frequency binary method in counting frequency of words and using frobenius norm, vector angle slice, and vector angle pad features for backpropagtion neural network input."

Depok: Fakultas Teknik Universitas Indonesia, 2018

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Ihsan Ibrahim

Pengembangan algoritma pemrosesan paralel dengan openmp pada sistem pendeteksi plagiarisme dwibahasa berbasis latent semantic analysis dan learning vector quantization = Development of parallel processing algorithm with openmp on latent semantic analysis and learning vector quantization based bilingual plagiarism detection system

"Di Indonesia yang mayoritas karya tulis di dunia akademiknya masih menggunakan bahasa Indonesia dan referensi yang digunakan mayoritas berbahasa Inggris, memudahkan terjadinya tindak plagiarisme daripada penggunaan bahasa yang sama. Departemen Teknik Elektro telah mengembangkan sistem pendeteksi plagiarisme dwibahasa berbasis Latent Semantic Analysis LSA . Lamanya eksekusi, membuat paralelisme menjadi solusi untuk mengurangi waktu eksekusi dari sistem. Pada penelitian ini dilakukan pengembangan dengan pemrosesan paralel terhadap sistem dengan menggunakan OpenMP. Proses yang diparalelkan adalah, yaitu Singular Value Decomposition SVD, operasi-operasi matriks, dan proses Learning Vector Quantization LVQ dengan melakukan pada pendekatan loop-loop-nya.

Pada pengujian yang dilakukan, akurasi dari proses paralel memiliki konsistensi yang baik karena hasil yang sama dengan proses serial dan didapatkan peningkatan kecepatan eksekusi sistem sebesar 4-7,9 . Dengan fenomena pemrosesan paralel dengan menggunakan 1 thread memiliki waktu eksekusi yang lebih lambat daripada proses serial. Sedangkan saat menggunakan 2 thread dan 4 thread, didapatkan hasil yang lebih cepat daripada proses serial meskipun penggunaan 4 thread hanya berbeda sedikit atau cenderung sama dengan 2 thread. Hal ini disebabkan adanya overhead OpenMP yang terjadi saat pemrosesan paralel berjalan sebesar 20 , dan overhead MySQL yang membuat proses menjadi sangat lama karena besarnya yang mencapai 70 saat proses serial dan 50 pada proses paralel.

Majority of academic environment in Indonesia is still using Indonesian language and its references are in English. This condition led to ease the plagiarism acts when compared to same language environment. Due to this problem, Department of Electrical Engineering has developed bilingual plagiarism detection system based on Latent Semantic Analysis LSA . Parallelism becomes a solution to duration of execution problem. Development of parallel processing on the system with using OpenMP was conducted in this research. The parallelized processes were Singular Value Decomposition SVD , matrices operations, and Learning Vector Quantization LVQ with approach on loops.
In the testing process, accuracy of the parallel process had the same accuracy with the serial process. It is mean that the parallel process has good consistency. Then, the result of execution time has 4 7.9 of improvement compared to the serial one. There was a phenomenon that 1 thread of parallel process had worse performance than the serial process. Furthermore, use of 2 threads and 4 threads in the parallel process had a better execution time, even 4 threads is only slightly better or tend to be the same with 2 threads. These happened due to overhead presences. OpenMP overhead appeared at 20 when parallel executed and MySQL had more with 70 of system computation process in serial and 50 when executed in parallel."

Depok: Fakultas Teknik Universitas Indonesia, 2018

T50881

UI - Tesis Membership Universitas Indonesia Library

Mardiyah

Analisis efek variasi nilai term-document matrix pada algoritma latent semantic analysis terhadap akurasi deteksi plagiarisme paper Bahasa Indonesia dan Inggris = Analysis of variation term document matrix value effect in latent semantic analysis algorithm against accuracy of plagiarism detection Indonesian and English paper

"Pada skripsi ini telah dilakukan modifikasi metode untuk membangun sistem pendeteksian plagiarisme yang disebut dengan LSA atau Latent Semantic Analysis. Metode ini bekerja dengan mengekstrak dan merepresentasikan konteks yang digunakan sebagai sebuah arti kata dengan memanfaatkan komputasi statistik untuk sejumlah korpus yang besar dari teks. Modifikasi yang diterapkan yaitu mengubah panjang definisi dokumen pada Term-Document Matrix serta mengubah metode pengisian matriks pada Term-Document Matrix dari metode frekuensi ke metode biner. Hasil keluaran LSA yang dapat menentukan keakurasian sistem akan bervariasi sebagai akibat modifikasi sistem. Skripsi ini juga akan membahas metode dan alur yang digunakan untuk menganalisa perbedaan hasil keluaran LSA serta menampilkan hasil pengolahan data keluaran LSA yang kemudian akan memberikan nilai keakuratan masing-masing variasi sistem.

This thesis has been modified method to build plagiarism detection system called LSA or Latent Semantic Analysi. This method works by extracting and representing context is used as a meaning of the word by using statistical computing to a large corpus of text. Modifications are applied by changing the length of the document definitions Term-Document Matrix and change the method of charging matrix in Term-Document Matrix of frequency to the binary method. The output of the LSA to determine the accuracy of the system will vary as a result of modifications to the system. This thesis will also discuss the methods and flow of used to analyze differences in the output of the LSA as well as displaying the data processing LSA output which will then provide the value of the accuracy of each of the various systems."

Depok: Unversitas Indonesia. Fakultas Teknik, 2016

S64942

UI - Skripsi Membership Universitas Indonesia Library

Andryano

Pengembangan sistem penilaian ujian lisan bahasa jepang menggunakan julius dengan algoritma latent semantic analysis = Development of the japanese language oral examination system using julius with the latent semantic analysis algorithm

"ABSTRAK

Sistem Penilaian Ujian Lisan (SIPENILAI) merupakan pengembangan dari Sistem Penilaian Esai Otomatis (Simple-O) yang membuat metode menjawab soal dapat dilakukan secara lisan. Sistem ini menggunakan input suara dalam Bahasa Jepang, lalu suara tersebut dikonversi menjadi teks menggunakan bantuan dari engine bernama Julius. Selanjutnya teks dibandingkan dengan kunci jawaban untuk dilakukan scoring menggunakan algoritma Latent Semantic Analysis (LSA). Pada skripsi ini terdapat tiga pengujian yang dilakukan yaitu uji keakuratan Julius, uji keakuratan SIPENILAI, serta uji kecepatan SIPENILAI. Ketiga uji coba tersebut menggunakan variasi jawaban yang berbeda-beda, namun pengucapnya tetap sama. Setelah dilakukan uji coba dan analisis diperoleh nilai akurasi Julius sebesar 77.92, nilai akurasi SIPENILAI sebesar 75.43, dan nilai kecepatan rata-ratanya sebesar 45.63 KB s.

ABSTRACT

The Oral Examination Assessment System (SIPENILAI) is the development of the Automatic Essay Assessment System (Simple-O) that makes the method of answering questions can be done orally. This system uses voice input in Japanese, then the sound is converted to text using the help of an engine named Julius. Furthermore, the text is compared with the answer key for scoring using the Latent Semantic Analysis (LSA) algorithm. In this thesis, there are three tests carried out, the accuracy test of Julius, the accuracy test of SIPENILAI, and the speed test of SIPENILAI. The three tests used a variety of different answers, but the speaker remained the same. After testing and analysis, the accuracy value of Julius was 77.92, the accuracy of SIPENILAI was 75.43, and the average speed was 45.63 KB s.

2019

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Ichsani Mursidah

Analisis metode inisialisasi pada algoritma Fuzzy C-Means berbasis singular value decomposition untuk pendeteksian topik = Analysis of initialization methods on a Fuzzy C-Means algorithm based on singular value decomposition for topical detection / Ichsani Mursidah

"ABSTRAK

Pendeteksian topik adalah proses untuk menemukan topik atau pokok pembahasan utama dalam suatu kumpulan dokumen. Untuk data yang besar, pendeteksian topik dengan manual sulit atau bahkan tidak mungkin dilakukan. Sehingga, dibutuhkan metode otomatis yang dikenal dengan istilah Topic Detection and Tracking (TDT). Pada penelitian ini metode TDT yang digunakan untuk masalah pendeteksian topik adalah fuzzy C-means (FCM). FCM bekerja cukup baik pada dimensi data yang rendah, tetapi gagal pada dimensi data yang tinggi. Pada metode fuzzy c-means umumnya dilakukan inisialisasi random yang menyebabkan data konvergen ke satu pusat (centre of gravity) sehingga topik-topik yang dihasilkan antara satu dengan yang lainnya sama. Untuk mengatasi masalah tersebut dibutuhkan inisialisasi yang tidak random, yaitu dengan menggunakan inisialisasi berbasis singular value decomposition (SVD). Hasil akurasi dari metode ini menunjukkan adanya peningkatan lebih baik dibandingkan dengan metode FCM dengan inisialisasi random. Dengan nilai akurasi terbaik untuk FA Cup adalah 0,923, untuk US Elections adalah 0,661 dan untuk Super Tuesday adalah 0,727.

ABSTRACT

Topic detection is the process of finding the main topic or topic in a document. For large data, manual topic detection is difficult or even impossible. Thus, it takes an automatic method known as Topic Detection and Tracking (TDT). In this research the TDT method used for topic detection problem is fuzzy C-means (FCM). FCM works reasonably well on low data dimensions, but fails on high data dimensions. In the method of fuzzy c-means is generally done random initialization that causes data convergent to one center (center of gravity) so that the topics generated from one another are equal. To solve this problem requires non-random initialization, ie by using a singular value decomposition (SVD) based initialization. The accuracy of this method shows a better improvement compared to the FCM method with random initialization. With the best accuracy value for the FA Cup is 0.923, for US Elections is 0.661 and for Super Tuesday is 0.727."

2017

T48587

UI - Tesis Membership Universitas Indonesia Library

Web news documents clustering in indonesian language using singular value decomposition-principal component analysis and ant algorithms

"Ant-based document clustering is a cluster method of measuring text documents similarity based on the shortest path between nodes (trial phase) and determines the optimal clusters of sequence do-cument similarity (dividing phase). The processing time of trial phase Ant algorithms to make docu-ment vectors is very long because of high dimensional Document-Term Matrix (DTM). In this paper, we proposed a document clustering method for optimizing dimension reduction using Singular Value Decomposition-Principal Component Analysis (SVDPCA) and Ant algorithms. SVDPCA reduces size of the DTM dimensions by converting freq-term of conventional DTM to score-pc of Document-PC Matrix (DPCM). Ant algorithms creates documents clustering using the vector space model based on the dimension reduction result of DPCM. The experimental results on 506 news documents in Indo-nesian language demonstrated that the proposed method worked well to optimize dimension reduction up to 99.7%. We could speed up execution time efficiently of the trial phase and maintain the best F-measure achieved from experiments was 0.88 (88%).

Klasterisasi dokumen berbasis algoritma semut merupakan metode klaster yang mengukur kemiripan dokumen teks berdasarkan pencarian rute terpendek antar node (trial phase) dan menentukan sejumlah klaster yang optimal dari urutan kemiripan dokumen (dividing phase). Waktu proses trial phase algoritma semut dalam mengolah vektor dokumen tergolong lama sebagai akibat tingginya dimensi, karena adanya masalah sparseness pada matriks Document-Term Matrix (DTM). Oleh karena itu, penelitian ini mengusulkan sebuah metode klasterisasi dokumen yang mengoptimalkan reduksi dimensi menggunakan Singular Value Decomposition-Principal Component Analysis (SVDPCA) dan Algoritma Semut. SVDPCA mereduksi ukuran dimensi DTM dengan mengkonversi bentuk freq-term DTM konvensional ke dalam bentuk score-pc Document-PC Matrix (DPCM). Kemudian, Algoritma Semut melakukan klasterisasi dokumen menggunakan vector space model yang dibangun berdasarkan DPCM hasil reduksi dimensi. Hasil uji coba dari 506 dokumen berita berbahasa Indonesia membuk-tikan bahwa metode yang diusulkan bekerja dengan baik untuk mengoptimalkan reduksi dimensi hingga 99,7%, sehingga secara efisien mampu mempercepat waktu eksekusi trial phase algoritma se-mut namun tetap mempertahankan akurasi F-measure mencapai 0,88 (88%)."

Surabaya: Institut Teknologi Sepuluh Nopember, Faculty of Information Technology, Department of Informatics Engineering, 2016

AJ-Pdf

Artikel Jurnal Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian