Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 27 dokumen yang sesuai dengan query
cover
Martin Novela
"Salah satu faktor keberhasilan suatu model pembelajaran dalam machine learning atau deep learning adalah dataset yang digunakan. Pemilihan dataset yang digunakan untuk pelatihan suatu model sangat penting dalam pemrosesan yang dilakukan. Beberapa model deep learning seperti sistem pemrosesan text-to-speech pada model Tacotron2 sangat bergantung dengan dataset yang dipilih. Hal tersebut dikarenakan dalam pelatihan yang dilakukan untuk pembentukan suatu model pada bahasa tertentu harus menggunakan bahasa tersebut agar kualitas dari suara sintesis yang dihasilkan dapat mendekati pelafalan yang seharusnya untuk bahasa yang ditentukan. Pada penelitian ini dilakukan pelatihan yang bertujuan untuk pembentukan model Tacotron2 pada Bahasa Indonesia, sehingga untuk mendapatkan hasil yang lebih baik, maka digunakan dataset berbahasa Indonesia dari rekaman podcast dan talk show. Pada penelitian ini dilakukan dua skenario untuk mendapatkan hasil yang paling optimal. Skenario pertama adalah melakukan pelatihan pada model Tacotron2 menggunakan dataset berbahasa Indonesia yang terdiri dari banyak pembicara. Skenario kedua adalah melakukan pelatihan pada model Tacotron2 menggunakan dataset berbahasa Indonesia yang terdiri dari satu pembicara. Dalam pemrosesan pelatihan untuk pembentukan model Tacotron2 pada Bahasa Indonesia dilakukan dengan menggunakan pre-trained dan hyperparameter berdasarkan penelitian sebelumnya (Shen, et al., 2018). Hasil dari setiap skenario dievaluasi menggunakan Mean Opinion Score (MOS). Kuesioner disebarkan kepada 25 responden untuk menilai kualitas dari suara yang terbentuk berdasarkan kriteria penilaian pada MOS. Suara yang dibentuk oleh model Tacotron2 pada skenario pertama menghasilkan nilai MOS sebesar 4.01. Sedangkan suara yang dibentuk oleh model Tacotron2 pada skenario kedua menghasilkan nilai MOS sebesar 3.78. Hal tersebut menunjukkan bahwa penggunaan dataset berbahasa Indonesia dari rekaman podcast dan talk show dalam pembentukan model Tacotron2 untuk Bahasa Indonesia menghasilkan kualitas yang cukup baik.

One of the success factors of a learning model in machine learning or deep learning is the dataset used. The selection of the dataset used for training a model is very important. Some deep learning models such as the text-to-speech processing system in Tacotron2 are highly dependent on the selected dataset. This is because the training for forming a model in a particular language must use the same language so that the quality of the synthetic sound produced can resemble the proper pronunciation and prosody. In this study, training is aimed to form Tacotron2 model in Bahasa Indonesia. So, to get better results, a dataset in Bahasa Indonesia from recorded podcasts and talk shows are developed. Based on the dataset, two scenarios of training were conducted to obtain the most optimal results. The first scenario is to conduct training on the Tacotron2 model using the dataset consisting of many speakers. The second scenario is to conduct training on the Tacotron2 model the dataset consisting of only one speaker. Both scenarios employed the Tacotron2 model and the hyperparameters used in previous work (Shen, et al., 2018).
The results of each scenario are evaluated using the Mean Opinion Score (MOS). Questionnaires are distributed to 25 respondents to assess the quality of the sound formed based on the MOS assessment criteria. The sound formed by the Tacotron2 model in the first scenario produces an MOS value of 4,012. While the sound formed by the Tacotron2 model in the second scenario produces an MOS value of 3.78. This shows that the use of Indonesian language dataset from recorded podcasts and talk shows in the formation of the Tacotron2 model for Bahasa Indonesia produces a good quality.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Galangkangin Gotera
"Singlish adalah sebuah bahasa informal yang sering digunakan warga Singapura. Karena informal, bahasa Singlish jarang ditemukan di media umum seperti majalah, koran, dan artikel internet. Meski demikian, bahasa ini sangat sering digunakan oleh warga Singapu- ra pada percakapan sehari-hari, baik daring maupun luring. Banyak campuran bahasa lain (code-mixing) merupakan tantangan lain dari Singlish. Keterbatasan GPU juga menjadi tantangan dalam mendapatkan model yang baik. Mempertimbangkan semua tantangan ini, penulis telah melatih sebuah model Efficiently Learning an Encoder that Classifies Token Replacements Accurately (ELECTRA) pada data berbahasa Singlish. ELECTRA merupakan sebuah model baru yang menawarkan waktu training lebih cepat sehingga menjadi pilihan baik jika memiliki keterbatasan GPU. Data Singlish didapatkan melalui web scraping pada reddit dan hardwarezone. Penulis membuat sebuah dataset benchmark pada dua buah permasalahan yaitu sentiment analysis dan singlish identification dengan anotasi manual sebagai metode untuk mengukur kemampuan model dalam Singlish. Penulis melakukan benchmarking pada model yang dilatih dengan beberapa model yang tersedia secara terbuka dan menemukan bahwa model ELECTRA yang dilatih memiliki perbedaan akurasi paling besar 2% dari model SINGBERT yang dilatih lebih lama dengan data yang lebih banyak.

Singlish is an informal language frequently used by citizens of Singapore (Singaporeans). Due to the informal nature, Singlish is rarely found on mainstream media such as magazines, news paper, or internet articles. However, the language is commonly used on daily conversation, whether it be online or offline. The frequent code-mixing occuring in the language is another tough challenge of Singlish. Considering all of these challenges, we trained an Efficiently Learning an Encoder that Classifies Token Replacements Accurately (ELECTRA) model on a Singlish corpus. Getting Singlish data is hard, so we have built our own Singlish data for pre-training and fine-tuning by web scraping reddit and hardwarezone. We also created a human-annotated Singlish benchmarking dataset of two downstream tasks, sentiment analysis and singlish identification. We tested our models on these benchmarks and found out that the accuracy of our ELECTRA model which is trained for a short time differ at most 2% from SINGBERT, an open source pre-trained model on Singlish which is trained with much more data."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Abdul Azis Abdillah
"Diabetes is one of the
most serious health challenges in both developed and developing countries. Early detection and accurate diagnosis of
diabetes can reduce the risk of complications. In recent years, the use of machine learning in predicting disease has
gradually increased. A promising classification technique in machine
learning is the use of support vector machines in combination with radial basis
function kernels (SVM-RBF). In this study, we used SVM-RBF to predict diabetes.
The study used a Pima Indian diabetes dataset from the University of
California, Irvine (UCI) Machine Learning Repository. The subjects were female and
≥ 21 years
of age at the time of the index examination. Our experiment design used 10-fold
cross-validation. Confusion matrix and ROC were used to calculate performance
evaluation. Based on the experimental results, the study demonstrated that SVM-RBF
shows promise in aiding diagnosis of Pima Indian diabetes disease in the early
stage."
2016
J-Pdf
Artikel Jurnal  Universitas Indonesia Library
cover
Abdul Azis Abdillah
"Diabetes is one of the most serious health challenges in both developed and developing countries. Early detection and accurate diagnosis of diabetes can reduce the risk of complications. In recent years, the use of machine learning in predicting disease has gradually increased. A promising classification technique in machine learning is the use of support vector machines in combination with radial basis function kernels (SVM-RBF). In this study, we used SVM-RBF to predict diabetes. The study used a Pima Indian diabetes dataset from the University of California, Irvine (UCI) Machine Learning Repository. The subjects were female and ? 21 years of age at the time of the index examination. Our experiment design used 10-fold cross-validation. Confusion matrix and ROC were used to calculate performance evaluation. Based on the experimental results, the study demonstrated that SVM-RBF shows promise in aiding diagnosis of Pima Indian diabetes disease in the early stage."
Depok: Faculty of Engineering, Universitas Indonesia, 2016
UI-IJTECH 7:5 (2016)
Artikel Jurnal  Universitas Indonesia Library
cover
Pandapotan, Adolf
"Tujuan Tugas Akhir ini adalah mengimplementasikan algoritma clustering (sebagai bagian dari Data Mining Algorithms Collection) menggunakan bahasa pemrograman C++. Ada 2 algoritma clustering yang diimplementasikan yaitu Cobweb dan Iterate. Uji coba dilakukan dengan membandingkan kecepatan eksekusi dari implementasi Cobweb dengan Cobweb pada WEKA dan implementasi Iterate, serta membandingkan kualitas partisi implementasi Cobweb dengan Cobweb pada WEKA dan implementasi Iterate. Ada 2 jenis data uji coba yaitu dataset kecil dan dataset besar. Hasil uji coba menunjukan algoritma Cobweb pada WEKA bukan algoritma Cobweb murni, waktu eksekusi Cobweb implementasi lebih cepat dari WEKA namun lebih lambat dari Iterate implementasi, urutan data berpengaruh terhadap hasil Cobweb, dan kualitas Iterate lebih baik dari Cobweb. Kata kunci: clustering, Cobweb, data mining, dataset, Iterate.
The purpose of this mini thesis is to implement clustering algorithms (as part of Data Mining Algorithms Collection) using C++. There are two clustering algorithms that are implemented, that are Cobweb and Iterate. The experiment is done by comparing the execution speed of Cobweb implementation with Cobweb in WEKA and Iterate implementation, also comparing the partition quality of Cobweb implementation with Cobweb in WEKA and Iterate implementation. There are two kinds of experiment data, which are small dataset and large dataset. The test results show that Cobweb algorithm in WEKA is not pure Cobweb algorithm, the execution time of Cobweb implementation is faster than WEKA but slower than Iterate implemetation, the data sorted affected to the Cobweb result and the quality of Iterate is better than Cobweb."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Yuliana Portti
"Penelitian ini mengusulkan tiga algoritma meta-heuristik berbasis Fuzzy K-modes untuk clustering binary data set. Ada tiga metode metaheuristik diterapkan, yaitu Particle Swarm Optimization (PSO), Genetika Algoritma (GA), dan Artificial Bee Colony (ABC). Ketiga algoritma digabungkan dengan algoritma K-modes. Tujuannya adalah untuk memberikan modes awal yang lebih baik untuk K-modes. Jarak antara data ke modes dihitung dengan menggunakan koefisien Jaccard. Koefisien Jaccard diterapkan karena dataset mengandung banyak nilai nol . Dalam rangka untuk melakukan pengelompokan set data real tentang supplier otomotif di Taiwan, algoritma yang diusulkan diverifikasi menggunakan benchmark set data. Hasil penelitian menunjukkan bahwa PSO K-modes dan GA K-modes lebih baik dari ABC K-modes. Selain itu, dari hasil studi kasus, GA K-modes memberikan SSE terkecil dan juga memiliki waktu komputasi lebih cepat dari PSO K-modes dan ABC K-modes.

This study proposed three meta-heuristic based fuzzy K-modes algorithms for clustering binary dataset. There are three meta-heuristic methods applied, namely Particle Swarm Optimization (PSO) algorithm, Genetic Algorithm (GA) algorithm, and Artificial Bee Colony (ABC) algorithm. These three algorithms are combined with k-modes algorithm. Their aim is to give better initial modes for the k-modes. Herein, the similarity between two instances is calculated using jaccard coefficient. The Jaccard coefficient is applied since the dataset contains many zero values. In order to cluster a real data set about automobile suppliers in Taiwan, the proposed algorithms are verified using benchmark data set. The experiments results show that PSO K-modes and GA K-modes is better than ABC K-modes. Moreover, from case study results, GA fuzzy K-modes gives the smallest SSE and also has faster computational time than PSO fuzzy K-modes and ABC fuzzy K-modes.
"
Depok: Fakultas Teknik Universitas Indonesia, 2015
T44406
UI - Tesis Membership  Universitas Indonesia Library
cover
Mufiedah
"Penelitian mengenai klasifikasi emosi manusia sudah berlangsung lama. Pada umumnya yang dikembangkan adalah algoritma pengklasifikasiannya dengan menggunakan dataset EEG laboratory-grade yang sudah tersedia secara bebas. Penelitian ini bertujuan membuat dataset klasifikasi emosi manusia berbasis peranngkat EEG komersil. Responden direkrut secara online dan yang memenuhi kriteria diminta  untuk menonton 6 video stimuli emosi sambil direkam aktivitas kelistrikan otaknya menggunakan perangkat EEG komersil. Tiap video stimuli diperuntukkan untuk memancing emosi yang berbeda, yaknik emosi sedih, takut, jijik, marah, tenang, dan senang. Responden juga diminta unutk mengisi kuesioner untuk tiap video stimuli yang ditonton. Dari 27 responden yang direkam data EEG-nya, hasil rekam dari 3 responden harus dieliminasi karena kualitas hasil rekam yang buruk. Hasil analisa kuesioner menunjukkan bahwa sebagian besar video stimuli sudah berhasil memancing emosi responden sesuai dengan tujuannya. Sedangkan hasil rekam signal EEG dibuat dataset untuk melatih algoritma Deep Learning model Recurrent Neural Network (RNN) untuk klasifikasi emosi manusia. Setelah melewati 16 epoch dan tidak ada perbaikan sampai epoch ke-46, nilai akurasi yang dicapai adalah sebesar 33%.

The majority of studies on the classification of human emotions have relied on the analysis of pre-existing datasets. We generated a dataset using consumer-grade EEG devices, which could be a big step forward for EEG research. Respondents were recruited online based on specific criteria and asked to watch a series of six videos while recording their brain's electrical activity using an EEG device and asked to complete a questionnaire for each video they watched. Out of the 27 respondents whose EEG data were recorded, the recordings from 3 respondents had to be eliminated due to the poor quality of the recordings. The results of the questionnaire analysis show that most of the video stimuli have succeeded in evoking the intended respondents’ emotions. Meanwhile, the EEG signal recording results are made into a dataset to train the Deep Learning algorithm using Recurrent Neural Network (RNN) method for the classification of human emotions. After passing 16 epochs and no improvement until the 46th epoch, the accuracy value achieved is 33%."
Depok: Fakultas Teknik Universitas Indonesia, 2023
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
R. Ahmad Imanullah Zakariya
"Pengembangan aplikasi yang tidak dilengkapi dengan informasi detail mengenai aspek keamanan aplikasi menyebabkan pengguna mengalami kesulitan untuk menilai dan memahami risiko keamanan privasi yang mereka hadapi, sehingga banyak informasi sensitif yang terungkap tanpa sepengetahuan pengguna. Penelitian ini mengembangkan desain penilaian risiko privasi melalui pendekatan analisis statik dengan memanfaatkan permission dan beberapa atribut aplikasi (multiple application attributes), serta menggunakan majority voting ensemble learning dengan menerapkan teknik pemilihan fitur Random Forest Feature Importance untuk mendeteksi keamanan aplikasi. Nilai risiko diperoleh dari sebuah matriks risiko yang dibentuk dari dua aspek penilaian, yaitu frekuensi terjadinya risiko (likelihood) dan tingkat keparahannya (severity). Penilaian likelihood dilakukan dengan mengkombinasikan prediksi ensemble learning dan atribut aplikasi, sementara penilaian severity berdasarkan pada karakteristik dan jumlah permission. Untuk mengevaluasi model pembelajaran dan desain penilaian risiko privasi digunakan dataset CIC-AndMal2017 yang terdiri dari 2126 file APK. Jumlah data yang digunakan untuk membentuk model memiliki proporsi 80% data training dan 20% data testing, serta metode klasifikasi data yang digunakan adalah binary class (malicious dan benign). Penelitian ini menerapkan bahasa pemrograman Python dan menggunakan parameter default pada proses pembentukan model pembelajaran. Hasil percobaan menunjukkan bahwa model ensemble learning yang dibentuk dari algoritma Decision Tree, K-Nearest Neighbor, dan Random Forest memiliki performa model yang lebih baik dibandingkan single classification model, dengan accuracy sebesar 95.2%, precision 93.2%, dan F1-Score sebesar 92.4%. Penerapan teknik pemilihan fitur mampu meningkatkan efisiensi waktu selama pembelajaran model dengan total waktu sebesar 263 ms. Serta, hasil penilaian risiko mampu memberikan informasi yang komprehensif dan logis mengenai keamanan privasi aplikasi kepada pengguna. Hal ini menunjukkan bahwa desain penilaian risiko yang dibuat dapat menilai aplikasi secara efektif dan objektif.

Lack of detailed information about the application's security aspects leads to the user's inability to assess and understand the risk of privacy breaches and leads to the disclosure of a great deal of sensitive information without the user's knowledge. This study proposes a privacy risk assessment development through employing static analysis with permission and multiple application attributes and using majority voting ensemble learning with the Random Forest Feature Importance technique to detect app security. The risk score is obtained from a risk matrix based on two assessment aspects, namely the frequency of risk (likelihood) and its severity. The likelihood assessment is performed by combining ensemble learning predictions and information on multiple application attributes, while the severity assessment is performed by utilizing the number and characteristics of permissions. The dataset CIC-AndMal2017, which consists of 2126 APK files, was used to evaluate learning models and privacy risk assessment design. The amount of data used to build models consists of 80% data training and 20% data testing, while the data classification method used is binary class (malicious and benign). This study employs Python programming and implements default parameters in building a learning model. The experimental results show that ensemble learning model built from Decision Tree, K-Nearest Neighbor, and Random Forest algorithms provides better model performance than single classification models with accuracy of 95.2%, precision of 93.2%, and F1-Score of 92.4%. By applying feature selection technique, it could improve the efficiency of time used to learn the model with a total time of 263 milliseconds. Moreover, the results of the risk assessment provide comprehensive and rational information about the security of application privacy to users. This shows that the risk assessment design can assess the applications effectively and objectively. "
Jakarta: Fakultas Teknik Universitas Indonesia, 2023
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Hartina Hiromi Satyanegara
"Serangan MitM ini memiliki dampak yang cukup besar dan dapat membuka jalan untuk serangan selanjutnya, seperti Phishing. Penelitian ini membahas tentang pendekatan metode hybrid deep learning yang dapat membantu pendeteksian serangan MitM secara efektif. Metode hybrid deep learning yang digunakan dalam penelitian ini adalah CNN-MLP dan CNN-LSTM, yaitu merupakan gabungan dari CNN, MLP, dan LSTM. Selain itu, dalam skenario eksperimennya menggunakan berbagai metode feature scaling (StandardScaler, MinMaxScaler, dan MaxAbsScaler) dan tanpa menggunakan metode feature scaling sebelum melakukan pemodelan, yang kemudian akan ditentukan metode hybrid deep learning yang terbaik untuk mendeteksi serangan MitM dengan baik. Dataset yang digunakan dalam penelitian ini yaitu Kitsune Network Attack Dataset (ARP MitM Ettercap). Hasil dari penelitian ini yaitu metode CNN-MLP dengan 10 epoch menggunakan MaxAbsScaler memiliki nilai accuracy tertinggi, yaitu 99.93%. Pada urutan kedua, CNN-MLP dengan 10 epoch menggunakan StandardScaler memiliki nilai accuracy sebesar 99.89%.

Man in the Middle (MitM) has a sizeable impact because it could make the attackers will do another attacks, such as Phishing. This research is discussing about hybrid deep learning methods-approach on detecting MitM attacks effectively. We were used 2 (two) combinations of the Deep Learning methods (CNN, MLP, and LSTM), which are CNN-MLP and CNN-LSTM. Besides that, in the experiment scenarios, we also used various Feature Scaling methods (StandardScaler, MinMaxScaler, and MaxAbsScaler) and without using any Feature Scaling methods before building the models and will determine the better hybrid Deep Learning methods for detecting MitM attack. Kitsune Network Attack Dataset (ARP MitM Ettercap) is the dataset used in this study. The results of this research proves that CNN-MLP that with 10 epoch using MaxAbsScaler has the highest accuracy rate of 99.93%. In second place, CNN-MLP with 10 epoch using StandardScaler has the accuracy rate of 99.89%."
Depok: Fakultas Teknik Universitas Indonesia, 2022
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Melisa Constantia
"Artikel ini bertujuan untuk meneliti penggunaan energi dan faktor utama yang mempengaruhi intensitas emisi karbon dari perusahaan manufaktur dengan menggunakan data industri manufaktur besar dan sedang periode 2011-2014. Meskipun sektor makanan dan minuman barang logam, elektronik, mesin dan barang galian bukan logam adalah sektor utama dengan penggunaan energi terbesar, hanya sektor barang galian bukan logam yang menunjukkan memiliki energi intensitas tertinggi. Sedangkan sektor makanan dan minuman dan barang logam, elektronik dan mesin memiliki intensitas energi yang rendah dikarenakan nilai tambah yang tinggi. Dengan menggunakan metode OLS, 2SLS, dan fixed-effect dalam meneliti determinan intensitas emisi karbon, penelitian ini menemukan bahwa manufaktur besar lebih rendah dan efisien dalam mengeluarkan emisi dibandingkan manufaktur kecil. Selain itu, tenaga kerja dan jumlah modal memiliki pengaruh negatif terhadap tingkat intensitas emisi karbon. Sedangkan tingkat biaya untuk pemeliharaan mesin memiliki pengaruh positif terhadap intensitas emisi karbon. Hal ini dimungkinkan karena pemakaian mesin canggih yang memerlukan biaya pemeliharaan tinggi cenderung dilakukan oleh sektor industri yang emisi-intensif.

Using a firm-level dataset from the Indonesian large and medium manufacturing sector, this paper investigates the energy usage performance and the main factors that are related to carbon dioxide emission intensity of manufacturing firms, from 2011 to 2014. Although food, beverages; fabricated metal and machinery; and non-metallic mineral are three primary energy-intensive sectors, only the latter had high energy intensity. Meanwhile food industry and fabricated metal and machinery show low energy intensity due to their high value-added. This paper also presents an estimation of carbon dioxide emission due to fuels consumption of firms. During the period of study, the trend of carbon emission has increased, but the carbon emission intensity has shown improvement. Performing panel data framework, this study uses OLS, 2SLS, and fixed effect model in analysing the determinants of CO2 intensity. The result of the FE regressions suggests that larger firms are emission efficient compared to small sized firms. Similarly, capital- and labor-intensive firms are less-carbon intensive. Furthermore, firms that spend more on maintenance have emitted more. This perhaps due to the adoption of high maintenance equipment by emission-intensive firms that requires for more expanses."
Depok: Fakultas Ekonomi dan Bisnis Universitas Indonesia, 2021
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
<<   1 2 3   >>