Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 4 dokumen yang sesuai dengan query
cover
Lhuqita Fazry
"Tujuan utama dari deteksi perubahan (change detection) adalah untuk mendeteksi perbedaan pada dua citra satelit di wilayah yang sama tetapi diambil pada waktu yang berbeda. Deteksi perubahan merupakan salah satu masalah penginderaan jauh yang cukup sulit karena perubahan yang ingin dideteksi (real-change) bercampur dengan perubahan semu (pseudo-change). Hal ini terjadi akibat adanya faktor perbedaan kecerahan, perbedaan kelembapan, perbedaan musim dan lain-lain yang terdapat pada kedua citra. Kemunculan Vision Transformer (ViT) sebagai model state-of-the-art pada berbagai permasalahan di Computer Vision turut serta menggeser peran Convolution Neural Network (CNN) di bidang deteksi perubahan. Walaupun ViT mampu menangkap interaksi jarak jauh long-range attention dari setiap patch citra, akan tetapi kompleksitas komputasinya meningkat secara kuadratik terhadap jumlah patch. Salah satu solusi untuk mengurangi kompleksitas komputasi pada ViT adalah dengan mereduksi matriks Key (K) dan Values (V) pada mekanisme Self-Attention (SA). Akan tetapi, reduksi tersebut menurunkan efektivitas ViT akibat adanya informasi yang hilang, sehingga terjadi trade-off antara efektivitas dan efisiensi pada metode deteksi perubahan. Untuk mengatasi masalah tersebut, penulis mengembangkan metode deteksi perubahan baru bernama WaveCD dengan memanfaatkan dekomposisi Discrete Wavelet Transform (DWT) untuk mereduksi matriks K dan V. Selain berfungsi untuk mereduksi data, dekomposisi DWT juga berfungsi untuk mengekstraksi fitur-fitur yang penting yang mewakili citra sehingga data awal dapat diaproksimasi melalui proses Inverse Discrete Wavelet Transform (IDWT). Pada dataset CDD, hasil evaluasi WaveCD mencapai kenaikan nilai IoU sebesar 14.7% dan F1-score sebesar 8% terhadap nilai evaluasi metode pembanding, SwinSUNet. Sedangkan pada dataset LEVIR-CD, hasil evaluasi WaveCD mencapai kenaikan nilai IoU sebesar 4% dan F1-score sebesar 2%

Change detection is a remote sensing task for detecting a change from two satellite imagery in the same area while being taken at different times. Change detection is one of the most difficult remote sensing tasks because the change to be detected (real-change) is mixed with apparent changes (pseudo-change) due to differences in the two images, such as brightness, humidity, seasonal differences, etc. The emergence of a Vision Transformer (ViT) as a new standard in Computer Vision, replacing Convolutional Neural Network (CNN), also shifts the role of CNN in the field of DP. Although ViT can capture long-range interactions between image patches, its computational complexity increases the number of patches quadratically. One solution to reduce the computational complexity in ViT is to reduce the Key (K) and Values (V) matrices in the Self-Attention(SA) mechanism. However, this reduction also reduces the effectiveness of ViT due to missing information, resulting in a trade-off between the effectiveness and efficiency of the method. To solve the problem, we developed a new change detection method called WaveCD. WaveCD uses Wave Attention (WA) instead of SA. WA uses the Discrete Wavelet Transform (DWT) decomposition to reduce the K and V matrices. Besides reducing the data, DWT decomposition also serves to extract important features that represent images so that the initial data can be approximated through the Inverse Discrete Wavelet Transform (IDWT) process. On the CDD dataset, WaveCD outperforms the stateof-the-art CD method, SwinSUNet, by 14.7% on IoU and 8% on F1-score. While on the LEVIR-CD dataset, WaveCD outperforms SwinSUNet by 4% on IoU and 2% on F1-score."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Anastasia Christabel Arif
"Retinopati diabetik merupakan salah satu bentuk komplikasi diabetes melitus yang diekspresikan dengan adanya kerusakan pada pembuluh darah retina mata. Pada tahap awal, retinopati diabetik seringkali tidak menimbulkan gejala atau hanya menimbulkan gejala yang ringan. Namun, jika tidak mendapatkan penanganan yang baik, retinopati diabetik dapat menyebabkan kebutaan. Maka dari itu, akses skrining yang terjangkau menjadi esensial untuk mencegah efek jangka panjang dari penyakit ini. Penelitian ini berfokus pada pengembangan sistem deteksi retinopati diabetik berbasis deep learning yang bertujuan untuk meningkatkan aksesibilitas terhadap skrining retinopati diabetik. Model deteksi yang dibuat dalam penelitian ini yaitu model model berbasis Vision Transformer (ViT) B32 yang dibandingkan performanya dengan model convolutional neural network (CNN) berarsitektur DenseNet-121 dan. Model DenseNet-121 yang dilatih menggunakan gambar yang di-pre-process dengan teknik Ben Graham dan datanya di upsample memiliki performa terbaik dibandingkan teknik lainnya yang diteliti penelitian ini. Teknik pre-processing yang menghasilkan model CNN terbaik itu kemudian diimplementasikan pada model ViT untuk dibandingkan. Selain mengungguli model CNN, model ViT juga berhasil mengungguli model state of the art yang ada dengan nilai accuracy, precision, recall, dan f1-score masing-masing senilai 96%. Model ViT ini kemudian diintegrasikan dengan graphical user interface (GUI) untuk memudahkan dokter dalam memanfaatkan model yang diusulkan untuk skrining retinopati diabetik.

Diabetic retinopathy is a complication of diabetes mellitus characterized by damage to the blood vessels of the retina. In its early stages, diabetic retinopathy often does not present symptoms or only causes mild symptoms. However, without proper treatment, diabetic retinopathy can lead to blindness. Therefore, affordable screening access is essential to prevent the long-term effects of this disease. This research focuses on the development of a deep learning-based detection system for diabetic retinopathy, aiming to enhance the accessibility of diabetic retinopathy screening. The detection model developed in this study is based on the Vision Transformer (ViT) B32 model, and its performance is compared with the DenseNet-121 convolutional neural network (CNN) architecture. The DenseNet-121 model, trained using images pre-processed with the Ben Graham technique and upsampled data, showed the best performance compared to other techniques investigated in this study. The pre-processing technique that yielded the best CNN model was then implemented on the ViT model for comparison. In addition to outperforming the CNN model, the ViT model also surpassed the existing state-of-the-art models with an accuracy, precision, recall, and F1-score of 96% each. This ViT model was subsequently integrated with a graphical user interface (GUI) to facilitate doctors in utilizing the proposed model for diabetic retinopathy screening."
Depok: Fakultas Teknik Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Fauzan Muhammad
"Deep learning telah digunakan dalam berbagai masalah klasifikasi gambar dan deteksi objek. Dalam proses pelatihan pada Deep Learning membutuhkan data berlabel yang tidak sedikit dan akibatnya memakan waktu yang lama. Untuk mengatasi hal tersebut, metode transfer learning diperkenalkan dengan mengambil hasil pelatihan dari data sebelumnya dengan dataset yang umum, seperti ImageNet. VIT-B/16 merupakan model network yang menerapkan konsep transformer pada gambar. Model ini memiliki kinerja yang sangat baik saat dilatih menggunakan dataset ImageNet tetapi tidak terlalu baik saat dilatih menggunakan dataset Describable Textures Dataset dan Flowers-102. Penelitian ini bertujuan untuk melihat apakah metode transfer learning bisa digunakan sehingga model Vision Transformer mempunyai kinerja lebih baik saat dilatih menggunakan kedua dataset tersebut. Pada penelitian ini dilakukan transfer learning pada DTD dan dataset flowers-102 dengan menggunakan model yang sudah di pre-trained dengan ImageNet- 21K. Dari Hasil penelitian didapat bahwa model ViT mengenali dengan cukup baik pada DTD dengan akurasi pada testing hanya mencapai76,67% dengan optimizer Adam dan dataset Flowers-102 dengan akurasi pada testing mencapai 98,91% dengan optimizer Adadelta. Model ViT ini selanjutnya dibandingkan dengan model CNN ResNet50 dan didapat bahwa hasil akurasi sedikit di bawah ResNet50.

Deep learning has been used in various image classification and object detection problems. The training process in Deep Learning requires quite a lot of labeled data and as a result takes a long time. To overcome this, a transfer learning method was introduced by taking training results from previous data with a common dataset, such as ImageNet. VIT-B/16 is a network model that applies the transformer concept to images. This model performs very well when trained using the ImageNet dataset but not so well when trained using the Describable Textures Dataset and Flowers-102 datasets. This research aims to see whether the transfer learning method can be used so that the Vision Transformer model has better performance when trained using both datasets. In this research, transfer learning was carried out on the DTD and Flowers-102 dataset using a model that was pre-trained with ImageNet-21K. From the research results, it was found that the ViT model recognized the DTD quite well with accuracy in testing only reaching 76.67% with the Adam optimizer and the Flowers-102 dataset with accuracy in testing reaching 98.91% with the Adadelta optimizer. This ViT model was then compared with the ResNet50 CNN model and it was found that the accuracy results were slightly below that of ResNet50."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Muhammad Habil Amardias
"Tuberkulosis merupakan salah satu penyakit yang menjadi penyebab kematian tertinggi di dunia. Penyakit tuberkulosis perlu pendeteksian dan diagnosis yang tepat. Salah satu media yang umum digunakan untuk mendeteksi penyakit tuberkulosis adalah chest x-ray. Penelitian ini menggunakan model Conditional Positional Encoding Vision Transformer dengan Convolution Stem untuk mengklasifikasi penyakit tuberkulosis pada chest x-ray. Conditional Positional Encoding Vision Transformer adalah salah satu varian dari model vision transformer yang menggunakan skema Conditional Positional Encoding. Convolution Stem untuk vision transformer adalah convolution block yang diterapkan pada vision transformer untuk meningkatkan stabilitas performa model. Data yang digunakan dalam penelitian ini diambil dari chest x-ray database yang terdiri dari data citra chest x-ray dengan label normal dan label tuberkulosis. Sebelum proses pelatihan, diterapkan enam metode preprocessing pada data citra chest x-ray untuk menyiapkan data citra sebagai input model, mulai dari Red Green Blue (RGB) to gray, contrast limited adaptive histogram equalization, gaussian blur, resize, gray to RGB, dan normalisasi. Model dilatih untuk meminimalkan loss function menggunakan metode optimasi AdamW dan stochastic gradient descent. Loss function yang digunakan dalam penelitian ini adalah fungsi binary crossentropy loss. Hasil percobaan menunjukkan model Conditional Positional Encoding Vision Transformer dengan Convolution Stem dapat mengklasifikasi penyakit tuberkulosis pada citra chest x-ray dengan baik, dengan rata-rata skor akurasi terbaik sebesar 0,990488, rata-rata skor recall terbaik sebesar 0,95757, dan rata-rata skor F1 sebesar 0,97338.

Tuberculosis is one of the diseases that cause the highest number of deaths in the world. Tuberculosis disease need proper detection and diagnosis. One of common methods used to detect tuberculosis is chest x-ray. This research uses the Conditional Positional Encoding Vision Transformer with Convolution Stem to classify tuberculosis in chest x-ray. Conditional Positional Encoding Vision Transformer is a variant of vision transformer model that uses conditional positional encoding. Convolution Stem is a convolution block applied to vision transformer model to enhance the model’s performance stability. The data used in this research is taken from a chest x-ray database consisting of chest x-ray images with normal and tuberculosis labels. Before the training process, six preprocessing methods were applied to the chest x-ray images, including Red Green Blue (RGB) to gray, contrast limited adaptive histogram equalization, gaussian blur, resize, gray to RGB and normalization, to prepare the image data as model input. The model is trained to minimize the loss function using AdamW and stochastic gradient descent. The loss function used in this research is binary crossentropy loss function. The experimental results show that Conditonal Positional Encoding Vision Transformer with Convolution Stem can classify tuberculosis in chest x-ray images effectively, with an average best accuracy score of 0,990488, an average best recall score of 0,95757, and an average F1 score of 0,97338."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library