Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 8 dokumen yang sesuai dengan query
cover
Muhammad Okky Ibrohim
"ABSTRAK
Penyebaran ujaran kebencian dan ujaran kasar di media sosial merupakan hal yang harus diidentifikasi secara otomatis untuk mencegah terjadinya konflik masyarakat. Selain itu, ujaran kebencian mempunyai target, golongan, dan tingkat tersendiri yang juga perlu diidentifikasi untuk membantu pihak berwenang dalam memprioritaskan kasus ujaran kebencian yang harus segera ditangani. Tesis ini membahas klasifikasi teks multi label untuk mengidentifikasi ujaran kasar dan ujaran kebencian disertai identifikasi target, golongan, dan tingkatan ujaran kebencian pada Twitter berbahasa Indonesia. Permasalahan ini diselesaikan menggunakan pendekatan machine learning menggunakan algoritma klasifikasi Support Vector Machine (SVM), Naïve Bayes (NB), dan Random Forest Decision Tree (RFDT) dengan metode transformasi data Binary Relevance (BR), Label Power-set (LP), dan Classifier Chains (CC). Jenis fitur yang digunakan antara lain fitur frekuensi term (word n-grams dan character n-grams), fitur ortografi (tanda seru, tanda tanya, huruf besar/kapital, dan huruf kecil), dan fitur leksikon (leksikon sentimen negatif, leksikon sentimen positif, dan leksikon kasar). Hasil eksperimen menunjukkan bahwa secara umum algoritma klasifikasi RFDT dengan metode transformasi LP memberikan akurasi yang terbaik dengan waktu komputasi yang cepat. Algoritma klasifikasi RFDT dengan metode transformasi LP menggunakan fitur word unigram memberikan akurasi sebesar 66,16%. Jika hanya mengidentifikasi ujaran kasar dan ujaran kebencian (tanpa disertai identifikasi target, golongan, dan tingkatan ujaran kebencian), algoritma klasifikasi RFDT dengan metode transformasi LP menggunakan gabungan fitur word unigram, character quadgrams, leksikon sentimen positif, dan leksikon kasar mampu memberikan akurasi sebesar 77,36%.


Hate speech and abusive language spreading on social media needs to be identified automatically to avoid conflict between citizen. Moreover, hate speech has target, criteria, and level that also needs to be identified to help the authority in prioritizing hate speech which must be addressed immediately. This thesis discusses multi-label text classification to identify abusive and hate speech including the target, category, and level of hate speech in Indonesian Twitter. This problem was done using machine learning approach with Support Vector Machine (SVM), Naïve Bayes (NB), and Random Forest Decision Tree (RFDT) classifier and Binary Relevance (BR), Label Power-set (LP), and Classifier Chains (CC) as data transformation method. The features that used are term frequency (word n-grams and character n-grams), ortography (exclamation mark, question mark, uppercase, lowercase), and lexicon features (negative sentiment lexicon, positif sentiment lexicon, and abusive lexicon). The experiment results show that in general RFDT classifier using LP as the transformation method gives the best accuracy with fast computational time. RFDT classifier with LP transformation using word unigram feature give 66.16% of accuracy. If only for identifying abusive language and hate speech (without identifying the target, criteria, and level of hate speech), RFDT classifier with LP transformation using combined fitur word unigram, character quadgrams, positive sentiment lexicon, and abusive lexicon can gives 77,36% of accuracy.

"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2019
T52442
UI - Tesis Membership  Universitas Indonesia Library
cover
Achmad Fatchuttamam Abka
"Natural Language Generation (NLG) merupakan salah satu topik dalam bidang Natural Language Processing (NLP) yang hingga sekarang penelitiannya masih banyak dilakukan. Tugas dari NLG adalah menghasilkan bahasa natural (manusia) dari data non-linguistik. Secara umum, sistem NLG melibatkan tahapan-tahapan utama yaitu document planning, microplanning, dan surface realisation.
Penelitian yang dilakukan adalah mengembangkan sistem NLG yang menggunakan konsep inference dalam prosesnya menghasilkan dokumen. Selain itu sistem juga diharapkan mampu memanfaatkan informasi yang sifatnya historis dalam proses menghasilkan dokumen tersebut. Pengembangan terutama dilakukan pada subbagian perencanaan (document planning dan microplanning) dengan domain yang dipilih adalah sepak bola. Implementasi dilakukan dengan menggunakan prolog. Prolog dipilih karena sangat cocok digunakan untuk proses inference. Evaluasi sistem dilakukan dengan cara melakukan pengujian unit untuk setiap komponen, terutama komponen yang melakukan inference.
Hasilnya menunjukkan bahwa sistem berjalan sebagaimana mestinya yaitu mengeluarkan output yang benar sesuai dengan permintaan pada input (query). Selain itu, dilakukan juga evaluasi oleh manusia dengan cara menyebarkan kuesioner penilaian terhadap laporan yang dihasilkan oleh sistem NLG dibandingkan dengan laporan hasil buatan manusia. Hasilnya menunjukkan bahwa laporan buatan manusia masih lebih baik, namun laporan hasil dari sistem juga memperoleh penilaian yang cukup baik.

Natural Language Generation (NLG) is one of the topics in the field of Natural Language Processing (NLP), which until now is still a lot of research done. Task of NLG is to generate natural (human) language from non-linguistic data. In general, the NLG system involves main phases namely document planning, microplanning, and surface realisation.
This research is to develop NLG system which uses the concept of inference in the process of generating document. Furthermore, the system also expected to use historical information in the process of producing the document. Development is mainly on planning phase (document planning and microplanning) with selected domain is football. Implementation is done by using prolog. Prolog selected because it is suitable for inference process. Evaluation of the system is done by doing a unit testing for each component, especially for component which perform inference.
The result shows that the system is running as it should be that is gives correct output according to the request on the input (query). In addition, the evaluation was also conducted by distributing questionnaires to compare the reports generated by the NLG system with man-made reports. The results show that man-made report is still better, but the report generated by the NLG system also obtain a fairly good assessment.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2013
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Yoannita
"ABSTRAK
Sistem evaluasi pembelajaran berbasis soal esai mempunyai kelemahan misalnya
membutuhkan waktu yang lama bagi pengajar untuk membaca serta menilai
semua jawaban. Solusi dari kendala tersebut adalah suatu sistem penilai jawaban
esai otomatis. Metode yang menganalisis makna semantik seperti Latent Semantic
Analysis (LSA) telah digunakan sebagai metode dalam sistem penilai esai
otomatis. Metode lain yang menganalisis makna semantik seperti BEAGLE
(Bound Encoding of the Aggregate Language Environment) mencakup informasi
urutan kata sebagai tambahan dari informasi konteks. Pembelajaran pada
BEAGLE terdiri dari pembelajaran berbasis konteks, pembelajaran berbasis
urutan kata, maupun campurannya (berbasis konteks dan urutan kata). Penelitian
ini membandingkan efektifitas tiga macam pembelajaran pada BEAGLE untuk
menilai jawaban esai serta membandingkan efektifitas BEAGLE dan LSA untuk
menilai jawaban dalam bentuk esai. Uji coba dilakukan dengan 14 soal esai
dengan sifat soal subjektif maupun objektif. Berdasarkan penelitian ini, rata-rata
korelasi nilai BEAGLE-manusia (0,36) lebih tinggi dari LSA-manusia (0,22).
ABSTRACT
Learning evaluation system based on essay has disadvantages such as it takes a
long time for teachers to read and score all the student’s answers. The solution of
this problem is an automatic essay scoring. Method like Latent Semantic Analysis
(LSA) which analyze the semantic meaning, is often used as a method of
automatic essay scoring. Another method which analyze the semantic meaning,
BEAGLE (Bound Encoding of the Aggregate Language Environment) includes
order information as additional information of context information. Learning
process on BEAGLE consist of context-based learning, order-based learning, or
composite learning (context-based and order-based). This study compare the
effectiveness of this learning methods on BEAGLE to score student’s essay and
compared the effectiveness between BEAGLE and LSA to score student’s essay.
There are 14 essays with subjective and objective questions tested on this study.
Based on this study, the average correlation value of BEAGLE-human (0.36) is
higher than LSA-human (0.22)."
2013
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Heninggar Septiantri
"Ambiguitas adalah masalah yang seringkali ditemui dalam pemrosesan bahasa alami oleh komputer. Word Sense Disambiguation (WSD) adalah upaya untuk menentukan makna yang tepat dari sebuah kata yang ambigu. Berbagai penelitian tentang WSD telah banyak dikerjakan, namun penelitian WSD untuk bahasa Indonesia belum banyak dilakukan. Ketersediaan korpus paralel berbahasa Inggris-Indonesia dan sumber pengetahuan bahasa berupa WordNet bahasa Inggris dan bahasa Indonesia dapat dimanfaatkan untuk menyediakan data pelatihan untuk WSD dengan metode Cross-Lingual WSD (CLWSD). Data pelatihan ini kemudian dijadikan input untuk klasifikasi dengan algoritma Naive Bayes, sehingga model klasifikasinya dapat digunakan untuk melakukan monolingual WSD untuk bahasa Indonesia.
Evaluasi klasifikasi menunjukkan rata-rata akurasi hasil klasifikasi lebih tinggi dari baseline. Penelitian ini juga menggunakan stemming dan stopwords removal untuk mengetahui bagaimana efeknya terhadap klasifikasi. Penggunaan stemming menaikkan rata-rata akurasi, sedangkan penerapan stopwords removal menurunkan rata-rata akurasi. Namun pada kata yang memiliki dua makna dalam konteks yang cukup jelas berbeda, stemming dan stopwords removal dapat menaikkan rata-rata akurasi.

Ambiguity is a problem we frequently face in natural languange processing. Word Sense Disambiguation (WSD) is an attempt to decide the correct sense of an ambiguous word. Various research in WSD have been conducted, but research in WSD for Indonesian Language is still rare to find. The availability of parallel corpora in English and Indonesian language and WordNet for both language can be used to provide training data for WSD with Cross-Lingual WSD (CLWSD) method. This training data can be used as input to the classification process using Naive Bayes classifier.
The model resulted by the classification process is then used to do monolingual WSD for Indonesian language. The whole process in this research results in higher accuracy compared to baseline. This research also includes the use of stemming and stopwords removal. The effect of stemming is increasing the average accuracy, whereas stopwords removal is decreasing average accuracy. Nevertheless, for ambiguous words that have distinct context of usage, the use of stemming and stopwords removal can increase average accuracy."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2013
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Arlisa Yuliawati
"ABSTRAK
Peringkasan teks otomatis adalah proses menghasilkan versi sederhana dari sebuah
atau sekumpulan dokumen yang membahas topik tertentu. Salah satu teknik peringkasan
yang telah banyak diteliti dan cukup mudah diterapkan adalah peringkasan
secara ekstraktif. Karena teknik ini melakukan peringkasan dengan mengambil
bagian-bagian penting dari dokumen yang diringkas kemudian merangkaikannya
kembali sebagai sebuah ringkasan, salah satu permasalahan yang muncul adalah
kurangnya keterkaitan atau koherensi antar bagian penyusun ringkasan. Dalam
penelitian ini, dilakukan rekonstruksi urutan kalimat hasil peringkasan ekstraktif
khususnya pada koleksi dokumen berita. Pengurutan dilakukan dengan menjaga
keterkaitan entitas antar pasangan kalimat bertetangga berdasarkan prinsip Continuity
yang terdapat pada konsep Centering Theory sembari mempertahankan
urutan relatif setiap kalimat dalam ringkasan untuk menjaga alur penyampaian
informasi dalam berita. Kedua pertimbangan tersebut digunakan sebagai fungsi
fitness pada algoritma genetik yang dipergunakan dalam melakukan rekonstruksi
urutan kalimat ringkasan. Berdasarkan hasil evaluasi oleh manusia, penggunaan
komposisi bobot sebesar 75% pertimbangan Continuity dan 25% pertimbangan
urutan relatif setiap kalimat, mampu menghasilkan urutan kalimat ringkasan yang
memiliki kecenderungan dinilai sebagai urutan yang dapat diterima oleh para
penilai.

ABSTRACT
Automatic text summarization is a process of producing a simplified version of
a document or a set of documents about specific topic. A widely studied and
fairly easy to implement is the extractive summarization technique. Because this
technique works by choosing the most important parts of the document(s) as a
summary, this can lead to the lack of coherence in the summary itself. In this study,
principle of Continuity in the concept of Centering Theory is used to maintain
the entity coherence between sentences in the summary from extractive news
document summarization while maintaining the relative order of each sentence in
the summary to keep the flow of information delivery. These considerations are
used as a fitness function for genetic algorithm that is used to reconstruct the order
of sentences in the summary. Based on the evaluation result by human judgment,
the use of 75% principle of Continuity and 25% relative order in each sentence in
the summary, is able to produce an acceptable sentence order."
2013
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Erdefi Rakun
"ABSTRAK
SIBI merupakan bahasa isyarat resmi bagi penyandang tunarungu di Indonesia. Dalam pembentukan isyarat, SIBI mengikuti aturan tata bahasa Indonesia. Untuk membentuk isyarat kata berimbuhan, maka isyarat imbuhan awalan, akhiran dan partikel ditambahkan ke isyarat kata dasar. Karena banyak isyarat SIBI merupakan isyarat kata berimbuhan dan belum ada penelitian tentang kata tersebut, maka penelitian ini fokus pada membangun sistem penerjemah kata berimbuhan SIBI ke teks. Gerakan isyarat ditangkap oleh kamera Kinect yang menghasilkan data color, depth dan skeleton. Data Kinect ini diolah menjadi fitur yang dipakai oleh model untuk mengenali gerakan. Sistem penerjemah memerlukan teknik ekstraksi fitur, yang dapat menghasilkan sebuah feature vector set dengan ukuran yang minimal. Penelitian ini berusaha untuk dapat memisahkan isyarat imbuhan dan kata dasar pada isyarat kata berimbuhan. Dengan kemampuan ini, sistem penerjemah menghasilkan 3 feature vector set: kata dasar, awalan dan akhiran. Tanpa pemisahan, feature vector set yang harus disediakan adalah sebanyak perkalian cartesian dari ketiga feature vector set tersebut. Perkalian ketiga set ini tentunya akan menghasilkan feature vector set total yang berukuran sangat besar. Model yang dicoba pada penelitian ini adalah Conditional Random Fields, Hidden Markov Model, Long Short-Term Memory Neural Networks LSTM dan Gated Recurrent Unit. Akurasi yang terbaik yang dicapai oleh untuk LSTM 2-layer 77.04 . Keunggulan dari LSTM terletak pada inputnya yang berupa sequence-of-frames dan setiap frame direpresentasi oleh fitur lengkap, bukan fitur hasil clustering. Model sequence-of-frames lebih cocok untuk SIBI, karena gerakan isyarat SIBI memiliki long-term temporal dependencies. Error hasil prediksi banyak terjadi pada kelompok awalan dan akhiran. Hal ini karena miripnya gerakan pada isyarat-isyarat imbuhan SIBI tersebut. LSTM 2-layer yang dipakai untuk mengenali kata dasar saja memberikan akurasi yang tertinggi 95.4 .

ABSTRACT
SIBI is the official sign language system for the Indonesian language. The formation of SIBI gestures follow Indonesian grammar rules, including inflectional words. Inflectional words are root words with prefixes, infixes, and suffixes, or a mix of the three. Inflectional gestures are made from root word gestures, with prefix, suffix and particle gestures added in the order in which they appear, all of which is unique to SIBI. This research aims to find a suitable model that can quickly and reliably perform SIBI to text translation on inflectional word gestures. The hand movement of the signer is captured by a Kinect camera. The Kinect data was then processed to yield features for the models to use recognize the gestures. Extant research have been able to translate the alphabet, root words, and numbers from SIBI to text, but none has been able to translate SIBI inflectional word gestures. In order for the translation system to work as efficiently as possible, this research developed a new method that splits an inflectional word into three feature vector sets root, prefix, suffix . This ensures that a minimally descriptive feature sets are used. Without using this, the feature sets would otherwise be as big as the Cartesian product of the prefixes, suffixes and root words feature sets of the inflectional word gestures. Four types of machine learning models were tested Conditional Random Fields, Hidden Markov Model, Long Short Term Memory Net, dan Gated Recurrent Unit. The 2 layer LSTM, with an accuracy of 77.04 , has been proven to be the most suitable. This model 39 s performance is due to the fact that it can take entire sequences as input and doesn 39 t rely on pre clustered per frame data. The 2 layer LSTM performed the best, being 95.4 accurate with root words. The lower accuracy with inflectional words is due to difficulties in recognizing prefix and suffix gestures."
2016
D2244
UI - Disertasi Membership  Universitas Indonesia Library
cover
Ionia Veritawati
"Saat ini, data dalam bentuk teks semakin berlimpah pada berbagai domain dan media, baik media cetak maupun online. Penambahan kumpulan dokumen teks ini menyebabkan kemudahan akses suatu informasi atau pengetahuan yang ada pada teks semakin berkurang. Selain itu, informasi atau pengetahuan yang ada tersebut semakin sulit untuk diinterpretasi dan dipahami secara menyeluruh. Untuk itu diperlukan suatu cara untuk membantu mempermudah pemahaman suatu data teks. Hal ini dengan melakukan penggalian pengetahuan pada data teks yang melimpah melalui pemrosesan data yang tidak terstruktur (text mining), dengan mengembangkan metode interpretasi berbasis ontologi pada teks untuk memperoleh pengetahuan baru sebagai state of the art.
Dalam penelitian ini, dikembangkan beberapa teknik /metode. Pertama adalah pengembangan teknik preprocessing pada data teks (korpus) serta key phrase extraction menggunakan AST (Annotated Suffix Tree) untuk memperoleh key phrase (frasa kunci) dan frekuensi kemunculan. Kedua adalah pengembangan pemodelan ontologi sebagai basis pengetahuan pada suatu domain berupa relasi antar key phrase menggunakan clustering dan Bayesian Network. Ketiga adalah pengembangan metode sparse clustering pada data sparse, yaitu is-FADDIS (iterative scaling Additive Fuzzy Spectral Clustering) untuk proses pemilahan data teks, yang merupakan pengembangan dari metode clustering FADDIS (Additive Fuzzy Spectral Clustering) serta keempat adalah pengembangan metode matching dan correlating terhadap ontologi, sebagai teknik yang digunakan saat interpretasi teks.
Secara terintegrasi, pembangunan ontologi dari teks, dengan domain berita, dilakukan diawal dengan tahapan ekstraksi key phrase, clustering (is-FADDIS, opsional) dan structure learning untuk membentuk ontologi-tree. Key phrase sebagai konsep, menjadi node pada ontologi tersebut, yang menjadi basis pengetahuan domain. Tahapan berikutnya adalah melakukan interpretasi teks pada suatu teks input yang terdiri dari satu key phrase atau satu cluster menggunakan ontologi tersebut untuk mendapatkan pengetahuan baru. Interpretasi dilakukan dengan ontologi berasal dari teks dengan dua domain dan satu domain. Hasil interpretasi teks menggunakan ontologi berbasis Additive Fuzzy Spectral Clustering (is-FADDIS) ini dievaluasi menggunakan usulanscore relevansi.
Pada teks input dengan satu key phrase sejumlah lima input yang diinterpretasi, hasilnya adalah 40% relevan, 40% kurang relevan dan 20% tidak relevan. Pada teks input satu cluster sejumlah dua input yang diinterpretasi, hasilnya adalah relevan. Nilai score relevansi yang relevan, secara empiris adalah lebih 0,3 dari skala 1, dan score relevansi yang didapat, ada yang mencapai 0,33. Dengan pembandingan hasil interpretasi melalui variasi teknik pada pembangunan ontologi, didapatkan, penggunaan ontologi berbasis is-FADDIS untuk interpretasi teks, relatif pada penelitian ini belum memberikan hasil optimal. Dalam penggunaan teknik-teknik yang dikembangkan, metode ini memberikan keluaran interpretasi teks yang dapat membantu untuk mengolah informasi teks dalam jumlah tidak terlalu besar tetapi cepat.

Currently, the data in the form of text more abundant on various domains and media, both print and online media. The addition of this text document causes the ease of access to any information or knowledge contained in the text is reduced. In addition, the existing information or knowledge is increasingly difficult to interpret and understand comprehensively. For that background, the purpose of the research is to extract knowledge on abundant text data through the processing of unstructured data (text mining), by developing ontology-based interpretation method on text to gain a new knowledge as state of the art.
In this research, some technique/method were developed. The first is the development of preprocessing techniques on text data (corpus) and key phrase extraction using AST (Annotated Suffix Tree) to obtain key phrase and frequency of occurrence. The second is the development of ontology modeling as a knowledge base on a domain in the form of relationships between key phrases using Bayesian Network. The third is the development of sparse clustering method in sparse data, namely is-FADDIS (iterative scaling-Additive Fuzzy Spectral Clustering) for text grouping process, which is the addition of FADDIS clustering method (Additive Fuzzy Spectral Clustering) and the fourth is the development of matching and correlating method as a technique used at interpreting the text entered using ontology.
In an integrated manner, the ontology development of the text, with news domains, is done by processes include key phrase extraction, clustering (is-FADDIS, optional) and structure learning to form ontology-tree. Key phrase as a concept, being the node on the ontology, which becomes the domain knowledge base. The next step is to interpret the text on an input text consisting of a key phrase or a cluster using the ontology to gain new knowledge. Interpretation done with ontology comes from text with two domains and one domain. Text interpretation results using Fuzzy Spectral Clustering (is-FADDIS) based ontology is evaluated using relevancy scores.
In the input text with one key phrase a total of five interpreted inputs, the result is 40% relevant, 40% less relevant and 20% irrelevant. In one-cluster input text a number of two inputs are interpreted, the result is relevant. Relevant relevance score score, empirically more than 0.3 of scale 1, and score relevance obtained, some reaching 0.33. By comparing the results of interpretation through the variation of techniques on ontology development, it was found, the use of FADDIS-based ontology for textual interpretation, relative to this research has not provided optimal results. In the use of developed techniques, this method provides textual interpretation output that can help to process text information in quantities not too large but fastly.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2018
D2601
UI - Disertasi Membership  Universitas Indonesia Library
cover
Ida Nurhaida
"Batik adalah kain yang dihias dengan menggunakan teknik dekorasi tekstil yang memanfaatkan malam sebagai perintang warna. Seni batik telah dikembangkan sejak lama di beberapa bagian negara Asia termasuk Indonesia. Pemanfaatan teknologi informasi dalam bentuk metode deteksi motif batik dapat mendukung perkembangan industri kreatif karena sistem ini nantinya dapat dijadikan sebagai acuan bagi perkembangan elemen-elemen desain motif batik. Fokus penelitian ini adalah deteksi motif batik yang memiliki karakteristik kemunculan yang berulang, multi translasi, multi skala, dan multi orientasi. Domain batik dengan pola geometrisnya dipilih sebagai area implementasi terkait dengan karakteristik motif batik yang bersifat simetri, kemunculan obyek yang berulang di beberapa lokasi dalam satu bidang kain, dan sering kali obyek-obyek motif batik tersebut telah mengalami perubahan skala ataupun perubahan orientasi. Kondisi tersebut dapat menyebabkan adanya kesalahan deteksi dan kesalahan klasifikasi. Metode deteksi motif batik yang diusulkan menggunakan fitur SIFT dan serangkaian post processing berupa voting Hough Transform, clustering, smoothing, deteksi peak, penambahan jumlah minimum voting dan penggabungan konfigurasi yang memiliki nilai berdekatan. Pada citra kueri dilakukan ekstraksi fitur menggunakan SIFT. Deskriptor yang dihasilkan dicocokkan dengan deskriptor citra template pada basis data. Pada penelitian ini diusulkan metode pencocokan keypoint yang berbeda dengan metode standar pencocokan SIFT. Seluruh pasangan keypoint diurutkan mulai dari yang memiliki jarak terdekat hingga yang paling jauh. Selanjutnya ditentukan nilai ambang jumlah keypoint sebesar 1%, 5% dan 10%. Pasangan keypoint hasil pencocokan dilakukan voting menggunakan Hough Transform terhadap konsistensi pose geometris obyek citra kueri. Sehubungan dengan permasalahan yang dihadapi dalam deteksi motif batik, proses pencocokan deskriptor citra berupa keypoint yang diperoleh melalui ekstraksi fitur, harus dapat dilakukan dengan baik sehingga kualitas deteksi motif batik menjadi lebih baik.
Pada penelitian ini dikembangkan pula beberapa metode deteksi obyek yang berfungsi sebagai pengambil keputusan terhadap keberadaan obyek tertentu pada citra kueri. Metode deteksi obyek ini bekerja dengan cara mengambil hingga maksimum 80% dari nilai peak tertinggi yang terbentuk pada ruang Hough (MDOTresh), penggunaan nilai ambang berdasarkan rumusan rata-rata nilai peak yang terendah dan peak yang tertinggi (MDOAverage), penentuan nilai k berdasarkan nilai-nilai peak tertinggi sesuai dengan jumlah obyek yang terdapat pada groundtruth (MDOTopk), mengambil konfigurasi pada peak yang memiliki minimum nilai sebesar 3 voting pada setiap konfigurasi luaran ruang Hough (MDOMin), penentuan representasi obyek berdasarkan keluaran clustering DBSCAN (MDOScan), dan melakukan proses smoothing menggunakan filter Gaussian pada hasil deteksi dengan jumlah minimum voting sebanyak 3 buah (MDOGauss).
Kehandalan metode dalam melakukan deteksi diindikasikan dengan ketepatan dalam menentukan jumlah obyek yang terdapat pada citra kueri dan mampu mengenali motif batik walaupun telah mengalami transformasi geometris melalui perpindahan posisi, perbedaan skala, dan perubahan orientasi. Berdasarkan hasil yang telah diperoleh, metode deteksi motif batik untuk data citra kueri dengan obyek tunggal, kombinasi translasi, skala, dan orientasi mencapai nilai kinerja maksimum 95.28% menggunakan MDOTresh, sedangkan pada citra kueri dengan obyek tunggal dan variasi noise mencapai 100% melalui MDOTresh, MDOAverage, dan MDOTopk. Hal ini menunjukkan bahwa metode deteksi motif batik mampu menangani obyek tunggal dengan berbagai kondisi. Pada deteksi motif batik dengan multi obyek, multi translasi, multi skala dan multi orientasi capaian maksimum kinerja metode usulan adalah 92.13%, sedangkan untuk citra kueri dengan multi obyek, multi translasi, multi skala, multi orientasi, dan variasi noise diperoleh capaian kinerja 89.89%. Keduanya diperoleh melalui pendekatan MDOGauss. Pada kondisi ini, penambahan jumlah obyek motif pada citra kueri menyebabkan bertambahnya jumlah obyek yang tidak berhasil dideteksi. Kasus selanjutnya adalah deteksi obyek motif batik dengan multi motif, multi obyek, multi skala, dan multi orientasi dengan luaran ruang Hough berupa jumlah voting absolut mencapai 96.09% untuk MDOTresh. Transformasi geometris pada obyek motif batik berakibat penurunan kontras citra sehingga berpengaruh pada jumlah voting yang dihasilkan. Untuk komposisi motif teratur dengan jumlah maksimum 16 obyek motif batik untuk motif sejenis mendapatkan hasil 100% melalui MDOAverage, sedangkan untuk multi motif 92.59% melalui pendekatan MDOTresh dan MDOAverage.

Batik is a fabric printed design of hand-printing textiles by coating with wax. Batik has been developed since a long time in various countries including Indonesia. Nowadays, information technology is being utilized in recognizing batik motif. Therefore, the development of batik motif detection system is expected to support creative industries since the system can be used as a reference for the development pattern design. This study proposes an object recognition system for batik motif based on clustering Scale Invariant Features Transform (SIFT) features in Hough space. Our principal objective is to verify how many instances of the same object to our method detects accurately, when the object motif is posed in different positions, orientations, and scales. The geometric patterns domain is being selected regarding the characteristics of batik motifs. Batik motifs have symmetrical property and repeated in multiple locations. In addition, the objects of batik motif may be changed in terms of scale and orientation. The proposed method in this research consists of the feature extraction process using SIFT and post processing, namely voting Hough Transform, clustering, smoothing and peak detection. The keypoints from query image and the keypoints from template are matched with comparing the Euclidean distance of each keypoints descriptor in query image to all keypoint descriptors in template image. In this study we proposed a new matching keypoints method. All matched keypoints will be sorted from the closets distance to the farthest distance. Then, we determine the number of matched keypoint that will be used in the next process through the threshold 1%, 5%, and 10%. The similarity of primitive pattern and the occurrences of a motif in different location, scale and orientation will interfere the detection process. Consequently, the SIFT local feature representation must be performed well in terms of feature detection and matching.
In this study, several object detection methods are proposed as well based on object’s representation resulted from the voting process in Hough space. Object detection method using thresholding (MDOTresh) is taking 80% of maximum peak value, while object detection method with average threshold (MDOAverage) picks the mean value of minimum and maximum peak in the Hough space. Object detection method Top k (MDOTopk) determines k number of objects from the highest peaks found in the Hough space based on the number of objects in ground truth. Object detection method based on Minimum Voting (MDOMin) considers the voting configurations which have a certain number of votes. In this study the minimum number of votes is tuned to 3 as a valid configuration. Object detection method based on DBSCAN (MDOScan) determines the representation of the object from output clustering. Object detection method using Minimum Voting + Gaussian (MDOGauss) implements smoothing process using Gaussian filter for the output configurations which have a minimum number of votes as 3.
The reliability of batik motif recognition system is indicated by the ability of the system to find the number of object motif contained in query image and to classify the object motif into one of several batik motif classes even though the objects motif have undergone a geometric transformation. The evaluation of the proposed method is employing several data sets. Based on the evaluation result using query images with a single object, combination of translation, scale and orientation, object detection system MDOTresh gained balanced score 95.28%, while for the query image with a single object and scale variation of noise reached 100% through MDOTresh, and MDOAverage. It is apparent that the recognition system is capable of dealing with a single object with a various conditions. In recognition process for query image with multiple occurrences object, multi translation, multi scale and multi orientation, the highest performance is 92.13%, whereas for the image query with multi object, multi translation, multi-scale, multi- orientation, and variations in noise yielded 89.89%. Both are obtained through MDOGauss approach. In this case, increasing the number of object motif in the query image, a greater number of incorrect detections are obtained. The next case is the object motif recognition from query images with multi motif, multi object, multi scale and multi orientation. This data set has 2 outputs from Hough space namely absolute voting number and normalized voting number. The absolute voting number outputs achieved the best performance at 96.09% for the MDOTresh, while the normalized voting number gained 36.92% for MDOGauss. Geometric transformations on the object motif will be decreased contrast of object in the query image so that affected the number of voting resulted. The last data set is a regular texture, composition of the object motif with a maximum numbers are 16 objects. The best performance is 100% for homogeneous motif achieved from MDOAverage, while for multi motif yielded 92.59% achieves from MDOTresh and MDOAverage as the best.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2016
D-pdf
UI - Disertasi Membership  Universitas Indonesia Library