Hasil Pencarian

Ditemukan 177076 dokumen yang sesuai dengan query

Ajmal Kurnia

Normalisasi teks code-mixed bahasa Indonesia-Inggris pada data twitter dan analisis pengaruhnya untuk klasifikasi emosi = Code-mixed text normalization on Indonesian-English language on twitter data and the analysis of its effect on emotion classification.

"Code-mixing adalah sebuah fenomena pengunaan dua atau lebih bahasa dalam suatu percakapan. Fenomena ini semakin banyak digunakan oleh pengguna internet Indonesia yang mencampur bahasa Indonesia-Inggris. Normalisasi teks code-mixed ke dalam satu bahasa perlu dilakukan agar kata-kata yang ditulis dalam bahasa lain dalam teks tersebut dapat diproses dengan efektif dan efisien. Penelitian ini melakukan normalisasi teks code-mixed pada bahasa Indonesia-Inggris dengan menerjemahkan teks ke dalam bahasa Indonesia. Penulis melakukan pengembangan pada pipeline normalisasi code-mixed dari penelitian sebelumnya sebagai berikut: melakukan rekayasa fitur pada proses identifikasi bahasa, menggunakan kombinasi ruleset dan penerjemahan mesin pada proses normalisasi slang, dan menambahkan konteks pada proses Matrix Language Frame (MLF) pada proses penerjemahan. Hasil eksperimen menunjukkan bahwa model identifikasi bahasa yang dibuat dapat meningkatkan nilai F1-score 4,26%. Model normalisasi slang yang dibuat meningkatkan nilai BLEU hingga 25,22% lebih tinggi dan menunrunkan nilai WER 62,49%. Terakhir, proses penerjemahan yang dilakukan pada penelitian ini berhasil memperoleh nilai BLEU 2,5% lebih tinggi dan metrik WER 8,84% lebih rendah dibandingkan dengan baseline. Hasil ini sejalan dengan hasil eksperimen keseluruhan pipeline. Berdasarkan hasil eksperimen keseluruhan pipeline yang dibuat oleh penulis dapat meningkatkan secara signifikan performa BLEU hingga 32,11% dan menurunkan nilai WER hingga 33,82% lebih rendah dibandingkan dengan metode baseline. Selanjutnya, penelitian ini juga menganalisis pengaruh dari proses normalisasi teks code-mixed untuk klasifikasi emosi. Proses normalisasi teks code-mixed terbukti dapat meningkatkan performa sistem klasifikasi emosi hingga 12,45% untuk nilai F1-score dibandingkan dengan hanya melakukan tokenisasi dan meningkatkan nilai F1-score hingga 6,24% dibandingkan dengan metode preproses sederhana yang umum digunakan. Hal ini menunjukkan bahwa normalisasi teks code-mixed memiliki pengaruh positif terhadap efektifitas pemrosesan teks, sehingga normalisasi ini penting untuk dilakukan pada task yang menggunakan data code-mixed.

Code-mixing is the mixing of two or more languages in a conversation. The usage of code-mixing has increased in recent years among Indonesian internet users that often mixed Indonesian language with English. Normalization of code-mixed text has to be applied to translate code-mixed text so that the text can be processed effectively and efficiently. This research performed code-mixed text normalization on Indonesian-English text by translating the text to Indonesian language. Author improves existing normalization pipeline from previous research by: (1) feature engineering on language identification, (2) using combination of ruleset and machine translation approach on slang normalization, and (3) adding some context on matrix language frame that used on translation process. Experiment result shows language identification model that developed in this research is able to improve F1-score by 4,26%. Slang normalization model from this research is able to improve BLEU score by 25,22% and lower WER score by 62,49%. Lastly, translation process on this research is able to improve BLEU score by 2,5% and lower WER score by 8,84% compared to baseline. Experiment results on the entire normalization pipeline shows similar results. The result shows the new pipeline is able to significantly improves previous pipeline by 32,11% on BLEU metric and reduces WER by 33,82% compared to baseline normalization system. This research also tried to analyze the effect of code-mixed text normalization process on emotion classification. Code-mixed text normalization is able to improve evaluation result of emotion classification model by 12,45% on F1-score compared to tokenization only preprocessing data and 6,24% compared to common text preprocessing method. This result shows that the code-mixed text normalization has positive effect to text processing and also shows the importance to perform this normalization when using code-mixed data."

Depok: Fakultas Ilmu Kompter Universitas Indonesia, 2020

T-Pdf

UI - Tesis Membership Universitas Indonesia Library

Rafi Dwi Rizqullah

Normalisasi Kata pada Teks Twitter Berbahasa Campuran Indonesia-Inggris menggunakan UFAL ByT5 = Text Normalization on Indonesian-English Code-Mixed Twitter Text using UFAL ByT5

"Media sosial telah berkembang pesat dalam masyarakat dunia. Tak terkecuali Twitter yang mendapatkan peningkatan baik dalam jumlah pengguna maupun konten yang dibuat. Namun, Twitter memiliki batasan karakter dalam satu tweet yang menyebabkan perubahan pada pola penulisan para penggunanya. Pengguna Twitter mulai memodifikasi penulisan dengan kata baku menjadi kata tidak baku, salah satunya dengan menggunakan bahasa campuran. Untuk keperluan analisis tweet, normalisasi teks diperlukan untuk mengubah kata tidak baku menjadi baku untuk memudahkan analisis. State-of-the-art pada normalisasi teks Twitter berbahasa campuran Indonesia dan Inggris saat ini adalah model statistical machine translation (SMT), namun model SMT masih memiliki kelemahan pada beberapa jenis perubahan kata. Penelitian ini berfokus pada normalisasi teks Twitter Indonesia berbahasa campuran Indonesia dan Inggris dengan menggunakan salah satu model transformer yaitu UFAL ByT5. Terdapat dua model UFAL ByT5 yang digunakan masing-masing untuk bahasa Indonesia serta bahasa Inggris. Hasil penelitian menunjukkan model UFAL ByT5 unggul dalam normalisasi teks dibandingkan model SMT, dengan selisih nilai BLEU 0,88 persen lebih besar.

Social media has been grown rapidly in the global community. It also includes Twitter, which is getting increase in both users and content created. However, Twitter has character limit in one tweet which causes changes to the writing patterns of its users. Twitter users began to modify their writing from using formal words into non-formal words, one of which was using code-mixed language. For tweet analysis purposes, text normalization is required to transform non-formal words into formal ones to help analysis process. The recent state-of-the-art for Indonesian-English code-mixed Twitter text normalization is with statistical machine translation (SMT) models, however the SMT model still has weakness in word recognition. This research focuses on the Indonesian and English code-mixed Twitter text normalization using one of transformer model which is UFAL ByT5. There are two UFAL ByT5 models that were used, each of them are for Indonesian and English language. Research result shows that UFAL ByT5 model outperform SMT model on text normalization by 0.88 percent of BLEU score in difference."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Andi Suciati

Analisis Sentimen Berbasis Aspek dan Deteksi Emosi untuk Ulasan dengan Bahasa Code-mixed = Aspect-based Sentiment Analysis and Emotion Detection for Code-mixed Review

"Ulasan dapat mempengaruhi orang-orang dalam mengambil keputusan karena orang-orang dapat mengetahui ulasan yang diberikan merupakan ulasan positif atau negatif. Namun, sentimen positif, negatif, atau netral, tanpa mempertimbangkan emosi yang ada dianggap kurang, karena emosi dapat memperkuat hasil sentimen. Tesis ini membahas perbandingan antara machine learning dan deep learning dalam mengklasifikasikan sentimen dan emosi pada ulasan dengan metode klasifikasi multi-label. Pada perbandingan machine learning, digunakan metode transformasi masalah Label Powerset (LP), Binary Relevance (BR), dan Classifier Chain (CC), serta algoritma Support Vector Machine (SVM), Decision Tree (DT), Random Forest (RF), dan Extra Tree Classifier (ET). Fitur yang dibandingkan yaitu n-gram language model (unigram, bigram, unigram-bigram). Untuk deep learning, algoritma yang dibandingkan yaitu Gated Recurrent Unit (GRU) dan Bidirectional Long Short-Term Memory (BiLSTM), menggunakan word embedding yang dibangun sendiri. Hasil perbandingan menunjukkan bahwa RF unggul dengan nilai F1-score 88.4% dan 89.54% dengan metode CC untuk aspek makanan, dan LP untuk harga. Untuk aspek pelayanan dan suasana, ET memimpin dengan 92.65% dan 87.1% dengan metode LP dan CC berturut-turut. Sedangkan pada perbandingan deep learning, GRU dan BiLSTM mendapatkan nilai F1-score yang sama untuk aspek makanan, 88.16%. Pada aspek harga, GRU memimpin dengan 83.01%. Namun untuk pelayanan, dan suasana, BiLSTM mendapatkan nilai lebih tinggi dengan F1-score.

Review can affect the decision making from people because people can know whether the review is positive, or negative. However, the sentimen positive, neagtive, and neutral, without considering the emotion is considered not enough because emotion can strenghten the sentimen result. This thesis explaining about the comparison of machine learning and deep learning in sentiment as well as emotion classification with multi-label classification. In machine learning comparion, the problem transformation that were used are Label Powerset (LP), Binary Relevance (BR), and Classifier Chain (CC), with Support Vector Machine (SVM), Decision Tree (DT), Random Forest (RF), and Extra Tree Classifier (ET) as algorithms. The features that compared are yaitu n-gram language model (unigram, bigram, unigram-bigram). For deep learning, algorithms that were compared are Gated Recurrent Unit (GRU) and Bidirectional Long Short-Term Memory (BiLSTM), using self-developed word embedding. The comparion results RF dominates with F1-score 88.4% and 89.54% with CC method for food aspect, and LP for price. For service and ambience aspect, ET leads with 92.65% and 87.1% with LP and CC methods, respectively. On the other hand, in deep learning comparison, GRU and BiLSTM obtained similar F1- score for food aspect, 88.16%. On price aspect, GRU leads 83.01%. However, for service and ambience BiLSTM obtained higher F1-score 89.03% and 84.78%"

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Nabila Dita Putri

Pembangunan Data dan Model Analisis Emosi Fine-Grained pada Teks Media Sosial Berbahasa Indonesia = Fine-Grained Emotion Analysis on Indonesian Social Media Text: Dataset and Models

"Saat ini, dataset yang tersedia untuk melakukan analisis emosi di Indonesia masih terbatas, baik dari segi jumlah data, cakupan emosi, serta sumbernya. Pada penelitian ini, peneliti membangun dataset besar untuk tugas analisis emosi pada data teks berbahasa Indonesia, di mana dataset ini dikumpulkan dari berbagai domain dan sumber. Dataset ini mengandung 33 ribu teks, yang terdiri dari tweet yang dikumpulkan dari Twitter, serta komentar unggahan yang dikumpulkan dari Instagram dan Youtube. Domain yang dicakup pada dataset ini adalah domain olahraga, hiburan, dan life chapter. Dataset ini dianotasi oleh 36 annotator dengan label emosi fine-grained secara multi-label, di mana label emosi yang digunakan ini merupakan hasil dari taksonomi emosi baru yang diusulkan oleh peneliti. Pada penelitian ini, peneliti mengusulkan taksonomi emosi baru yang terdiri dari 44 fine-grained emotion, yang dikelompokkan ke dalam 6 basic emotion. Selain itu, peneliti juga membangun baseline model untuk melakukan analisis emosi. Didapatkan dua baseline model, yaitu hasil fine-tuning IndoBERT dengan f1-score micro tertinggi sebesar 0.3786, dan model hierarchical logistic regression dengan exact match ratio tertinggi sebesar 0.2904. Kedua baseline model tersebut juga dievaluasi di lintas domain untuk dilihat seberapa general dan robust model yang telah dibangun.

Currently, no research in Indonesia utilises fine-grained emotion for emotion analysis. In addition, the available datasets for analysing emotions still need to be improved in terms of the amount of data, the range of emotions, and their sources. In this study, researchers built a large dataset for analysing emotion. This dataset contains 33k texts, consisting of tweets collected from Twitter and comments collected from Instagram and Youtube posts. The domains covered in this dataset are sports, entertainment, and life chapter. Thirty-six annotators annotated this dataset with fine-grained emotion labels and a multi-label scheme, where the emotion labels resulted from a new emotion taxonomy proposed by the researcher. In this study, the researchers propose a new emotion taxonomy consisting of 44 fine-grained emotions which are grouped into six basic emotions. Two baseline models were obtained, the first one is the fine-tuned IndoBERT model, which achieved the highest f1-score micro of 0.3786, and the second one is hierarchical logistic regression model, which achieved the highest exact match ratio of 0.2904. Both baseline models were also evaluated to determine their cross-domain applicability. The dataset and baseline models that are produced in this study are expected to be valuable resources for future research purposes."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Kaysa Syifa Wijdan Amin

Pembangunan Data dan Model Analisis Emosi Fine-Grained pada Teks Media Sosial Berbahasa Indonesia = Fine-Grained Emotion Analysis on Indonesian Social Media Text: Dataset and Models

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Gilang Catur Yudishtira

Pembangunan Data dan Model Analisis Emosi Fine-Grained pada Teks Media Sosial Berbahasa Indonesia = Fine-Grained Emotion Analysis on Indonesian Social Media Text: Dataset and Models

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Prahardika Prihananto

Analisis kepuasan pelanggan layanan data operator CDMA Indonesia menggunakan metode text mining dan sentiment analysis pada data twitter = Customer satisfaction analysis of Indonesian CDMA data services operators using text mining and sentiment analysis based on twitter data. / Prahardika Prihananto

"ABSTRAK

Skripsi ini bertujuan untuk mengetahui kepuasan pelanggan layanan data operator CDMA di Indonesia dengan menggunakan pesan tweet sebagai data kepuasan pelanggan real time. Data tersebut diolah menggunakan text mining dan sentiment analysis dengan membuat model klasifikasi teks. Tingkat akurasi model yang dibuat untuk memprediksi sentimen dari pesan tweet mencapai 80 %. Hasil penelitian menunjukkan bahwa pelanggan data operator CDMA di Indonesia baik secara umum maupun pada masing-masing operator cenderung tidak puas dengan layanan data yang diberikan. Secara umum kriteria kemudahan koneksi paling mempengaruhi ketidakpuasan pelanggan layanan data operator CDMA di Indonesia. Sedangkan kriteria kemudahan koneksi paling mempengaruhi ketidakpuasan pelanggan layanan data operator CDMA 1. Kemudian kriteria kemudahan koneksi dan kehandalan jaringan paling mempengaruhi ketidakpuasan pelanggan layanan data operator CDMA 2.

ABSTRACT

This thesis aims to gain insight of customer satisfaction of Indonesian CDMA data services operators by using tweets as real time customer satisfaction data. The data is processed using text mining and sentiment analysis by creating text classification model. The model accuracy to predict sentiment of a tweet achieve 80%. The results showed that Indonesia CDMA data subcribers in general or to individual operators tend to not satisfied with the service provided. Connection easiness criteria most influencing customer dissatisfaction of Indonesia CDMA data service operators in general. While, the connection easiness criteria most influencing customer dissatisfaction of CDMA data service operator 1. Then, Connection easiness and network reliability criteria most influencing customer dissatisfaction of CDMA data service operator 2."

Fakultas Teknik Universitas Indonesia, 2014

S56382

UI - Skripsi Membership Universitas Indonesia Library

Maulana Nurhendronoto

Klasifikasi Emosi Berbasis Teks Bahasa Indonesia dengan Perbandingan CNN, LSTM dan BERT = Indonesian Text Based Emotion Classification with Comparison of CNN, LSTM and BERT

"Emosi adalah perasaan yang muncul dalam diri seseorang sebagai respon dari situasi tertentu. Perasan ini dapat memengaruhi pikiran, perilaku, dan persepsi seseorang terhadap suatu peristiwa. Klasifikasi emosi adalah bagian dari analisis sentimen yang bertujuan untuk menganalisis dan memperoleh emosi dari suatu data. Penelitian klasifikasi emosi berbasis teks perlu dilakukan karena dapat diimplementasikan pada berbagai bidang, seperti kesehatan dan pendidikan. Bahasa Indonesia menduduki peringkat 11 bahasa dengan penutur terbanyak di dunia dengan 200 juta penutur. Namun, penelitian klasifikasi emosi berbasis teks bahasa Indonesia masih sedikit dilakukan. Algoritma machine learning dapat digunakan untuk mengatasi berbagai tantangan dalam penelitian klasifikasi emosi seperti memahami emosi dan menganalisis emosi dari data yang tidak terstruktur. Penelitian ini berfokus pada pengembangan model machine learning dengan teknik convolutional neural network (CNN), long short-term memory (LSTM), dan bidirectional encoder representation from transformer (BERT). Berdasarkan pengujian yang dilakukan, metode convolutional neural network (CNN) mendapatkan F1 score sebesar 84,2%, metode long short term memory mendapatkan F1 score sebesar 82%, metode BERT en uncased mendapatkan F1 score sebesar 22%, dan metode BERT multi cased mendapatkan F1 score sebesar 32%. Hasil pengujian ini menandakan metode CNN merupakan metode dengan hasil pengujian terbaik dan BERT en uncased merupakan metode dengan hasil pengujian terburuk dibanding ketiga metode lainnya.

Emotions are feelings that arise within a person in response to a particular situation. These feelings can affect a person's thoughts, behavior, and perception of an event. Emotion classification is a part of sentiment analysis that aims to analyze and derive emotions from data. Text-based emotion classification research needs to be done because it can be implemented in various fields, such as health and education. Indonesian is ranked the 11th most spoken language in the world with 200 million speakers. However, there is still little research on Indonesian text-based emotion classification. Machine learning algorithms can be used to overcome various challenges in emotion classification research such as understanding emotions and analyzing emotions from unstructured data. This research focuses on developing machine learning models with convolutional neural network (CNN), long short-term memory (LSTM), and bidirectional encoder representation from transformer (BERT) techniques. Based on the tests conducted, the convolutional neural network (CNN) method gets an F1 score of 84,2%, the long short term memroy method gets an F1 score of 82%, the BERT en uncased method gets an F1 score of 22%, and the BERT multi cased method gets an F1 score of 32%. These results indicate that the CNN is the bets method while the BERT en uncased is the worst method compared to the three other methods."

Depok: Fakultas Teknik Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Noni Yuniana Putri Pamungkas

Analisis Tingkat Ekuitas Merek pada Media Sosial Twitter Berbahasa Indonesia = Analysis of Brand Equity Level using Twitter Data in Indonesian Language

"ABSTRAK

Ekuitas merek merupakan salah satu intangible asset yang dapat meningkatkan daya tarik suatu merek. Menyadari hal tersebut, banyak perusahaan yang berlomba-lomba dalam meningkatkan ekuitas merek yang dimiliki. Beberapa penghargaan pun digelar secara rutin untuk mengetahui jajaran merek dengan ekuitas tertinggi, yang diukur dengan menggunakan metode survei. Meskipun sejauh ini ekuitas merek dapat diukur dengan baik, namun penggunaan metode survei memiliki beberapa kekurangan dari sisi akurasi, efisiensi dan ekonomis. Dengan maraknya penggunaan media sosial, secara khusus Twitter, menjadikannya sebagai media yang kaya akan informasi dan tepat untuk penerapan query-based survey. Oleh karena itu, Penelitian ini bertujuan untuk menguji potensi pemanfaatan Twitter sebagai alternatif dalam pengukuran tingkat ekuitas merek. Penelitian dilakukan dengan pendekatan text mining, sedangkan proses pengolahan data dilakukan dengan menggunakan model CRISP-DM. Proses scraping dilakukan untuk mengumpulkan data Twitter pada 1 Januari 2015 hingga 31 Desember 2018, untuk mengukur ekuitas merek pada tahun 2016 hingga 2019, dengan data dari Top Brand Index sebagai ground truth data. Penelitian ini menggunakan dimensi brand awareness, brand loyalty, perceived quality, dan brand association yang menghasilkan 15 kemungkinan kombinasi dimensi untuk mengukur tingkat ekuitas dari 54 merek dalam 7 kategori pada sektor jasa. Hasil penelitian ini menunjukan bahwa penggunaan data media sosial Twitter dapat digunakan untuk mengukur tingkat ekuitas merek, dengan tingkat kemiripan sebesar 70.57%. Selain itu, kombinasi dari brand awareness, brand loyalty dan perceived quality terbukti sebagai dimensi yang memberikan hasil terbaik dalam pengukuran tingkat ekuitas merek.

ABSTRACT
Brand equity is one of the intangible assets that can increase the attractiveness of a brand. Therefore, many brands are attempted to increase their brand equity level. Several award were conducted routinely to find out the best brands by using the survey method. Although so far brand equity can be measured properly using survey method, it has several disadvantages in terms of accuracy, efficiency and economics. With the widespread use of social media, specifically Twitter, it becomes a media that is rich in information and has the potential to be used as a query-based survey. Therefore, this study aims to examine the potential utilization of Twitter as an alternative methods in measuring brand equity levels. The research was conducted using text mining, while the data processing was carried out using the CRISP-DM model. Scraping process is carried out to collect Twitter data from January 1, 2015 to December 31, 2018, to measure brand equity in 2016 until 2019, with data from the Top Brand Index as ground truth data. This study uses the dimensions of brand awareness, brand loyalty, perceived quality, and brand association which produces 15 possible combinations to measure the equity level of 54 selected brands in 7 categories from the service sector. The results of this study indicate that the use of Twitter data can be used to measure brand equity with 70.57% of similarity level. Combination of brand awareness, brand loyalty and perceived quality dimension also proven as the most accurate dimensions to be used to measure the brand equity level."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2019

TA-Pdf

UI - Tugas Akhir Universitas Indonesia Library

Cari yang mirip

Tambahkan ke Favorit

Metadata PDF

Abstrak PDF

Abstrak

Muhammad Okky Ibrohim

Klasifikasi multi label untuk identifikasi ujaran kebencian dan ujaran kasar pada Twitter berbahasa Indonesia = Multi-label classification to identify hate speech and abusive language on Indonesian Twitter

"ABSTRAK
Penyebaran ujaran kebencian dan ujaran kasar di media sosial merupakan hal yang harus diidentifikasi secara otomatis untuk mencegah terjadinya konflik masyarakat. Selain itu, ujaran kebencian mempunyai target, golongan, dan tingkat tersendiri yang juga perlu diidentifikasi untuk membantu pihak berwenang dalam memprioritaskan kasus ujaran kebencian yang harus segera ditangani. Tesis ini membahas klasifikasi teks multi label untuk mengidentifikasi ujaran kasar dan ujaran kebencian disertai identifikasi target, golongan, dan tingkatan ujaran kebencian pada Twitter berbahasa Indonesia. Permasalahan ini diselesaikan menggunakan pendekatan machine learning menggunakan algoritma klasifikasi Support Vector Machine (SVM), NaÃ¯ve Bayes (NB), dan Random Forest Decision Tree (RFDT) dengan metode transformasi data Binary Relevance (BR), Label Power-set (LP), dan Classifier Chains (CC). Jenis fitur yang digunakan antara lain fitur frekuensi term (word n-grams dan character n-grams), fitur ortografi (tanda seru, tanda tanya, huruf besar/kapital, dan huruf kecil), dan fitur leksikon (leksikon sentimen negatif, leksikon sentimen positif, dan leksikon kasar). Hasil eksperimen menunjukkan bahwa secara umum algoritma klasifikasi RFDT dengan metode transformasi LP memberikan akurasi yang terbaik dengan waktu komputasi yang cepat. Algoritma klasifikasi RFDT dengan metode transformasi LP menggunakan fitur word unigram memberikan akurasi sebesar 66,16%. Jika hanya mengidentifikasi ujaran kasar dan ujaran kebencian (tanpa disertai identifikasi target, golongan, dan tingkatan ujaran kebencian), algoritma klasifikasi RFDT dengan metode transformasi LP menggunakan gabungan fitur word unigram, character quadgrams, leksikon sentimen positif, dan leksikon kasar mampu memberikan akurasi sebesar 77,36%.
Hate speech and abusive language spreading on social media needs to be identified automatically to avoid conflict between citizen. Moreover, hate speech has target, criteria, and level that also needs to be identified to help the authority in prioritizing hate speech which must be addressed immediately. This thesis discusses multi-label text classification to identify abusive and hate speech including the target, category, and level of hate speech in Indonesian Twitter. This problem was done using machine learning approach with Support Vector Machine (SVM), NaÃ¯ve Bayes (NB), and Random Forest Decision Tree (RFDT) classifier and Binary Relevance (BR), Label Power-set (LP), and Classifier Chains (CC) as data transformation method. The features that used are term frequency (word n-grams and character n-grams), ortography (exclamation mark, question mark, uppercase, lowercase), and lexicon features (negative sentiment lexicon, positif sentiment lexicon, and abusive lexicon). The experiment results show that in general RFDT classifier using LP as the transformation method gives the best accuracy with fast computational time. RFDT classifier with LP transformation using word unigram feature give 66.16% of accuracy. If only for identifying abusive language and hate speech (without identifying the target, criteria, and level of hate speech), RFDT classifier with LP transformation using combined fitur word unigram, character quadgrams, positive sentiment lexicon, and abusive lexicon can gives 77,36% of accuracy.
"

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2019

T52442

UI - Tesis Membership Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian