Hasil Pencarian

Ditemukan 75932 dokumen yang sesuai dengan query

Muhammad Adli Rahmat Solihin

Analisis Kinerja Model Approximating XGBoost untuk Deteksi Fraud Klaim Asuransi = Performance Analysis of Approximating XGBoost Model for Insurance Claim Fraud Detection

"Industri asuransi merupakan industri yang besar dan terus berkembang di Indonesia. Di tambah lagi, semakin banyak masyarakat Indonesia yang terlindungi oleh asuransi pada tahun 2022. Di samping itu, meningkatnya nasabah asuransi juga dapat meningkatkan risiko terjadinya fraud atau kecurangan pada setiap klaim yang dilakukan nasabah. Hal tersebut dapat menyebabkan kerugian bagi perusahaan asuransi. Maka dari itu, dibutuhkan suatu metode yang dapat menyelesaikan masalah fraud klaim asuransi. Namun, permasalahan fraud ini melibatkan data yang besar sehingga dibutuhkan metode yang dapat memproses data besar dengan cepat dan tidak membutuhkan dana yang besar. Machine learning diajukan sebagai metode untuk dapat mendeteksi fraud klaim asuransi dan telah digunakan dalam beberapa penelitian untuk penyelesaian masalah tersebut. Extreme Gradient Boosting (XGBoost) merupakan salah satu metode machine learning yang banyak digunakan, pertama kali diajukan sebagai model yang scalable sehingga dapat memproses data besar secara efisien. Namun, metode machine learning sebaiknya adalah model yang interpretable dan explainable. Dengan memiliki interpretability dan explainability, suatu model dapat digunakan dan dimengerti dengan baik sehingga sangat reliabel. Oleh karena itu, Approximating XGBoost diajukan sebagai metode yang dapat memungkinkan XGBoost yang terdiri dari banyak boosted Decision Tree dapat diekstrak menjadi satu Decision Tree saja sehingga model ini dapat diinterpretasikan secara transparan mengenai pekerjaan model tersebut dalam mendapatkan hasil yang dikeluarkan. Penelitian ini menemukan bahwa kinerja dari model Approximating XGBoost dapat mendeteksi fraud dengan AUC-ROC mencapai nilai 91,44%, pada specificity dapat mencapai 86,55%, dan pada sensitivity dapat mencapai 91,34% berdasarkan dataset yang digunakan. Artinya, model Approximating XGBoost dapat membentuk suatu model yang performanya mengaproksimasi XGBoost dan dapat model pohonnya dapat ditampilkan seperti Decision Tree.

The insurance industry is a big and growing industry in Indonesia. Moreover, more and
more Indonesians will be covered by insurance by 2022. In addition, increasing the
number of insurers can also increase the risk of fraud or fraud in any claim made by the
insurer. So from that, we need a method that can solve the problem of insurance claims
fraud. However, this problem of fraud involves big data so it requires a method that can
process big data quickly and does not require large funds. Machine learning was proposed
as a method to detect insurance claims fraud and has been used in some research to solve
such problems. Extreme Gradient Boosting (XGBoost) is one of the most widely used
machine learning methods, first proposed as a scalable model to process big data
efficiently. However, machine learning methods are preferably models that are
interpretable and explainable. By having interpretability and explainability, a model can
be used and understood well so it is highly reliable. Therefore, Approximating XGBoost
was proposed as a method that could enable XGBoost consisting of many boosted
decision trees to be extracted into a single decision tree only so that this model can be
interpreted transparently about the work of the model in obtaining the outcome issued.
This study found that the performance of the Approximating XGBoost model can detect
fraud with an AUC-ROC of 91.44%, specificity can reach 86.55%, and sensitivity can
91.34% based on the data set used. In other words, the XGBoost Approximating model
can form a model whose performance approximates XGBuost and the tree model can be
displayed like a Decision Tree."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Muhammad Arief Fauzan

Aplikasi XGBoost untuk prediksi probabilitas klaim asuransi kendaraan bermotor = The application of XGBoost for auto-insurance claim probability prediction

"Tren kenaikan frekuensi dan severitas klaim untuk klaim asuransi kendaraan bermotor menyebabkan dibutuhkannya metode otomatisasi baru untuk memprediksi probabilitas seorang pemegang asuransi kendaraan akan mengajukan klaim jika diberikan data historis mengenai pemegang asuransi tersebut, agar perusahaan asuransi dapat memilah dan memproses lebih lanjut para pemegang polis yang kemungkinan mengajukan klaimnya tinggi. Masalah ini dapat diselesaikan dengan berbagai metode, salah satunya dengan machine learning, yang mengkategorisasikan masalah tersebut sebagai masalah supervised learning. Volume data yang besar dan banyaknya kemungkinan adanya missing values pada data pemegang asuransi menjadi dua aspek yang mempengaruhi pemilihan model machine learning yang tepat. XGBoost merupakan model gradient boosting machine learning baru yang dapat mengatasi missing value dan volume data besar sehingga XGBoost diklaim merupakan metode yang tepat untuk digunakan pada masalah tersebut. Dalam skripsi ini akan diaplikasikan metode XGBoost kepada masalah ini, dan akan dibandingkan hasilnya dengan berbagai metode machine learning lainnya, seperti AdaBoost, Stochastic Gradient Boosting, Random Forest, Neural Network, dan Logistic Regression.

The increasing trend of claim frequency and claim severity for auto-insurance result in a need of new methods to predict whether a policyholder will file an auto-insurance claim or not, given historical data about said policyholder, so that insurance industries can further process policyholders with high claim probability. This problem can be solved with many methods, one of which is machine learning, which categorizes this problem as a supervised learning problem. The high data volume and the existence of missing values on a policyholders historical data are aspects that the chosen machine learning model must be able to handle. XGBoost is a novel gradient boosting machine learning problem that is able to inherently handle missing values and high volume of data, which should make the model suitable for this problem. In this thesis, XGBoost will be applied to this problem, and its performance will be compared by other machine learning models, such as AdaBoost, Stochastic Gradient Boosting, Random Forest, Neural Network, and Logistic Regression."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Livia Meristya Fitriani

Prediksi Klaim Asuransi Kesehatan Dengan Penyakit Diabetes Melitus Menggunakan Machine Learning = Prediction of Diabetes Mellitus Insurance Claim Models Using Machine Learning Methods

"Diabetes melitus merupakan peningkatan kadar gula darah disertai dengan gangguan metabolisme karbohidrat, lipid, dan protein sebagai akibat fungsi insulin yang tidak mencukupi. Pada tahun 2021 jumlah kematian akibat diabetes melitus di Indonesia mencapai 236.711 orang, menempati urutan keenam dunia dan pertama di Asia Tenggara. Di Indonesia penyakit ini meningkat sebesar 8,5% di tahun 2014 pada orang berusia di atas 18 tahun. Banyak faktor yang menjadi pemicu antara lain umur, jenis kelamin, serta diagnosa dokter terhadap penyakit bawaan. Meningkatnya jumlah kasus kematian akibat diabetes melitus setiap tahunnya membuat perusahaan asuransi harus mengantisipasi keadaan tersebut, termasuk menghitung cadangan klaim. Tulisan ini bertujuan untuk menghitung prediksi klaim yang dapat disiapkan dengan menggunakan batasan variabel umur, jenis kelamin, dan diagnosa dokter terhadap penyakit bawaan lainnya dengan melakukan klasifikasi menggunakan K-Modes clustering dan Metode Heuristik. Setelah mengklasifikasikan data, dilanjutkan dengan menghitung prediksi klaim menggunakan algoritma Random Forest, NaÃ¯ve Bayes, dan Support Vector Machine. Hasil penelitian ini menunjukkan bahwa prediksi model terbaik diperoleh dengan menggunakan algoritma Naive Bayes, sedangkan kelompok klasifikasi terbaik menggunakan model Heuristik. Hasil penelitian ini diharapkan dapat menjadi pedoman bagi perusahaan asuransi dalam menentukan estimasi jumlah klaim yang mungkin terjadi.

Diabetes mellitus is an increase blood sugar levels accompanied by impaired metabolism of carbohydrates, lipids, and proteins as a result of insufficient insulin function. In 2021 the number of deaths due to diabetes mellitus in Indonesia reached 236,711 people, this is ranked sixth in the world and first in Southeast Asia. This disease increased by 8.5% in 2014 people over 18 years of age. Many factors influence this disease, including age, gender, also the doctor's diagnosis of congenital diseases. The increasing number of death from diabetes mellitus every year causes insurance companies anticipate the situation calculating claim reserves. This paper aims to calculate prediction of claims that can be generated using the variable limits of age, gender, and doctor's diagnosis of other congenital diseases by doing classification using K-Modes clustering and Heuristic Method. After that we calculate claim predictions using Random Forest, NaÃ¯ve Bayes, and Support Vector Machine algorithms. The results of this study indicate that the best model predictions are using the Naive Bayes algorithm, while the best classification group uses the Heuristic model. The results of this study are expected to be a guideline for insurance companies in determining the estimated amount of claims that may occur."

Jakarta: Fakultas Ekonomi dan Bisnis Universitas Indonesia, 2023

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Teresa Yubilea Koswari

Analisis Kinerja dan Interpretasi Model XGBoost dalam Memprediksi Cross-Selling Asuransi = Performance Analysis and Interpretation of the XGBoost Model in Predicting Insurance Cross-Selling

"Asuransi merupakan bentuk pengalihan risiko dengan cara mendistribusikan risiko individu menjadi risiko kolektif. Pemasukan utama perusahaan asuransi adalah dari penjualan polis asuransi. Metode penjualan yang lazim digunakan pada asuransi maupun industri finansial lainnya adalah cross-selling. Cross-selling adalah proses menawarkan produk tambahan kepada orang yang sudah menjadi pelanggan perusahaan yang bersangkutan. Sangat penting bagi perusahaan asuransi untuk memiliki kemampuan memprediksi secara akurat karakteristik calon pelanggan yang sekiranya akan tertarik membeli suatu produk yang sedang ingin dipasarkan. Untuk dapat mengetahui karakteristik pelanggan potensial berdasarkan data perusahaan yang pada umumnya berskala besar, diusulkan untuk menggunakan machine learning. Hingga saat ini, metode machine learning yang populer digunakan untuk mengolah data tabular adalah XGBoost. Pada penelitian ini, digunakan metode XGBoost untuk memprediksi hasil cross-selling produk asuransi dan kemudian dibandingkan dengan metode berbasis pohon lainnya, yaitu Decision Tree dan Random Forest, dari segi sensitivity, specificity, dan AUC-ROC. Diperoleh bahwa XGBoost unggul pada metrik specificity dan AUC-ROC. Selanjutnya, hasil simulasi terbaik dari setiap model diinterpretasikan menggunakan feature importance berdasarkan gain agar diperoleh fitur yang menjadi faktor penting dalam memprediksi cross-selling asuransi. Dengan adanya tahap interpretasi ini, diharapkan metode yang digunakan pada penelitian ini dapat diterima dan berguna bagi industri asuransi.

Insurance is a form of risk transfer by distributing individual risks into collective risks. The main income of insurance companies is from the sale of insurance policies. The sales method commonly used in the insurance and other financial industries is cross-selling. Cross-selling is the process of offering additional products to existing customers of the company. It is very important for insurance companies to have the ability to accurately predict the characteristics of potential customers who will be interested in buying a product that is being marketed. To find out the characteristics of potential customers based on company’s data, which are generally in large scale, it is proposed to use machine learning method. Until now, the most popular machine learning method used to process tabular data is XGBoost. In this study, the XGBoost method was used to predict cross-selling results of insurance products and then compared with other tree-based models, the Decision Tree and Random Forest, in terms of sensitivity, specificity, and AUC-ROC. It was found that XGBoost excels in specificity and AUC-ROC metrics. Furthermore, the best simulation results from each model are interpreted using feature importance based on gain to obtain features that are important factors in predicting insurance cross-selling. So, with this interpretation step done, it is hoped that the method used in this study can be accepted and useful for the insurance industry."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

I Gede Pajar Bahari

Optimasi hyperparameter XGBoost-studi kasus prediksi klaim asuransi = Hyperparameter optimization in XGBoost-case study of insurance claim prediction

"Metode Machine Learning sangat bermanfaat untuk menyelesaikan berbagai masalah, terutama pada masalah big data. Salah satu masalah yang terkait dengan big data adalah prediksi klaim asuransi di industri asuransi. XGBoost adalah metode machine learning yang menggunakan pendekatan ensemble learning dengan decision tree sebagai model dasarnya. XGBoost terdiri dari beberapa hyperparameter yang nilainya perlu ditentukan sebelum proses training. Partial grid search adalah optimasi hyperparameter yang biasanya digunakan untuk XGBoost. Random search adalah optimasi hyperparameter yang menentukan nilai hyperparameter secara random. Pada penelitian ini, diterapkan dan dianalisis metode pengoptimalan lain untuk XGBoost, yaitu Bayesian search untuk prediksi pengajuan klaim asuransi (dengan klasifikasi) dan besarnya klaim asuransi yang diajukan (dengan regresi). Tujuan dari penelitian ini yaitu membandingan performa ketiga metode optimasi hyperparameter pada XGBoost: random search, partial grid search, dan Bayesian search pada klasifikasi dan regresi. Hasil simulasi menunjukkan bahwa partial grid search memberikan akurasi yang sedikit lebih baik dibandingkan dengan random search dan Bayesian search. Namun, waktu running pada Bayesian search jauh lebih cepat daripada partial grid search. Random search memiliki akurasi dan waktu komputasi yang sedikit kurang bagus dibandingkan dengan Bayesian search.

Machine Learning Method is very useful for solving various problems, especially in the big data problem. One of the problems associated with big data is the prediction of insurance claims in the insurance industry. XGBoost is a machine learning method that uses an ensemble learning approach with a decision tree as its basic model. XGBoost consists of several hyperparameters which values need to be determined before the training process. Partial grid search is a hyperparameter optimization approach which is usually used for XGBoost. Random search is a hyperparameter optimization method which determines the value of hyperparameter randomly. In this study, another optimization method for XGBoost called Bayesian search is applied and analyzed for predicting insurance claims submissions (by classification) and the size of insurance claims submitted (by regression The purpose of this study is to compare the performance of the three hyperparameter optimization methods on XGBoost: random search, partial grid search, and Bayesian search on classification and regression. The simulation results show that partial grid search gives a slightly better accuracy compared to random search and Bayesian search. However, the running time on Bayesian search is much faster than partial grid search. Random search has an accuracy and computation time that is a little less good compared to Bayesian search."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Rachel Aurellia Irawan

Analisis Kinerja Metode XGBoost Dan LightGBM dalam Memprediksi Klaim Asuransi Kendaraan Bermotor pada Data yang Mengandung Missing Values = Comparative Performance Analysis of LightGBM and XGBoost Methods for Predicting Motor Vehicle Insurance Claims in Datasets containing Missing Values

"Tantangan besar dalam mengembangkan model prediktif yang baik untuk prediksi klaim asuransi kendaraan bermotor adalah adanya missing values dalam data. Berbagai algoritma pembelajaran mesin telah diteliti untuk mengatasi masalah missing values ini. XGBoost merupakan salah satu teknik Gradient Boosting Decision Tree (GBDT) yang terbukti unggul dibandingkan metode imputasi seperti K-Nearest Neighbors (KNN) dan mean imputation. Namun, XGBoost memiliki beberapa keterbatasan, seperti waktu pemrosesan yang lebih panjang dan perlunya untuk melakukan one-hot encoding pada variabel kategorikal. Keterbatasan yang dimiliki oleh metode XGBoost dapat diatasi oleh metode LightGBM. Penelitian ini bertujuan untuk menganalisis kinerja metode XGBoost dan LightGBM dalam memprediksi klaim asuransi kendaraan bermotor pada data yang mengandung missing values. Dataset yang digunakan berasal dari klaim asuransi kendaraan bermotor perusahaan Porto Seguro yang terdiri yang memiliki missing values hingga 70%. Evaluasi kinerja dilakukan menggunakan metrik Normalized Gini score dan training time. Penelitian ini membandingkan dua pendekatan dalam menangani missing values: tanpa imputasi dan dengan imputasi mean. Hasil penelitian menunjukkan bahwa metode XGBoost tanpa imputasi missing values memberikan kinerja terbaik dengan nilai Normalized Gini tertinggi sebesar 0,2735. Namun, XGBoost tanpa imputasi membutuhkan waktu training yang lebih lama, yaitu rata-rata 15,5841 detik. Metode LightGBM tanpa imputasi juga menunjukkan kinerja yang baik dengan nilai Normalized Gini sebesar 0,2559 dan waktu training yang lebih singkat dengan rata-rata 4,0521 detik. Pada data tanpa imputasi, XGBoost secara mutlak tetap menunjukkan kinerja terbaik dengan nilai Normalized Gini tertinggi baik pada data yang tidak diimputasi maupun telah diimputasi. LightGBM, meskipun memiliki Normalized Gini yang sedikit lebih rendah, namun lebih efisien dalam waktu training dengan waktu training hampir 4 kali lebih cepat dibandingkan XGBoost. XGBoost tanpa imputasi memberikan hasil prediksi yang lebih akurat. LightGBM tanpa imputasi menunjukkan efisiensi dalam waktu training dengan sedikit penurunan dalam Normalized Gini (6,88%) dibandingkan dengan XGBoost tanpa imputasi. Disimpulkan bahwa jika prioritas utama adalah kemampuan prediktif yang lebih baik, maka XGBoost tanpa imputasi adalah pilihan yang lebih baik. Namun, jika efisiensi waktu training menjadi prioritas utama, maka LightGBM tanpa imputasi dapat menjadi alternatif yang sangat baik karena mampu melakukan proses training dengan lebih cepat secara signifikan tanpa kehilangan kemampuan prediktif (dalam konteks ini Normalized Gini) yang signifikan.

The primary challenge in developing robust predictive models for motor vehicle insurance claims lies in the presence of missing values within the dataset. Several machine learning algorithms have been explored to address this issue, with XGBoost—a gradient-boosted decision tree (GBDT) technique—demonstrating superior performance compared to traditional imputation methods such as K-Nearest Neighbors (KNN) and mean imputation. However, XGBoost is constrained by certain limitations, including longer processing times and the requirement for one-hot encoding of categorical variables. These limitations can be mitigated by employing the LightGBM method. This study aims to evaluate the performance of XGBoost and LightGBM in predicting motor vehicle insurance claims in datasets containing missing values. The dataset utilized in this research is sourced from Porto Seguro’s motor vehicle insurance claims, which contains up to 70% missing values. The model performance is assessed using two key metrics: the Normalized Gini score and training time. The study compares two approaches to handling missing values: without imputation and with mean imputation.The findings reveal that XGBoost without imputation achieves the highest predictive performance, with a Normalized Gini score of 0.2735. However, this approach also entails a longer training time, averaging 15.5841 seconds. LightGBM without imputation, while producing a slightly lower Normalized Gini score of 0.2559, demonstrates superior efficiency, with a significantly reduced training time of 4.0521 seconds on average. In scenarios without imputation, XGBoost consistently delivers the highest predictive performance, both for non-imputed and imputed data. While LightGBM exhibits a marginally lower Normalized Gini score, it offers substantial improvements in training efficiency, with training times nearly four times faster than those of XGBoost. In conclusion, XGBoost without imputation provides the most accurate predictions, making it the preferable choice when predictive performance is the primary objective. However, when the primary concern is training time efficiency, LightGBM without imputation emerges as a strong alternative, offering a significant reduction in training time with only a modest decrease (6.88%) in predictive accuracy, as measured by the Normalized Gini score, compared to XGBoost without imputation."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Deandra Aulia Rusdah

Analisis kinerja XGBoost dalam menangani missing values: studi kasus masalah di industri asuransi = XGBoost performance analysis in handling missing values: case study of problems in the insurance industry

"Prediksi klaim dan prediksi risiko asuransi dilakukan untuk mengklasifikasikan klaim dan tingkat risiko dalam industri asuransi. Dari sudut pandang pembelajaran mesin, masalah prediksi klaim merupakan klasifikasi dua kelas dan masalah prediksi risiko adalah klasifikasi multi-kelas. Untuk mengklasifikasikan klaim dan risiko, model pembelajaran mesin akan memprediksi berdasarkan data historis. Dalam data historis pemohon asuransi, akan ada kemungkinan nilai yang hilang (missing values) sehingga perlu untuk mengatasi masalah tersebut agar memberikan kinerja yang lebih baik. XGBoost adalah metode pembelajaran mesin yang banyak digunakan untuk masalah klasifikasi dan dapat menangani nilai yang hilang (missing values) tanpa dilakukan proses imputasi terlebih dahulu. Penelitian ini menganalisis kinerja metode XGBoost dalam menangani nilai-nilai yang hilang (missing values) untuk prediksi klaim dan prediksi risiko dalam asuransi dan kinerja tersebut juga dibandingkan dengan metode imputasi standard lainnya, yaitu metode mean dan k-nearest neighbors (KNN). Simulasi menunjukkan bahwa model XGBoost tanpa dilakukan proses imputasi memberikan hasil yang sebanding dengan model XGBoost dengan imputasi

Claim prediction and risk prediction of insurance is carried out to classify claims and the levels of risk in insurance industries. From the machine learning point of view, the problem of claim prediction is a two-class classification, and the problem of risk level prediction is a multi-class classification. To classify the claims and risk, a machine learning model will predict based on historical data. In the insurance applicant's historical data, there will be the possibility of missing values so that it is necessary to deal with these problems to provide better performance. XGBoost is a machine learning method that is widely used for classification problems and can handle missing values without an imputation preprocessing. This study analyzed the performance of the XGBoost model in handling missing values for claim prediction and risk prediction in insurance and the performance is also compared with other standard imputation methods, i.e the mean and k-nearest neighbors (KNN) method. The simulations show that the XGBoost model without any imputation preprocessing gives a comparable result to one of the XGBoost models with an imputation preprocessing."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Raffly Pratama Iban Pameling

Model Neural Oblivious Decision Ensembles untuk Prediksi Fraud Asuransi = Neural Oblivious Decision Ensembles Model for Insurance Fraud Prediction

"Fraud adalah tindakan kejahatan yang terus terjadi hingga saat ini. Tidak ada lembaga perusahaan yang terbebas dari kemungkinan terjadinya fraud, termasuk juga industri asuransi. Berbagai cara sudah dilakukan untuk mencegah terjadinya fraud pada industri asuransi, seperti tersedianya daftar hitam hingga adanya tim pemeriksaan khusus di setiap perusahaan. Namun, kasus fraud asuransi tetap saja terjadi bahkan semakin berkembang/bervariasi karena perkembangan teknologi. Oleh karena itu, digunakanlah Artificial Intelligence (AI) dan machine learning sebagai decision support system untuk memprediksi potensi fraud asuransi. Masalah ini merupakan skenario klasifikasi biner dengan komposisi kelas antar-target yang tak seimbang (imbalance class) pada data tabular. Penelitian ini bertujuan untuk mengetahui kinerja model Neural Oblivious Decision Ensembles dalam mendeteksi fraud asuransi serta membandingkan kinerja tersebut dengan model XGBoost tanpa penanganan imbalance class, XGBoost dengan oversampling, dan XGBoost dengan pembobotan data sebagai penanganan standar pada masalah imbalance class. Penelitian ini menggunakan Auto Insurance Claims Data yang dipublikasikan oleh Bunty Shah di situs Kaggle pada tahun 2018. Hasil dari penelitian ini didapatkan bahwa rata-rata dari lima model Neural Oblivious Decision Ensembles (NODE) yang dilakukan pada penelitian memberikan nilai accuracy sebesar 75,53%, precision sebesar 74,24%, recall sebesar 75,53%, f1-score sebesar 74,43%, dan Area Under Curve sebesar 75,04% dan dapat mengungguli kinerja dari ketiga model lainnya.

Fraud is a crime that continues to occur today. No corporate institution is free from the possibility of fraud, including the insurance industry. Various methods have been taken to prevent fraud in the insurance industry, such as the availability of a blacklist to the existence of a special inspection team in each company. However, insurance fraud cases still occur even has more variation due to technological developments. Therefore, Artificial Intelligence (AI) and machine learning are used as decision support systems to predict potential insurance fraud. This research is an implementation of binary-classification scenario with imbalance class on tabular data. This research aims to determine the performance of the Neural Oblivious Decision Ensembles model in detecting insurance fraud and compare the performance with the XGBoost without imbalance class handling, XGBoost with oversampling, and XGBoost with weighted data as the standard handling of imbalance class problems. This research uses the Auto Insurance Claims Data published by Bunty Shah on the Kaggle website in 2018. The results of this research found that the average of the five Neural Oblivious Decision Ensembles (NODE) models gave an accuracy value of 75.53% , precision of 74.24%, recall of 75.53%, f1-score of 74.43%, and Area Under Curve of 75.04% and can outperform the performance of the other three models."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Widya Fajar Mustika

Analisis akurasi model XGBoost untuk klasifikasi multikelas: studi kasus prediksi tingkat klaim risiko pemohon pada asuransi jiwa = Analyzing accuracy of XGBoost model for multiclass classification: a case study of the applicant level claim risk prediction for life insurance

"Penilaian tingkat klaim risiko pemohon asuransi merupakan bagian penting dalam asuransi jiwa, sehingga perlu untuk diklasifikasikan. Penentuan tingkat klaim risiko pada asuransi jiwa didasarkan pada data historis pemohon. Pengajuan untuk menjadi anggota suatu asuransi jiwa membutuhkan waktu yang tidak singkat. Namun pengaplikasian suatu model machine learning dapat membantu mengklasifikasikan calon pemohon asuransi berdasarkan tingkat risiko dengan cepat. Salah satu model machine learning yaitu Extreme Gradient Boosting (XGBoost) yang merupakan suatu model berbasis decision tree. Model ini digunakan untuk memprediksi risiko pada asuransi jiwa. Adanya missing values pada data yang digunakan diatasi dengan beberapa strategi pada proses prapengolahan data untuk meningkatkan nilai akurasi model XGBoost. Hasil penelitian ini diperoleh bahwa akurasi model XGBoost sebesar 0,60730 dengan satuan kappa yang menunjukkan bahwa model XGBoost sangat baik dan dapat diterapkan pada masalah prediksi tingkat klaim risiko pemohon asuransi jiwa. Jika dibandingkan dengan model decision tree, random forest dan Bayesian ridge, kinerja model XGoost masih tetap unggul dalam memproses missing values pada data yang digunakan.

Risk level assessment for insurance applicants is an important part of life insurance, so it needs to be classified. Determination of the level of risk claims on life insurance is based on the applicants historical data. Submission to become a member of a life insurance requires a short time. But the application of a machine learning model can help classify prospective insurance applicants based on the level of risk quickly. One machine learning model is Extreme Gradient Boosting (XGBoost) which is a decision tree based model. This model is used to predict risk in life insurance. The missing values in the data used are overcome by several strategies in the data processing process to increase the accuracy value of the XGBoost model. The results of this study show that the accuracy of the XGBoost model is 0.60730 with kappa units which indicates that the XGBoost model is very good and can be applied to the problem of predicting the level of risk claims for life insurance applicants. When compared to the decision tree, random forest and Bayesian ridge models, the performance of the XGoost model still excels in processing missing values in the data used."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019

T54273

UI - Tesis Membership Universitas Indonesia Library

Iffa Maula Nur Prasasti

Automobile insurance fraud detection using supervised learning classifiers = Deteksi kecurangan pada asuransi kendaraan bermotor dengan supervised learning classifiers.

"Asuransi mobil adalah produk asuransi yang banyak digunakan di Indonesia. Namun, asuransi mobil memiliki potensi untuk kecurangan klaim yang menyebabkan kerugian bagi perusahaan dan pemegang polis. Penelitian ini bertujuan untuk merancang model prediksi deteksi kecurangan asuransi mobil di Indonesia menggunakan pendekatan machine learning. Supervised classifiers adalah salah satu teknik machine learning yang memiliki kemampuan untuk memprediksi kasus-kasus anomali. Supervised classifiers yang digunakan pada penelitian ini adalah Multilayer Perceptron (MLP), Decision Tree C4.5, dan Random Forest (RF). Penelitian ini menggunakan data real-world pada perusahaan asuransi mobil di Indonesia. Dataset memiliki distribusi tidak seimbang yang sangat tinggi antara data pemegang polis yang melakukan kecurangan dan pemegang polis yang sah. Penelitian ini menangani masalah dataset yang tidak seimbang dengan menggunakan Synthetic Minority Oversampling Technique (SMOTE) dan metode undersampling. Kinerja model dievaluasi melalui confusion matrix, Kurva ROC, dan parameter seperti sensitivitas. Penelitian ini menemukan bahwa Random Forest memberikan hasil terbaik dibandingkan dengan MLP dan Decision Tree C4.5.

Automobile insurance is widely used insurance product in Indonesia. However, automobile insurance has the potential for fraudulent claim that leads to several consequences for the company and policyholder. This research aims to design a prediction model of automobile insurance fraud detection in Indonesia using a machine learning approach. Supervised classifiers is one of machine learning techniques that has the ability to predict anomaly cases. The proposed supervised classifiers are Multilayer Perceptron (MLP), Decision Tree C4.5, and Random Forest(RF). This research used real-world data on an automobile insurance company in Indonesia. The dataset has a high imbalanced distribution between the data of policyholders who commit fraud and legitimate. This study handles the imbalanced dataset problem by using the Synthetic Minority Oversampling Technique (SMOTE) and undersampling methods. The performance of models is evaluated through the confusion matrix, ROC Curve, and parameters such as sensitivity. This research found that Random Forest outperformed the results comparing to other classifiers."

Depok: Fakultas Teknik Universitas Indonesia, 2020

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian