Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 2 dokumen yang sesuai dengan query
cover
Budhitama Subagdja
"One of the fundamental challenges in reinforcement learning is to setup a proper balance between ex-ploration and exploitation to obtain the maximum cummulative reward in the long run. Most proto-cols for exploration bound the overall values to a convergent level of performance. If new knowledge is inserted or the environment is suddenly changed, the issue becomes more intricate as the explo-ration must compromise the pre-existing knowledge. This paper presents a type of multi-channel adaptive resonance theory (ART) neural network model called fusion ART which serves as a fuzzy approximator for reinforcement learning with inherent features that can regulate the exploration stra-tegy. This intrinsic regulation is driven by the condition of the knowledge learnt so far by the agent. The model offers a stable but incremental reinforcement learning that can involve prior rules as boot-strap knowledge for guiding the agent to select the right action. Experiments in obstacle avoidance and navigation tasks demonstrate that in the configuration of learning wherein the agent learns from scratch, the inherent exploration model in fusion ART model is comparable to the basic E-greedy po-licy. On the other hand, the model is demonstrated to deal with prior knowledge and strike a balance between exploration and exploitation.
Salah satu permasalahan mendasar dari Reinforcement Learning adalah mengatur keseimbangan anta-ra eksplorasi dan eksploitasi untuk mendapatkan ganjaran (reward) maksimal secara kumulatif dalam jangka waktu yang lama. Ketika pengetahuan awal diikutsertakan, masalah muncul karena eksplorasi yang dilakukan harus dikompromikan dengan pengetahuan sebelumnya yang telah dipelajari. Maka-lah ini menampilkan salah satu jenis jaringan saraf tiruan adaptive resonance theory (ART) berkanal ganda yang dikenal juga dengan sebutan fusion ART yang juga merupakan aproksimator Fuzzy untuk reinforcement learning dengan kemampuan meregulasi strategi eksplorasi sebagai sifat dasarnya. Mo-del ini menawarkan proses pembelajaran yang stabil tetapi inkremental serta mampu melibatkan pe-ngetahuan awal yang memilih aksi yang benar. Eksperimen menggunakan navigasi dan menghindari rintangan sebagai domain masalah menunjukkan bahwa konfigurasi pembelajaran menggunakan sifat dasar untuk meregulasi eksplorasi sebanding dengan metoda umum yang menggunakan aturan E-greedy. Di lain pihak, model yang diusulkan ini juga menunjukkan kemampuan dalam menggunakan pengetahuan awal serta mencapai keseimbangan dalam eksplorasi dan eksploitasi pengetahuan"
Nanyang Technological University, Joint NTU-UBC Research Centre of Excellence in Active Living for the Elderly, 2016
PDF
Artikel Jurnal  Universitas Indonesia Library
cover
Budhitama Subagdja
"ABSTRAK
Tesis ini membahas tentang penggunaan sistem multiagent yang bersifat adaptif untuk identifikasi strategi pembelajaran. Sistem pengidentifikasi strategi pembelajaran sendiri merupakan bagian dari lingkungan pembelajaran MELATI yang bertujuan untuk meningkatkan kemampuan berfikir siswa sekolah menengah dengan meningkatkan kemampuan belajar swa-atur atau self-regulated learning. Salah satu cara yang digunakan dalam MELATI untuk meningkatkan kemampuan belajar seperti itu adalah dengan mengajarkan penggunaan strategi pembelajaran yang tepat.
Sistem multiagent adaptif tersebut digunakan untuk membantu para pakar kognitif maupun guru dalam menyusun basis aturan dari sistem pengidentifikasi strategi pembelajaran. Berbeda dengan rancangan sistem sebelumnya, basis pengetahuan dibangun dengan cara proses pembelajaran menggunakan sampel yang didapat dari lapangan. Guru atau pakar kognitif tidak perlu mendeskripsikan basis aturan secara lengkap, melainkan cukup dengan memberikan sejumlah contoh kepada sistem.
Selain kemampuan adaptasi terhadap basis aturan dengan pembelajaran tersebut, rancangan sistem multiagent juga bersifat fleksibel sehingga penambahan atau modifikasi modul dapat dilakukan dengan mudah dan tidak perlu mengganggu pengetahuan sebelumnya. Fleksibilitas ini dimungkinkan karena proses pengambilan keputusan maupun pembelajaran dilakukan secara tersebar dan terdesentralisasi dalam sejumlah unit otonom yang disebut agent.
Dari ujicoba yang dilakukan, sistem multiagent tersebut mampu menghasilkan aturan resolusi konflik yang memiliki kemampuan resolusi konflik sesuai dengan jumlah data pelatihan yang digunakan. Akan tetapi dijumpai pula masalah-masalah tertentu seperti kontradiksi serta proses spesialisasi yang berlebihan yang menyebabkan sistem tidak mampu meningkatkan kemampuan identifikasinya meskipun dilakukan pembelajaran yang lebih banyak. Dalam tulisan ini karakteristik dari kemampuan identifikasi akibat pembelajaran, kendala kontradiksi, kekurangan algoritma dan cara mengatasinya akan dibahas secara mendalam."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2000
T40327
UI - Tesis Membership  Universitas Indonesia Library