ABSTRAKDalam perdagangan sekuritas, terdapat masalah keputusan dalam pengelolaan portofolio. Keputusan ini dapat ditentukan dengan
reinforcement learning.
Reinforcement learning bertujuan untuk mengoptimalkan
cumulative reward (keuntungan kumulatif), dengan
policy (kebijakan) yang memilih tindakan tertentu yang memberikan keuntungan yang lebih baik.
Cumulative reward menggunakan
discount rate yang mempengaruhi pertimbangan
reward di masa depan. Pada skripsi ini, digunakan
Actor Critic using Kronecker-Factored Trust Region (
ACKTR) untuk masalah keputusan. Algoritma ini menggunakan model
Actor-Critic,
natural gradient descent, dan
trust region optimization. Model
Actor-Critic terdiri atas
Actor, dan
Critic, dimana
Critic mengevaluasi
cumulative reward (keuntungan kumulatif), dan
Actor melakukan tindakan untuk mendapatkan
reward (keuntungan).
Natural gradient descent merupakan perkembangan
gradient descent yang merepresentasikan
steepest descent, dan digunakan untuk memeningkatkan efisiensi sampel.
ACKTR memanfaatkan
Kronecker-Factored Approximated Curvature (
K-FAC) sebagai aproksimasi untuk
natural gradient descent, dan
trust region untuk memberikan
minimum update pada
backpropagation. Pada
reinforcement learning, agen berinteraksi dengan lingkungan berdasarkan skema
Markov Decision Process (
MDP), yang mendeskripsikan permasalahan. Pada skripsi ini, agen bertujuan untuk mengoptimalkan keuntungan pada
MDP personal retirement portfolio dengan
discount rate yang berbeda, dan hasil pembelajaran dari
ACKTR akan dianalisis.
ABSTRACTThere are various decision problems in portfolio management. Reinforcement learning can be used to solve decision problems. Reinforcement learning optimizes cumulative reward with policy, which chooses specific actions for a better reward.
Cumulative reward has a
discount rate that influences
reward in the future. In this study, Actor Critic Using Kronecker-Factored Trust Region (ACKTR) is used to solve a decision problem. This algorithm adopts Actor-Critic model, natural gradient descent and trust region optimization. Actor-Critic model composed of Actor and Critic, where Critic evaluates cumulative reward obtained, and Actor outputs action for a reward. Natural gradient descent is a modification from gradient descent that gives steepest descent and is used to improves sample eficiency. ACKTR uses Kronecker-Factored Approximated Curvature (K-FAC) to approximate natural gradient. Trust region update keeps a minimum update for backpropagation. In reinforcement learning, agent interacts with environment based on Markov Decision Process (MDP), which describes the problem. In this study, the agent needed to optimize reward in personal retirement portfolio with different discount rates and learning results from the
ACKTR will be analyzed.