のんびりしているエンジニアの日記

ソフトウェアなどのエンジニア的な何かを書きます。

強化学習

Bandit Problemと強化学習ーこれであなたも大金持ち?ー

皆さんこんにちは お元気ですか。私は元気です。 本日はBandit Problemと呼ばれる問題を強化学習で解いてみます。 Bandit Problemについて 解き方 今回解いた問題 epsilon greedy algorithm Softmax Tempature UCB 感想 参考文献 ソースコード Bandit Proble…