のんびりしているエンジニアの日記

ソフトウェアなどのエンジニア的な何かを書きます。

強化学習

分散深層強化学習ライブラリHandyRLをコンペで使ってみた。

皆さんこんにちは お元気ですか。ブログ書きながら、当チームのガチョウを見守っています。最近までHungryGeeseに参加しており、このコンペでHandyRLライブラリには大変お世話になりました。 このコンペでHandyRLを改造して使ったので、そのポイントを記録と…

Bandit Problemと強化学習ーこれであなたも大金持ち?ー

皆さんこんにちは お元気ですか。私は元気です。 本日はBandit Problemと呼ばれる問題を強化学習で解いてみます。 Bandit Problemについて 解き方 今回解いた問題 epsilon greedy algorithm Softmax Tempature UCB 感想 参考文献 ソースコード Bandit Proble…