強化学習とは何か、調べてみた - のんびりしているエンジニアの日記

皆さんこんにちは
お元気ですか。私は元気です。

今日は強化学習の勉強がてらメモを書いてみました。
個人的には最近、注目している分野で、ゴールがあるような（クラス分類やRegression）
機械学習と異なり、汎用的に色々問題が解けそうだからというのが理由です。
（なんか色々語弊を生みそう）

間違っていれば教えて下さい。

強化学習
強化学習における要因
強化学習で解ける問題
参考文献

強化学習

強化学習はある環境ないにおけるエージェントが、
現在の状態を観測し、取るべき行動を決定する問題を扱う
機械学習の一種 by wikipedia

この中で登場するのは、「状態」と「行動を決定する」といったところでしょうか。
つまり、「ある状態の時に、どう行動をするか」といったことを解く問題となります。

強化学習における要因

強化学習について考えなければならないことが4点あります。

①ポリシー（policy）・・・どのように行動するか
②報酬関数（reward function）・・・強化学習問題のゴールを定義する関数
③値関数（value function）・・・長期間に渡る評価指標
④環境モデル（model of the environment）・・・アクション・状態の定義