ファジィ環境評価ルールを用いた強化学習の提案とチェスへの応用

星野 孝総; 亀井 且有

doi:10.3156/jfuzzy.13.6_626

抄録

熟練者の技術を習得する手法として, 機械学習が研究されている.熟練者による教師データがない場合, 機械学習で用いられるエージェントは試行錯誤によって学習を進めなければならない.試行錯誤によって学習する手法として, 教師なし学習の一種である強化学習がある.しかし, 強化学習では, 状態と行動を対としたif-thenルールを用いているため, 状態と行動の組み合わが膨大になり, 大きな問題環境では学習が進まない.これらの問題に対し, ファジィ環境評価ルールにより遷移先状態の報酬見積値を計算し, 学習を進める新しい強化学習を提案する.本手法は, ファジィ環境評価, 環境シミュレータ, MinMax探索アルゴリズムから構成されており, 環境シミュレータを用いて行動集合を生成, MinMax探索アルゴリズムで行動を決定する.さらに, 提案手法をチェスに適応し, GNUチェスとの対戦をさせながら, 学習を行なった.その結果GNUチェスを上回る成績を上げることができ, 本提案手法の有効性を示すことができた.

著者関連情報

お気に入り & アラート

閲覧履歴

後続誌

知能と情報

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）