広範なデータへ動的に対応する目的志向探索

水野 桜; 伊東 将吾; 坪谷 朱音; 高橋 達二; 甲野 佑

doi:10.11517/pjsai.JSAI2023.0_3R5GS204

抄録

強化学習は実世界のノイズに弱く，人工環境と現実環境のギャップに適応するのが困難である．この問題は運動制御課題で有名であり，レコメンドシステムなどに用いられる文脈付きバンディット問題でも顕著に現れる．文脈付きバンディット問題では状態の特徴で線形近似する必要があるが，人工データで優れていても，ノイズの多い実世界データには有用とは言い切れないアルゴリズムが多々ある．人間であれば複雑な現実環境で動的に，かつ限られたデータサンプリング下で適応するため，最適化ではなくある目的水準への到達を重視した試行錯誤を行う．このような人間の認知傾向を取り入れた目的志向型アルゴリズムが Risk-sensitive Satisficing (RS) である．文脈付きバンディット問題において RS は人工データのみならず実世界データでも高い成績を有することが示唆されていたが，実世界データのフィッティングではある種の事前分布に対する採択荷重率をパラメータとして持つ必要があった．本研究では採択荷重率を動的に決めるメタアルゴリズムを導入し，より広範のデータに素早く柔軟に対応することが可能か検証を行った．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）