人工知能学会全国大会論文集
Online ISSN : 2758-7347
第37回 (2023)
セッションID: 3R5-GS-2-04
会議情報

広範なデータへ動的に対応する目的志向探索
*水野 桜伊東 将吾坪谷 朱音高橋 達二甲野 佑
著者情報
会議録・要旨集 フリー

詳細
抄録

強化学習は実世界のノイズに弱く,人工環境と現実環境のギャップに適応するのが困難である.この問題は運動制御課題で有名であり,レコメンドシステムなどに用いられる文脈付きバンディット問題でも顕著に現れる. 文脈付きバンディット問題では状態の特徴で線形近似する必要があるが,人工データで優れていても,ノイズの多い実世界データには有用とは言い切れないアルゴリズムが多々ある. 人間であれば複雑な現実環境で動的に,かつ限られたデータサンプリング下で適応するため,最適化ではなくある目的水準への到達を重視した試行錯誤を行う. このような人間の認知傾向を取り入れた目的志向型アルゴリズムが Risk-sensitive Satisficing (RS) である. 文脈付きバンディット問題において RS は人工データのみならず実世界データでも高い成績を有することが示唆されていたが,実世界データのフィッティングではある種の事前分布に対する採択荷重率をパラメータとして持つ必要があった. 本研究では採択荷重率を動的に決めるメタアルゴリズムを導入し,より広範のデータに素早く柔軟に対応することが可能か検証を行った.

著者関連情報
© 2023 人工知能学会
前の記事 次の記事
feedback
Top