主催: 一般社団法人 人工知能学会
会議名: 2023年度人工知能学会全国大会(第37回)
回次: 37
開催地: 熊本城ホール+オンライン
開催日: 2023/06/06 - 2023/06/09
強化学習は実世界のノイズに弱く,人工環境と現実環境のギャップに適応するのが困難である.この問題は運動制御課題で有名であり,レコメンドシステムなどに用いられる文脈付きバンディット問題でも顕著に現れる. 文脈付きバンディット問題では状態の特徴で線形近似する必要があるが,人工データで優れていても,ノイズの多い実世界データには有用とは言い切れないアルゴリズムが多々ある. 人間であれば複雑な現実環境で動的に,かつ限られたデータサンプリング下で適応するため,最適化ではなくある目的水準への到達を重視した試行錯誤を行う. このような人間の認知傾向を取り入れた目的志向型アルゴリズムが Risk-sensitive Satisficing (RS) である. 文脈付きバンディット問題において RS は人工データのみならず実世界データでも高い成績を有することが示唆されていたが,実世界データのフィッティングではある種の事前分布に対する採択荷重率をパラメータとして持つ必要があった. 本研究では採択荷重率を動的に決めるメタアルゴリズムを導入し,より広範のデータに素早く柔軟に対応することが可能か検証を行った.