AI E資格のメモ 〇強化学習エージェント⇒車環境⇒道路など状態⇒歩行者、信号など行動⇒アクセル、ハンドルなど状態遷移確率⇒自身の運転でどうなるか。確率分布報酬⇒無事故、所要時間、目的地に着く 〇マルコフ決定過程(MDP)囲碁とかの勝利という報酬はわか... 2024.02.21 AI