UCBアルゴリズムについて

多腕バンディット問題とは

多腕バンディット問題は、複数の選択肢（アーム）の中から、限られた試行回数で最も報酬が高いものを見つける問題です。広告運用では、各アームが異なる訴求軸のクリエイティブに対応し、UCB1アルゴリズムが探索（新しいアームを試す）と活用（成績の良いアームを選ぶ）を自動でバランスします。

UCB1スコアは「平均報酬 + 探索ボーナス」で計算されます。試行回数が少ないアームには探索ボーナスが加わり、未試行のアームは優先的に選択されます。スコアが高いアームが次の投稿に選ばれます。

報酬関数の重み（α, β, γ）で、インプレッション・クリック・コンバージョンの重視度を調整できます。デフォルトはα=0.1, β=0.3, γ=0.6で、コンバージョンを最も重視します。

一定回数試行したアームのうち、平均報酬が全体平均の50%未満のものは枝刈り（PRUNED）されます。枝刈りされたアームの代わりに、変異体アームが自動追加され、探索空間を維持します。