ドキュメントへ戻る

UCBアルゴリズムについて

多腕バンディット問題とは

多腕バンディット問題は、複数の選択肢(アーム)の中から、限られた試行回数で最も報酬が高いものを見つける問題です。広告運用では、各アームが異なる訴求軸のクリエイティブに対応し、UCB1アルゴリズムが探索(新しいアームを試す)と活用(成績の良いアームを選ぶ)を自動でバランスします。

UCB1スコアの読み方

UCB1スコアは「平均報酬 + 探索ボーナス」で計算されます。試行回数が少ないアームには探索ボーナスが加わり、未試行のアームは優先的に選択されます。スコアが高いアームが次の投稿に選ばれます。

報酬関数の重み調整ガイド

報酬関数の重み(α, β, γ)で、インプレッション・クリック・コンバージョンの重視度を調整できます。デフォルトはα=0.1, β=0.3, γ=0.6で、コンバージョンを最も重視します。

枝刈り(Pruning)の仕組み

一定回数試行したアームのうち、平均報酬が全体平均の50%未満のものは枝刈り(PRUNED)されます。枝刈りされたアームの代わりに、変異体アームが自動追加され、探索空間を維持します。