Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction (H. Kiyohara+, WWW24)を読んだのでメモ
Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction (H. Kiyohara+, WWW24)を読んだのでメモ
背景・問題設定
slate policy の OPE の問題設定
状況
1回の意思決定で、複数スロットに並び順つきでアイテムを配置する設定を扱う。
例: EC のトップページで、 枠に商品を表示するランキング(スレート)を出す。
記法
文脈(ユーザ状態)を のベクトル とする。
各スロット の候補集合を とし,スレート空間を とする。スレートは 。
ポリシー は文脈 に対するスレート分布。しばしば簡潔化のため factored 形 を仮定する。
報酬の条件付き期待値を とする。
ログ生成
logging policy(行動方策) が本番でスレートを提示し,ログ が得られる。
,,。
課題(OPE: Off-Policy Evaluation)
未展開の target policy の性能 を, のログだけで推定したい。
AB テストなしで安全に改善速度を上げるのが目的。
スレート特有の難しさ
行動空間が組合せ爆発する。例: 候補 100,枠 なら 通り。
が極端に小さくなりがちで,単純な逆傾向重み付け(IPS)は分散が爆発しやすい。
スロット間に相互作用(代替・相補・重複回避)があり,単純な線形仮定が崩れやすい(後続セクションで詳述)。
識別の前提(標準的)
重複(共通サポート): 。
バンディット設定の無交絡: 介入は に条件づければ外生的。
一貫性: 観測報酬は提示スレートの反実仮想に一致。
EC の具体例(直感)
トップ 6 枠に「新作・人気・値引き」などのアイテムを並べる。
は現行レコメンダで, は新モデル。
1 セッションで得られる報酬 は「合計クリック」「注文金額」など。
新モデル を本番投入せずに,ログだけで「そのページ価値」を知りたい。これがスレート OPE。
予測したい推定量(target policy の value)
ポリシー価値
ログからの推定
が生成した のみ利用。
代表例(ベースライン)として IPS:
直感: 「 が選びやすい / で選ばれにくい」ログに大きな重みが乗る。
EC の具体例(直感)
新モデルが「割引品を上位に置く」傾向なら, は割引スレートに高確率。
現行では滅多に出なかった割引スレートのログが,評価では極端に重くなる。
これが高分散の主因になる。
推定量の目標は MSE(平均二乗誤差)の低減
定義
理由
OPE の最終目的は「デプロイ時の真の価値に近い推定」。
MSE は「正確さ」を 1 つの尺度で測る自然な目的関数。
AB テストの代替として,離散化されたログ環境でも比較可能。
MSE は bias と variance に分解でき,両者の低減が重要
分解
直感
Bias: 推定が体系的にズレる度合い。
例: スロット相互作用を無視する線形モデルでの推定。
Variance: サンプルや重みによるバラつき。
例: が極小なスレートに巨大な重みがつく。
スレート OPE での特徴
行動空間が巨大で,IPS の分散が支配的になりやすい。
分散を抑える工夫(例: 構造活用,重みの再定義,スレートのまとめ方)で Bias–Variance トレードオフ を最適化する必要がある。
EC の具体例(直感)
「上位 2 枠のカテゴリ構成が似ているスレートは同等」とまとめて扱うと,重みのばらつきが減る一方,細部の違いによる系統誤差(bias)が生まれる。
目的は MSE 全体の縮小。Bias を少し許容しても,Variance を大きく減らせば得をする。
LIPS 推定量
slate abstraction(潜在表現)の直感と定義
目的
巨大なスレート空間 をまとめて扱うことで,重要度重みのばらつきを抑える。
定義(決定論的)
slate abstraction を とおく。
各スレート を抽象クラス に写像する。
ポリシー の誘導分布を
と定義する( も同様)。
定義(確率的)
より一般には,確率的抽象化
として扱える。抽象化はエンコーダ(encoder)で実装し,必要に応じてデコーダ(decoder)と組み合わせる。
EC の具体例(直感)
を「カテゴリ分布(上位 枠のカテゴリのヒストグラム)」にする。
似たカテゴリ構成のスレートは同じ (z) に入る。
細部(同カテゴリ内の個別商品や並び替え)の違いは抽象化で吸収する。
LIPS(Latent IPS)の定義
決定論的抽象化の LIPS
抽象クラス (z) の確率比で重み付けする。
確率的抽象化の LIPS
こちらは潜在変数 (z) に対する混合分布の確率比になる。
EC の具体例(直感)
と が「カテゴリ構成」レベルでは似ているが,商品個体レベルでは大きく異なる場合,
通常の IPS はスレート確率比 が極端になり分散が大きい。
LIPS は を使うため重みが安定する。
LIPS の統計的性質(厳密な数式と直感)
不偏性(“sufficient slate abstraction”を採用したとき)
条件 (sufficient slate abstraction)
任意の が同じ抽象クラスに入るなら,条件付き期待報酬が等しい:
主張
すなわち上の十分条件を満たす抽象化では LIPS は不偏になる。
直感
同じ (z) に入るスレートは報酬が同質。
したがって,スレートを「まとめて重み付け」しても,期待値は変わらない。
Bias(十分でない抽象化のとき)
表記
標準の重み 。
のもとでの事後 ,および の周辺分布 。
偏りの表示式
((j,k) は同一 (z) に属するスレートを走る。)
直感
① 同一 に「多様な」スレートが混ざるほど寄与が大きい。
② 同一 内で期待報酬が異質だと偏りが生まれる。
③ その異質さに対し, と の重みのズレが大きいほど偏りが増える。
結論: 細かい抽象化(情報量が多い)ほど bias は小さくなる。
EC の具体例(直感)
を「トップ2枠のカテゴリ構成」だけにすると,同じ でも 3–6 位の並びで報酬差が出る(②)。
さらに新モデル が 3–6 位を大きく組み替えるなら重み差も拡大(③)。
このとき を「トップ4枠のカテゴリ+割引有無」に細分化すると偏りが減る。
Variance(IPS との比較)
差の分解
右辺は非負のため,LIPS は常に IPS より分散が小さい。
直感
② が大きいほど(同一 内で の比がばらつくほど)分散削減が大きい。
結論: 粗い抽象化(情報量が少ない)ほど,IPS からの分散削減は大きい。
EC の具体例(直感)
を「ページに割引品が含まれるか否か」だけにすると,多くのスレートが同一 に入る。
の差が大きいスレートが混ざるため ② が大きく,分散は強く下がる。
ただし報酬の異質性(②)と重み差(③)が残るため偏りは増える。
Bias–Variance トレードオフ
原理
細かい抽象化( の情報量が多い)
Bias↓(同一 (z) 内の報酬差・重み差が縮小)。
Variance↑(クラスが小さくなり重みのばらつき抑制効果が減少)。
粗い抽象化(情報量が少ない)
Bias↑。
Variance↓(重みばらつきの集約効果が最大化)。
結論
目標は MSE = Bias(^2)+Variance の最小化。
抽象化の粒度( や の表現力)でトレードオフを調整する。
EC の具体例(設計指針)
まずは「カテゴリ構成+上位ポジションの価格帯」など,報酬に直結しやすい特徴で抽象化。
期待報酬の同質性が低いときは細分化,重み爆発が気になるときは統合。
実運用では次節の 最適化目的(MSE 近似) で を自動調整する(後述)。
slate abstraction の最適化
最適化の objective function
目的
LIPS の MSE()を直接小さくする抽象化 を学習する。
そのために,エンコーダ(抽象化),デコーダ(再構成),および潜在表現からの報酬予測器 を同時に最適化する。
定式化(原論文の式)
は bias–variance トレードオフを制御するハイパーパラメータ。小さいほど bias を減らす(かわりに variance が増える)。大きいほど variance を減らす(かわりに bias が増える)。SLOPE や PAS-IF などのログだけでのハイパーパラメータ選択が使える。
なぜ MSE 低減に寄与するか(各項の数理的直感)
まず,論文の bias・variance の解析(LIPS の期待値の偏りと IPS との差の分散)を再掲する。
Bias(確率的抽象化時の表示式)
ここで 。
Variance(IPS からの削減量)
右辺は非負で,LIPS は IPS より分散が小さくなる。粗く・確率的な抽象化ほど削減が大きい。
この解析に対して, の各項が何を抑えるかを対応づける。
(A) 再構成項 —— identifiability を高めて bias を下げる
役割
から元の をできるだけ一意に復元させる。
数理的には, に条件づけたときの のエントロピーを下げる。
Bias 式との対応
上の (i) の積 を小さくする。
直感: 同じ (z) に属するスレートがほぼ一つになれば,混合度が 0 に近づき,その分 bias が減る。
EC の具体例
を「上位カテゴリ分布+価格帯の粗いビニング」にすると,その を見れば並びがかなり特定できるように学習させる。似た並びが混ざらなければ が小さくなる。
根拠
「第1項はスレートの識別性(identifiability)を測る。大きいほど bias 低減に効く」と論文は述べる。
(B) 報酬適合項 —— 同一 の報酬同質化で bias を下げる
役割
潜在 から報酬をよく予測できるようにする。
が報酬にとって十分(あるいはほぼ十分)な統計量になるよう促す。
Bias 式との対応
(ii) の報酬差 を,同じ 内で小さくする。
直感: 同じ に入るスレート同士は似た期待報酬を持つようにまとまるので,まとめ重みによる系統誤差が減る。
EC の具体例
を「カテゴリ構成+割引有無+平均価格帯」とし, で CTR/GMV をよく当てるように学習する。割引の有無が同じ (z) なら報酬が近づき (ii) が縮小する。
根拠
「第2項は潜在変数がどれだけ報酬を予測できるかを測る。大きいほど bias 低減に効く」と論文は説明する。
(C) 事前整合項 —— 抽象化を粗く・確率的にして variance を下げる
役割
事後 をコンテキスト依存の事前 に近づけ, を過度に情報的にしすぎないよう制御する( が大きいほど強く)。
Variance 式との対応
抽象化が粗く・確率的になるほど,同じ (z) 内での が小さくなり,分散削減が大きくなる。
直感: 「潜在空間の粒度を粗くする=多くのスレートを同じ にまとめる」ことで,極端な重みのばらつきを打ち消す。
EC の具体例
を「割引の有無」程度にまで粗くする ( を大きくする)と,重みのばらつきが強く抑えられ,IPS と比べて分散が大幅に縮む。
根拠
論文はこの KL 正則化が潜在重み(-レベルの重要度比)を 1 に近づけて分散を減らすと述べ, がトレードオフを制御するハイパーパラメータであると明示する。
まとめ:最適化が LIPS の MSE を下げる理由
(A) と (B) は bias の上界因子 (i)(ii) をそれぞれ抑える。
(C) は variance の主要因(同一 内の重みばらつき)を抑える。
よって とモデル容量(,ネットワークの表現力)で Bias–Variance トレードオフを連続的に調整できる。
実際,論文は十分(sufficient)な抽象化が常に最良とは限らず,あえて不十分な抽象化で分散を大きく減らしつつ小さな biasにとどめる方が MSE が下がる場合を示す(トイ例で MSE が → )。
EC の実装指針(要点)
まず (A)(B) を満たす 「報酬が同質になる軸」(カテゴリ分布,割引有無,価格帯など)で抽象化を設計する。
その上で (C) の を調整し,重み分散が許容範囲に収まるよう粗さ・確率性を上げる。
ハイパーパラメータはログのみでのデータ駆動な選択(SLOPE, PAS-IF)を用いる。
実験結果
supervised-to-bandit の概要
方針
既存の多ラベル分類データをスレート・バンディット設定に写像する。
文書ベクトルを文脈 、ラベルをスロット別アクションとして扱う。
過去研究に倣う標準的な “supervised-to-bandit” 手続きを踏襲する。
実装
文書の生テキストを Sentence-Transformer で埋め込み、PCA で 次元に圧縮し文脈を得る。
ラベル頻度の多い上位 1,000 ラベルから、スロット数 に対して 個をサンプリング。
それを 個の互いに素なアクション集合 (各 )に分解する。
EC の具体例(直感)
文書をユーザ・セッション特徴に、ラベルを商品に見立てる。
「上位 枠に表示する商品候補群」をスロットごとに 10 個ずつ用意するイメージ。
dataset の説明
対象
Wiki10-31K, Eurlex-4K の極大分類データを使用。
ラベル数はおよそ 31K(Wiki10)、4K(Eurlex)。
reward の説明
スロット別スコア
ラベル が当該文書の正例なら
そうでなければ
非線形スレート報酬(相互作用あり)
現実の報酬は未知なので、3 種の非線形関数で合成する:
ただし 。
半分のスロットのみ()が報酬に寄与するよう設計。
これにより が 十分な抽象化となる。
“あえて不十分な抽象化” で MSE を下げられるかを検証可能。
観測報酬は 、。
EC の具体例(直感)
(1) は隣接スロットの相性(同系統の商品の組み合わせ効果)。
(2) は上位を起点にした掛け算的効果(1 位が強いと 2 位以降の寄与が増す)。
(3) はボトルネック+目玉商品の折衷(最悪枠と最高枠の平均)。
behavior policy / target policy の説明
共通
まず REINFORCE で基礎予測器 を学習。
logging policy
target policy
既定パラメータ
。
既定の実験条件は , , 。
50 個の乱数種でログを作成。真値で規格化した MSE ()で精度比較。
EC の具体例(直感)
は温度つきソフトマックス+-greedy。現行レコメンダの振る舞い。
は 貪欲 + -greedy 。新モデルはほぼ貪欲だが、少し探索する。
比較手法と LIPS の設定
ベースライン
DM, IPS, PI, MIPS を比較対象とする。
MIPS は真の報酬が依存する前半 スロットのみを用いる設計で、理論上 unbiased かつ IPS より低分散だが、実運用では真の依存構造が不明なので非現実的、という位置づけ。
LIPS の実装
離散抽象空間の次元は 。
正則化係数 を SLOPE によりログのみで選択。
実験結果の解説
スレート長 の影響
で非線形報酬 (1)–(3) を横断比較。
LIPS は一貫して最小 MSE。
PI は が大きくなると 分散増・線形性破れによるバイアス増で MSE が悪化。
IPS/MIPS は重み分散が大きいため LIPS に劣後。
興味深い点として、十分な抽象化(前半スロットのみ)を使う MIPS より、最適化した“不十分な抽象化” を使う LIPS の方が MSE で勝る。
分散大幅減+小バイアスの両立が鍵。
データ数 の影響
を増減させても、LIPS 優位は維持。
少数データ域では特に分散抑制の恩恵が大きい。
追加検証(付録)
Delicious データでも同様の傾向を確認。
のアブレーションでは、 を大きくすると分散↓・バイアス↑、小さくするとバイアス↓・分散↑という理論整合的トレードオフを観測。
スレート重み の経験分布は長い裾を持ち、IPS の分散課題を裏づける。
EC の具体例(直感)
MIPS は「上位 枠だけを見れば十分」という理想の知識を前提に設計した重み付けに相当。
実務ではその知識が無い。
LIPS はログから抽象化を学び、「カテゴリ構成」「割引の有無」「価格帯」など報酬の同質化軸と重みの安定化を両立させ、結果として MSE を最小化する。
実装メモ(再現のための抜粋)
抽象化・再構成・報酬器は隠れ 100 次元の MLP。
Adam、学習率 。
報酬損失はスケールを合わせるため 100 倍。
で 1000 エポック学習後、 を500 エポックずつ微調整。