Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction (H. Kiyohara+, WWW24)を読んだのでメモ

背景・問題設定

slate policy の OPE の問題設定

状況
- 1回の意思決定で、複数スロットに並び順つきでアイテムを配置する設定を扱う。
- 例: EC のトップページで、 $L$ 枠に商品を表示するランキング（スレート）を出す。
記法
- 文脈（ユーザ状態）を $\mathcal{X}\subset\mathbb{R}^d$ のベクトル $\mathbf{x}$ とする。
- 各スロット $l\in\{1,\dots,L\}$ の候補集合を $\mathcal{A}_l$ とし，スレート空間を $\mathcal{S}=\prod_{l=1}^L \mathcal{A}_l$ とする。スレートは $\mathbf{s}=(a_1,\dots,a_L)$ 。
- ポリシー $\pi:\mathcal{X}\to\Delta(\mathcal{S})$ は文脈 $\mathbf{x}$ に対するスレート分布。しばしば簡潔化のため factored 形 $\pi(\mathbf{s}\mid \mathbf{x})=\prod_{l=1}^L \pi(a_l\mid \mathbf{x})$ を仮定する。
- 報酬の条件付き期待値を $q(\mathbf{x},\mathbf{s})=\mathbb{E}[r\mid \mathbf{x},\mathbf{s}]$ とする。
ログ生成
- logging policy（行動方策） $\pi_0$ が本番でスレートを提示し，ログ $D=\{(\mathbf{x}_i,\mathbf{s}_i,r_i)\}_{i=1}^n$ が得られる。
- $\mathbf{x}_i\sim p(\mathbf{x})$ ， $\mathbf{s}_i\sim \pi_0(\cdot\mid \mathbf{x}_i)$ ， $r_i\sim p(r\mid \mathbf{x}_i,\mathbf{s}_i)$ 。
課題（OPE: Off-Policy Evaluation）
- 未展開の target policy $\pi$ の性能 $V(\pi)$ を， $\pi_0$ のログだけで推定したい。
- AB テストなしで安全に改善速度を上げるのが目的。
スレート特有の難しさ
- 行動空間が組合せ爆発する。例: 候補 100，枠 $L=6$ なら ${}_{100}P_6=100\cdot 99\cdots 95\approx 8.58\times 10^{11}$ 通り。
- $\pi_0(\mathbf{s}\mid \mathbf{x})$ が極端に小さくなりがちで，単純な逆傾向重み付け（IPS）は分散が爆発しやすい。
- スロット間に相互作用（代替・相補・重複回避）があり，単純な線形仮定が崩れやすい（後続セクションで詳述）。
識別の前提（標準的）
- 重複（共通サポート）: $\pi(\mathbf{s}\mid\mathbf{x})>0 \Rightarrow \pi_0(\mathbf{s}\mid\mathbf{x})>0$ 。
- バンディット設定の無交絡: 介入は $\mathbf{x}$ に条件づければ外生的。
- 一貫性: 観測報酬は提示スレートの反実仮想に一致。

EC の具体例（直感）
トップ 6 枠に「新作・人気・値引き」などのアイテムを並べる。
$\pi_0$ は現行レコメンダで， $\pi$ は新モデル。
1 セッションで得られる報酬 $r$ は「合計クリック」「注文金額」など。
新モデル $\pi$ を本番投入せずに，ログだけで「そのページ価値」を知りたい。これがスレート OPE。

予測したい推定量（target policy の value）

ポリシー価値
$V(\pi)=\mathbb{E}_{\mathbf{x}\sim p(\mathbf{x})}\,\mathbb{E}_{\mathbf{s}\sim \pi(\cdot\mid \mathbf{x})}[q(\mathbf{x},\mathbf{s})].$
ログからの推定
- $\pi_0$ が生成した $D$ のみ利用。
- 代表例（ベースライン）として IPS:
  $\widehat{V}_{\mathrm{IPS}}(\pi;D)=\frac{1}{n}\sum_{i=1}^n w(\mathbf{x}_i,\mathbf{s}_i) r_i,\quad w(\mathbf{x},\mathbf{s})=\frac{\pi(\mathbf{s}\mid \mathbf{x})}{\pi_0(\mathbf{s}\mid \mathbf{x})}.$
- 直感: 「 $\pi$ が選びやすい / $\pi_0$ で選ばれにくい」ログに大きな重みが乗る。

EC の具体例（直感）
新モデルが「割引品を上位に置く」傾向なら， $\pi$ は割引スレートに高確率。
現行では滅多に出なかった割引スレートのログが，評価では極端に重くなる。
これが高分散の主因になる。

推定量の目標は MSE（平均二乗誤差）の低減

定義
$\mathrm{MSE}(\widehat{V})=\mathbb{E}\left[(\widehat{V}-V(\pi))^2\right].$
理由
- OPE の最終目的は「デプロイ時の真の価値に近い推定」。
- MSE は「正確さ」を 1 つの尺度で測る自然な目的関数。
- AB テストの代替として，離散化されたログ環境でも比較可能。

MSE は bias と variance に分解でき，両者の低減が重要

分解
$\mathrm{MSE}(\widehat{V})=\underbrace{(\mathbb{E}[\widehat{V}]-V(\pi))^2}_{\text{Bias}^2}+\underbrace{\mathrm{Var}(\widehat{V})}_{\text{Variance}}.$
直感
- Bias: 推定が体系的にズレる度合い。
  - 例: スロット相互作用を無視する線形モデルでの推定。
- Variance: サンプルや重みによるバラつき。
  - 例: $\pi_0(\mathbf{s}\mid\mathbf{x})$ が極小なスレートに巨大な重みがつく。
スレート OPE での特徴
- 行動空間が巨大で，IPS の分散が支配的になりやすい。
- 分散を抑える工夫（例: 構造活用，重みの再定義，スレートのまとめ方）で Bias–Variance トレードオフ を最適化する必要がある。
EC の具体例（直感）
- 「上位 2 枠のカテゴリ構成が似ているスレートは同等」とまとめて扱うと，重みのばらつきが減る一方，細部の違いによる系統誤差（bias）が生まれる。
- 目的は MSE 全体の縮小。Bias を少し許容しても，Variance を大きく減らせば得をする。

LIPS 推定量

slate abstraction（潜在表現）の直感と定義

目的
- 巨大なスレート空間 $\mathcal{S}$ をまとめて扱うことで，重要度重みのばらつきを抑える。
定義（決定論的）
- slate abstraction を $\phi_\theta:\mathcal{S}\to\mathcal{Z}$ とおく。
- 各スレート $s\in\mathcal{S}$ を抽象クラス $z=\phi_\theta(s)$ に写像する。
- ポリシー $\pi$ の誘導分布を
  $\pi(z\mid x)=\sum_{s\in\mathcal{S}}\pi(s\mid x)\,\mathbf{1}\{\phi_\theta(s)=z\}$ と定義する（ $\pi_0$ も同様）。
定義（確率的）
- より一般には，確率的抽象化
  $z\sim p_\theta(z\mid x,s),\qquad p_\theta(z\mid x;\pi)=\sum_{s\in\mathcal{S}}\pi(s\mid x)\,p_\theta(z\mid x,s)$ として扱える。抽象化はエンコーダ（encoder）で実装し，必要に応じてデコーダ（decoder）と組み合わせる。

EC の具体例（直感）
$\phi_\theta$ を「カテゴリ分布（上位 $L$ 枠のカテゴリのヒストグラム）」にする。
似たカテゴリ構成のスレートは同じ (z) に入る。
細部（同カテゴリ内の個別商品や並び替え）の違いは抽象化で吸収する。

LIPS（Latent IPS）の定義

決定論的抽象化の LIPS
$\widehat{V}_{\mathrm{LIPS}}(\pi;\mathcal{D})=\frac{1}{n}\sum_{i=1}^n\underbrace{\frac{\pi(\phi_\theta(s_i)\mid x_i)}{\pi_0(\phi_\theta(s_i)\mid x_i)}}_{w_z(x_i,z_i)}r_i,\quad z_i=\phi_\theta(s_i).$ 抽象クラス (z) の確率比で重み付けする。
確率的抽象化の LIPS
$\widehat{V}_{\mathrm{LIPS}}(\pi;\mathcal{D})=\frac{1}{n}\sum_{i=1}^n\frac{p_\theta(z_i\mid x_i;\pi)}{p_\theta(z_i\mid x_i;\pi_0)}r_i,\quad z_i\sim p_\theta(\cdot\mid x_i,s_i).$ こちらは潜在変数 (z) に対する混合分布の確率比になる。

EC の具体例（直感）
$\pi$ と $\pi_0$ が「カテゴリ構成」レベルでは似ているが，商品個体レベルでは大きく異なる場合，
通常の IPS はスレート確率比 $\pi(s\mid x)/\pi_0(s\mid x)$ が極端になり分散が大きい。
LIPS は $\pi(z\mid x)/\pi_0(z\mid x)$ を使うため重みが安定する。

LIPS の統計的性質（厳密な数式と直感）

不偏性（“sufficient slate abstraction”を採用したとき）

条件 (sufficient slate abstraction)
- 任意の $s,s'\in\mathcal{S}$ が同じ抽象クラスに入るなら，条件付き期待報酬が等しい：
  $\phi_\theta(s)=\phi_\theta(s')\ \Rightarrow\ q(x,s)=q(x,s').$
主張
$\mathbb{E}_{\mathcal{D}}\left[\widehat{V}_{\mathrm{LIPS}}(\pi;\mathcal{D})\right]=V(\pi).$ すなわち上の十分条件を満たす抽象化では LIPS は不偏になる。

直感
同じ (z) に入るスレートは報酬が同質。
したがって，スレートを「まとめて重み付け」しても，期待値は変わらない。

Bias（十分でない抽象化のとき）

表記
- 標準の重み $w(x,s)=\pi(s\mid x)/\pi_0(s\mid x)$ 。
- $\pi_0$ のもとでの事後 $p_\theta(s\mid x,z;\pi_0)$ ，および $z$ の周辺分布 $p_\theta(z\mid x;\pi_0)$ 。
偏りの表示式
$\mathrm{Bias}\left(\widehat{V}_{\mathrm{LIPS}}\right)=\mathbb{E}_{p(x),p_\theta(z\mid x;\pi_0)}\left[\sum_{j<k\le|\mathcal{S}|}\underbrace{p_\theta(s_j\mid x,z;\pi_0)\,p_\theta(s_k\mid x,z;\pi_0)}_{\text{① 同一 }z\text{ 内の混合度}}\underbrace{(q(x,s_j)-q(x,s_k))}_{\text{② 同一 }z\text{ 内の報酬差}}\underbrace{(w(x,s_k)-w(x,s_j))}_{\text{③ 同一 }z\text{ 内の重み差}}\right].$ （(j,k) は同一 (z) に属するスレートを走る。）
直感
- ① 同一 $z$ に「多様な」スレートが混ざるほど寄与が大きい。
- ② 同一 $z$ 内で期待報酬が異質だと偏りが生まれる。
- ③ その異質さに対し， $\pi$ と $\pi_0$ の重みのズレが大きいほど偏りが増える。
- 結論: 細かい抽象化（情報量が多い）ほど bias は小さくなる。

EC の具体例（直感）
$z$ を「トップ2枠のカテゴリ構成」だけにすると，同じ $z$ でも 3–6 位の並びで報酬差が出る（②）。
さらに新モデル $\pi$ が 3–6 位を大きく組み替えるなら重み差も拡大（③）。
このとき $z$ を「トップ4枠のカテゴリ＋割引有無」に細分化すると偏りが減る。

Variance（IPS との比較）

差の分解
$n\Bigl(\mathbb{V}_{\mathcal{D}}[\widehat{V}_{\mathrm{IPS}}]-\mathbb{V}_{\mathcal{D}}[\widehat{V}_{\mathrm{LIPS}}]\Bigr)=\mathbb{E}_{p(x),\pi_0(z\mid x)}\left[\underbrace{\mathbb{E}[r^2\mid x,z]}_{\text{① 報酬の二乗の局所的スケール}}\cdot\underbrace{\mathrm{Var}_{\pi_0(s\mid x,z)}[w(x,s)]}_{\text{② 同一 }z\text{ 内の重みばらつき}}\right].$ 右辺は非負のため，LIPS は常に IPS より分散が小さい。
直感
- ② が大きいほど（同一 $z$ 内で $\pi/\pi_0$ の比がばらつくほど）分散削減が大きい。
- 結論: 粗い抽象化（情報量が少ない）ほど，IPS からの分散削減は大きい。

EC の具体例（直感）
$z$ を「ページに割引品が含まれるか否か」だけにすると，多くのスレートが同一 $z$ に入る。
$\pi/\pi_0$ の差が大きいスレートが混ざるため ② が大きく，分散は強く下がる。
ただし報酬の異質性（②）と重み差（③）が残るため偏りは増える。

Bias–Variance トレードオフ

原理
- 細かい抽象化（ $\phi_\theta$ の情報量が多い）
  - Bias↓（同一 (z) 内の報酬差・重み差が縮小）。
  - Variance↑（クラスが小さくなり重みのばらつき抑制効果が減少）。
- 粗い抽象化（情報量が少ない）
  - Bias↑。
  - Variance↓（重みばらつきの集約効果が最大化）。
結論
- 目標は MSE = Bias(^2)+Variance の最小化。
- 抽象化の粒度（ $|\mathcal{Z}|$ や $\phi_\theta$ の表現力）でトレードオフを調整する。

EC の具体例（設計指針）
まずは「カテゴリ構成＋上位ポジションの価格帯」など，報酬に直結しやすい特徴で抽象化。
期待報酬の同質性が低いときは細分化，重み爆発が気になるときは統合。
実運用では次節の 最適化目的（MSE 近似） で $\phi_\theta$ を自動調整する（後述）。

slate abstraction の最適化

最適化の objective function

目的
- LIPS の MSE（ $bias^2+variance$ ）を直接小さくする抽象化 $p_\theta(z\mid x,s)$ を学習する。
- そのために，エンコーダ（抽象化） $p_\theta(z\mid x,s;\pi_0)$ ，デコーダ（再構成） $p_\psi(s\mid x,z;\pi_0)$ ，および潜在表現からの報酬予測器 $\hat q_\omega(x,z)$ を同時に最適化する。
定式化（原論文の式）
$(\hat\theta,\hat\psi,\hat\omega)=\arg\max_{\theta,\psi}\min_{\omega}\sum_{i=1}^n \mathcal{L}\left(x_i,s_i,\pi_0;\theta,\psi,\omega\right)$
$\mathcal{L}(x,s,\pi_0;\theta,\psi,\omega)= \underbrace{\mathbb{E}_{p_\theta(z\mid x,s;\pi_0)}\bigl[\log p_\psi(s\mid x,z;\pi_0)\bigr]}_{\text{(A) 再構成}}- \underbrace{\mathbb{E}_{p_\theta(z\mid x,s;\pi_0)}\bigl[(r-\hat q_\omega(x,z))^2\bigr]}_{\text{(B) 報酬適合}}- \underbrace{\beta\,\mathrm{KL}\left(p_\theta(z\mid x,s;\pi_0)\Vert p_\psi(z\mid x;\pi_0)\right)}_{\text{(C) 事前整合（確率化）}}$
- $\beta>0$ は bias–variance トレードオフを制御するハイパーパラメータ。小さいほど bias を減らす（かわりに variance が増える）。大きいほど variance を減らす（かわりに bias が増える）。SLOPE や PAS-IF などのログだけでのハイパーパラメータ選択が使える。

なぜ MSE 低減に寄与するか（各項の数理的直感）

まず，論文の bias・variance の解析（LIPS の期待値の偏りと IPS との差の分散）を再掲する。

Bias（確率的抽象化時の表示式）
$\mathrm{Bias}\left(\widehat V_{\mathrm{LIPS}}\right)=\mathbb{E}_{p(x),p_\theta(z\mid x;\pi_0)}\left[\sum_{j<k}\underbrace{p_\theta(s_j\mid x,z;\pi_0)\,p_\theta(s_k\mid x,z;\pi_0)}_{\text{(i) 同一 }z\text{ 内の混合度}}\underbrace{\bigl(q(x,s_j)-q(x,s_k)\bigr)}_{\text{(ii) 同一 }z\text{ 内の報酬差}}\underbrace{\bigl(w(x,s_k)-w(x,s_j)\bigr)}_{\text{(iii) 同一 }z\text{ 内の重み差}}\right]$
ここで $w(x,s)=\pi(s\mid x)/\pi_0(s\mid x)$ 。
Variance（IPS からの削減量）
$n\Bigl(\mathrm{Var}[\widehat V_{\mathrm{IPS}}]-\mathrm{Var}[\widehat V_{\mathrm{LIPS}}]\Bigr)=\mathbb{E}_{p(x),\pi_0(\phi_\theta(s)\mid x)}\left[\mathbb{E}\bigl[r^2\mid x,\phi_\theta(s)\bigr]\cdot \mathrm{Var}_{\pi_0(s\mid x,\phi_\theta(s))}\bigl[w(x,s)\bigr]\right]$
右辺は非負で，LIPS は IPS より分散が小さくなる。粗く・確率的な抽象化ほど削減が大きい。

この解析に対して， $\mathcal{L}$ の各項が何を抑えるかを対応づける。

(A) 再構成項 $\mathbb{E}[\log p_\psi(s\mid x,z)]$ —— identifiability を高めて bias を下げる

役割
- $(x,z)$ から元の $s$ をできるだけ一意に復元させる。
- 数理的には， $(x,z)$ に条件づけたときの $p_\theta(s\mid x,z;\pi_0)$ のエントロピーを下げる。
Bias 式との対応
- 上の (i) の積 $p_\theta(s_j\mid x,z),p_\theta(s_k\mid x,z)$ を小さくする。
- 直感: 同じ (z) に属するスレートがほぼ一つになれば，混合度が 0 に近づき，その分 bias が減る。
EC の具体例
- $z$ を「上位カテゴリ分布＋価格帯の粗いビニング」にすると，その $z$ を見れば並びがかなり特定できるように学習させる。似た並びが混ざらなければ $i$ が小さくなる。
根拠
- 「第1項はスレートの識別性（identifiability）を測る。大きいほど bias 低減に効く」と論文は述べる。

(B) 報酬適合項 $\mathbb{E}[(r-\hat q_\omega(x,z))^2]$ —— 同一 $z$ の報酬同質化で bias を下げる

役割
- 潜在 $z$ から報酬をよく予測できるようにする。
- $(x,z)$ が報酬にとって十分（あるいはほぼ十分）な統計量になるよう促す。
Bias 式との対応
- (ii) の報酬差 $|q(x,s_j)-q(x,s_k)|$ を，同じ $z$ 内で小さくする。
- 直感: 同じ $z$ に入るスレート同士は似た期待報酬を持つようにまとまるので，まとめ重みによる系統誤差が減る。
EC の具体例
- $z$ を「カテゴリ構成＋割引有無＋平均価格帯」とし， $\hat q_\omega(x,z)$ で CTR/GMV をよく当てるように学習する。割引の有無が同じ (z) なら報酬が近づき (ii) が縮小する。
根拠
- 「第2項は潜在変数がどれだけ報酬を予測できるかを測る。大きいほど bias 低減に効く」と論文は説明する。

(C) 事前整合項 $\beta,\,\mathrm{KL}\left(p_\theta(z\mid x,s),\Vert,p_\psi(z\mid x)\right)$ —— 抽象化を粗く・確率的にして variance を下げる

役割
- 事後 $p_\theta(z\mid x,s)$ をコンテキスト依存の事前 $p_\psi(z\mid x)$ に近づけ， $z$ を過度に情報的にしすぎないよう制御する（ $\beta$ が大きいほど強く）。
Variance 式との対応
- 抽象化が粗く・確率的になるほど，同じ (z) 内での $\mathrm{Var}_{\pi_0(s\mid x,z)}[w(x,s)]$ が小さくなり，分散削減が大きくなる。
- 直感: 「潜在空間の粒度を粗くする＝多くのスレートを同じ $z$ にまとめる」ことで，極端な重みのばらつきを打ち消す。
EC の具体例
- $z$ を「割引の有無」程度にまで粗くする ( $\beta$ を大きくする)と，重みのばらつきが強く抑えられ，IPS と比べて分散が大幅に縮む。
根拠
- 論文はこの KL 正則化が潜在重み（ $z$ -レベルの重要度比）を 1 に近づけて分散を減らすと述べ， $\beta$ がトレードオフを制御するハイパーパラメータであると明示する。

まとめ：最適化が LIPS の MSE を下げる理由

(A) と (B) は bias の上界因子 (i)(ii) をそれぞれ抑える。
(C) は variance の主要因（同一 $z$ 内の重みばらつき）を抑える。
よって $\beta$ とモデル容量（ $|\mathcal{Z}|$ ，ネットワークの表現力）で Bias–Variance トレードオフを連続的に調整できる。
実際，論文は十分（sufficient）な抽象化が常に最良とは限らず，あえて不十分な抽象化で分散を大きく減らしつつ小さな biasにとどめる方が MSE が下がる場合を示す（トイ例で MSE が $1.0$ → $0.45$ ）。

EC の実装指針（要点）
まず (A)(B) を満たす 「報酬が同質になる軸」（カテゴリ分布，割引有無，価格帯など）で抽象化を設計する。
その上で (C) の $\beta$ を調整し，重み分散が許容範囲に収まるよう粗さ・確率性を上げる。
ハイパーパラメータはログのみでのデータ駆動な選択（SLOPE, PAS-IF）を用いる。

実験結果

supervised-to-bandit の概要

方針
- 既存の多ラベル分類データをスレート・バンディット設定に写像する。
- 文書ベクトルを文脈 $\mathbf{x}$ 、ラベルをスロット別アクションとして扱う。
- 過去研究に倣う標準的な “supervised-to-bandit” 手続きを踏襲する。
実装
- 文書の生テキストを Sentence-Transformer で埋め込み、PCA で $20$ 次元に圧縮し文脈を得る。
- ラベル頻度の多い上位 1,000 ラベルから、スロット数 $L$ に対して $L\times 10$ 個をサンプリング。
- それを $L$ 個の互いに素なアクション集合 $\{ \mathcal{A}_l \}_{l=1}^L$ （各 $|\mathcal{A}_l|=10$ ）に分解する。

EC の具体例（直感）
文書をユーザ・セッション特徴に、ラベルを商品に見立てる。
「上位 $L$ 枠に表示する商品候補群」をスロットごとに 10 個ずつ用意するイメージ。

dataset の説明

対象
- Wiki10-31K, Eurlex-4K の極大分類データを使用。
- ラベル数はおよそ 31K（Wiki10）、4K（Eurlex）。

reward の説明

スロット別スコア
- ラベル $a\in\mathcal{A}_l$ が当該文書の正例なら
  $q_l(\mathbf{x},a)=1-\eta_a,$
  そうでなければ
  $q_l(\mathbf{x},a)=\eta_a,\quad \eta_a\sim\mathrm{Unif}[0,0.5].$
非線形スレート報酬（相互作用あり）
- 現実の報酬は未知なので、3 種の非線形関数で合成する：
  $\text{(1)}\; q(\mathbf{x},\mathbf{s})=\frac{1}{\lfloor L/2\rfloor}\sum_{l=1}^{\lfloor L/2\rfloor} q_l(\mathbf{x},a_l)+\frac{1}{\lfloor L/2\rfloor-1}\sum_{l=1}^{\lfloor L/2\rfloor-1} w(a_l,a_{l+1}),$
  $\text{(2)}\; q(\mathbf{x},\mathbf{s})=\frac{1}{\lfloor L/2\rfloor}\Bigl(q_1(\mathbf{x},a_1)+\sum_{l=2}^{\lfloor L/2\rfloor} w(a_{l-1},a_l)\,q_l(\mathbf{x},a_l)\Bigr),$
  $\text{(3)}\; q(\mathbf{x},\mathbf{s})=\frac{1}{2}\left(\min_{1\le l\le \lfloor L/2\rfloor} q_l(\mathbf{x},a_l)+\max_{1\le l\le \lfloor L/2\rfloor} q_l(\mathbf{x},a_l)\right),$
  ただし $w(a_l,a_{l+1})\sim\mathcal{N}(0,1)$ 。
- 半分のスロットのみ（ $l=1,\dots,\lfloor L/2\rfloor$ ）が報酬に寄与するよう設計。
  - これにより $(a_1,\dots,a_{\lfloor L/2\rfloor})$ が 十分な抽象化となる。
  - “あえて不十分な抽象化” で MSE を下げられるかを検証可能。
- 観測報酬は $r\sim \mathcal{N}\bigl(q(\mathbf{x},\mathbf{s}),\sigma^2\bigr)$ 、 $\sigma=0.1$ 。

EC の具体例（直感）
(1) は隣接スロットの相性（同系統の商品の組み合わせ効果）。
(2) は上位を起点にした掛け算的効果（1 位が強いと 2 位以降の寄与が増す）。
(3) はボトルネック＋目玉商品の折衷（最悪枠と最高枠の平均）。

behavior policy / target policy の説明

共通
- まず REINFORCE で基礎予測器 $\tilde q(\mathbf{x},a)$ を学習。
logging policy $\pi_0$
$\pi_0(\mathbf{s}\mid\mathbf{x})=\prod_{l=1}^L\left((1-\epsilon_0)\frac{\exp\bigl(\gamma_0\,\tilde q(\mathbf{x},a_l)\bigr)}{\sum_{a\in\mathcal{A}_l}\exp\bigl(\gamma_0\,\tilde q(\mathbf{x},a)\bigr)}+\frac{\epsilon_0}{|\mathcal{A}_l|}\right)$
target policy $\pi$
$\pi(\mathbf{s}\mid\mathbf{x})=\prod_{l=1}^L\left((1-\epsilon)\,\mathbf{1}\{a_l=a_l\}+\frac{\epsilon}{|\mathcal{A}_l|}\right),\quad a_l=\arg\max_{a\in\mathcal{A}_l}\tilde q(\mathbf{x},a)$
既定パラメータ
- $(\gamma,\epsilon_0,\epsilon)=(-1.0,\,0.1,\,0.3)$ 。
- 既定の実験条件は $L=8$ , $|\mathcal{A}_l|=10$ , $n=4000$ 。
- 50 個の乱数種でログを作成。真値で規格化した MSE ( $\mathrm{MSE}(\widehat V(\pi))/V(\pi)^2$ )で精度比較。

EC の具体例（直感）
$\pi_0$ は温度つきソフトマックス＋ $\epsilon$ -greedy。現行レコメンダの振る舞い。
$\pi$ は貪欲 + $\epsilon$ -greedy 。新モデルはほぼ貪欲だが、少し探索する。

比較手法と LIPS の設定

ベースライン
- DM, IPS, PI, MIPS を比較対象とする。
- MIPS は真の報酬が依存する前半 $\lfloor L/2\rfloor$ スロットのみを用いる設計で、理論上 unbiased かつ IPS より低分散だが、実運用では真の依存構造が不明なので非現実的、という位置づけ。
LIPS の実装
- 離散抽象空間の次元は $|\mathcal{Z}|=100$ 。
- 正則化係数 $\beta\in \{0.01,0.1,1.0,10.0\}$ を SLOPE によりログのみで選択。

実験結果の解説

スレート長 $L$ の影響
- $L\in{4,6,\dots,12}$ で非線形報酬 (1)–(3) を横断比較。
- LIPS は一貫して最小 MSE。
- PI は $L$ が大きくなると 分散増・線形性破れによるバイアス増で MSE が悪化。
- IPS/MIPS は重み分散が大きいため LIPS に劣後。
- 興味深い点として、十分な抽象化（前半スロットのみ）を使う MIPS より、最適化した“不十分な抽象化” を使う LIPS の方が MSE で勝る。
  - 分散大幅減＋小バイアスの両立が鍵。
データ数 $n$ の影響
- $n$ を増減させても、LIPS 優位は維持。
- 少数データ域では特に分散抑制の恩恵が大きい。
追加検証（付録）
- Delicious データでも同様の傾向を確認。
- $\beta$ のアブレーションでは、 $\beta$ を大きくすると分散↓・バイアス↑、小さくするとバイアス↓・分散↑という理論整合的トレードオフを観測。
- スレート重み $w(\mathbf{x},\mathbf{s})$ の経験分布は長い裾を持ち、IPS の分散課題を裏づける。

EC の具体例（直感）
MIPS は「上位 $\lfloor L/2\rfloor$ 枠だけを見れば十分」という理想の知識を前提に設計した重み付けに相当。
実務ではその知識が無い。
LIPS はログから抽象化を学び、「カテゴリ構成」「割引の有無」「価格帯」など報酬の同質化軸と重みの安定化を両立させ、結果として MSE を最小化する。

実装メモ（再現のための抜粋）

抽象化・再構成・報酬器は隠れ 100 次元の MLP。
Adam、学習率 $1\mathrm{e}{-5}$ 。
報酬損失はスケールを合わせるため 100 倍。
$\beta=0.01$ で 1000 エポック学習後、 $\beta\in\{0.1,1.0,10.0\}$ を500 エポックずつ微調整。

Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction (H. Kiyohara+, WWW24)を読んだのでメモ

背景・問題設定

slate policy の OPE の問題設定

予測したい推定量（target policy の value）

推定量の目標は MSE（平均二乗誤差）の低減

MSE は bias と variance に分解でき，両者の低減が重要

LIPS 推定量

slate abstraction（潜在表現）の直感と定義

LIPS（Latent IPS）の定義

LIPS の統計的性質（厳密な数式と直感）

不偏性（“sufficient slate abstraction”を採用したとき）

Bias（十分でない抽象化のとき）

Variance（IPS との比較）

Bias–Variance トレードオフ

slate abstraction の最適化

最適化の objective function

なぜ MSE 低減に寄与するか（各項の数理的直感）

(A) 再構成項 E[log⁡pψ(s∣x,z)]\mathbb{E}[\log p_\psi(s\mid x,z)]E[logpψ​(s∣x,z)] —— identifiability を高めて bias を下げる

(B) 報酬適合項 E[(r−q^ω(x,z))2]\mathbb{E}[(r-\hat q_\omega(x,z))^2]E[(r−q^​ω​(x,z))2] —— 同一 zzz の報酬同質化で bias を下げる

(C) 事前整合項 β, KL(pθ(z∣x,s),∥,pψ(z∣x))\beta,\,\mathrm{KL}\left(p_\theta(z\mid x,s),\Vert,p_\psi(z\mid x)\right)β,KL(pθ​(z∣x,s),∥,pψ​(z∣x)) —— 抽象化を粗く・確率的にして variance を下げる

まとめ：最適化が LIPS の MSE を下げる理由

実験結果

supervised-to-bandit の概要

dataset の説明

reward の説明

behavior policy / target policy の説明

比較手法と LIPS の設定

実験結果の解説

実装メモ（再現のための抜粋）

(A) 再構成項 $\mathbb{E}[\log p_\psi(s\mid x,z)]$ —— identifiability を高めて bias を下げる

(B) 報酬適合項 $\mathbb{E}[(r-\hat q_\omega(x,z))^2]$ —— 同一 $z$ の報酬同質化で bias を下げる

(C) 事前整合項 $\beta,\,\mathrm{KL}\left(p_\theta(z\mid x,s),\Vert,p_\psi(z\mid x)\right)$ —— 抽象化を粗く・確率的にして variance を下げる