ツチノコの夢を見ていたツチノコの夢を見ていた

Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction (H. Kiyohara+, WWW24)を読んだのでメモ

Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction (H. Kiyohara+, WWW24)を読んだのでメモ

背景・問題設定

slate policy の OPE の問題設定

  • 状況

    • 1回の意思決定で、複数スロットに並び順つきでアイテムを配置する設定を扱う。

    • 例: EC のトップページで、LL 枠に商品を表示するランキング(スレート)を出す。

  • 記法

    • 文脈(ユーザ状態)を XRd\mathcal{X}\subset\mathbb{R}^d のベクトル x\mathbf{x} とする。

    • 各スロット l{1,,L}l\in\{1,\dots,L\} の候補集合を Al\mathcal{A}_l とし,スレート空間を S=l=1LAl\mathcal{S}=\prod_{l=1}^L \mathcal{A}_l とする。スレートは s=(a1,,aL)\mathbf{s}=(a_1,\dots,a_L)

    • ポリシー π:XΔ(S)\pi:\mathcal{X}\to\Delta(\mathcal{S}) は文脈 x\mathbf{x} に対するスレート分布。しばしば簡潔化のため factoredπ(sx)=l=1Lπ(alx)\pi(\mathbf{s}\mid \mathbf{x})=\prod_{l=1}^L \pi(a_l\mid \mathbf{x}) を仮定する。

    • 報酬の条件付き期待値を q(x,s)=E[rx,s]q(\mathbf{x},\mathbf{s})=\mathbb{E}[r\mid \mathbf{x},\mathbf{s}] とする。

  • ログ生成

    • logging policy(行動方策) π0\pi_0 が本番でスレートを提示し,ログ D={(xi,si,ri)}i=1nD=\{(\mathbf{x}_i,\mathbf{s}_i,r_i)\}_{i=1}^n が得られる。

    • xip(x)\mathbf{x}_i\sim p(\mathbf{x})siπ0(xi)\mathbf{s}_i\sim \pi_0(\cdot\mid \mathbf{x}_i)rip(rxi,si)r_i\sim p(r\mid \mathbf{x}_i,\mathbf{s}_i)

  • 課題(OPE: Off-Policy Evaluation)

    • 未展開の target policy π\pi の性能 V(π)V(\pi) を,π0\pi_0 のログだけで推定したい。

    • AB テストなしで安全に改善速度を上げるのが目的。

  • スレート特有の難しさ

    • 行動空間が組合せ爆発する。例: 候補 100,枠 L=6L=6 なら 100P6=10099958.58×1011{}_{100}P_6=100\cdot 99\cdots 95\approx 8.58\times 10^{11} 通り。

    • π0(sx)\pi_0(\mathbf{s}\mid \mathbf{x}) が極端に小さくなりがちで,単純な逆傾向重み付け(IPS)は分散が爆発しやすい。

    • スロット間に相互作用(代替・相補・重複回避)があり,単純な線形仮定が崩れやすい(後続セクションで詳述)。

  • 識別の前提(標準的)

    • 重複(共通サポート): π(sx)>0π0(sx)>0\pi(\mathbf{s}\mid\mathbf{x})>0 \Rightarrow \pi_0(\mathbf{s}\mid\mathbf{x})>0

    • バンディット設定の無交絡: 介入は x\mathbf{x} に条件づければ外生的。

    • 一貫性: 観測報酬は提示スレートの反実仮想に一致。

EC の具体例(直感)

  • トップ 6 枠に「新作・人気・値引き」などのアイテムを並べる。

  • π0\pi_0 は現行レコメンダで,π\pi は新モデル。

  • 1 セッションで得られる報酬 rr は「合計クリック」「注文金額」など。

  • 新モデル π\pi を本番投入せずに,ログだけで「そのページ価値」を知りたい。これがスレート OPE。

予測したい推定量(target policy の value)

  • ポリシー価値

    V(π)=Exp(x)Esπ(x)[q(x,s)].V(\pi)=\mathbb{E}_{\mathbf{x}\sim p(\mathbf{x})}\,\mathbb{E}_{\mathbf{s}\sim \pi(\cdot\mid \mathbf{x})}[q(\mathbf{x},\mathbf{s})].
  • ログからの推定

    • π0\pi_0 が生成した DD のみ利用。

    • 代表例(ベースライン)として IPS:

      V^IPS(π;D)=1ni=1nw(xi,si)ri,w(x,s)=π(sx)π0(sx).\widehat{V}_{\mathrm{IPS}}(\pi;D)=\frac{1}{n}\sum_{i=1}^n w(\mathbf{x}_i,\mathbf{s}_i) r_i,\quad w(\mathbf{x},\mathbf{s})=\frac{\pi(\mathbf{s}\mid \mathbf{x})}{\pi_0(\mathbf{s}\mid \mathbf{x})}.
    • 直感: 「π\pi が選びやすい / π0\pi_0 で選ばれにくい」ログに大きな重みが乗る。

EC の具体例(直感)

  • 新モデルが「割引品を上位に置く」傾向なら,π\pi は割引スレートに高確率。

  • 現行では滅多に出なかった割引スレートのログが,評価では極端に重くなる。

  • これが高分散の主因になる。

推定量の目標は MSE(平均二乗誤差)の低減

  • 定義

    MSE(V^)=E[(V^V(π))2].\mathrm{MSE}(\widehat{V})=\mathbb{E}\left[(\widehat{V}-V(\pi))^2\right].

  • 理由

    • OPE の最終目的は「デプロイ時の真の価値に近い推定」。

    • MSE は「正確さ」を 1 つの尺度で測る自然な目的関数。

    • AB テストの代替として,離散化されたログ環境でも比較可能。

MSE は bias と variance に分解でき,両者の低減が重要

  • 分解

    MSE(V^)=(E[V^]V(π))2Bias2+Var(V^)Variance.\mathrm{MSE}(\widehat{V})=\underbrace{(\mathbb{E}[\widehat{V}]-V(\pi))^2}_{\text{Bias}^2}+\underbrace{\mathrm{Var}(\widehat{V})}_{\text{Variance}}.

  • 直感

    • Bias: 推定が体系的にズレる度合い。

      • 例: スロット相互作用を無視する線形モデルでの推定。

    • Variance: サンプルや重みによるバラつき。

      • 例: π0(sx)\pi_0(\mathbf{s}\mid\mathbf{x}) が極小なスレートに巨大な重みがつく。

  • スレート OPE での特徴

    • 行動空間が巨大で,IPS の分散が支配的になりやすい。

    • 分散を抑える工夫(例: 構造活用,重みの再定義,スレートのまとめ方)で Bias–Variance トレードオフ を最適化する必要がある。

  • EC の具体例(直感)

    • 「上位 2 枠のカテゴリ構成が似ているスレートは同等」とまとめて扱うと,重みのばらつきが減る一方,細部の違いによる系統誤差(bias)が生まれる。

    • 目的は MSE 全体の縮小。Bias を少し許容しても,Variance を大きく減らせば得をする。

LIPS 推定量

slate abstraction(潜在表現)の直感と定義

  • 目的

    • 巨大なスレート空間 S\mathcal{S}まとめて扱うことで,重要度重みのばらつきを抑える。

  • 定義(決定論的)

    • slate abstractionϕθ:SZ\phi_\theta:\mathcal{S}\to\mathcal{Z} とおく。

    • 各スレート sSs\in\mathcal{S}抽象クラス z=ϕθ(s)z=\phi_\theta(s) に写像する。

    • ポリシー π\pi誘導分布

      π(zx)=sSπ(sx)1{ϕθ(s)=z}\pi(z\mid x)=\sum_{s\in\mathcal{S}}\pi(s\mid x)\,\mathbf{1}\{\phi_\theta(s)=z\} と定義する(π0\pi_0 も同様)。

  • 定義(確率的)

    • より一般には,確率的抽象化

      zpθ(zx,s),pθ(zx;π)=sSπ(sx)pθ(zx,s)z\sim p_\theta(z\mid x,s),\qquad p_\theta(z\mid x;\pi)=\sum_{s\in\mathcal{S}}\pi(s\mid x)\,p_\theta(z\mid x,s) として扱える。抽象化はエンコーダ(encoder)で実装し,必要に応じてデコーダ(decoder)と組み合わせる。

EC の具体例(直感)

  • ϕθ\phi_\theta を「カテゴリ分布(上位 LL 枠のカテゴリのヒストグラム)」にする。

  • 似たカテゴリ構成のスレートは同じ (z) に入る。

  • 細部(同カテゴリ内の個別商品や並び替え)の違いは抽象化で吸収する。

LIPS(Latent IPS)の定義

  • 決定論的抽象化の LIPS

    V^LIPS(π;D)=1ni=1nπ(ϕθ(si)xi)π0(ϕθ(si)xi)wz(xi,zi)ri,zi=ϕθ(si).\widehat{V}_{\mathrm{LIPS}}(\pi;\mathcal{D})=\frac{1}{n}\sum_{i=1}^n\underbrace{\frac{\pi(\phi_\theta(s_i)\mid x_i)}{\pi_0(\phi_\theta(s_i)\mid x_i)}}_{w_z(x_i,z_i)}r_i,\quad z_i=\phi_\theta(s_i). 抽象クラス (z) の確率比で重み付けする。

  • 確率的抽象化の LIPS

    V^LIPS(π;D)=1ni=1npθ(zixi;π)pθ(zixi;π0)ri,zipθ(xi,si).\widehat{V}_{\mathrm{LIPS}}(\pi;\mathcal{D})=\frac{1}{n}\sum_{i=1}^n\frac{p_\theta(z_i\mid x_i;\pi)}{p_\theta(z_i\mid x_i;\pi_0)}r_i,\quad z_i\sim p_\theta(\cdot\mid x_i,s_i). こちらは潜在変数 (z) に対する混合分布の確率比になる。

EC の具体例(直感)

  • π\piπ0\pi_0 が「カテゴリ構成」レベルでは似ているが,商品個体レベルでは大きく異なる場合,

    • 通常の IPS はスレート確率比 π(sx)/π0(sx)\pi(s\mid x)/\pi_0(s\mid x) が極端になり分散が大きい。

    • LIPS は π(zx)/π0(zx)\pi(z\mid x)/\pi_0(z\mid x) を使うため重みが安定する。

LIPS の統計的性質(厳密な数式と直感)

不偏性(“sufficient slate abstraction”を採用したとき)

  • 条件 (sufficient slate abstraction)

    • 任意の s,sSs,s'\in\mathcal{S} が同じ抽象クラスに入るなら,条件付き期待報酬が等しい

      ϕθ(s)=ϕθ(s)  q(x,s)=q(x,s).\phi_\theta(s)=\phi_\theta(s')\ \Rightarrow\ q(x,s)=q(x,s').

  • 主張

    ED[V^LIPS(π;D)]=V(π).\mathbb{E}_{\mathcal{D}}\left[\widehat{V}_{\mathrm{LIPS}}(\pi;\mathcal{D})\right]=V(\pi). すなわち上の十分条件を満たす抽象化では LIPS は不偏になる。

直感

  • 同じ (z) に入るスレートは報酬が同質

  • したがって,スレートを「まとめて重み付け」しても,期待値は変わらない。

Bias(十分でない抽象化のとき)

  • 表記

    • 標準の重み w(x,s)=π(sx)/π0(sx)w(x,s)=\pi(s\mid x)/\pi_0(s\mid x)

    • π0\pi_0 のもとでの事後 pθ(sx,z;π0)p_\theta(s\mid x,z;\pi_0),および zz の周辺分布 pθ(zx;π0)p_\theta(z\mid x;\pi_0)

  • 偏りの表示式

    Bias(V^LIPS)=Ep(x),pθ(zx;π0)[j<kSpθ(sjx,z;π0)pθ(skx,z;π0)① 同一 z 内の混合度(q(x,sj)q(x,sk))② 同一 z 内の報酬差(w(x,sk)w(x,sj))③ 同一 z 内の重み差].\mathrm{Bias}\left(\widehat{V}_{\mathrm{LIPS}}\right)=\mathbb{E}_{p(x),p_\theta(z\mid x;\pi_0)}\left[\sum_{j<k\le|\mathcal{S}|}\underbrace{p_\theta(s_j\mid x,z;\pi_0)\,p_\theta(s_k\mid x,z;\pi_0)}_{\text{① 同一 }z\text{ 内の混合度}}\underbrace{(q(x,s_j)-q(x,s_k))}_{\text{② 同一 }z\text{ 内の報酬差}}\underbrace{(w(x,s_k)-w(x,s_j))}_{\text{③ 同一 }z\text{ 内の重み差}}\right]. ((j,k) は同一 (z) に属するスレートを走る。)

  • 直感

    • 同一 zz に「多様な」スレートが混ざるほど寄与が大きい。

    • ② 同一 zz 内で期待報酬が異質だと偏りが生まれる。

    • ③ その異質さに対し,π\piπ0\pi_0重みのズレが大きいほど偏りが増える。

    • 結論: 細かい抽象化(情報量が多い)ほど bias は小さくなる

EC の具体例(直感)

  • zz を「トップ2枠のカテゴリ構成」だけにすると,同じ zz でも 3–6 位の並びで報酬差が出る(②)。

  • さらに新モデル π\pi が 3–6 位を大きく組み替えるなら重み差も拡大(③)。

  • このとき zz を「トップ4枠のカテゴリ+割引有無」に細分化すると偏りが減る。

Variance(IPS との比較)

  • 差の分解

    n(VD[V^IPS]VD[V^LIPS])=Ep(x),π0(zx)[E[r2x,z]① 報酬の二乗の局所的スケールVarπ0(sx,z)[w(x,s)]② 同一 z 内の重みばらつき].n\Bigl(\mathbb{V}_{\mathcal{D}}[\widehat{V}_{\mathrm{IPS}}]-\mathbb{V}_{\mathcal{D}}[\widehat{V}_{\mathrm{LIPS}}]\Bigr)=\mathbb{E}_{p(x),\pi_0(z\mid x)}\left[\underbrace{\mathbb{E}[r^2\mid x,z]}_{\text{① 報酬の二乗の局所的スケール}}\cdot\underbrace{\mathrm{Var}_{\pi_0(s\mid x,z)}[w(x,s)]}_{\text{② 同一 }z\text{ 内の重みばらつき}}\right]. 右辺は非負のため,LIPS は常に IPS より分散が小さい

  • 直感

    • ② が大きいほど(同一 zz 内で π/π0\pi/\pi_0 の比がばらつくほど)分散削減が大きい

    • 結論: 粗い抽象化(情報量が少ない)ほど,IPS からの分散削減は大きい。

EC の具体例(直感)

  • zz を「ページに割引品が含まれるか否か」だけにすると,多くのスレートが同一 zz に入る。

  • π/π0\pi/\pi_0 の差が大きいスレートが混ざるため ② が大きく,分散は強く下がる

  • ただし報酬の異質性(②)と重み差(③)が残るため偏りは増える


Bias–Variance トレードオフ

  • 原理

    • 細かい抽象化ϕθ\phi_\theta の情報量が多い)

      • Bias↓(同一 (z) 内の報酬差・重み差が縮小)。

      • Variance↑(クラスが小さくなり重みのばらつき抑制効果が減少)。

    • 粗い抽象化(情報量が少ない)

      • Bias↑

      • Variance↓(重みばらつきの集約効果が最大化)。

  • 結論

    • 目標は MSE = Bias(^2)+Variance の最小化。

    • 抽象化の粒度(Z|\mathcal{Z}|ϕθ\phi_\theta の表現力)でトレードオフを調整する。

EC の具体例(設計指針)

  • まずは「カテゴリ構成+上位ポジションの価格帯」など,報酬に直結しやすい特徴で抽象化。

  • 期待報酬の同質性が低いときは細分化,重み爆発が気になるときは統合

  • 実運用では次節の 最適化目的(MSE 近似)ϕθ\phi_\theta を自動調整する(後述)。

slate abstraction の最適化

最適化の objective function

  • 目的

    • LIPS の MSE(bias2+variancebias^2+variance)を直接小さくする抽象化 pθ(zx,s)p_\theta(z\mid x,s) を学習する。

    • そのために,エンコーダ(抽象化)pθ(zx,s;π0)p_\theta(z\mid x,s;\pi_0),デコーダ(再構成)pψ(sx,z;π0)p_\psi(s\mid x,z;\pi_0),および潜在表現からの報酬予測器 q^ω(x,z)\hat q_\omega(x,z) を同時に最適化する。

  • 定式化(原論文の式)

    (θ^,ψ^,ω^)=argmaxθ,ψminωi=1nL(xi,si,π0;θ,ψ,ω)(\hat\theta,\hat\psi,\hat\omega)=\arg\max_{\theta,\psi}\min_{\omega}\sum_{i=1}^n \mathcal{L}\left(x_i,s_i,\pi_0;\theta,\psi,\omega\right)
    L(x,s,π0;θ,ψ,ω)=Epθ(zx,s;π0)[logpψ(sx,z;π0)](A) 再構成Epθ(zx,s;π0)[(rq^ω(x,z))2](B) 報酬適合βKL(pθ(zx,s;π0)pψ(zx;π0))(C) 事前整合(確率化)\mathcal{L}(x,s,\pi_0;\theta,\psi,\omega)= \underbrace{\mathbb{E}_{p_\theta(z\mid x,s;\pi_0)}\bigl[\log p_\psi(s\mid x,z;\pi_0)\bigr]}_{\text{(A) 再構成}}- \underbrace{\mathbb{E}_{p_\theta(z\mid x,s;\pi_0)}\bigl[(r-\hat q_\omega(x,z))^2\bigr]}_{\text{(B) 報酬適合}}- \underbrace{\beta\,\mathrm{KL}\left(p_\theta(z\mid x,s;\pi_0)\Vert p_\psi(z\mid x;\pi_0)\right)}_{\text{(C) 事前整合(確率化)}}
    • β>0\beta>0bias–variance トレードオフを制御するハイパーパラメータ。小さいほど bias を減らす(かわりに variance が増える)。大きいほど variance を減らす(かわりに bias が増える)。SLOPE や PAS-IF などのログだけでのハイパーパラメータ選択が使える。

なぜ MSE 低減に寄与するか(各項の数理的直感)

まず,論文の bias・variance の解析(LIPS の期待値の偏りと IPS との差の分散)を再掲する。

  • Bias(確率的抽象化時の表示式)

    Bias(V^LIPS)=Ep(x),pθ(zx;π0)[j<kpθ(sjx,z;π0)pθ(skx,z;π0)(i) 同一 z 内の混合度(q(x,sj)q(x,sk))(ii) 同一 z 内の報酬差(w(x,sk)w(x,sj))(iii) 同一 z 内の重み差]\mathrm{Bias}\left(\widehat V_{\mathrm{LIPS}}\right)=\mathbb{E}_{p(x),p_\theta(z\mid x;\pi_0)}\left[\sum_{j<k}\underbrace{p_\theta(s_j\mid x,z;\pi_0)\,p_\theta(s_k\mid x,z;\pi_0)}_{\text{(i) 同一 }z\text{ 内の混合度}}\underbrace{\bigl(q(x,s_j)-q(x,s_k)\bigr)}_{\text{(ii) 同一 }z\text{ 内の報酬差}}\underbrace{\bigl(w(x,s_k)-w(x,s_j)\bigr)}_{\text{(iii) 同一 }z\text{ 内の重み差}}\right]

    ここで w(x,s)=π(sx)/π0(sx)w(x,s)=\pi(s\mid x)/\pi_0(s\mid x)

  • Variance(IPS からの削減量)

    n(Var[V^IPS]Var[V^LIPS])=Ep(x),π0(ϕθ(s)x)[E[r2x,ϕθ(s)]Varπ0(sx,ϕθ(s))[w(x,s)]]n\Bigl(\mathrm{Var}[\widehat V_{\mathrm{IPS}}]-\mathrm{Var}[\widehat V_{\mathrm{LIPS}}]\Bigr)=\mathbb{E}_{p(x),\pi_0(\phi_\theta(s)\mid x)}\left[\mathbb{E}\bigl[r^2\mid x,\phi_\theta(s)\bigr]\cdot \mathrm{Var}_{\pi_0(s\mid x,\phi_\theta(s))}\bigl[w(x,s)\bigr]\right]

    右辺は非負で,LIPS は IPS より分散が小さくなる。粗く・確率的な抽象化ほど削減が大きい。

この解析に対して,L\mathcal{L}各項が何を抑えるかを対応づける。

(A) 再構成項 E[logpψ(sx,z)]\mathbb{E}[\log p_\psi(s\mid x,z)] —— identifiability を高めて bias を下げる

  • 役割

    • (x,z)(x,z) から元の ssできるだけ一意に復元させる。

    • 数理的には,(x,z)(x,z) に条件づけたときの pθ(sx,z;π0)p_\theta(s\mid x,z;\pi_0)エントロピーを下げる

  • Bias 式との対応

    • 上の (i) の積 pθ(sjx,z),pθ(skx,z)p_\theta(s_j\mid x,z),p_\theta(s_k\mid x,z)小さくする。

    • 直感: 同じ (z) に属するスレートがほぼ一つになれば,混合度が 0 に近づき,その分 bias が減る。

  • EC の具体例

    • zz を「上位カテゴリ分布+価格帯の粗いビニング」にすると,その zz を見れば並びがかなり特定できるように学習させる。似た並びが混ざらなければ ii が小さくなる。

  • 根拠

    • 「第1項はスレートの識別性(identifiability)を測る。大きいほど bias 低減に効く」と論文は述べる。

(B) 報酬適合項 E[(rq^ω(x,z))2]\mathbb{E}[(r-\hat q_\omega(x,z))^2] —— 同一 zz の報酬同質化で bias を下げる

  • 役割

    • 潜在 zz から報酬をよく予測できるようにする。

    • (x,z)(x,z) が報酬にとって十分(あるいはほぼ十分)な統計量になるよう促す。

  • Bias 式との対応

    • (ii) の報酬差 q(x,sj)q(x,sk)|q(x,s_j)-q(x,s_k)| を,同じ zz 内で小さくする。

    • 直感: 同じ zz に入るスレート同士は似た期待報酬を持つようにまとまるので,まとめ重みによる系統誤差が減る。

  • EC の具体例

    • zz を「カテゴリ構成+割引有無+平均価格帯」とし,q^ω(x,z)\hat q_\omega(x,z)CTR/GMV をよく当てるように学習する。割引の有無が同じ (z) なら報酬が近づき (ii) が縮小する。

  • 根拠

    • 「第2項は潜在変数がどれだけ報酬を予測できるかを測る。大きいほど bias 低減に効く」と論文は説明する。

(C) 事前整合項 β,KL(pθ(zx,s),,pψ(zx))\beta,\,\mathrm{KL}\left(p_\theta(z\mid x,s),\Vert,p_\psi(z\mid x)\right) —— 抽象化を粗く・確率的にして variance を下げる

  • 役割

    • 事後 pθ(zx,s)p_\theta(z\mid x,s)コンテキスト依存の事前 pψ(zx)p_\psi(z\mid x) に近づけ,zz過度に情報的にしすぎないよう制御する(β\beta が大きいほど強く)。

  • Variance 式との対応

    • 抽象化が粗く・確率的になるほど,同じ (z) 内での Varπ0(sx,z)[w(x,s)]\mathrm{Var}_{\pi_0(s\mid x,z)}[w(x,s)]小さくなり,分散削減が大きくなる

    • 直感: 「潜在空間の粒度を粗くする=多くのスレートを同じ zz にまとめる」ことで,極端な重みのばらつきを打ち消す。

  • EC の具体例

    • zz を「割引の有無」程度にまで粗くする (β\beta を大きくする)と,重みのばらつきが強く抑えられ,IPS と比べて分散が大幅に縮む。

  • 根拠

    • 論文はこの KL 正則化が潜在重み(zz-レベルの重要度比)を 1 に近づけて分散を減らすと述べ,β\beta がトレードオフを制御するハイパーパラメータであると明示する。

まとめ:最適化が LIPS の MSE を下げる理由

  • (A) と (B) は bias の上界因子 (i)(ii) をそれぞれ抑える。

  • (C) は variance の主要因(同一 zz 内の重みばらつき)を抑える。

  • よって β\beta とモデル容量(Z|\mathcal{Z}|,ネットワークの表現力)で Bias–Variance トレードオフを連続的に調整できる。

  • 実際,論文は十分(sufficient)な抽象化が常に最良とは限らず,あえて不十分な抽象化で分散を大きく減らしつつ小さな biasにとどめる方が MSE が下がる場合を示す(トイ例で MSE が 1.01.00.450.45)。

EC の実装指針(要点)

  • まず (A)(B) を満たす 「報酬が同質になる軸」(カテゴリ分布,割引有無,価格帯など)で抽象化を設計する。

  • その上で (C) の β\beta を調整し,重み分散が許容範囲に収まるよう粗さ・確率性を上げる。

  • ハイパーパラメータはログのみでのデータ駆動な選択(SLOPE, PAS-IF)を用いる。

実験結果

supervised-to-bandit の概要

  • 方針

    • 既存の多ラベル分類データをスレート・バンディット設定に写像する。

    • 文書ベクトルを文脈 x\mathbf{x}、ラベルをスロット別アクションとして扱う。

    • 過去研究に倣う標準的な “supervised-to-bandit” 手続きを踏襲する。

  • 実装

    • 文書の生テキストを Sentence-Transformer で埋め込み、PCA2020 次元に圧縮し文脈を得る。

    • ラベル頻度の多い上位 1,000 ラベルから、スロット数 LL に対して L×10L\times 10 個をサンプリング。

    • それを LL 個の互いに素なアクション集合 {Al}l=1L\{ \mathcal{A}_l \}_{l=1}^L(各 Al=10|\mathcal{A}_l|=10)に分解する。

EC の具体例(直感)

  • 文書をユーザ・セッション特徴に、ラベルを商品に見立てる。

  • 「上位 LL 枠に表示する商品候補群」をスロットごとに 10 個ずつ用意するイメージ。

dataset の説明

  • 対象

    • Wiki10-31K, Eurlex-4K極大分類データを使用。

    • ラベル数はおよそ 31K(Wiki10)、4K(Eurlex)。

reward の説明

  • スロット別スコア

    • ラベル aAla\in\mathcal{A}_l が当該文書の正例なら

      ql(x,a)=1ηa,q_l(\mathbf{x},a)=1-\eta_a,

      そうでなければ

      ql(x,a)=ηa,ηaUnif[0,0.5].q_l(\mathbf{x},a)=\eta_a,\quad \eta_a\sim\mathrm{Unif}[0,0.5].

  • 非線形スレート報酬(相互作用あり)

    • 現実の報酬は未知なので、3 種の非線形関数で合成する:

      (1)  q(x,s)=1L/2l=1L/2ql(x,al)+1L/21l=1L/21w(al,al+1),\text{(1)}\; q(\mathbf{x},\mathbf{s})=\frac{1}{\lfloor L/2\rfloor}\sum_{l=1}^{\lfloor L/2\rfloor} q_l(\mathbf{x},a_l)+\frac{1}{\lfloor L/2\rfloor-1}\sum_{l=1}^{\lfloor L/2\rfloor-1} w(a_l,a_{l+1}),

      (2)  q(x,s)=1L/2(q1(x,a1)+l=2L/2w(al1,al)ql(x,al)),\text{(2)}\; q(\mathbf{x},\mathbf{s})=\frac{1}{\lfloor L/2\rfloor}\Bigl(q_1(\mathbf{x},a_1)+\sum_{l=2}^{\lfloor L/2\rfloor} w(a_{l-1},a_l)\,q_l(\mathbf{x},a_l)\Bigr),

      (3)  q(x,s)=12(min1lL/2ql(x,al)+max1lL/2ql(x,al)),\text{(3)}\; q(\mathbf{x},\mathbf{s})=\frac{1}{2}\left(\min_{1\le l\le \lfloor L/2\rfloor} q_l(\mathbf{x},a_l)+\max_{1\le l\le \lfloor L/2\rfloor} q_l(\mathbf{x},a_l)\right),

      ただし w(al,al+1)N(0,1)w(a_l,a_{l+1})\sim\mathcal{N}(0,1)

    • 半分のスロットのみl=1,,L/2l=1,\dots,\lfloor L/2\rfloor)が報酬に寄与するよう設計。

      • これにより (a1,,aL/2)(a_1,\dots,a_{\lfloor L/2\rfloor})十分な抽象化となる。

      • “あえて不十分な抽象化” で MSE を下げられるかを検証可能。

    • 観測報酬は rN(q(x,s),σ2)r\sim \mathcal{N}\bigl(q(\mathbf{x},\mathbf{s}),\sigma^2\bigr)σ=0.1\sigma=0.1

EC の具体例(直感)

  • (1) は隣接スロットの相性(同系統の商品の組み合わせ効果)。

  • (2) は上位を起点にした掛け算的効果(1 位が強いと 2 位以降の寄与が増す)。

  • (3) はボトルネック+目玉商品の折衷(最悪枠と最高枠の平均)。

behavior policy / target policy の説明

  • 共通

    • まず REINFORCE で基礎予測器 q~(x,a)\tilde q(\mathbf{x},a) を学習。

  • logging policy π0\pi_0

    π0(sx)=l=1L((1ϵ0)exp(γ0q~(x,al))aAlexp(γ0q~(x,a))+ϵ0Al)\pi_0(\mathbf{s}\mid\mathbf{x})=\prod_{l=1}^L\left((1-\epsilon_0)\frac{\exp\bigl(\gamma_0\,\tilde q(\mathbf{x},a_l)\bigr)}{\sum_{a\in\mathcal{A}_l}\exp\bigl(\gamma_0\,\tilde q(\mathbf{x},a)\bigr)}+\frac{\epsilon_0}{|\mathcal{A}_l|}\right)
  • target policy π\pi

    π(sx)=l=1L((1ϵ)1{al=al}+ϵAl),al=argmaxaAlq~(x,a)\pi(\mathbf{s}\mid\mathbf{x})=\prod_{l=1}^L\left((1-\epsilon)\,\mathbf{1}\{a_l=a_l\}+\frac{\epsilon}{|\mathcal{A}_l|}\right),\quad a_l=\arg\max_{a\in\mathcal{A}_l}\tilde q(\mathbf{x},a)
  • 既定パラメータ

    • (γ,ϵ0,ϵ)=(1.0,0.1,0.3)(\gamma,\epsilon_0,\epsilon)=(-1.0,\,0.1,\,0.3)

    • 既定の実験条件は L=8L=8, Al=10|\mathcal{A}_l|=10, n=4000n=4000

    • 50 個の乱数種でログを作成。真値で規格化した MSE (MSE(V^(π))/V(π)2\mathrm{MSE}(\widehat V(\pi))/V(\pi)^2)で精度比較。

EC の具体例(直感)

  • π0\pi_0温度つきソフトマックス+ϵ\epsilon-greedy。現行レコメンダの振る舞い。

  • π\pi は 貪欲 + ϵ\epsilon-greedy 。新モデルはほぼ貪欲だが、少し探索する。

比較手法と LIPS の設定

  • ベースライン

    • DM, IPS, PI, MIPS を比較対象とする。

    • MIPS は真の報酬が依存する前半 L/2\lfloor L/2\rfloor スロットのみを用いる設計で、理論上 unbiased かつ IPS より低分散だが、実運用では真の依存構造が不明なので非現実的、という位置づけ。

  • LIPS の実装

    • 離散抽象空間の次元は Z=100|\mathcal{Z}|=100

    • 正則化係数 β{0.01,0.1,1.0,10.0}\beta\in \{0.01,0.1,1.0,10.0\}SLOPE によりログのみで選択。

実験結果の解説

  • スレート長 LL の影響

    • L4,6,,12L\in{4,6,\dots,12}非線形報酬 (1)–(3) を横断比較。

    • LIPS は一貫して最小 MSE

    • PILL が大きくなると 分散増線形性破れによるバイアス増で MSE が悪化。

    • IPS/MIPS重み分散が大きいため LIPS に劣後。

    • 興味深い点として、十分な抽象化(前半スロットのみ)を使う MIPS より、最適化した“不十分な抽象化” を使う LIPS の方が MSE で勝る。

      • 分散大幅減小バイアスの両立が鍵。

  • データ数 nn の影響

    • nn を増減させても、LIPS 優位は維持。

    • 少数データ域では特に分散抑制の恩恵が大きい。

  • 追加検証(付録)

    • Delicious データでも同様の傾向を確認。

    • β\beta のアブレーションでは、β\beta を大きくすると分散↓バイアス↑、小さくするとバイアス↓分散↑という理論整合的トレードオフを観測。

    • スレート重み w(x,s)w(\mathbf{x},\mathbf{s}) の経験分布は長い裾を持ち、IPS の分散課題を裏づける。

EC の具体例(直感)

  • MIPS は「上位 L/2\lfloor L/2\rfloor 枠だけを見れば十分」という理想の知識を前提に設計した重み付けに相当。

  • 実務ではその知識が無い。

  • LIPS はログから抽象化を学び、「カテゴリ構成」「割引の有無」「価格帯」など報酬の同質化軸重みの安定化を両立させ、結果として MSE を最小化する。

実装メモ(再現のための抜粋)

  • 抽象化・再構成・報酬器は隠れ 100 次元の MLP

  • Adam、学習率 1e51\mathrm{e}{-5}

  • 報酬損失はスケールを合わせるため 100 倍

  • β=0.01\beta=0.011000 エポック学習後、β{0.1,1.0,10.0}\beta\in\{0.1,1.0,10.0\}500 エポックずつ微調整。