Sanovの定理で躓いたところ

はじめに

Foundation of Machine Learning のSanovの定理を読んでいる際に、躓いた部分があるので、それの備忘録。

結論:パラメータの範囲に気をつける!

定理の主張(誤植ver)

$X_1, \ldots, X_n$を独立同分布で、$[0, 1]$に値を取る確率変数とし$E[X_1] = q$とする。また、$\hat{X} = 1/m \sum_{i=1}^{n}p_i$とする。このとき、任意の$p \in [0, 1]$に対して、

\begin{align}
P[\hat{X} \geq p] \leq e^{-m KL(p || q)}
\end{align}

が成り立つ。(Foundation of Machine Learning より)

どこがおかしい?

証明では任意パラメータ$t > 0$を導入して、Chernoff限界を用いて上界を求めているが、最後の$t$での最適化を行うときに、

$$ t = \log \frac{(1-q)p}{q(1-p)} $$

という形が出てくる。このとき、$t$の範囲から、

\begin{align}
\log \frac{(1-q)p}{q(1-p)} > 0 \
\Leftrightarrow \ q > p
\end{align}

となる。なので、定理が成り立つような$p$の範囲は$q > p$である。

編集後記

  • 「p = 0入れたら左辺=1になるから、成り立たんやん。。。」と思ってずっと悩んでいたが、わかってしまえば単純な落とし穴だった。
  • Sanovの定理は、調べてみるともっと複雑な記述が見られて大変そうだった。
  • chatGPTとのやり取りが、面白かったので一部抜粋

自分:「X_iの値域が[0, 1]だから、\hat{X}も[0, 1]なわけで、左辺の確率は絶対に1になるはず。それなのに、右辺は1以下になってる。これはどういうこと?」

GPT:(一部抜粋)「

p=0 の場合の解釈

今回の場合、p=0 においては、確率 $P[\hat{X} \geq 0]=1$ であるのに対して、右辺の式が $(1−q)^m$ であり、これが 1 未満になる場合があります。しかし、これは単に右辺が上界であり、左辺が常にこれより小さいことを示しているに過ぎません。

つまり、不等式の形自体は問題なく、右辺が 1 よりも小さい場合もあくまで「上界」としての役割を果たしているのです。これは以下のようにまとめられます。

  • 左辺: 実際の確率、今回の場合は 1(特に p=0では)。
  • 右辺: 上界を提供するもの。たとえこの上界が 1 より小さくなったとしても、これはあくまで保証としての役割を果たしています。

結論

不等式は「任意の p に対して確率の上界を与える」ためのものであり、p=0 において右辺が 1 以下になることは、不等式の構造上の矛盾を示すものではありません。むしろ、上界として期待される挙動を示していると言えます。」

徹夜明けとかだったら、納得してしまいそう笑

コメント

タイトルとURLをコピーしました