Randomized Response のベイズ推論(1)

Randomized Response は、センシティブな質問を含むアンケートなどを実施するとき、個々人の回答を知らずにその統計量(yes の割合など)を得る手法の1つ。

例えばキセル乗車や浮気などの発生割合を調べたいとき、「あなたはキセル乗車をしたことがありますか？」とアンケートを取っても正直に答えてはもらえないだろう。
そうしたセンシティブな質問に対する個人の回答は隠しながら、調査者がほしい全体における割合を統計的に推定する手法がいくつかあり、Randomized Response はその元祖とも言える手法になる。

基本的な枠組みは次の通り。
質問 $Q$ に対する回答者の答えを確率変数 $X$ で表す。
回答者は真の回答 $X$ を知られたくないので、 $X$ をランダム化した $Y$ を集計者に返す。
集計者は $N$ 人の回答者のランダム化された回答 $Y_1,\cdots,Y_N$ から $\mathbb{E}[X]$ などを推定する。
この枠組みは untrusted curator model と呼ばれる。

この $X, Y$ をどのように定めるかでランダム化のモデルが決まる。
一番基本的な Randomized Response では、yes/no で回答する質問 $Q$ を想定し、 $X$ は $X=1$ なら yes、 $X=0$ なら no という2値の確率変数とする。
$Y$ も同じ2値の確率変数で、 $X=1$ (yes) のとき、確率 $p_{11}$ で $Y=1$ 、確率 $1-p_{11}$ で $Y=0$ をとる。 $X=0$ (no) のときは、確率 $p_{00}$ で $Y=0$ 、確率 $1-p_{00}$ で $Y=1$ をとる。
パラメータ $p_{11}, p_{00}$ は「回答を正直に送信する確率」と考えればわかりやすいかも。

$\begin{cases} P(Y=1|X=1)=p_{11} & P(Y=0|X=1)=1-p_{11} \\ P(Y=0|X=0)=p_{00} & P(Y=1|X=0)=1-p_{00} \end{cases}$

$X$ のモデルを $P(X=1)=\pi$ とおき、パラメータ $\pi$ を $Y$ の観測値 $\left\{y_1,\cdots,y_N\right\}$ から最尤推定することで、真の解答における $X=1$ (yes) の割合を推定することができる。
$y_n=1$ の個数を $a$ とおくと、尤度 $L$ は

$\begin{eqnarray} L&=&\prod_{n=1}^N P(Y=y_n)=P(Y=1)^a \cdot P(Y=0)^{N-a}\\ &=& \left(P(Y=1|X=1)P(X=1)+P(Y=1|X=0)P(X=0)\right)^a \\ &&\cdot \left(P(Y=0|X=1)P(X=1)+P(Y=0|X=0)P(X=0)\right)^{N-a}\\ &=& \left(1-p_{00}+(p_{11}+p_{00}-1)\pi\right)^a \left(p_{00}-(p_{11}+p_{00}-1)\pi\right)^{N-a} \end{eqnarray}$

となり、これを最大にする $\pi=\hat\pi$ は

$\displaystyle\hat\pi=\frac{p_{00}-1+a/N}{p_{11}+p_{00}-1}$

と求められる。
この推定値 $\hat\pi$ の平均と分散も計算できる。過程は省略すると、

$\displaystyle\mathbb{E}[\hat\pi]=\pi$
$\displaystyle\rm{Var}[\hat\pi]=\frac{1/4-\{p_{00}-1/2-(p_{00}+p_{11}-1)\pi\}^2}{(p_{00}+p_{11}-1)^2N}$

となり、 $\hat\pi$ は不偏推定量であることがわかる。

分散の式より、パラメータ $p_{11}, p_{00}$ で推定値の精度が変わることがわかるが、同様に安全性(プライバシー保護の度合い)も変わる。例えば極端な場合を考えるとわかりやすい。
$p_{11}=p_{00}=1$ では、常に $Y=X$ であり、集計者は真の回答を知ることができる。したがって推定値はそのまま真の解(標本平均)となるが、安全性は皆無である。
一方、 $p_{11}=p_{00}=1/2$ では、 $Y$ は常に 1/2 の確率で 1 となり、 $X$ によらず独立である。つまり $Y$ から $X$ を知ることは不可能で完璧に安全だが、欲しい統計量も当然得られない。

このように推定の精度と安全性はトレード・オフの関係にあり、許容できる安全性の範囲で精度が高くなるように $p_{11}, p_{00}$ を決める必要がある。
そのために必要な「安全性」を定量的に測る方法が局所差分プライバシー(local differential privacy)である。*1
untrusted curator model に基づくランダム化手法は Randomized Response 以外にもいくつかあり、そういった手法を同じ安全性（とみなす）で揃えたときの精度の差異などを検証するときにも差分プライバシーの考え方は役に立つ。
が、この記事ではそこは本題ではないので紹介だけにとどめておく。

シミュレーション

Randomized Response をシミュレーションで実験してみよう。
$N$ 人のユーザのうち 3割が yes と答えるアンケート( $\pi=0.3$ )について、 $p_{00}=p_{11}=2/3$ の Randomized Response でランダム化された回答(1/3 の確率で嘘を返す)から $\pi$ を推定してみる。
これを $N=100,1000,10000$ でそれぞれ推定してみた結果をヒストグラムにしたのが次の図である。
回答者数 $N$ を増やすごとに理論値通りに分散が小さくなり、推定の精度が上がることわかる。

f:id:n_shuyo:20210114182952p:plain
f:id:n_shuyo:20210114182959p:plain
f:id:n_shuyo:20210114182955p:plain

また最尤推定解は実のところ線形方程式の解なので、 $\pi$ は割合であり、0 から 1 の間の値であることなど斟酌してくれない。実際、 $N=100$ では推定値が負になることもあることがヒストグラムからもわかる。
これを解決する方法の1つが、次回の記事で紹介する推論のベイズ化である。

shuyo.hatenablog.com

References

Warner, Stanley L. "Randomized response: A survey technique for eliminating evasive answer bias." Journal of the American Statistical Association 60.309 (1965): 63-69.
N. Holohan, D. J. Leith, and O. Mason. “Optimal differentially private mechanisms for randomised response.” IEEE Trans. Inf. Forensics Security, 12(11):2726–2735, Nov 2017.

*1:差分プライバシーは上述の通り「ランダム化手法の安全度(プライバシー保護の度合い)を定量的に測る枠組み」のことなので、最近巷でまかり通っている「(局所)差分プライバシーを使ってユーザーのプライバシーを守る」という謳い文句はおかしい。「差分プライバシーによって安全性を保証されたプライバシー保護技術を採用している」とか言ってほしい。