カーネル密度推定(カーネルみつどすいてい、英: kernel density estimation)は、統計学において、確率変数の確率密度関数を 推定 するノンパラメトリック手法のひとつ。 エマニュエル・パルツェン の名をとってパルツェン窓(英: Parzen window)とも。大まかに言えば、ある母集団の標本のデータが与えられたとき、カーネル密度推定を使えばその母集団のデータを外挿できる。
ヒストグラムは、一様な カーネル関数 によるカーネル密度推定量と見ることもできる。
x1, x2, ..., xn を(未知の)確率密度関数 ƒ を持つ独立同分布からの標本とする。 カーネル関数 K、バンド幅(平滑化パラメータ)h のカーネル密度推定量(英: kernel density estimator)とは
のことである。カーネル関数としては、標準的なガウス関数
(平均がゼロで分散が1)を採用することが多い。
あまり平滑でない推定器(例えばヒストグラム密度推定器)は漸近的に一致させられるが、他の推定器は不連続であるか、カーネル密度推定より収束が遅い。カーネル密度推定器は、標本を一定幅の箱に入れて数えるのではなく、カーネル関数から決定されたコブを各標本に与えるものと見ることができる。つまり、「コブの総和」によって推定が形成されるため、結果として非常に滑らかになる(下図参照)。
確率密度関数 ƒ の L2 リスク関数 を とする。確率密度関数 ƒ とカーネル関数 K に関する弱い仮定から次が得られる。
理論的 リスク関数 を最小化することで、最適なバンド幅は以下のように示される。
ここで
である。最適なバンド幅を選択したとき、リスク関数は であり c4 > 0 はある定数である。弱い仮定の下で、カーネル推定器より早く収束するノンパラメトリックな推定器は存在しないことが示される。なお、n−4/5 という収束レートは、パラメトリックな手法での典型である n−1 という収束レートよりも遅い。
ksdensity
関数で実装されている。density
関数で実装されている。kdensity
で実装されている。例えば、histogram x, kdensity
proc kde
は1変量または2変量のカーネル密度推定に使われる。