Skip to content

Instantly share code, notes, and snippets.

@sunbluesome
Created June 9, 2018 14:15
Show Gist options
  • Save sunbluesome/44fa6a747be6d0d75e7f2b0cecad1429 to your computer and use it in GitHub Desktop.
Save sunbluesome/44fa6a747be6d0d75e7f2b0cecad1429 to your computer and use it in GitHub Desktop.
PRML_chap1: BayesianCurveFitting
Display the source blob
Display the rendered blob
Raw
{
"cells": [
{
"cell_type": "code",
"execution_count": 1,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Julia Version 0.6.2\n",
"Commit d386e40c17* (2017-12-13 18:08 UTC)\n",
"Platform Info:\n",
" OS: Windows (x86_64-w64-mingw32)\n",
" CPU: AMD Ryzen 7 1700 Eight-Core Processor \n",
" WORD_SIZE: 64\n",
" BLAS: libopenblas (USE64BITINT DYNAMIC_ARCH NO_AFFINITY Barcelona)\n",
" LAPACK: libopenblas64_\n",
" LIBM: libopenlibm\n",
" LLVM: libLLVM-3.9.1 (ORCJIT, generic)\n"
]
}
],
"source": [
"versioninfo()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"__多項式__\n",
"$$y(x,{\\bf{w}}) = w_0 + w_1 x + w_2 x^2 + \\cdots + w_M x^M = \\sum_{j=0}^M w_j x^j$$\n",
"\n",
"を使って、与えられた観測値$t$の予測をすることを考える。 wはパラメータベクトル、Mは次数である。目標値に対する不確実性は確率分布で表現できる。今回は観測値の平均が個の多項式に等しいガウス分布に従うものと考える。すなわち\n",
"\n",
"$$p(t|x,{\\bf{w}},\\beta) = \\mathcal{N}\\left(t|y(x,{\\bf{w}},\\beta^{-1})\\right)$$\n",
"\n",
"と書ける。$\\beta$は分散の逆数で、精度パラメータと呼ばれる。\n",
"\n",
"今、独立な訓練データ$\\{{\\bf{x,w}}\\}$が得られたとすると、尤度は\n",
"\n",
"$$p({\\bf{t}}|{\\bf{x,w}},\\beta) = \\prod_{n=1}^{N}\\mathcal{N}\\left(t_n|y(x_n,{\\bf{w}}),\\beta^{-1}\\right)$$\n",
"\n",
"と書ける。計算しにくいのと、数値計算での桁落ちを防ぐ意味で対数をとって対数をとると\n",
"\n",
"$$\\ln p({\\bf{t}}|{\\bf{x}},{\\bf{w}},\\beta)=-\\frac{\\beta}{2} \\sum_{n=1}^{N}\\{y(x_n,{\\bf{w}})-t_n\\}^2+\\frac{N}{2} \\ln \\beta - \\frac{N}{2} \\ln (2\\pi)$$\n",
"\n",
"という形の対数尤度が得られる。\n",
"\n",
"この対数尤度を最大化する${}\\bf{w}$を求めることを考える。"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"最小二乗法の時と同じように、wについての微分が0になることを考えれば、${\\bf{w}}$に依存しない第2項、第3項は考えなくてよいことになる。すなわち、尤度の最大化は二乗和誤差の最小化と等価であることがわかる。\n",
"\n",
"$\\beta$は推定された${\\bf{w}}_{ML}$を用いて以下の式で推定できる。(MLはMaximum Liklihoodの頭文字)\n",
"$$\\frac{1}{\\beta_{ML}} = \\frac{1}{N} \\sum_{n=1}^{N} \\left\\{y(x_n,{\\bf{w}}_{ML})-t_n \\right\\}^2$$\n",
"\n",
"なんでって思う人のために書いておくと、推定された${\\bf{w}}_{ML}$を使って実際に予測して、データとの当てはまりを二乗和誤差の期待値として計算しているだけです。\n",
"\n",
"今回の話では、最小二乗法で${\\bf{w}}_{ML}$を求めて、上式で$\\beta_{ML}$を求めればよいということになりますね。\n",
"\n",
"これらを尤度の式へ代入すれば、観測値$t$に対する予測分布が得られたことになる。\n",
"\n",
"$$p(t|x,{\\bf{w}}_{ML},\\beta_{ML}) = \\mathcal{N}\\left(t|y(x,{\\bf{w}}_{ML}),\\beta^{-1}_{ML}\\right)$$"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"---\n",
"ここまでは、データの予測に対する不確実性の話だった。 \n",
"では、推定した${\\bf{w}}$は観測値$t$に対してどのくらい不確実性があるのだろうか。 \n",
"\n",
"今までの話と同様に、${\\bf{w}}$に対しても分布を導入することで推定の不確実性を表現できる。"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"簡単のため、${\\bf{w}}$の各成分が平均0の独立なガウス分布に従っているとすると、その事前分布は\n",
"\n",
"$$p({\\bf{w}}|\\alpha) = \\mathcal{N} ({\\bf{w}}|0,\\alpha^{-1} {\\bf{I}}) = \\left(\\frac{\\alpha}{2\\pi}\\right)^{(M+1)/2} \\exp \\left\\{-\\frac{\\alpha}{2} {\\bf{w}}^\\mathrm{T} {\\bf{w}}\\right\\}$$\n",
"\n",
"と書ける。$\\alpha$は精度パラメータである。$\\alpha$のようなモデルパラメータの分布を制御するパラメータはハイパーパラメータ(hyperparameter)と呼ばれ、自動で決まるようなものではないので注意。詳しくないが、文献ベースで妥当なパラメータの範囲を調べたりするのが通常?なんの情報も持っていなければ、パラメータの範囲を小さく(すわなち事前分布の分散を大きく)して使うのが簡単な使い方だと思われる。あんまり適当にやると、推定値のバイアスが云々という話になるらしいので注意が必要かもしれない。"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"さて、話を元に戻すと、事前分布が得られたのでベイズの定理より、尤度関数と積をとれば事後分布に__比例する__形の式が得られる。\n",
"\n",
"$$p({\\bf{w}}|{\\bf{x,t}},\\alpha,\\beta) \\propto p({\\bf{t}}|{\\bf{x,w}},\\beta)p({\\bf{w}}|\\alpha)$$\n",
"\n",
"イコールじゃないことには注意が必要である。\n",
"\n",
"$$p({\\bf{w}}|\\alpha) = \\mathcal{N} ({\\bf{w}}|0,\\alpha^{-1} {\\bf{I}}) = \\left(\\frac{\\alpha}{2\\pi}\\right)^{(M+1)/2} \\exp \\left\\{-\\frac{\\alpha}{2} {\\bf{w}}^\\mathrm{T} {\\bf{w}}\\right\\}$$\n",
"\n",
"$$p({\\bf{t}}|{\\bf{x,w}},\\beta) = \\prod_{n=1}^{N}\\mathcal{N}\\left(t_n|y(x_n,{\\bf{w}}),\\beta^{-1}\\right)$$\n",
"\n",
"より、事後確率の最大化は\n",
"\n",
"$$\\frac{\\beta}{2} \\sum_{n=1}^{N} \\left\\{y(x_n,{\\bf{w}}) - t_n\\right\\}^2 + \\frac{\\alpha}{2}{\\bf{w}}^\\mathrm{T} {\\bf{w}}$$\n",
"\n",
"の最小値で与えられる。対数尤度をとって${\\bf{w}}$に依存しない項を除いただけである。第2項が正則化項になっていて、正則化パラメータ$\\lambda=\\alpha/\\beta$となっていることも重要なポイントである。"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# ベイズ曲線フィッティング"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"色々と分布がどうとか書いてきたけど、結局今までの${\\bf{w}}$の推定は点推定でしかない。 \n",
"とりうる${\\bf{w}}$全てについて尤度の積分をして、事後分布として予測分布を得たいわけである。すなわち予測分布は\n",
"\n",
"$$p(t|x,{\\bf{x}},{\\bf{t}}) = \\int p(t|x,{\\bf{w}})p({\\bf{w}}|{\\bf{x}},{\\bf{t}}) d{\\bf{w}}$$\n",
"\n",
"という形で得られる。この計算は通常簡単ではないので何とかして代わりの方法で頑張るのが通常だと思われる。\n",
"\n",
"例:\n",
"- Metropolis Hastings\n",
"- Multiple-try Metropolis\n",
"- Hamiltonian Monte Carlo\n",
"- NUTS\n",
"- GMTM\n",
"- GMPM\n",
"- Parallel Tempering (Replica exchange)\n",
"- Particle filter (Sequential Monte Carlo)\n",
"\n",
"今回扱っている問題ではガウス分布しか登場しないので、解析的に解けて\n",
"\n",
"$$\\begin{align}\n",
"p(t|x,{\\bf{x}},{\\bf{t}}) &= \\mathcal{N}(t\\;|\\;m(x), s^2 (x))\\\\\n",
"m(x) &= \\beta \\phi (x)^\\mathrm{T} {\\bf{S}} \\sum_{n=1}^{N} \\phi (x_n) t_n\\\\\n",
"s^2(x) &= \\beta^{-1} + \\phi (x)^\\mathrm{T} {\\bf{S}} \\phi (x)\\\\\n",
"\\end{align}\n",
"$$\n",
"となる。\n",
"\n",
"行列$S$は\n",
"$${\\bf{S}}^{-1} = \\alpha {\\bf{I}} + \\beta \\sum_{n=1}^{N} \\phi(x_n) \\phi(x_n)^T$$\n",
"である。なお$\\phi$は$\\phi_i (x) = x^i\\;\\; (i=0,1,\\ldots,M)$という要素を持つベクトルである。"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"はい、長くなったが実装していく。\n",
"今回は$\\alpha$、$\\beta$も既知とした。"
]
},
{
"cell_type": "code",
"execution_count": 197,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"predict (generic function with 3 methods)"
]
},
"execution_count": 197,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"function _ϕ(X::Vector, M::Int)\n",
" pow = Array(0:M)\n",
" ϕ = hcat([x.^pow for x in X]...)'\n",
" return ϕ\n",
"end\n",
"\n",
"function fit(X::Vector, t::Vector, M, α, β)\n",
" ϕ(_X) = _ϕ(_X, M)\n",
" S = inv(α*eye(M+1) +β*ϕ(X)'*ϕ(X))\n",
" m = β*S*ϕ(X)'*t\n",
" return S, m\n",
"end\n",
"\n",
"function predict(X::Vector, S::Matrix, M, α, β)\n",
" ϕ(_X) = _ϕ(_X, M)\n",
" y_mean = ϕ(X)*m\n",
" y_std = sqrt.(1/β + sum(ϕ(X)*S.*ϕ(X), Dims(2)))\n",
" return y_mean, y_std\n",
"end\n"
]
},
{
"cell_type": "code",
"execution_count": 222,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "",
"text/plain": [
"PyPlot.Figure(PyObject <Figure size 640x480 with 1 Axes>)"
]
},
"metadata": {},
"output_type": "display_data"
},
{
"data": {
"text/plain": [
"PyObject Text(0.5,1,'$M=9$, $\\\\alpha=5\\\\times10^{-3}$, $\\\\beta=11.1$')"
]
},
"execution_count": 222,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"using PyPlot\n",
"using Distributions\n",
"\n",
"srand(20180609)\n",
"\n",
"x = collect(linspace(0,1,100))\n",
"y = sin.(2π*x)\n",
"datapoints = collect(linspace(0,1,10))\n",
"data = sin.(2π*datapoints)\n",
"S, m = fit(datapoints, data, 9, 5e-3, 11.1)\n",
"pred=predict(x, S, 9, 5e-3, 11.1)\n",
"\n",
"kernel = Normal(0,0.2)\n",
"noise = rand.(kernel, length(datapoints))\n",
"data = data .+ noise\n",
"plot(x, y, color=\"g\", label=\"truth\");\n",
"plot(datapoints, data, lw=0, marker=\"o\", markeredgecolor=\"b\", markerfacecolor=\"w\", label=\"data\");\n",
"plot(x, pred[1], label=\"test\", color=\"r\")\n",
"fill_between(x=x, y1=pred[1].+vec(pred[2]), y2=pred[1].-vec(pred[2]), alpha=0.1, color=\"r\")\n",
"yticks([-1,0,1]);\n",
"xticks([0,1]);\n",
"legend()\n",
"title(L\"$M=9$, $\\alpha=5\\times10^{-3}$, $\\beta=11.1$\")"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {
"collapsed": true
},
"outputs": [],
"source": []
}
],
"metadata": {
"kernelspec": {
"display_name": "Julia 0.6.2",
"language": "julia",
"name": "julia-0.6"
},
"language_info": {
"file_extension": ".jl",
"mimetype": "application/julia",
"name": "julia",
"version": "0.6.2"
}
},
"nbformat": 4,
"nbformat_minor": 2
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment