贝叶斯学习

  发掘两个事件之间的联系(因果分析、前提和结论)
  反向思考


2.1 Bayes Theorem

\[\color{green}{ P(h \vert D) = \frac{P(D \vert h) P(h)}{P(D)} }\]

  \(\color{green}{P(h \vert D)}\)为事件\(h\)发生的后验概率
  \(\color{green}{P(h)}\)为事件\(h\)发生的先验概率
  \(\color{green}{P(D)}\)为事件\(D\)发生的先验概率
  \(\color{green}{P(D \vert h)}\)为已知事件\(h\)发生时事件\(D\)发生的概率

  • 事件\(h\)发生的先验概率\(P(h)\)
      假设:互斥
      H space:完备
      \(\sum{P(h_i)=1}\)

  • 事件\(D\)发生的先验概率\(P(D)\)
      把\(D\)作为所有可能数据的样本
      \(h\)无关
      在不同假设的比较中可以被忽略

  • 似然度(likelihood)\(P(D \vert h)\)
      对数似然度 \(\log(P(D \vert h))\)

2.2 选择假设

2.2.1 最大后验假设

一般来说,我们想要的是根据给定训练数据可能性最大的假设

  最大后验假设(Maximum A Posteriori, MAP)\(h_{MAP}\)

\[\color{green}{\begin{aligned} h_{MAP} = & \mathop{argmax}_{h \in H} P(h \vert D) \\ = & \mathop{argmax}_{h \in H} \frac{P(D \vert h) P(h)}{P(D)} \\ = & \mathop{argmax}_{h \in H} P(D \vert h) P(h) \end{aligned}}\]

2.2.2 极大似然假设

  如果我们对假设一无所知,或者我们知道所有的假设都有相同的概率,那么MAP就是maximum likelihood(\(h_{ML}\)极大似然假设)。

\[\color{green}{ h_{MAP} = \mathop{argmax}_{h \in H} P(D \vert h) }\]

极大似然假设&最小均方误差

  训练数据:\(<x_i,d_i>\)

  \(d_i = f(x_i) + e_i\)
    \(d_i\):独立样本
    \(f(x_i)\):目标函数的无噪声值
    \(e_i\):噪声,独立随机变量,正态分布\(N(0,\sigma^2)\)

可得\(d_i\):正态分布\(N(f(x_i),\sigma^2)\)

\[\begin{aligned} h_{ML} & = \mathop{argmax}_{h \in H} \sum_{i=1}^m \ln{\frac{1}{\sqrt{2 \Pi \sigma^2}}} - \frac{1}{2} (\frac{d_i - h(x_i)}{\sigma}) \\ & = \mathop{argmax}_{h \in H} \sum_{i=1}^m {-\frac{1}{2} (\frac{d_i - h(x_i)}{\sigma})} \\ & = \mathop{argmax}_{h \in H} \sum_{i=1}^m -(d_i - h(x_i))^2 \\ & = \mathop{argmin}_{h \in H} \sum_{i=1}^m (d_i - h(x_i))^2 \\ \end{aligned}\]

独立随机变量,正态分布噪声\(N(0,\sigma^2)\),\(h_{ML} = h_{LSE}\)

补充

服从极大似然估计的假设就是服从最小均方误差的假设。

2.2.3 朴素贝叶斯分类器

  假设目标函数\(f: X \rightarrow V\),其中每个实例\(x = (a_1,a_2,\ldots,a_n)\),那么\(f(x)\)最可能的值为\(v_{MAP} = \mathop{argmax}_{v_j \in V} P(x \vert v_j)P(v_j)\)。

Naive Bayes assumption:

\[P(x \vert v_j) = P(a_1,a_2,\ldots,a_n \vert v_j) = \prod_i P(a_i \vert v_j)\]

Naive Bayes classifier:

\[\begin{aligned} v_{NB} & = \mathop{argmax}_{v_j \in V} P(v_j) \prod_i P(a_i \vert v_j) \\ & = \mathop{argmax}_{v_j \in V} \{ \log P(v_j) + \sum_i \log P(a_i \vert v_j) \} \end{aligned}\]

如果满足独立属性条件,那么\(v_{MAP} = v_{NB}\)。

2.2.4 MDL (Minimum Description Length)

  Occam's razor: 倾向于最短的假设

  MDL:倾向于能够使\(h_{MDL} = \mathop{argmin}_{h \in H}\{ L_{C_1}(h) + L_{C_2}(D \vert h) \}\)最小的假设\(h\)
其中,\(L_C(x)\)是\(x\)在编码\(C\)下的描述长度

MDL & MAP

\[\begin{aligned} h_{MAP} = & \mathop{argmax}_{h \in H} P(D \vert h) P(h) \\ = & \mathop{argmax}_{h \in H} \{ \log_2 P(D \vert h) + \log_2 P(h) \} \\ = & \mathop{argmin}_{h \in H} \{ - \log_2 P(D \vert h) - \log_2 P(h) \} \\ = & \mathop{argmin}_{h \in H} \{ L_{C_2}(D \vert h) - L_{C_1}(h) \} \\ = h_{MDL} \end{aligned}\]
补充

符合服从极大后验的假设即为服从最小描述长度的假设。

权衡:假设的复杂性 vs. 假设所犯错误的数量
倾向于有一些错误的短假设而不是完美分类训练数据的长假设

提示

这种倾向可以用于解决过拟合问题。