6.1 概率概要 (Probability Rundown)
我们假设你在 CS70 中已经学习了概率的基础知识,所以这些笔记将假设你对概率的标准概念(如 PDF、条件概率、独立性和条件独立性)有基本的了解。这里我们提供了我们将使用的概率规则的简要总结。
随机变量 (random variable) 代表一个结果未知的事件。概率分布 (probability distribution) 是对结果的权重分配。概率分布必须满足以下条件:
\[0 \leq P(\omega) \leq 1\] \[\sum_{\omega}P(\omega) = 1\]例如,如果 \(A\) 是一个二元变量(只能取两个值),那么对于某个 \(p \in [0,1]\),\(P(A = 0) = p\) 且 \(P(A = 1) = 1 - p\)。
我们将使用这样的约定:大写字母指代随机变量,小写字母指代该随机变量的某个特定结果。
我们使用符号 \(P(A, B, C)\) 来表示变量 \(A, B, C\) 的联合分布 (joint distribution)。在联合分布中,顺序并不重要,即 \(P(A, B, C) = P(C, B, A)\)。
我们可以使用链式法则 (chain rule)(有时也称为乘法法则)来展开联合分布。
\[P(A, B) = P(A | B) P(B) = P(B | A) P(A)\] \[P(A_1, A_2, \dots, A_k) = P(A_1) P(A_2 | A_1) \dots P(A_k | A_1, \dots, A_{k-1})\]\(A, B\) 的边缘分布 (marginal distribution) 可以通过对变量 \(C\) 可以取的所有可能值求和来获得,即 \(P(A, B) = \sum_{c}P(A, B, C = c)\)。\(A\) 的边缘分布也可以通过 \(P(A) = \sum_{b} \sum_{c}P(A, B = b, C = c)\) 获得。我们有时也会将边缘化过程称为“求和消元 (summing out)”。
当我们对概率分布进行运算时,有时我们会得到总和不一定为 1 的分布。为了解决这个问题,我们进行归一化 (normalize):取分布中所有条目的总和,并将每个条目除以该总和。
条件概率 (Conditional probabilities) 将概率分配给以某些已知事实为条件的事件。例如,\(P(A|B = b)\) 给出了在知道 \(B\) 的值等于 \(b\) 的情况下 \(A\) 的概率分布。条件概率定义为:
\[P(A|B) = \frac{P(A, B)}{P(B)}.\]结合上述条件概率的定义和链式法则,我们得到贝叶斯法则 (Bayes’ Rule):
\[P(A | B) = \frac{P(B | A) P(A)}{P(B)}\]要写出随机变量 \(A\) 和 \(B\) 是相互独立 (mutually independent) 的,我们写成 \(A \perp\!\!\!\perp B\)。这等价于 \(B \perp\!\!\!\perp A\)。
当 \(A\) 和 \(B\) 相互独立时,\(P(A, B) = P(A) P(B)\)。你可以想到的一个例子是两次独立的抛硬币。在其他课程中,你可能熟悉相互独立仅仅被称为“独立”。我们可以从上面的方程和链式法则推导出 \(P(A | B) = P(A)\) 和 \(P(B | A) = P(B)\)。
要写出随机变量 \(A\) 和 \(B\) 在给定另一个随机变量 \(C\) 的情况下是条件独立 (conditionally independent) 的,我们写成 \(A \perp\!\!\!\perp B | C\)。这也等价于 \(B \perp\!\!\!\perp A | C\)。
如果 \(A\) 和 \(B\) 在给定 \(C\) 的情况下是条件独立的,那么 \(P(A, B | C) = P(A | C) P(B | C)\)。这意味着如果我们知道 \(C\) 的值,那么 \(B\) 和 \(A\) 不会相互影响。与上述条件独立定义等价的关系是 \(P(A | B, C) = P(A | C)\) 和 \(P(B | A, C) = P(B | C)\)。注意这三个方程如何等价于相互独立的三个方程,只是增加了一个关于 \(C\) 的条件!