6.1 概率概要 (Probability Rundown)

我们假设你在 CS70 中已经学习了概率的基础知识，所以这些笔记将假设你对概率的标准概念（如 PDF、条件概率、独立性和条件独立性）有基本的了解。这里我们提供了我们将使用的概率规则的简要总结。

随机变量 (random variable) 代表一个结果未知的事件。概率分布 (probability distribution) 是对结果的权重分配。概率分布必须满足以下条件：

\[0 \leq P(\omega) \leq 1\] \[\sum_{\omega}P(\omega) = 1\]

例如，如果 \(A\) 是一个二元变量（只能取两个值），那么对于某个 \(p \in [0,1]\)，\(P(A = 0) = p\) 且 \(P(A = 1) = 1 - p\)。

我们将使用这样的约定：大写字母指代随机变量，小写字母指代该随机变量的某个特定结果。

我们使用符号 \(P(A, B, C)\) 来表示变量 \(A, B, C\) 的联合分布 (joint distribution)。在联合分布中，顺序并不重要，即 \(P(A, B, C) = P(C, B, A)\)。

我们可以使用链式法则 (chain rule)（有时也称为乘法法则）来展开联合分布。

\[P(A, B) = P(A | B) P(B) = P(B | A) P(A)\] \[P(A_1, A_2, \dots, A_k) = P(A_1) P(A_2 | A_1) \dots P(A_k | A_1, \dots, A_{k-1})\]

\(A, B\) 的边缘分布 (marginal distribution) 可以通过对变量 \(C\) 可以取的所有可能值求和来获得，即 \(P(A, B) = \sum_{c}P(A, B, C = c)\)。\(A\) 的边缘分布也可以通过 \(P(A) = \sum_{b} \sum_{c}P(A, B = b, C = c)\) 获得。我们有时也会将边缘化过程称为“求和消元 (summing out)”。

当我们对概率分布进行运算时，有时我们会得到总和不一定为 1 的分布。为了解决这个问题，我们进行归一化 (normalize)：取分布中所有条目的总和，并将每个条目除以该总和。

条件概率 (Conditional probabilities) 将概率分配给以某些已知事实为条件的事件。例如，\(P(A|B = b)\) 给出了在知道 \(B\) 的值等于 \(b\) 的情况下 \(A\) 的概率分布。条件概率定义为：

\[P(A|B) = \frac{P(A, B)}{P(B)}.\]

结合上述条件概率的定义和链式法则，我们得到贝叶斯法则 (Bayes’ Rule)：

\[P(A | B) = \frac{P(B | A) P(A)}{P(B)}\]

要写出随机变量 \(A\) 和 \(B\) 是相互独立 (mutually independent) 的，我们写成 \(A \perp\!\!\!\perp B\)。这等价于 \(B \perp\!\!\!\perp A\)。

当 \(A\) 和 \(B\) 相互独立时，\(P(A, B) = P(A) P(B)\)。你可以想到的一个例子是两次独立的抛硬币。在其他课程中，你可能熟悉相互独立仅仅被称为“独立”。我们可以从上面的方程和链式法则推导出 \(P(A | B) = P(A)\) 和 \(P(B | A) = P(B)\)。

要写出随机变量 \(A\) 和 \(B\) 在给定另一个随机变量 \(C\) 的情况下是条件独立 (conditionally independent) 的，我们写成 \(A \perp\!\!\!\perp B | C\)。这也等价于 \(B \perp\!\!\!\perp A | C\)。