泊松分布

資深大佬 : atuocn 61

伊始

处理一个关于正态分布和σ的问题，自己数学经过连续多年衰减，残值几乎为零。概率方面只大约记得正态分布是个倒钟形曲线 -_-!!! 百度的时候，看到一个叫泊松分布的，图形看起来象是歪的正态分布。一时好奇，于是用百度百科级的研究水平，研究起泊松分布。

开始看百度百科的泊松分布条目，感觉懂了又感觉没懂，疑惑很多，云里雾里；然后又看了百科的泊松定理，似乎明白了一些，感觉还是抓不住；最后沿泊松定理，往上顺爬到二项分布，大概算是清楚了。虽然没啥乱用，浪费脑力，还是记个笔记留个痕。

n 次实验（符合上述条件的实验称为伯努利实验）中 A 发生 k 次的概率，为二项分布。

二项分布公式，设发生次数为ξ，当ξ=k 时的概率[1]：

P(ξ=k) = C(n,k) * power(p, k)  * power((1-p), (n-k))

其中，C(n,k)为组合数。power 为指数函数。

注意：概率 p 为事件结果为 A 的概率，是事件本身的概率特性，和实验次数无关。二项分布是求事件 A 发生 k 次的概率。二项分布的期望为 np，方差为 npq，其中 q=1-p。

在 T 时间内，发生 k 次事件的几率为泊松分布。

泊松分布公式，在 T 时段，发生 k 次数的概率[2]：

P(k, T) = (power(λT, k) / k!) * exp(-λT)

其中 exp 为自然常数 e 的指数函数。

泊松分布公式的期望值和方差均为λT。λT 通常记为 m。表示在区间 T 中，平均的发生次数。

泊松分布公式中，可用在区间 T 中平均的发生次数 m 作为参数。另一种说法中，T 是单位时间，T=1。平均发生次数和发生 k 次的概率都在 T=1 的单位时间内，这时公式中参数是λ。区间内的平均发生次数 m，或单位时间平均发生次数λ，公式形式更简单。但是个人感觉理解公式上，λT 更好。

泊松分布，条件⑴，⑵可知，在很小的区段Δt 内，P(1, Δt) = λΔt，且 P(k, Δt) = 0, k ≧ 2。即，事件只有 2 种结果，发生或不发生。结果为“发生”的概率为λΔt，结果为“不发生”的概率为 1 – λΔt。
把区段 T 分为 n 段，按泊松分布条件，可视为 n 次伯努利实验。此时发生 k 次的概率，为二项分布。
按泊松分布条件⑴，区段Δt 内事件发生的概率，与Δt 成正比，即事件发生的概率密度恒定为λ
继续细分Δt，事件“发生”的概率密度λ不变，而事件“发生”的概率 p 则变小，n 变大。每一次细分，指定的Δt 下，仍符合伯努利实验。
当Δt → 0，则 p → 0，n → ∞ 。二项分布的极限为泊松分布。
由以上推导可以，若实验次数 n 很大，而事件“发生”的概率 p 很小，二项分布近似于泊松分布。通常当 n≧20, p≦0.05 时[3]，可以用 np = λT = m 代入泊松分布，进行近似计算，更方便。

期望值和均值。期望值是概率论上的概念，在已知概率下预测的平均值。均值是统计学上的概念，事后统计数据计算的平均值。可以说期望值是均值在样本无穷大下的极限。概率则是统计的频率在样本无穷大下的极限。
概率质量函数，是描述离散型随机变量的概率分布。是某个随机值出现的概率。
概率密度函数，是描述连续型随机变量的概率分布。连续的随机变量区间，随机变量 X 的取值有无穷个，所以 X 等于具体的某个值 k, 出现的概率无限趋近于零。虽然 P(X=k)=0，但并非不可能事件。连续型随机变量落在某个区间具有一定的概率，所以用概率密度函数描述。概率则是概率密度函数的积分。

大佬有話說 (2)