跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 泊松分布
未分類
5 4 月 2020

泊松分布

泊松分布

資深大佬 : atuocn 61

伊始

处理一个关于正态分布和σ的问题,自己数学经过连续多年衰减,残值几乎为零。概率方面只大约记得正态分布是个倒钟形曲线 -_-!!! 百度的时候,看到一个叫泊松分布的,图形看起来象是歪的正态分布。一时好奇,于是用百度百科级的研究水平,研究起泊松分布。

开始看百度百科的泊松分布条目,感觉懂了又感觉没懂,疑惑很多,云里雾里;然后又看了百科的泊松定理,似乎明白了一些,感觉还是抓不住;最后沿泊松定理,往上顺爬到二项分布,大概算是清楚了。虽然没啥乱用,浪费脑力,还是记个笔记留个痕。

二项分布

  • 每次事件独立。
  • 事件发生时,结果要么 A,要么 B, 发生 A 的概率为 p。
  • 每次实验,p 不变。

n 次实验(符合上述条件的实验称为伯努利实验)中 A 发生 k 次的概率,为二项分布。

二项分布公式,设发生次数为ξ,当ξ=k 时的概率[1]:

P(ξ=k) = C(n,k) * power(p, k)  * power((1-p), (n-k))  

其中,C(n,k)为组合数。power 为指数函数。

注意:概率 p 为事件结果为 A 的概率,是事件本身的概率特性,和实验次数无关。二项分布是求事件 A 发生 k 次的概率。 二项分布的期望为 np,方差为 npq,其中 q=1-p。

泊松分布

  1. 在一个小区间Δt 内,发生一次事件的机率与Δt 成正比:λΔt。
  2. 在小区间Δt 内发生两次以上的机率可以忽略。
  3. 在不重叠的时间段落里,事件各自发生的次数是独立的。

在 T 时间内,发生 k 次事件的几率为泊松分布。

泊松分布公式,在 T 时段,发生 k 次数的概率[2]:

P(k, T) = (power(λT, k) / k!) * exp(-λT) 

其中 exp 为自然常数 e 的指数函数。

泊松分布公式的期望值和方差均为λT。λT 通常记为 m。表示在区间 T 中,平均的发生次数。

  • 平均发生次数。平均发生次数 m,并不是发生 m 次数的概率。多次统计 T 区间内,有些时候次数多,有些时候次数少,平均下来次数是 m。
  • 泊松分布中平均发生次数和区段 T 成正比。比如每小时的平均电话呼叫数为 m, 则每分钟的平均电话呼叫数为 m/60。
  • 可以理解为平均发生次数 m 的速率或者密度为λ。泊松分布中λ恒定。
  • λ与时间区间无关,而平均次数与时间区间长度有关,λ有点象“加速度”,除以了 2 次时间长度。

泊松分布公式中,可用在区间 T 中平均的发生次数 m 作为参数。 另一种说法中,T 是单位时间,T=1。平均发生次数和发生 k 次的概率都在 T=1 的单位时间内,这时公式中参数是λ。 区间内的平均发生次数 m,或单位时间平均发生次数λ,公式形式更简单。但是个人感觉理解公式上,λT 更好。

泊松分布与二项分布

  • 泊松分布,条件⑴,⑵可知,在很小的区段Δt 内,P(1, Δt) = λΔt,且 P(k, Δt) = 0, k ≧ 2。 即,事件只有 2 种结果,发生或不发生。结果为“发生”的概率为λΔt,结果为“不发生”的概率为 1 – λΔt。
  • 把区段 T 分为 n 段,按泊松分布条件,可视为 n 次伯努利实验。此时发生 k 次的概率,为二项分布。
  • 按泊松分布条件⑴,区段Δt 内事件发生的概率,与Δt 成正比,即事件发生的概率密度恒定为λ
  • 继续细分Δt,事件“发生”的概率密度λ不变,而事件“发生”的概率 p 则变小,n 变大。每一次细分,指定的Δt 下,仍符合伯努利实验 。
  • 当Δt → 0,则 p → 0,n → ∞ 。二项分布的极限为泊松分布。
  • 由以上推导可以,若实验次数 n 很大,而事件“发生”的概率 p 很小,二项分布近似于泊松分布。 通常当 n≧20, p≦0.05 时[3],可以用 np = λT = m 代入泊松分布,进行近似计算,更方便。

泊松分布,正态分布,二项分布

  • 二项分布,在 0<p<1,n 很大的情况下,逼近正态分布。(p 不变, n 增大) [4]
  • 二项分布,在 p 很小,n 较大的情况下,逼近泊松分布。(参见泊松分布推导过程,np 不变约束下一系列不同的二项分布逼近)。
  • 显然泊松分布于正态分布有某种近似。有定理表明λ → ∞ 时泊松分布的极限是正态分布。
  • 当 p 很小,n 较大。用泊松分布可以近似计算二项分布。np = λT = m
  • 当 p 不接近于 0,也不接近于 1 ( 0.1≦p≦0.9 ),n 充分大。用正态分布可以近似计算二项分布。μ=np, σ^2=np(1-p) [4]

补充复习几个概念

  • 期望值和均值。期望值是概率论上的概念,在已知概率下预测的平均值。均值是统计学上的概念,事后统计数据计算的平均值。 可以说期望值是均值在样本无穷大下的极限。概率则是统计的频率在样本无穷大下的极限。
  • 概率质量函数,是描述离散型随机变量的概率分布。是某个随机值出现的概率。
  • 概率密度函数,是描述连续型随机变量的概率分布。连续的随机变量区间,随机变量 X 的取值有无穷个,所以 X 等于具体的某个值 k, 出现的概率无限趋近于零。 虽然 P(X=k)=0,但并非不可能事件。连续型随机变量落在某个区间具有一定的概率,所以用概率密度函数描述。概率则是概率密度函数的积分。
大佬有話說 (2)

  • 資深大佬 : lingll

    点个赞

  • 資深大佬 : IgniteWhite

    点个赞

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具