首页 >
随机分布
✍ dations ◷ 2024-11-05 14:54:16 #随机分布
概率分布(德语:Wahrscheinlichkeitsverteilung;英语:probability distribution)或简称分布,是概率论的一个概念。使用时可以有以下两种含义:称X和Y为同分布的随机变量,当且仅当对任意事件
A
∈
F
{displaystyle Ain {mathcal {F}}}
,有
P
(
X
∈
A
)
=
P
(
Y
∈
A
)
{displaystyle mathbb {P} (Xin A)=mathbb {P} (Yin A)}
成立。但是,不能认为同分布的随机变量是相同的随机变量。事实上即使X与Y同分布,也可以没有任何点ω使得X(ω)=Y(ω)。在这个意义下,可以把随机变量分类,每一类称作一个分布,其中的所有随机变量都同分布。用更简要的语言来说,同分布是一种等价关系,每一个等价类就是一个分布。需注意的是,通常谈到的离散分布、均匀分布、伯努利分布、正态分布、泊松分布等,都是指各种类型的分布,而不能视作一个分布。F
X
(
a
)
=
P
(
X
≤
a
)
{displaystyle F_{X}(a)=mathbb {P} (Xleq a)}
,对任意实数
a
{displaystyle a}
定义。具有相同分布函数的随机变量一定是同分布的,因此可以用分布函数来描述一个分布,但更常用的描述手段是概率密度函数(德语:Wahrscheinlichkeitsdichtefunktion,英语:probability density function, pdf)。对于特定的随机变量
X
{displaystyle X}
,其分布函数
F
X
{displaystyle F_{X}}
是单调不减及右连续,而且
F
X
(
−
∞
)
=
0
{displaystyle F_{X}(-infty )=0}
,
F
X
(
∞
)
=
1
{displaystyle F_{X}(infty )=1}
。这些性质反过来也描述了所有可能成为分布函数的函数:设
P
{displaystyle P}
为概率测度,
X
{displaystyle X}
为随机变量,则函数
F
(
x
)
=
P
(
X
≤
x
)
,
(
x
∈
R
)
{displaystyle F(x)=P(Xleq x),(xin mathbb {R} )}
称为
X
{displaystyle X}
的概率分布函数。如果将
X
{displaystyle X}
看成是数轴上的随机点的坐标,那么,分布函数
F
(
x
)
{displaystyle F(x)}
在
x
{displaystyle x}
处的函数值就表示
X
{displaystyle X}
落在区间
(
−
∞
,
x
]
{displaystyle (-infty ,x]}
上的概率。例如,设随机变量
X
{displaystyle X}
为掷两次骰子所得的点数差,而整个样本空间由 36 个元素组成。其分布函数是:上面所列举的例子属于离散分布,即分布函数的值域是离散的,比如只取整数值的随机变量就是属于离散分布的。
F
(
x
)
{displaystyle F(x)}
表示随机变量
X
≤
x
{displaystyle Xleq x}
的概率值。如果X的取值只有
x
1
<
x
2
<
.
.
.
<
x
n
{displaystyle x_{1}<x_{2}<...<x_{n}}
,则:二项分布是最重要的离散概率分布之一,由瑞士数学家雅各布·伯努利(Jakob Bernoulli)所发展,一般用二项分布来计算概率的前提是,每次抽出样品后再放回去,并且只能有两种试验结果,比如黑球或红球,正品或次品等。二项分布指出,随机一次试验出现的概率如果为
p
{displaystyle p}
,那么在
n
{displaystyle n}
次试验中出现
k
{displaystyle k}
次的概率为:例如,在掷3次骰子中,不出现6点的概率是:
f
(
3
,
0
,
1
6
)
=
(
3
0
)
(
1
6
)
0
(
5
6
)
3
=
0.579
{displaystyle f(3,0,{frac {1}{6}})={3 choose 0}left({frac {1}{6}}right)^{0}left({frac {5}{6}}right)^{3}=0.579}
在连续两次的轮盘游戏中,至少出现一次红色的概率为:
f
(
2
,
1
,
18
37
)
+
f
(
2
,
2
,
18
37
)
=
0.736
{displaystyle f(2,1,{frac {18}{37}})+f(2,2,{frac {18}{37}})=0.736}二项分布在
p
=
0.5
{displaystyle p=0.5}
时表现出图像的对称性,而在
p
{displaystyle p}
取其它值时是非对称的。另外二项分布的期望值
E
(
X
)
=
n
p
{displaystyle operatorname {E} (X)=np}
,以及方差
var
(
X
)
=
n
p
(
1
−
p
)
{displaystyle operatorname {var} (X)=n,p,(1-p)!}作为离散概率分布的超几何分布尤其指在抽样试验时抽出的样品不再放回去的分布情况。在一个容器中一共有
N
{displaystyle N}
个球,其中
M
{displaystyle M}
个黑球,
(
N
−
M
)
{displaystyle (N-M)}
个红球,通过下面的超几何分布公式可以计算出,从容器中抽出的
n
{displaystyle n}
个球中(抽出的球不放回去)有
k
{displaystyle k}
个黑球的概率是多少:例如,容器中一共10个球,其中6个黑色,4个白色,一共抽5次(抽出的球不放回去),在这5个球中有3个黑球的概率是:
f
(
k
=
3
)
=
(
6
3
)
(
10
−
6
5
−
3
)
(
10
5
)
=
0.476
{displaystyle f(k=3)={frac {displaystyle {6 choose 3}{10-6 choose 5-3}}{displaystyle {10 choose 5}}}=0.476}和二项分布不同的是,在超几何分布中,特别强调的是抽出的样品在下一次抽取前不再放回去,但是如果抽取的次数
n
{displaystyle n}
和总共样品数
N
{displaystyle N}
相比很小(大约
n
/
N
<
0
,
05
{displaystyle n/N<0,05}
),这时在计算上二项分布和超几何分布相互间则没有主要的区别,此时人们更愿意采用二项分布的方法,因为在数学计算上二项分布要简单一些。泊松近似是二项分布的一种极限形式。其强调如下的试验前提:一次抽样的概率值
p
{displaystyle p}
相对很小,而抽取次数
n
{displaystyle n}
值又相对很大。因此泊松分布又被称之为罕有事件分布。泊松分布指出,如果随机一次试验出现的概率为
p
{displaystyle p}
,那么在
n
{displaystyle n}
次试验中出现
k
{displaystyle k}
次的概率按照泊松分布应该为:其中,数学常数
e
=
2.71828...
{displaystyle e=2.71828...}
(自然对数的底数)例如,某工厂在生产零件时,每200个成品中会有1个次品,那么在100个零件中最多出现2个次品的概率按照泊松分布应该是:
f
(
100
,
0
,
1
200
)
+
f
(
100
,
1
,
1
200
)
+
f
(
100
,
2
,
1
200
)
=
0.986
{displaystyle f(100,0,{frac {1}{200}})+f(100,1,{frac {1}{200}})+f(100,2,{frac {1}{200}})=0.986}在实践中如果遇到
n
{displaystyle n}
值很大导致二项分布难于计算时,可以考虑使用泊松分布,但前提是
n
⋅
p
{displaystyle ncdot p}
必须趋于一个有限极限。采用泊松分布的一个不太严格的规则(通过展开二项分布,并在形式上化简为类似泊松分布后,利用极限化简即可得)是:设
X
{displaystyle X}
是具有分布函数
F
{displaystyle F}
的连续随机变量,且F的一阶导数处处存在,则其导函数称为
X
{displaystyle X}
的概率密度函数。每个概率密度函数都有如下性质:第一个性质表明,概率密度函数与
x
{displaystyle x}
轴形成的区域的面积等于1,第二个性质表明,连续随机变量在区间
[
a
,
b
]
{displaystyle }
的概率值等于密度函数在区间
[
a
,
b
]
{displaystyle }
上的积分,也即是与
X
{displaystyle X}
轴在
[
a
,
b
]
{displaystyle }
内形成的区域的面积。因为
0
≤
F
(
x
)
≤
1
{displaystyle 0leq F(x)leq 1}
,且
f
(
x
)
{displaystyle f(x)}
是
F
(
x
)
{displaystyle F(x)}
的导数,因此按照积分原理不难推出上面两个公式。正态分布、指数分布、
t
{displaystyle t}
-分布,
F
{displaystyle F}
-分布以及
Ξ
2
{displaystyle Xi ^{2}}
-分布都是连续分布。连续随机变量的概率密度函数如果是如下形式,那么这个连续分布被称之为正态分布,或者高斯分布。其密度函数的曲线呈对称钟形,因此又被称之为钟形曲线,其中
μ
{displaystyle mu }
是平均值,
σ
{displaystyle sigma }
是标准差。正态分布是一种理想分布,许多典型的分布,比如成年人的身高,汽车轮胎的运转状态,人类的智商值(IQ),都属于或者说至少接近正态分布。同样按照连续分布的定义,常态概率密度函数具有和普通概率密度函数类似的性质:如果给出一个正态分布的平均值
μ
{displaystyle mu }
以及标准差
σ
{displaystyle sigma }
,可以根据上面的第二个公式计算出任一区间的概率分布情况。但是如上的计算量是相当庞大的,没有计算机的辅助基本是不可能的,解决这一问题的方法是借助
z
{displaystyle z}
-变换以及标准正态分布表格(
z
{displaystyle z}
-表格)。中间值
μ
=
0
{displaystyle mu =0}
以及标准差
σ
=
1
{displaystyle sigma =1}
的正态分布被称之为标准正态分布,其累积分布函数是将普通形式的正态分布变换到标准正态分布的方法是例如,已知一正态分布的
μ
=
5
{displaystyle mu =5}
,
σ
=
3
{displaystyle sigma =3}
,求区间概率值
P
(
4
<
X
≤
7
)
?
{displaystyle P(4<Xleq 7)?}
计算过程如下,其中
Φ
(
z
)
{displaystyle Phi (z)}
值通过查
z
{displaystyle z}
-表格获得。在离散分布中如果试验次数
n
{displaystyle n}
值非常大,而且单次试验的概率
p
{displaystyle p}
值又不是很小的情况下,正态分布可以用来近似的代替二项分布。一个粗略的使用正态分布的近似规则是:
n
⋅
p
⋅
(
1
−
p
)
≥
9
{displaystyle ncdot pcdot (1-p)geq 9}
。从二项分布中获得
μ
{displaystyle mu }
和
σ
{displaystyle sigma }
值的方法是如果
σ
>
3
{displaystyle sigma >3}
,则必须采用下面的近似修正方法:(注:
q
=
1
−
p
{displaystyle q=1-p}
;EF:二项分布;ZF:正态分布)上(下)临界值分别增加(减少)修正值0.5的目的是在
σ
{displaystyle sigma }
值很大时获得更精确的近似值,只有
σ
{displaystyle sigma }
很小时,修正值0.5可以不被考虑。例如,随机试验为连续64次掷硬币,获得的国徽数位于32和42之间的概率是多少?用正态分布计算如下,n
⋅
p
⋅
q
=
16
≥
9
{displaystyle ncdot pcdot q=16geq 9}
,符合近似规则,应用
z
{displaystyle z}
-变换:在运用
z
{displaystyle z}
-表格时注意到利用密度函数的对称性来求出
z
{displaystyle z}
为负值时的区域面积。
相关
- 重症重症医学(Intensive care medicine )是医学中的一个分支,诊断及管理会危及生命的疾病或是情形,会需要器官支持(英语:Organ support)及侵入性监测设备。在重症监护室中常见的设备有
- 约翰·麦克劳德约翰·詹姆士·理察·麦克劳德(John James Richard Macleod,1876年9月6日-1935年3月16日)是一位苏格兰医师、生理学家。他在1923年与弗雷德里克·格兰特·班廷因为发现了胰岛素,
- 林修二林修二(1914年-1944年6月5日),汉名林永修,另一笔名南山修。出生于台湾日治时期的台南厅蔴豆支厅(今台南市麻豆区)。东京庆应义塾大学英文科毕业。风车诗社同人。大学时期受到西胁顺
- 网状内皮系统单核吞噬细胞系统(英语:Mononuclear phagocyte system、MPS)是高等动物免疫系统的一部分,由可以进行吞噬作用的细胞组成 。通常存在于网状结缔组织(reticular connective tissue)
- 前庭大腺囊肿前庭大腺囊肿(英语:Bartholin's cyst、巴氏腺囊肿),是一种妇科外阴前庭大腺出现的囊肿疾病,它是由于腺管外口阻塞,使腺体分泌物不能排出,而形成的囊肿。它可能是细菌感染引起,也可能
- 双清区双清区是中国湖南省邵阳市所辖的一个市辖区。总面积139.6平方公里,总人口25.4万人。双清区辖6个街道、2个镇、4个乡:兴隆街道、龙须塘街道、汽车站街道、小江湖街道、东风路街
- 营业额财务会计 · 管理会计 ·营业收入,又称营业收入、营收、营业额(美式英文为revenue,英式英文则为turnover),是商业会计术语,指公司因正常商业活动,所获得之收入,通常是经由提供产品
- 南荷兰省南荷兰(荷兰语: Zuid-Holland 帮助·信息)是荷兰的一个省,省会城市是海牙。南荷兰省位于该国的西部,西临北海,与之毗邻的省份有北荷兰省、西兰省、乌特勒支省、北布拉班特省和
- 躯体变形障碍体象障碍(body dysmorphic disorder,缩写:BDD)或称躯体变形障碍、身体臆形症、丑形恐怖,是一种精神障碍,患者过度关注自己的体像并对自身体貌缺陷进行夸张或臆想,在大多数病例中,患
- 团体治疗团体心理治疗(英文:group psychotherapy)顾名思义,团体(心理)治疗就是一群特定人们与治疗师透过团体的方式达成治疗目标的一种心理治疗。在美国最早有Joseph H. Pratt(英语:Joseph