-distribution),简称 分布,在概率论及统计学中用于根据小样本来估计总体呈正态分布且标准差未知的期望值。若总体标准差已知,或是样本数足够大时(依据中心极限定理渐进正态分布),则应使用正态分布来进行估计。其为对两个样本期望值差异进行显著性测试的学生t检验之基础。
学生 检验改进了Z检验(Z-test),因为在小样本中,Z检验以总体标准差已知为前提,Z检验用在小样本会产生很大的误差,因此必须改用学生 检验以求准确。但若在样本数足够大(普遍认为超过30个即足够)时,可依据中心极限定理近似正态分布,以Z检验来求得近似值,
在总体标准差数未知的情况下,不论样本数量大或小皆可应用检验。在待比较的数据有三组以上时,因为误差无法被压低,此时可以用方差分析(ANOVA)代替检验。
分布的推导最早由德国大地测量学家弗里德里希·罗伯特·赫尔默特(英语:Friedrich Robert Helmert)于1876年提出,并由德国数学家雅各布·鲁洛斯(英语:Jacob Lüroth)证明。
英国人威廉·戈塞于1908年再次发现并发表了分布,当时他还在爱尔兰都柏林的吉尼斯啤酒酿酒厂工作。酒厂虽然禁止员工发表一切与酿酒研究有关的成果,但允许他在不提到酿酒的前提下,以笔名发表 分布的发现,所以论文使用了“学生”(Student)这一笔名。之后检定以及相关理论经由罗纳德·费希尔发扬光大,为了感谢戈塞的功劳,费希尔将此分布命名为学生 分布(Student's )。
假设 的概率密度函数是:
等于 − 1。的分布称为 分布。参数一般被称为自由度。
的概率密度函数的形状类似于期望值为0方差为1的正态分布,但更低更宽。随着自由度分布的概率累计函数,用不完全贝塔函数表示:
其中
分布的矩为:
假设数量在当呈-分布(的自由度为 − 1)满足
这与
是这个概率分布的第95个百分点
那么
等价于
因此μ的90%置信区间为:
现在最方便的计算T分布的办法是使用电子表格软件(如Excel)或查相关在线计算网站。例如,Excel的TDIST(x,v,sides)用来计算自由度为v的T分布,如果第三个参数为1,则给出Pr(T>x);如果第三个参数为2,则计算Pr(T>x Or T<-x).
下表列出了自由度为 分布的单侧和双侧区间值。例如,当样本数量n=5时,则自由度值为95%(值为90%)。这也就是说,T小于2.132的概率为95%(即单侧),记为Pr(−∞ < < 2.132) = 0.95;同时,T值介于-2.132和2.132之间的概率为90%(即双侧),记为Pr(−2.132 < < 2.132) = 0.9。
这是根据分布的对称性计算得到的,
因此,
注意关于表格的最后一行的值:自由度为无限大的分布和正态分布等价。
给定一个样本:样本期望值和方差分别为10和2,样本大小为11(自由度为10)。根据公式:
可知,使用该方法统计出来的最大值,平均有90%的概率(即90%置信度/置信水平/confidence level)低于:
同理,使用该方法统计出来的最小值,平均有90%的概率(即90%置信度/置信水平/confidence level)高于:
因此,使用该方法统计出来的最大值和最小值,平均有80%的概率介于:
两值之间。(需注意此非代表数据的真正期望值介于这两个值之间的概率为80%,详情请参见置信区间。)