估计量的偏差

✍ dations ◷ 2025-11-02 00:25:06 #统计理论,估计理论,认知偏误

在统计学中,估计量的偏差(或偏差函数)是此估计量的期望值与估计参数的真值之差。偏差为零的估计量或决策规则称为无偏的。否则该估计量是有偏的。在统计中,“偏差”是一个函数的客观陈述。

偏差也可以相对于中位数来衡量,而非相对于均值(期望值),在这种情况下为了与通常的“均值”无偏性区别,称作“中值”无偏。偏差与一致性相关联,一致估计量都是收敛并且无偏的(因此会收敛到正确的值),虽然一致序列中的个别估计量可能是有偏的(只要偏差收敛于零);参见偏差与一致性。

当其他量相等时,无偏估计量比有偏估计量更好一些,但在实践中,并不是所有其他统计量的都相等,于是也经常使用有偏估计量,一般偏差较小。当使用一个有偏估计量时,也会估计它的偏差。有偏估计量可能用于以下原因:由于如果不对总体进一步假设,无偏估计量不存在或很难计算(如标准差的无偏估计(英语:unbiased estimation of standard deviation));由于估计量是中值无偏的,却不是均值无偏的(或反之);由于一个有偏估计量较之无偏估计量(特别是收缩估计量(英语:shrinkage estimator))可以减小一些损失函数(尤其是均方差);或者由于在某些情况下,无偏的条件太强,而这些无偏估计量没有太大用处。此外,在非线性变换下均值无偏性不会保留,不过中值无偏性会保留(参见变换的效应);例如样本方差是总体方差的无偏估计量,但它的平方根标准差则是总体标准差的有偏估计量。下面会进行说明。

设我们有一个参数为实数 的概率模型,产生观测数据的概率分布 P θ ( x ) = P ( x θ ) {\displaystyle P_{\theta }(x)=P(x\mid \theta )} 的估计量。也就是说,我们假定我们的数据符合某种未知分布 P θ ( x ) = P ( x θ ) {\displaystyle P_{\theta }(x)=P(x\mid \theta )} 是一个固定常数,而且是该分布的一部分,但具体值未知),于是我们构造估计量 θ ^ {\displaystyle {\hat {\theta }}} 的值对应起来。因此这个估量的(相对于参数 的)偏差定义为

其中 E θ {\displaystyle \operatorname {E} _{\theta }} 对于条件分布 P ( x θ ) {\displaystyle P(x\mid \theta )} 的所有值的偏差都等于零的估计量称为无偏估计量。

在一次关于估计量性质的模拟实验中,估计量的偏差可以用平均有符号离差(英语:mean signed difference)来评估。

随机变量的样本方差从两方面说明了估计量偏差:首先,自然估计量(naive estimator)是有偏的,可以通过比例因子校正;其次,无偏估计量的均方差(MSE)不是最优的,可以用一个不同的比例因子来最小化,得到一个比无偏估计量的MSE更小的有偏估计量。

具体地说,自然估计量就是将离差平方和加起来然后除以 ,是有偏的。不过除以  − 1 会得到一个无偏估计量。相反,MSE可以通过除以另一个数来最小化(取决于分布),但这会得到一个有偏估计量。这个数总会比  − 1 大,所以这就叫做收缩估计量(英语:shrinkage estimator),因为它把无偏估计量向零“收缩”;对于正态分布,最佳值为  + 1。

1, ..., 是期望为 、方差为 2 的独立同分布(i.i.d.)随机变量。如果样本均值与未修正样本方差定义为

则 2 是 2 的一个有偏估计量,因为

换句话说,未修正的样本方差的期望值不等于总体方差 2,除非乘以归一化因子。而样本均值是总体均值 的无偏估计量。

2 是有偏的原因源于样本均值是 的普通最小二乘(英语:ordinary least squares)(OLS)估计量这个事实: X ¯ {\displaystyle {\overline {X}}} 是令 i = 1 n ( X i X ¯ ) 2 {\displaystyle \sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}} 尽可能小的数。也就是说,当任何其他数代入这个求和中时,这个和只会增加。尤其是,在选取 μ X ¯ {\displaystyle \mu \neq {\overline {X}}} 就会得出,

于是

注意到,通常的样本方差定义为

而这时总体方差的无偏估计量。可以由下式看出:

方差的有偏(未修正)与无偏估计之比称为贝塞尔修正(英语:Bessel's correction)。

相关

  • 恋烟癖恋烟癖(英语:Smoking fetishism、Capnolagnia)是一种基于吸烟(包括香烟、雪茄、烟斗、水烟或其它类似的物质)的恋物癖,恋烟癖者在看到或想像一个人吸烟时便会因此唤醒性欲。恋烟癖
  • 酸奶油酸奶油是一种富有脂肪的奶制品,由奶油和一些乳酸菌发酵而成。它因为发酵的乳酸菌和它酸的味道,所以命名为酸奶油(Sour cream)。
  • 卡尔·恩斯特·冯·贝尔卡尔·恩斯特·冯·贝尔(德语:Karl Ernst von Baer 1792年2月28日-1876年11月28日)波罗的海德意志人科学家、探险家,贝尔还是博物学家、生物学家、地质学家、气象学家和地理学家
  • 亚太电信股份有限公司亚太电信股份有限公司(英语:Asia Pacific Telecom,缩写:APT,简称亚太电),是台湾五大电信业者之一。原名为亚太固网宽频股份有限公司,成立于2000年。拥有宽频固网(Broadband Fixed Lin
  • 鞘氨醇鞘氨醇(Sphingosine)又称神经鞘胺醇,学名2-氨基-4-十八烯-1,3-二醇,是一种含有不饱和烃基链的十八碳氨基醇。鞘氨醇属于鞘脂类,为细胞膜组成成分之一。鞘氨醇在体内可在两种激酶
  • 恩卡伊恩卡伊是刚果共和国布昂扎省的一座城市,全国第四大城市,2005年普查人口56,700。全国重要制糖中心。刚果大洋铁路经过该地并设站,拥有恩卡伊机场(NKY)。城市坐落于富饶的奎卢-尼阿
  • 成禄成禄(越南语:Thành Lộc,1961年11月3日-)是越南戏剧艺术家。越南金梅奖历史上获奖最多的艺术家之一。1961年出生西贡在传统艺术家庭,父亲是人民艺术家成尊(Thành Tôn),母亲是越南
  • 高枫 (歌手)高枫(1968年7月24日-2002年9月19日,原名曾焰赤),中国大陆歌手,湖北武汉人。 1993年全心投入歌曲创作,作品有《春水流》、《拉钩上吊一百年不要》、《笨小孩》等。1994年创作《大中
  • 橘嘉智子橘嘉智子(日语:橘嘉智子/たちばな の かちこ ,延历5年(786年) - 嘉祥3年5月4日(850年6月17日)),日本第五十二代嵯峨天皇的皇后,橘清友之女,母亲为田口家主之女。是橘氏一门唯一的皇后。
  • 郑钦 (嘉靖进士)郑钦(?-?),字尧卿,直隶宁国府泾县人,明朝政治人物。嘉靖四十一年(1562年)壬戌科进士。由太常寺博士选户科给事中,历刑部郎中,仕至应天府尹,以病告归,不久卒。曾祖父郑逾;祖父郑昌;父郑珏,母汪