卡方检验

✍ dations ◷ 2025-06-07 15:10:44 #卡方检验
卡方检验(Chi-Squared Test或 χ 2 {displaystyle chi ^{2}} Test)是一种统计量的分布在零假设成立时近似服从卡方分布( χ 2 {displaystyle chi ^{2}} 分布)的假设检验。在没有其他的限定条件或说明时,卡方检验一般指代的是皮尔森卡方检验。在卡方检验的一般运用中,研究人员将观察量的值划分成若干互斥的分类,并且使用一套理论(或零假设)尝试去说明观察量的值落入不同分类的概率分布的模型。而卡方检验的目的就在于去衡量这个假设对观察结果所反映的程度。在十九世纪,统计分析方法主要被用于生物数据分析。当时主流意见认为正态分布普遍适用于此类数据,例如乔治·比德尔·艾里爵士以及梅里曼教授(英语:Mansfield Merriman),而卡尔·皮尔森在他1900年的论文中就针对了他们的研究数据作出了指正。直到十九世纪末期,皮尔森指出了部分数据具有明显的偏态,正态分布并不是普遍适用。为了更好地对这些观察数据进行建模,皮尔森在1893年至1916年发表的系列文章中提出了一个包含正态分布以及众多偏态分布的连续概率分布族——皮尔森分布族(英语:Pearson Distribution)。同时,他指出数据统计分析的步骤应该是在从皮尔森分布族中选取合适的分布来进行建模后,使用拟合优度检验技术来评价模型和实验数据间的拟合优度。在1900年,皮尔森发表了著名的关于 χ 2 {displaystyle chi ^{2}} 检验的文章,该文章被认为是现代统计学的基石之一。在该文章中,皮尔森研究了拟合优度检验:假设实验中从总体中随机取样得到的 n {displaystyle n} 个观察值被划分为 k {displaystyle k} 个互斥的分类,这样每个分类都有一个对应的实际观察次数 x i {displaystyle x_{i}} ( i = 1 , 2 , . . . , k {displaystyle i=1,2,...,k} )。研究人员会对实验中各个观察值落入第 i {displaystyle i} 个分类的概率 p i {displaystyle p_{i}} 的分布提出零假设,从而获得了对应所有第 i {displaystyle i} 分类的理论期望次数 m i = n p i {displaystyle m_{i}=np_{i}} 以及限制条件皮尔森提出,在上述零假设成立以及 n {displaystyle n} 趋向 ∞ {displaystyle infty } 的时候,以下统计量的极限分布趋向 χ 2 {displaystyle chi ^{2}} 分布。皮尔森首先讨论零假设中所有分类的理论期望次数 m i {displaystyle m_{i}} 均为足够大且已知的情况,同时假设各分类的实际观测次数 x i {displaystyle x_{i}} 均服从正态分布。皮尔森由此得到当样本容量 n {displaystyle n} 足够大时, X 2 {displaystyle X^{2}} 趋近服从自由度为 ( k − 1 ) {displaystyle (k-1)} 的 χ 2 {displaystyle chi ^{2}} 分布。然而,皮尔森在讨论当零假设中的理论期望次数 m i {displaystyle m_{i}} 未知并依赖于必须由样本去进行估计的若干参数的情况时,记 m i {displaystyle m_{i}} 为实际的理论期望次数以及 m i ′ {displaystyle m'_{i}} 为估计的理论期望次数,认为的值通常为正且足够小以至于可以忽略。皮尔森总结为,如果我们认为 X ′ 2 {displaystyle X'^{2}} 也服从自由度为 ( k − 1 ) {displaystyle (k-1)} 的 χ 2 {displaystyle chi ^{2}} 分布,那么由此近似带来的误差通常足够小并不会对实际决策的结论带来实质性的影响。这个结论在应用层面造成了长达20年的争论,直到费歇尔在1922年及1924年的论文发表后才暂告一段落。

相关

  • 药物设计药物设计(英语:Drug design),又称理性药物设计(rational drug design),根据对于靶点(Biological target)的现有知识,去寻找与发明出新型药物的过程。药物设计根据有机小分子物质(如蛋白
  • 语音识别语音识别(speech recognition)技术,也被称为自动语音识别(英语:Automatic Speech Recognition, ASR)、电脑语音识别(英语:Computer Speech Recognition)或是语音转文本识别(英语:Speech
  • 人口老龄化人口老龄化又称人口老化或人口高龄化、老龄化社会,是指因出生率降低和/或预期寿命延长导致年龄中位数增加的现象。大多数发达国家人口长寿,老龄人群变多;但发展中国家目前也出
  • 西番莲属大约有500种,例如:西番莲属(学名:Passiflora)是西番莲科中拥有500个种的属。它们大部分是藤蔓,有一些种类是灌木,少数种类是草本植物,百香果Passiflora edulis是本属最有名的成员。
  • 詹姆斯·林德詹姆斯·林德(James Lind,1716年10月4日 - 1794年6月13日),英国皇家海军外科医生(1739年 - 1748年),皇家海军Haslar医院医师(1758年 - 1783年),是英格兰卫生学的创始人,发起利用柑桔类
  • 嗜鸟龙嗜鸟龙属(属名:Ornitholestes,意为“抢劫鸟类者”)是种小型兽脚亚目恐龙,生存于晚侏罗纪的劳亚大陆西部,约为现在的北美洲。对于嗜鸟龙的了解几乎都来自单一个化石,该化石在1900年
  • 利雅得利雅得(阿拉伯语:الرياض‎;ar-Riyāḍ;意为“花园”)是沙特阿拉伯的首都及最大城市,也是利雅得省的省会。它位于阿拉伯半岛传统上的中心地带内志,更细分的话是在“亚玛玛”区
  • 德意志民主共和国德意志民主共和国(德语:Deutsche Demokratische Republik;英语:German Democratic Republic),简称民主德国(德语:DDR;英语:GDR)、东德(East Germany)或民德,是存在于1949年至1990年的中欧
  • 安娜·海宁·贝茨安娜·海宁·贝茨(英语:Anna Haining Bates,1846年8月6日-1888年8月5日),原姓斯旺(英语:Swan),加拿大女性,因身高达7英尺11英寸(2.41米)而著名。父母为苏格兰移民,共有13个孩子,安娜排行第
  • 有性繁殖有性生殖是生殖的一种类型,它导致了后代加强基因多样化。它可以用两个进程刻画。第一个是减数分裂,涉及将染色体个数减半。第二个是受精,这个过程中两个配偶子融合,并恢复原来的