卡方检验

✍ dations ◷ 2025-02-23 14:07:35 #卡方检验
卡方检验(Chi-Squared Test或 χ 2 {displaystyle chi ^{2}} Test)是一种统计量的分布在零假设成立时近似服从卡方分布( χ 2 {displaystyle chi ^{2}} 分布)的假设检验。在没有其他的限定条件或说明时,卡方检验一般指代的是皮尔森卡方检验。在卡方检验的一般运用中,研究人员将观察量的值划分成若干互斥的分类,并且使用一套理论(或零假设)尝试去说明观察量的值落入不同分类的概率分布的模型。而卡方检验的目的就在于去衡量这个假设对观察结果所反映的程度。在十九世纪,统计分析方法主要被用于生物数据分析。当时主流意见认为正态分布普遍适用于此类数据,例如乔治·比德尔·艾里爵士以及梅里曼教授(英语:Mansfield Merriman),而卡尔·皮尔森在他1900年的论文中就针对了他们的研究数据作出了指正。直到十九世纪末期,皮尔森指出了部分数据具有明显的偏态,正态分布并不是普遍适用。为了更好地对这些观察数据进行建模,皮尔森在1893年至1916年发表的系列文章中提出了一个包含正态分布以及众多偏态分布的连续概率分布族——皮尔森分布族(英语:Pearson Distribution)。同时,他指出数据统计分析的步骤应该是在从皮尔森分布族中选取合适的分布来进行建模后,使用拟合优度检验技术来评价模型和实验数据间的拟合优度。在1900年,皮尔森发表了著名的关于 χ 2 {displaystyle chi ^{2}} 检验的文章,该文章被认为是现代统计学的基石之一。在该文章中,皮尔森研究了拟合优度检验:假设实验中从总体中随机取样得到的 n {displaystyle n} 个观察值被划分为 k {displaystyle k} 个互斥的分类,这样每个分类都有一个对应的实际观察次数 x i {displaystyle x_{i}} ( i = 1 , 2 , . . . , k {displaystyle i=1,2,...,k} )。研究人员会对实验中各个观察值落入第 i {displaystyle i} 个分类的概率 p i {displaystyle p_{i}} 的分布提出零假设,从而获得了对应所有第 i {displaystyle i} 分类的理论期望次数 m i = n p i {displaystyle m_{i}=np_{i}} 以及限制条件皮尔森提出,在上述零假设成立以及 n {displaystyle n} 趋向 ∞ {displaystyle infty } 的时候,以下统计量的极限分布趋向 χ 2 {displaystyle chi ^{2}} 分布。皮尔森首先讨论零假设中所有分类的理论期望次数 m i {displaystyle m_{i}} 均为足够大且已知的情况,同时假设各分类的实际观测次数 x i {displaystyle x_{i}} 均服从正态分布。皮尔森由此得到当样本容量 n {displaystyle n} 足够大时, X 2 {displaystyle X^{2}} 趋近服从自由度为 ( k − 1 ) {displaystyle (k-1)} 的 χ 2 {displaystyle chi ^{2}} 分布。然而,皮尔森在讨论当零假设中的理论期望次数 m i {displaystyle m_{i}} 未知并依赖于必须由样本去进行估计的若干参数的情况时,记 m i {displaystyle m_{i}} 为实际的理论期望次数以及 m i ′ {displaystyle m'_{i}} 为估计的理论期望次数,认为的值通常为正且足够小以至于可以忽略。皮尔森总结为,如果我们认为 X ′ 2 {displaystyle X'^{2}} 也服从自由度为 ( k − 1 ) {displaystyle (k-1)} 的 χ 2 {displaystyle chi ^{2}} 分布,那么由此近似带来的误差通常足够小并不会对实际决策的结论带来实质性的影响。这个结论在应用层面造成了长达20年的争论,直到费歇尔在1922年及1924年的论文发表后才暂告一段落。

相关

  • 胸腔外科学胸腔外科学或称心胸肺外科(英语:Cardiothoracic Surgery),是一门医学专科,专门研究胸腔内器官,包括心脏、肺、气道与呼吸系统、胸壁、纵隔、膈肌和食道等,以及这些器官与部位的诊断
  • 美洲原住民美洲原住民,是对美洲所有原住民的总称。美洲原住民中的绝大多数为印第安人,剩下的则是主要位于北美洲北部的因纽特人。美洲原住民属于东亚人种美洲支系,与现代东亚人有共同的祖
  • 图书馆学图书馆学是一门研究图书馆收集、加工、整理、保藏、控制、传递和利用文献信息的理论、方法以及图书馆事业发展规律的科学,是一门综合性学科。“图书馆学”一词最早由德国图书
  • 语言联盟语言联盟(德语:Sprachbund;英语:Sprachbund, linguistic convergence;俄语:языковой союз),也称语言区域、语言的区域分类,指没有亲属关系的语言,由于长期共处于一个地区
  • 音拍音拍(英语:mora)是语言学上以固定长度划分的时间单位,与音节不同。在汉语中,每一个音节的长度几乎是一样的(例如普通话中,“汉”han和“哈”ha长度相同),因此,汉语中可以说音节就是拍
  • cytochrome P450结构 / ECOD细胞色素P450(英语:cytochrome P450)超家族(官方缩写为CYP)是一大类多种多样的酶。大多数细胞色素P450酶的功能是催化氧化有机化合物。细胞色素P450的受质包括有:如脂
  • 炸虾炸大虾(海老フライ、エビフライ),将虾去壳、去泥肠、留下虾尾,包裹上厚厚一层调味用的油炸粉后,下油锅油炸至呈现金黄色酥脆外皮。常搭配高丽菜丝。常见的调味用沾酱是辣酱油,或柠
  • 高分子材料高分子材料是由相对分子质量较高的化合物构成的材料。我们接触的很多天然材料通常是高分子材料组成的,如天然橡胶、棉花、人体器官等。人工合成的化学纤维、塑料和橡胶等也是
  • 霍裕平霍裕平(1937年8月16日-),中国物理学家。生于湖北黄冈。1959年毕业于北京大学物理系。1993年当选为中国科学院院士。郑州大学教授。曾任中国科学院等离子体物理研究所所长、合肥
  • N-M231单倍群C-M130(英语:Haplogroup C-M130)是人类Y染色体DNA单倍群之一,与单倍群F同为单倍群CF的两个支系之一。单倍群C大约于距今6万年前出现,应在M168突变发生后不久。现今该单倍群