皮尔森卡方检验(英语:Pearson's chi-squared test)是最有名卡方检验之一(其他常用的卡方检验还有叶氏连续性校正(英语:Yates's correction for continuity)、似然比检验(英语:Likelihood-ratio test)、一元混成检验(英语:Portmanteau test)等等--它们的统计值之几率分配都近似于卡方分配,故称卡方检验)。“皮尔森卡方检验”最早由卡尔·皮尔森在1900年发表, 用于类别变数(英语:categorical variables)的检验。科学文献中,当提及卡方检验而没有特别指明类型时,通常即指皮尔森卡方检验。
“皮尔森卡方检验”的虚无假设(H0)是:一个样本中已发生事件的次数分配会遵守某个特定的理论分配。
在虚无假设的句子中,“事件”必须互斥,并且所有事件总几率等于1。或者说,每个事件是类别变量(英语:categorical variable)的一种类别或级别(英语:level)。
简单的例子:常见的六面骰子,事件=丢骰子的结果(可能是1~6任一个)属于类别变量,每一面都是此变量的一种(一个级别)结果,每种结果互斥(1不是2, 3, 4, 5, 6; 2不是1, 3, 4 ...),六面的几率总和等于1。
“皮尔森卡方检验”可用于两种情境的变项比较:适配度检验(英语:Goodness of Fit test)和独立性检验。
不管哪个检验都包含三个步骤:
适配度检验(英语:Goodness of Fit test):测试样本的几率分配与母体有多相似。
当理论上的母体分配为每个类别几率一致时,即应适用离散型均匀分配的计算方法。
个观察值于理论上应均匀分配在所有的 个字段(类别)中,因此每个字段(类别)的“理论次数”(或期望次数)为:自由度
。“ ”是总共要计算离差平方的个数(每个类别计算一次观察值与理论值的差,再平方)。“ ”是因为对于计算 而言只有一个限制条件:观察值的个数总和为 。在同一个个体(例如:同一个人)身上有两个二元变量(X, Y),例如 X(男/女)和 Y(右撇子/左撇子),观察两个变量的相关性。虚无假设是:两个变量呈统计独立性。在本例中:性别与惯用手是独立事件。