在统计实验的设计中,女士品茶是罗纳德·爱尔默·费希尔(Ronald Fisher)设计的随机实验,并在他的《实验设计》(,1935)一书中得到记录。该实验是费希尔对零假设“从未被证明或建立,但可能在实验过程中被推翻”概念的原始阐述。
受试者是费舍尔的同事,也是一位藻类学家缪丽·布里斯托尔(英语:Muriel Bristol),她声称能够辨别冲茶时先放的是茶还是牛奶。费舍尔提出随机给她8杯茶,其中4杯先放茶,4杯先放牛奶,然后便可知道她碰巧猜对特定杯数的可能性。
费舍尔的描述只有不到10页,以其在术语、计算和实验设计方面的简洁和完整而著称。该示例大致基于费舍尔生活中的一个事件。使用的测试是费希尔精确检验(英语:Fisher's exact test)。
事先准备八杯奶茶,其中四杯先加牛奶再加入茶,另外四杯先加茶再加牛奶,共有两种冲泡方式。之后由受试者以随机顺序试喝八杯奶茶。过程中,受试者可以多次试喝同一杯茶以前后比较,并已经明确知晓两种冲泡方法的茶各有四杯。最终由受试者回答每杯茶分别属于何种冲泡方式。
这项检验的零假设是受试者并没有任何能力区别冲泡方法。在费希尔的方法中并没有备择假设,不同于内曼–皮尔逊引理(英语:Neyman–Pearson lemma)的方法。
统计检验量的形式很简单,是受试者正确地选出其中一项冲泡方式(例如先加牛奶再加茶)的次数。也就是说,受试者从八杯中选出四杯属于先加牛奶者,再事后比对该四杯中有几杯确实属于先加牛奶。在此例中要求受试者从八杯茶选出四杯茶,可利用组合数计算所有可能组合数:
并可区分为0至4杯正确,共五种情况:
上述正确次数所对应的组合次数有以下关系;若是0次正确,很明显地仅对应一种情况,即受试者完全错误地挑出其中四杯茶;若是1次正确,表示受试者仅正确挑出四杯中的一杯(共属于超几何分布:
若零假设(即受试者不能区别冲泡方式)为真,在第一类错误率上限5%的设定下,此例应拒绝零假设(受试者无法区别冲泡方式)的拒绝域仅包括了受试者达成“4正确”结果。这是因为在所有70种情况下,发生“4正确”结果的概率为1/70(约1.429%),但发生“4正确”或“3正确”的概率则有(16 + 1) / 70≈24.286%,超过先前设定的第一类错误率上限。换句话说,唯有当受试者完全正确地挑出属于先加牛奶再加茶的4杯茶,费希尔才会有信心认为受试者有区别冲泡方式的能力(因为在实际上受试者不能区别冲泡方式时,这个结论错误的几率只有1.429%),尽管量化这一能力不在他考虑范围之内。
费希尔在书中亦讨论了增加测试杯数与重复测试对检验的益处。例如,增加茶杯数至12杯(二种冲泡方式各6杯),或是原本8杯的实验重复进行二次,则可以提高检验的统计功效而更敏感地侦测出能够区别冲泡方式的受试者。
在戴维·萨尔斯伯格(英语:David Salsburg)的的著作《女士品茶:统计学如何变革了科学和生活(英语:The Lady Tasting Tea)》中,费希尔的同事费尔菲尔德·史密斯(H. Fairfield Smith)透露了故事的结尾:这位叫缪丽的女士确实地猜中了全部8杯茶的冲泡方式,成功地证明了自己。
德巴布拉塔·巴苏(英语:Deb Basu)认为“女士品茶”这一知名案例是实验数据随机化分析的两大支柱之一。