证据等级,或称证据金字塔(英语:levels of evidence,常以缩写LOE代表;或 英语:hierarchy of evidence),系指以启发法为科学研究结果的相对强度来进行排名。针对大型流行病学研究的相对强度排名已广获普遍认可;目前用以评估医学证据(英语:evidence)所提出的等级,已超过80种以上。研究的设计方法和及试验指标也会影响证据强度;前者例如特定病人的案例报告(英语:case report)或依盲法进行的随机对照试验,后者例如存活率或生活品质。临床研究中,治疗效能的最佳证据,主要就是基于统整有多篇随机对照实验的元分析。统合了高品质的完整随机对照试验之系統綜述,和囊括了治疗副作用的高品质完整观察型研究之系統綜述,二者相较的话,其等级可评估为相同重要。前者的例子即为考科蓝循证医学数据库所发表的文章。循证实践中经常应用证据等级,并将其整合至循证医学之中。
2014年,斯特根加(Stegenga)将证据金字塔定义为“依各种研究方法所受到潜在的系统误差之影响的大小,来进行证据等级排序。”在此证据金字塔中,位居顶端的研究方法,在经验证的医学处置中对假设性的疗效,所受系统性偏误影响最小,或者说它的内部效度最高:313。1997年,格林哈尔(Greenhalgh)称证据品质金字塔为“在临床处置的决策时,所依循的原始研究,依不同的研究方法类型,分别代表的相对权重。”
美国国家癌症研究所将证据等级定义为“一种排名系统,用来描述临床试验或研究的结果强度。研究设计(英语:study design)的方法和所测量的临床指标,都会影响到证据强度。”
现今已经提出许多评估证据等级的方法,但用于评估研究品质的类似草案仍在发展中。目前可用的草案较少关注于结果研究比较关注于“治疗效能”(efficacy,即理想状态下,治疗得到的结果)或是“治疗效益”(effectiveness,在一般日常、可预期状态下治疗得到的结果)。
建议强度评比系统,全称“建议强度的评估、发展和评价分级”(GRADE,Grading of Recommendations Assessment, Development and Evaluation)是一种评估证据确定性(也称为“证据品质”或“对预估效果的可信度”)和建议强度的方法。建议强度评比始于2000年,由方法学家、指引制定者、生物统计学家、临床医生、公共卫生科学家和其他对此议题有兴趣的成员组成。
超过100个组织(包括世界卫生组织、英国国家健康与照顾卓越研究院(英语:National Institute for Health and Care Excellence)(NICE)、加拿大卫生保健预防工作小组(the Canadian Task Force for Preventive Health Care)、哥伦比亚卫生和社会保障部(英语:Ministry of Health and Social Protection (Colombia))等)认同且已使用或正在使用建议强度评比系统来评估证据品质和卫生保健建议的强度。
建议强度评比系统为证据品质的评分如下:
1995年,盖亚特(英语:Gordon Guyatt)(Guyatt)和萨克特(英语:David Sackett)(Sackett)发表第一个这样的金字塔层级架构。
格林哈尔(Greenhalgh)将不同类型的初级研究按以下顺序排列:
桑德斯(Saunders)等人提出草案建议将研究报告分为六大类,依:研究设计、理论背景、可能产生的伤害及大众的接受度。依这个草案进行分类时,处置必须有叙述性的文献发表,包含手册或类似的描述。此草案并不考量对照组的特质、干扰因子的效果、统计分析的特性或是各种其他的条件。
处置可被评估而分为以下六类:
可汗(Khan)等人在循证回顾与传播中心提出一个评估研究品质的草案,做为评估医学和社会心理处置的一般方法。虽然强烈建议使用随机分派设计,但草案指出,此类设计只有满足以下严格的准则时才适用,如:正确的随机分派,且对所有受试者及研究人员隐匿分组资讯(隐匿分组资讯),包括那些评估研究结果的研究人员(盲法)。这份草案也强调需使用“治疗意向分析”(intention to treat)进行比较,以避免任一组中的受测者退出的人数或原因不相近而产生偏差。草案也为非随机研究设立严格的标准,包括根据可能的潜在干扰因子进行配对分析,充分描述每个阶段的分组和治疗,并对评估结果的人隐瞒受试者的治疗选择(盲法)。这个草案没有为证据等级分类,但根据研究是否符合规定的标准,将治疗分为符合或不符合循证。
美国国家循证实践暨计划注册中心(英语:U.S. National Registry of Evidence-Based Practices and Programs,缩写为 NREPP)已制定出一个评估草案。需符合以下条件才会依草案进行评估:当处置措施至少有一个或以上的统计显著(概率小于 0.05)正向结果;已发表于同行评审的期刊或评估报告中;且可取得文件内容,如可供培训的资料。评估结果会将研究品质由 0 到 4 级评分,参考标准包括:研究所采用的结果测量,其可靠性和有效性、支持处置再现性(可预测每次治疗都以相同方式进行)的证据、数据遗失和失访受试者的数量、可能的干扰因素及是否使用合适的统计方法调整,包括足够的样本数。
这个术语源于 1979 年的加拿大定期健康检查工作组(Canadian Task Force on the Periodic Health Examination,缩写为 CTF)报告中,“依所根据证据的品质衡量治疗的有效程度:1195”。
它使用的分级制有三个等级,第 II 级再细分成二个子等级:
CTF 将建议分为 A-E 共 5 级:1195:针对特定情境
此外,CTF 在 1984 年、1986 年和 1987 年更新了他们的报告。
美国的预防服务工作小组(英语:United States Preventive Services Task Force)(USPSTF)于 1988 年根据加拿大定期健康检查工作组提出了他们的指引,同样分为三等级,并将第二级再分成二个子等级。
此后数年,还有数个评分标准被提出。
2000 年 9 月,英国牛津循证中心(英语:Centre for Evidence-Based Medicine)(英语:Centre for Evidence-Based Medicine,缩写为 CEBM)发表有关预后、诊断、治疗效果、治疗危害和筛检问题的“证据等级”指南。它不仅涉及治疗和预防,还包含诊断检测、预后指标或伤害。原始的 CEBM 证据等级是刊在《循证值班》(Evidence-Based On Call)中,让证据检索及评估结果的过程精确可行。发表在 2009 年的版本,如下:
2011 年,国际团队重新设计了牛津 CEBM 证据等级,使其更易于理解,并参考证据排名方案的最新发展。这个等级已被患者及临床医生使用,并用于制定临床指引,包括:银屑病最佳化使用光疗和局部治疗的建议及在加拿大使用 BCLC 分期系统诊断和监测肝细胞癌的指引。
2007 年,世界癌症研究基金会(英语:World Cancer Research Fund)的分级系统分成:令人信服的、高可能性的、低可能性的和证据不足的,共四个等级。所有疾病的全球负担研究(英语:Global Burden of Disease Study)都以它来评估支持因果关系的流行病学证据。
1995 年威尔逊等人、1996 年哈多恩等人与 1996 年阿特金斯等人描述各种类型的分级系统并为它们辩护。
提出证据等级十年后,在21世纪对它的批评逐渐增加。2011年,一篇针对重要文献的系统回顾整理出三类批评:循证医学的程序问题(特别是卡特赖特 Cartwright、沃拉尔 Worrall和豪威克 Howick)、循证医学的易错性高于预期(约阿尼迪斯Ioaanidis等人)及循证医学被视为一种不完备的科学哲学(阿什克罗夫特Ashcroft等人)。多数批评发表在哲学期刊上,因此并未得到支持循证医学的临床医师们关注。迈克尔·罗林斯(英语:Michael Rawlins)及罗宾·布鲁姆(英语:Robyn Bluhm)表明,循证医学限制了研究结果应用在个别病人照护上,且要了解病因,必须同时了解人口研究和实验室研究。此外,循证医学的证据等级并不考量医疗处置的安全性与有效性的研究。随机对照实验设计需要说明组内差异,而这需要将证据等级由一种同时参考流行病学与实验室研究关系的网络体系取代才能达成。
根据研究设计建立证据等级一直受到质疑,因为“指引无法正确地为此定义,衡量某些非随机分配对照研究的优点,及考量研究设计上所有局限性的完整清单。”
施泰根加(Stegenga)特别批评将元分析视为证据等级最高的做法。随机对照试验应该被放在证据等级的最顶端的假设也被沃勒尔(Worrall)和卡特赖特(Cartwright)批评。
罗斯·尤普舒尔(英语:Ross Upshur)于2005年表示,循证医学是让医师变得更好的指南,但不是哲学教条。他指出循证医学支持者表现出“近乎福音教徒般”的热情,并深信循证医学的优越性,而忽略那些有助拓展循证医学边界的批评。
博格森(Borgerson)于 2009 年写到证据等级的高低并非绝对,不要知识论般地为他们辩护,但“医学研究者更应该注意那些处理普遍存在偏差的社会机制”。拉卡兹(La Caze)指出虽然基础科学(英语:basic science)位于循证医学较低的阶级,但是它却在“指出实验方向、分析与解读资料上扮演重要角色”。
康卡托(Concato)于 2004 年反驳证据等级给于随机对照试验过多的影响力,且并非所有研究问题都可以用随机对照试验回答,不论是因为实务或伦理议题。即便已有高品质的随机对照试验,其他研究类型的证据仍然重要。相较其他系统,施泰根加认为证据等级评估系统不合理地局限且相较其它的评比提供的资讯更少。
2015 年,克里斯托弗·布朗特(Christopher J Blunt)的博士论文专门研究各种医学上的证据等级,论文指出“广为接受的等级,像是拉卡兹模型、条件式层次结构(如:GRADE 建议强度)及豪威克等人捍卫的启发式方法,以上皆通过先前的哲学批评,但他认为这些都非常薄弱,无助于临床应用。例如,“GRADE 建议强度和类似的条件式模型,忽略临床相关信息,如:治疗效果的变异程度,及造成治疗反应不同的原因;而启发式方法缺乏必要的经验支持”。布朗特进一步提到“阶层结构对在临床上应用证据的基础不足”,因为证据等级背后的核心假设,“将由高品质证据支持的平均治疗效果,视为强烈建议的合理性”是站不住脚的,因此,由个别研究支持的证据应单独评读。