国际循证医学证据分级体系的发展与现状续

本文为国际循证医学证据分级体系的发展与现状（续），在上一篇中主要讲述了基于“研究设计类型”的证据分级体系。本篇针对其他类型进行阐述。

2以临床问题为主的证据分级体系

年，英国Cochrane中心联合循证医学和临床流行病学领域最权威的专家，根据不同研究类型制定了详细的质量分级标准，并于年正式发表在英国牛津循证医学中心（OCEBM）的网络上。此标准首次涉及了病因、诊断、预防、治疗、危害、预后、经济学分析等7个方面，任何临床研究都能从研究设计和研究终点这2个方面来划分等级。

OCEBM证据体系内容详细具体，成为目前证据分级中最权威的体系。该标准的另一特色之处在于其首次纳入了“全或无”证据（即无对照的研究证据，“全”是指在采用干预措施之前，所有的患者均会发生某一结局事件，而应用该干预措施之后，有部分患者不会发生该结局事件；“无”是指在采用干预措施之前，部分患者会发生某一结局事件，而应用干预措施之后，所有的患者都未发生该结局事件）。这是非RCT类证据第一次被列为最高级别证据。OCEBM证据体系是循证临床实践中公认的经典标准，也是循证教科书和循证期刊使用最广泛的标准。但该标准缺点在于其过于复杂和深奥，初次接触循证医学的医生或医学生不易理解和掌握。于是年，由JeremyHowick领导的国际小组对OCEBM证据体系进行了简化及修改，年正式完成并发布，证据分级体系等级由原来的5级10等减少为5级，不再对前三级进行细化，并且将系统综述证据等级提升。经过改动后，该体系能让临床医生和患者快速回答临床问题，且可依照使用者遇到临床问题的流程排序。同时OCEBM体系增加了对筛查研究的评价，删除了经济学和决策分析研究证据评价，在介绍部分也明确说明，此分级不涉及推荐的形成（表11）。

3基于“证据体”的证据分级体系

不难看出，在以上的各个分级体系中，虽然在具体的分级标准上存在些许差别，但都非常注重设计类型，尽管也注重了研究质量，但对于过程质量监控和转化的需求没有给予足够的重视，此外，在这些分级系统中，每一等级只包含单个设计类型的证据。不同的研究问题要求不同的研究证据。循证医学强调“证据体”的概念，即证据体是由多种研究方法、多种来源的证据构成，而非仅仅由某一种研究所获得的证据构成。那么不同类型的证据能否共同纳入，进行综合的等级评价，有机构对此展开了探索，并得到了广泛的认可。

年，GRADE工作组正式推出了国际统一的证据质量分级和推荐强度标准。GRADE工作组是在年，由19个国家和国际组织合作成立的，成员包括了临床指南专家、循证医学专家、各权威标准的主要制定者以及证据研究者。此次标准的特点在于，首先，它率先打破了原有的“研究设计类型”为主，完全摒弃了根据研究设计类型制定等级的方法，转而将研究的设计类型、方法学质量、结果一致性和证据直接性进行综合考虑。其次，GRADE是对证据体（evidencebody，EB）的分级，而非单个研究的分级，这一点是GRADE系统区别于以往所有证据分级标准的最大不同。最后，GRADE系统对于证据质量和推荐强度分别给予了明确的定义，且证据质量和推荐强度不再绝对一一对应。证据质量是指在多大程度上能够确信疗效评估的正确性，推荐强度是指在多大程度上能够确信遵守推荐意见利大于弊，并从不同使用者的角度分别制定证据级别和推荐强度标准，使其实用性得到了加强（表12）。目前，GRADE标准已被世界多个国际组织及协会采纳，成为评价干预性证据的国际标准之一。在其他研究问题方面，GRADE工作组也进行了探索，如评价定性研究、诊断类研究和预后类研究。

年，GRADE工作组针对定性系统评价中纳入研究质量不一，结论互相矛盾等问题，开发了针对定性系统评价证据的分级工具——CERQual。该工具从四个方面对定性研究证据进行评价：方法学局限性、相关性、结果一致性和数据充分性。最终由高、中、低、极低4个等级来表示证据级别，方法与GRADE评价过程相似。然而CERQual仍未发展出定性研究的证据推荐系统。

在对诊断性试验系统评价的证据分级时，GRADE标准的各因素的具体描述都有了部分调整：（1）诊断性试验无专门的偏倚风险评价工具，目前GRADE工作组推荐QUADAS-2，具体评价方面参考QUADAS-2相关内容；（2）不直接性主要体现在人群的间接性、诊断措施或策略的间接性以及间接比较；（3）不精确性包括纳入研究样本总量以及合并结果的95%可信区间大小；（4）不一致性和发表偏倚与干预性试验的评价基本相似。但同时的问题是：（1）QUADAS工具与GRADE降级因素有部分会发生重叠，并且它主要用来评价单个诊断性试验而不是证据体；（2）不同诊断医师对同一份诊断数据或图像会以为内个人差异得出不同结论；（3）有研究显示诊断性试验常常对患者最终结局无实质性影响；（4）无统一的样本含量估算方法，可信区间大小标准需依据具体试验以及专家共识；（5）尚且无针对诊断性试验证据质量升级的案例。

在对预后类研究进行证据分级时，考虑到预后研究的特殊性，其最合适的研究设计是前瞻性队列研究，其次是大样本的RCT，所以RCT和观察性研究起始都作为高等级证据，通过考察5个降级因素以及大效应量、剂量效应关系和相关混杂3个升级因素，对证据进行质量评价。预后研究的偏倚风险主要包括人群、随访和结局测量三方面，可使用的评估工具和标准也较多；不直接性体现在人群外推性和结局适用性；不精确性则需要将可信区间大小结合临床决策阈值综合考虑；不一致性和发表偏倚与干预性试验的判断相似。应用GRADE评价预后类证据需要注意的问题：（1）区别偏倚风险和不直接性中人群所代表的含义；（2）避免对不一致性和不精确性的过度降级。

虽然GRADE标准与以前的标准比较，具有很大的优势，但是依然有它的局限性，比如并未涉及质性研究、经济学评价、描述性研究等设计，对来自专业共识的系统评价无法进行证据质量评级，也不主张对单项研究进行质量分级。

4其他证据分级体系的探索

医学研究问题是多样的，除了上述涉及到的干预、诊断、预防、预后等类型外，尚有很多其他的研究问题亟待解决，为了循证医学更好的服务于临床医学，为临床医生提供更多有用的信息，有方法学家对证据分级的其他应用领域进行了很多的探索。

4.1JBI预排序系统

年，澳大利亚JoannaBriggs循证卫生保健中心（JoannaBriggsinstitute，JBI）根据GRADE系统以及原有的JBI循证卫生保健模式制订了JBI证据预排序及证据推荐级别系统。该系统考虑了医疗卫生保健领域证据的多元性，提出在对证据体进行质量分级前，对证据进行预排序（Pre-ranking）。在对单项研究进行严格评价后，按照其设计类别（包括有效性、质性、诊断性、预后、经济学评价）进行预排序，以实现对证据的快速分类，其次根据GRADE标准的升降级原则，对证据体进行等级调整，最后按照JBI证据推荐级别形成推荐。JBI的证据推荐只分为两级，A级强推荐和B级弱推荐，判断依据不完全基于证据等级，还包括利弊因素、资源配置及患者意见。目前，该证据分级系统已在JBI及其50多个国际分中心的多项循证资源内广泛应用。然而此体系是否适用于护理及卫生保健以外的领域仍有待研究。

4.2药品安全性的证据分级体系

年，廖星等对药品安全性证据分级体系进行了探索研究，提出构建“安全性证据体”的理念。首先对不同证据源进行分级，如前瞻性的大样医院集中监测研究为最高级证据，系统综述或RCT中报告的不良事件或不良反应为第二级，医院真实世界医疗数据回顾性队列分析或国家自发不良反应系统（SRS）数据分析为第三级，医院临床实际中不良反应（ADR）个案病例讨论报告和文献中ADR个案报告以及其他研究类型报告的不良事件或不良反应为第四级，专家意见和共识以及政府部门颁布的相关规范和标准为最低级。然后各种证据从点、线、面相结合构成“证据体”，当长期、大样本、医院集中监测研究结果和来自国家药品不良反应中心SRS数据的结果一致时，被列为最高级证据体，专家意见和共识以及政府部门颁布的相关规范和标准为最低级证据。

纵观国际证据分级体系发展历程和现状，在涉及研究领域方面，干预类研究的证据分级已趋于完备，广泛应用的包括GRADE系统、OCEBM标准等；其他研究领域尚在不断探索与完善中，尤其是病因和经济学分析方面还未出现可替代OCEBM标准的证据分级体系，但是OCEBM标准虽然涉及面较全，却缺少推荐强度分级。在证据合并方面，面对更多的研究类型，包括定性研究、定性研究的系统综述、观察性研究的系统综述、以及传统医学的古籍文献等，能否充分利用，作为证据纳入等级评价中，也是需要考虑的问题。总而言之，随着循证医学的不断发展，如何评价、综合各种类型的证据，为医学临床决策提供可靠依据，依然是循证方法学家面临的挑战，期待未来会出现更全面更能解决临床需要的证据分级体系。

点击阅读原文下载全文

陈薇，刘建平

赞赏

长按

治疗白癜风的专家
 白斑医院排名

转载请注明：http://www.qianlei1618.com/zpjs/2909.html

上一篇文章：护理科研如何撰写循证实践论文

下一篇文章：医学干货循证医学讲义及名词术语中英文对