训练用单针/双针带线【出售】-->外科训练模块总目录
0.5、1、2、3.5、5mm仿生血管仿生体 - 胸腹一体式腹腔镜模拟训练器
仿气腹/半球形腹腔镜模拟训练器
[单端多孔折叠]腹腔镜模拟训练器
「训练教具器械汇总」管理员微信/QQ12087382[问题反馈]
开启左侧

[资源] 1: 循证医学介绍

[复制链接]
发表于 2018-5-24 14:05:09 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
引言

解决骨科医生每天面临的问题的科学需要严格的方法来指导调查并提供有效的答案。“循证医学”(EBM)这一术语由麦克马斯特大学的Gordon Guyatt博士首创,已成为临床调查和关键评估的标准。EBM被定义为谨慎和明智地使用目前最好的证据作为外科手术决策的基础。证据的应用不是孤立发生的,而是结合外科专业知识和临床情况,以及社会和病人价值(图1.1)。此外,鉴定和应用最好的证据需要全面的文献检索,对现有研究的有效性和质量进行批判性评价,敏锐地考虑临床情况和可能影响适用性的因素,以及平衡的应用。对临床问题的有效结果。

2000年,Marc Swiontkowski介绍了“骨与关节外科杂志”(JBJS)的循证骨科(EBO)部分,重点关注较高水平的证据,如随机对照试验(RCTs),该研究认识到对照研究的不足在整形外科文献中。在2003年,JBJS采用了EBM和证据层次来对所有临床试卷进行分级。同样在那一年里,Bhandari博士在“骨科创伤杂志”(JOT)上发起了以证据为基础的骨科创伤部分。自那时起,EBO倡议已经发展成为一项全球倡议,并已成为国际骨科会议的共同语言。美国骨科学会已经认可并将EBO纳入临床指南。诸如美国骨科医师协会(AAOS)等组织制定的临床实践指南已成为EBO传播的一个重要推动因素,因为这些组织已采用循证方法为骨科医生提供临床建议。

对“最佳可用证据”的理解最重要的是证据等级,元分析,研究设计和结果精确度的概念。 熟悉这些概念将有助于整形外科医生识别,理解并将最佳证据纳入其实践中。 我们从这里开始重新审视手术证据的层次结构,注意研究设计和方法学质量。 描述了一些衡量学习质量的常用工具,我们将读者引导至辅助教育资源。 最后,我们通过澄清EBO的误解来加强其基础原理,以帮助读者理解本文提供的手术证据。

1.jpg
图1.1基于证据的整形外科(EBO)三大改进骨科最佳实践 (Used from Ref. : with permission of John Wiley and Sons Tilburt et al.)

研究的层次结构

要理解最佳证据的概念,外科医生必须首先了解手术证据的等级。这种等级制可以被认为是一种分类系统,为通信提供一种通用的语言,并为现有证据的审查提供基础。研究范围从非常高质量到低质量,这主要基于研究设计和方法学质量。一般来说,高质量的研究将偏差降至最低,从而增加我们对结果有效性的信心。偏见可以被定义为研究性研究中的系统性误差,影响结果使其与事实不同。有几种可用的系统来制定给定研究的证据水平。牛津循证医学中心已经发布了治疗,预后,危害,流行和经济分析等级。对于上述每个子类别,都有一个具有独特临床意义的等级证据。 JBJS已经纳入了牛津系统,以便开发整形外科研究的层次结构(表1.1)。就本文而言,当我们提到“等级”或“证据水平”时,我们将参考此表。

在矫形外伤学中,治疗性研究具有核心重要性。例如,他们可能会告诉我们用于治疗股骨颈骨折的动力髋螺钉与松质骨螺钉的修复手术率。在评估外科或治疗干预研究时,必须将研究设计确定为识别最佳证据的初始步骤。最高级别的证据在于RCT和系统评价或高质量随机对照试验的荟萃分析。这些被称为I级试验。随机化过程是通过在治疗组之间均匀分布已知和未知的预后变量来最小化偏倚的最佳研究工具。现有证据表明,非随机研究倾向于高估或低估治疗效果。随机对照试验的系统评价采用严格的方法学来提高样本量和研究结果的准确性,因此被评审研究具有足够的方法学质量时被认为是最高级别的证据。当试验报告允许或提供对纳入研究结果(系统评价)的定性概述时,评价可以统计结合结果(荟萃分析)。此外,评论可能间接比较多个干预措施中的汇总结果(网络meta分析),这些干预措施尚未在RCT中直接进行比较。例如,如果有两个随机对照试验,一个比较治疗A与安慰剂,一个比较治疗B与安慰剂,则可以在治疗A与治疗B之间进行间接比较。诸如队列研究(也称为前瞻性比较研究)的非随机前瞻性研究提供了较弱的经验证据,因为它们容易出现多种偏倚。例如,治疗分配是不受控制的,因此治疗组群由于选择性偏倚可能从一开始就预后不同

t1.jpg
表1.1初级研究问卷的证据水平,

t2.jpg
表1.2治疗研究中偏倚类型的定义

(表1.2)。与对照组相比,回顾性病例对照研究评估病例的过去特征和暴露。这些研究受到几种类型的偏倚的影响,包括选择和回忆偏倚(表1.2)。治疗组和对照组已知的预后变量(例如年龄,性别,功能水平)可以部分控制混淆变量,但很少否定它们。人们也可以“超越”群体,使群体紧密配合,群体之间的暴露率是类似的。此外,回顾性结构可能导致数据收集不准确和患者随访不一致。证据层次的底部是病例报告和系列以及专家意见。病例系列是不受控制的,非系统性的研究,主要用于未来调查的假设生成,并且在指导护理方面几乎没有实用性。这些报告通常是单一的外科医生和单中心的经验,这进一步损害了普遍性。

学习质量与证据层级

在研究手术层次时,还必须考虑研究质量。一般来说,如果研究包含方法学问题,研究会降低一个水平(表1.1)。随机对照试验只有在有适当的偏倚防护措施(表1.3),高精度(窄置信区间)和高水平的患者随访时才被视为I级证据;质量较差的随机对照试验被分配到二级证据。包括Cochrane偏倚评估工具(1-3),Jadad量表(范围0-5),Delphi列表(范围0-9)和数字评估量表(NRS)评估RCTs的质量, ;范围1-10)。 Cochrane偏倚风险评估工具包含七个问题,评估六个不同的偏倚领域,在试验中被评为偏倚高,不清楚或低风险。这些领域是选择偏倚,表现偏倚,检测偏倚,磨损偏倚,报告偏倚以及其他潜在形式的偏倚。该工具中的七个问题提供了确定研究中偏倚风险的手段(表1.4)。 Jadad量表是另一种评估临床试验方法学质量的工具,其中包含三个主要评估领域:随机化,盲法和失访。另外,对于观察性研究(即队列和病例对照),存在质量评分系统,如用于队列研究的纽卡斯尔 - 渥太华量表。对于队列研究,该工具评估队列选择和可比性的严格性,暴露的确定,结果评估(例如盲法评估)和随访。由此,我们总结了表1.3中质量研究的关键方法论要素。尽管实际验证过的器械不需要在日常骨科中严格使用,但这些质量标准应该是整形外科医生在评估已发表研究结果有效性时最关心的问题。

t3.jpg
表1.3高质量研究的一些基本方法学成分

t4.jpg
表1.4偏倚评估工具的Cochrane风险

此外,报告试验合并标准(CONSORT)小组还发布了关于如何报告随机对照试验的更新指南。 之前对手术文献的系统性回顾报告称外科手术随机对照试验符合其建议并且认可了改进随机对照试验报告的教育措施。 尽管对本文档进行彻底的审查超出了本章的范围,但它足以说明它是帮助计划,执行和报告RCT的绝佳概览。

随机外科试验:特定方法综述

随机对照试验被认为是评估手术干预效果的最佳研究设计。 RCT在整形外科文献中被描述为解释性的(也称为机械的)或实用的。解释性试验是一项严谨的研究设计,涉及最可能从干预中获益的患者,并询问干预是否在接受治疗的患者群体中发挥作用。实用性试验包括更多异质性人群,通常涉及较不严谨的协议,并询问干预是否对其提供给谁。解释性试验在理想条件下测量干预疗效,而实用性试验在类似日常手术实践的情况下测量干预的有效性。由于这个原因,实用临床试验被认为是更普遍的,但是这是以患者异质性导致研究能力降低为代价的,以及患者对适用治疗的依从性差的可能性,这导致更大范围的治疗效果(增加噪音)。解释性和实用的方法应该被认为是一个连续统一体,任何特定的试验都可能有各自的方面。最佳试验设计取决于研究问题,干预的复杂性以及新干预对患者的预期益处。随机试验最适合用于评估中小型治疗效果的干预措施。预期效果越小,研究者应考虑优化参与者库和干预以提供清洁结果(解释性试验)越多。

整形外科手术试验给研究人员带来了许多方法上的挑战。 这包括招募足够数量的患者,致盲,差异性干预和结果评估等方面的困难。 这些困难反映在当前整形外科文献的质量上。 之前对整形外科随机对照研究的回顾表明,高比例未报告隐藏分配,致盲和排除患者的原因。 这些随机对照试验的结果可能会给读者带来误导,并且越来越多的人认为需要进行更大规模的试验。 最近的一项随机对照试验表明,许多这些问题可以通过多中心外科随机对照试验来规避,其中包括严格的协调干预指导方针,并包含一个盲法裁定委员会来确定结果。

整形外科界普遍认为RCT是整形外科研究的未来,但也有许多反对他们的论点。这些包括关于患者伤害的道德声明,其中包括(1)外科医生随机进行不同的手术,他们可能会被迫执行一个程序,使他们不够熟练和舒适,每次形成;(2)开展涉及扣压护理的随机对照试验如安慰剂对照试验,以及(3)除非进行假的随机对照试验,否则不能盲目接受外科医生治疗以及患者致盲的困难。虽然已经发布了促进患者致盲的假RCTs,但许多道德委员会仍然拒绝使用基于对接受假处理的患者的潜在伤害的方法。为了回答包含安慰剂组的手术RCT问题,系统评价强调了进行假手术试验的主要障碍和考虑因素。这篇综述描述了安慰剂手术试验的关键可行性问题,由于缺乏符合条件的患者,招募率很低;然而,假手术试验仍然可行,特别是对于微创手术。

其他人则认为RCT与研究类型之间的差异过于夸大。 Concato和同事在MEDLINE上搜索了5个临床领域的随机对照试验和队列分析或病例对照研究的荟萃分析。他们发现了“显著”的相似性,并得出结论认为,这些观察性研究没有系统地高估治疗效果的大小。他们以“只有随机对照试验产生可靠结果并且所有观察性研究具有误导性的流行观点对患者护理,临床调查以及医疗保健专业人员的教育造成不利影响”这一陈述结束。本森和他的同事们查看了关于19种不同治疗的136份报告。在大多数情况下,观察性研究和随机对照试验的治疗效果估计是相似的。在仅有2/19的治疗效果中,观察性研究中的联合效应位于RCTs中联合量级的95%置信区间之外。 Ioannidis及其同事发现,25/45(56%)的非随机研究话题显示出更大的治疗效果。 14/45(31%)随机对照试验显示较大的治疗效果,而7/45(16%)的差异幅度不会单靠偶然发生。 MacLehose及其同事系统回顾了随机和非随机研究的效应大小比较,发现RCT与观察性研究之间的效应大小差异在高质量研究中较低。这些研究表明,研究的质量可能比研究设计更重要。

基于专家的设计

在外科手术试验中,如果外科医生认为一种手术优于或具有一种手术方面的专业知识,但由于随机分配患者而被迫执行其他手术,则会出现道德困境。在这种情况下,外科医生参与试验是不道德的。为了解决这个问题,P.J. Devereaux博士广泛发表了基于专业知识的设计,患者被随机分配到两组外科医生之一,而不是手术本身。这与外科医生以随机顺序执行两个程序的并行RCT形成对比。这样可以避免前述的道德困境,并且在试验结果可能受到外科医生经验或舒适度严重影响的情况下,也可以最大限度地减少性能偏差。基于专业知识的设计的不利之处在于,在诸如创伤手术的一些研究领域中,两个外科医生组都需要随时可用来执行其指定的干预。这可能会限制资源稀缺的小型中心的可行性。

并行试验设计

最常用和最简单的设计是平行随机化试验。参加者按随机顺序分配给两个或多个治疗组中的一个。其中最基本的是两个治疗组——治疗组和对照组。试验可以有两个以上的臂以便于多重比较,但这需要更大的样本大小并增加分析的复杂性。

析因设计

因析试验能够对两种或更多种干预进行单独评估和相互结合评估。 这个试验设计被认为在某些情况下是经济的,因为在一项研究中可以测试多个假设(和治疗)。 例如,Petrisor及其同事开展了一项多中心,盲法随机2×3因素试验,研究灌注液(卡斯蒂尔肥皂或生理盐水)和压力(高与低与非常低压灌洗)对开放性骨折结局的影响伤口。 相应的2×3表如表1.5所示。 从这张表格中,研究者的伤口比较了接受肥皂的1140名患者和接受盐水溶液的1140名患者。 同时,可以对每个压力类别与760名参与者进行比较。

通过因子设计,干预之间可能存在交互作用。也就是说,当治疗具有相似的作用机制时,一种治疗的效果可能受另一种治疗的影响。如果在外科实践中共同给予治疗(如上述灌洗研究),那么该试验设计是理想的,因为它允许评估相互作用以确定最佳治疗组合。治疗相互作用可以是负的(拮抗的)或阳性的(协同的),它们分别降低或增加研究能力。因此,这会影响样品的大小,因此,潜在的相互作用应考虑在设计阶段的研究。

t5.jpg
表1.5来自开放性骨折伤口(FLOW)随机试验的流体灌洗的2×3因子试验表

这项研究的目标样本量为2280名参与者,旨在评估开放性骨折创面中冲洗溶液(肥皂或生理盐水= 2类)和灌洗压力(重力流,低压和高压= 3类)的影响

其他随机化设计

在手术试验中,随机单位通常是患者或感兴趣的肢体。换句话说,当我们随机接受一种治疗与另一种治疗时,我们通常会谈论随机化患者。然而,在某些情况下,对患者进行随机分析可能并不可行或不合理。当干预处于机构或部门层面时,例如实施新流程,指南或筛查程序时,患者随机化是困难的并且通常是不可能的。这有几个原因:(1)外科医生或保健医生不太可能为一名患者而不是另一名患者使用新的指南; (2)随机接受不同干预措施的患者往往会相互教育(一种称为污染的过程); (3)全系统项目实施起来往往昂贵且具有挑战性,因此运行多个项目并不实际或不经济。在这种情况下,最好将机构,部门或地理区域随机化。这个过程称为群集随机化。例如,如果有人要在大联盟的棒球运动员中实施嚼烟戒烟计划,那么将球队随机分配到戒烟计划而不是单个球员将更有意义。集群试验的两个重要方面如下:(1)集群内的参与者在预测因子方面比在集群之间更相似,并且(2)必须有足够数量的集群来提供预后平衡和足够的能力。一般来说,因为群体内的患者相似,群体试验的功率降低和所需样本量增加。在分析中,可以比较整个集群或个人的结果。个体患者分析需要估计患者的相似性(称为组内相关系数)。参与者在集群内越相似,组内相关系数越高,因此所需样本量越大,以达到显著性。

另一项试验设计是交叉试验,患者随机接受治疗,然后在指定时间后接受其他治疗。 在进行患者内分析时,每个参与者都可以作为自己的控制。 这些研究具有显著的权力,但很少在骨科手术中进行,因为它们需要慢性疾病,一旦停止治疗就可迅速逆转。 例如,Pagani及其同事进行了一项交叉试验,评估膝关节OA患者4外翻和中性膝关节支具的步态矫正。 所有患者在没有矫形器的情况下进行步态和爬楼梯评估,然后随机分配到两个支撑臂中的一个2周,然后交叉到另一个支撑臂2周。 由于这种分析的力量,他们证明了只有11名患者具有4外翻支撑的步态力学的统计学显著改善。

层次结构中的特殊注意事项

除了对II级研究的审查外,对具有不一致结果的高质量随机对照研究的审查也被视为II级证据(表1.1)。例如,Hopley和同事进行了一项荟萃分析,比较了全髋关节置换术(THA)和半髋关节置换术(单极和双极),其中包括7项随机对照试验,3项准随机对照研究和8项回顾性队列研究。该评价报道THA术后再手术率降低,功能改善明显优于半髋关节置换术。然而,从对这项研究的随机研究森林图的回顾中,可以看出,点估计的范围很广,从而导致它们的汇总效应大小不精确(图1.2)。这种分析遇到了方法学问题,如隐瞒不清,研究纳入标准的异质性和半髋关节成形术的类型;所有这些因素都会对这个元分析在层次结构中的评级产生负面影响。此外,回顾性队列研究的纳入评价将被视为III级证据(图1.2;表1.1)。

推荐等级:从工作台到手术室

最佳可用证据的质量和所报告的治疗效果的大小在底部显示的临床实践估计强度中起着核心作用。 对左侧全髋关节置换术和右侧半髋关节置换术的估计(图中的参考文献和参考数字参考源文章中的参考文献列表)。(Used from Ref. [55]: with per-mission of BMJ Publishing Group LTD from Hopley et al.)

2.jpg
图1.2样本森林图显示了各个初级研究的点估计值和95%置信区间,以及表示为相对风险(菱形)的汇总效应值。 这种荟萃分析为每种类型的研究设计和总体汇总提供了单独的汇总效应大小

t6.jpg
表1.6改进的等级质量评价标准

建议。针对或反对干预措施的建议基于对现有证据的全面系统评估,对可用研究的方法学质量的评估,以及针对亚专业专家的焦点小组讨论以达成共识。 2004年,建议评估,开发和评估分级(GRADE)工作组开发了一个评分证据质量系统(表1.6)。这种评分系统对设计更好,方法学质量更高,治疗效果更大的研究更加重视,同时也考虑到直接性等因素。 GRADE标准适用于所有关键结果。一旦证据被“分级”,并且完成了目标人群中基线风险计算,拟议干预的可行性以及收益与伤害评估等若干因素,则分配一个建议级别,其中包括以下之一:(1) )做到这一点,(2)很可能做到这一点,(3)折腾起来,(4)可能不这样做,(5)不这样做。这些建议通过建议大多数(项目1和4)或许多(项目2和4)具有良好知识的外科医生根据对文献的系统评价做出特定决定来指导外科医生。 GRADE方法为将证据转化为实践奠定了基础,并成为临床医生和评审小组的有用沟通工具。然而,即使是专家小组的有价值的意见和共识,也不能取代对现有证据的正确理解(例如,来自对meta分析的批判性评估)和良好的临床判断。因此,我们回到EBO的实质,EBO在做出治疗决策时考虑了最佳可用证据,临床判断,患者价值和临床情况(图1.1)。

循证骨科:进展与误区

EBM已被公认为过去160年来15大医学发现之一。 在过去的十年里,它为临床试验的开发,系统评价和验证结果提供了基础,从而革新了临床研究和护理。 已经开发了国际标准,如牛津循证医学中心,Cochrane协作组织和英国审查中心等,这些标准正在提供医学和外科护理效果的最新系统评价。 在整形外科学方面,JBJS已经将证据层级全面纳入所有已发表的手稿中,并且已在美国骨科医师学会(AAOS)的年度会议中使用。 因此,整形外科临床试验和系统评价的整体质量似乎正在提高。

提高整形外科研究的有效性只是EBO追求提高骨科实践标准的一个方面。 EBO还需要骨科社会的意愿,例如本案中的AAOS将最佳证据纳入实践。 传统上,一直存在抵制性 - 设计的骨科学研究和对EBO实践的误解。 相比之下,国际髋部骨折研究协作组织(IHFRC)的外科医生进行的国际横断面调查显示,大多数外科医生都愿意根据大规模临床试验结果改变他们的实践。 因此,骨科医生似乎认识到需要更高的标准来确保肌肉骨骼病人的最佳护理。

尽管EBO在全球范围内发生变化,但对此存在误解。有人批评EBO只给出关于普通患者的信息,简单的试验结果应用与“食谱”药物相似。 EBO的方法实际上恰恰相反。 EBO采用自下而上的方法,从手术问题开始,并结合最佳可用证据,外科专业知识和经验,临床情况和患者偏好。如果现有证据适用于个体患者和临床情况,并且如果适用,EBO的外科专业知识和工作理解对于评估是非常重要的。例如,如果有人遇到65岁的马拉松运动员摔倒后出现股骨颈骨折,则必须考虑与半髋关节置换和内固定相比,THA结局改善的现有证据,目前局限性这些文献,患者的功能状态和生理年龄,以及患者对这些手术并发症的预备和功能结果的偏好和期望。

有些人将EBO等同于只有RCT和荟萃分析,因为这些被认为是最高质量的证据。相反,EBO提出用最合适的研究设计和方法来回答具有最大有效性的手术问题。当病情较为常见而不是罕见时,RCT更有效。例如,骨科肿瘤学的许多条件都不足以允许进行随机对照试验,但EBO提倡在该领域的研究尽可能多地采取多种保护措施以限制偏倚,将重点放在对患者重要的结果上,并在进行系统评估时进行系统评估可能。此外,诊断效能的评估最好通过横断面研究而非RCT来回答。有关生物力学和修复体磨损性质的问题通常可以通过基础科学研究得到最好的解决。尽管如此,随机试验已经声称EBO的许多重点是因为它们在为手术干预提供有效结果方面发挥重要作用(表1.1)。观察性研究设计得很好。一项设计良好的观察性研究可以限制与非随机化有关的偏倚和混淆。这类研究回答的一些问题可能是病因,自然史,预后因素的鉴定以及不良治疗的可能性。从道德的角度来看,将治疗组随机分配到可能有害的管理方面是不道德的。

因此,重要的是要记住,许多因素决定了理想的研究设计,最好地回答临床问题。这样的考虑包括被问及的问题类型(例如,治疗效果、诊断)、条件的频率、干预的伦理、可用证据的质量和不确定性以及手术均衡性。

结束评语

最终,成为一个以证据为基础的整形外科医生并不是一项简单的任务。人们必须理解证据的等级,从RCT的元分析到临床经验。在作出手术决定时,外科医生应该知道最佳可用证据的强度以及相应的不确定性程度。探索证据以回答具体问题的过程同样至关重要。能够搜索现有文献,评估研究的方法学质量以确定最佳证据,确定该信息对患者的适用性,并将这些信息妥善保存以供进一步参考,这需要教育和实践。关于这些主题的教学单元,我们将指导您阅读本书的其他资源,包括外科医生临床研究,医学文献用户指南:循证临床实践手册,JBJS外科手术文献用户指南:如何使用系统文献综述和荟萃分析,以及“骨科创伤杂志”基于证据的骨科创伤总结。

参考:Orthopedic Traumatology An Evidence-Based Approach, Second Edition
您需要登录后才可以回帖 登录 | 注册

本版积分规则

丁香叶与你快乐分享

微信公众号

管理员微信

服务时间:8:30-21:30

站长微信/QQ

← 微信/微信群

← QQ

Copyright © 2013-2024 丁香叶 Powered by dxye.com  手机版 
快速回复 返回列表 返回顶部