昆士兰科技大学统计高级研究员Nicole White 9月19日(对话)如果你感觉不舒服,就去看医生。他们问一些问题,取一些血进行测试;几天后,他们打电话告诉你被诊断出患有某种疾病。
你真的得了这种病的几率有多大?对于一些常见的诊断测试,答案是惊人的低。
很少有医学测试是100%准确的。部分原因是人本身是可变的,但许多测试也建立在有限或有偏见的患者样本上——我们自己的工作表明,研究人员可能故意夸大新测试的有效性。
这并不意味着我们应该停止信任诊断测试,但如果我们想要明智地使用它们,更好地了解它们的优缺点是必不可少的。
前列腺特异性抗原(PSA)筛查是一种被广泛使用的不完善的检测方法,它测量血液中某种特定蛋白质的水平,作为前列腺癌的指标。
据估计,该测试能发现93%的癌症,但它的假阳性率非常高,因为大约80%的阳性结果男性实际上并没有癌症。
对于那80%的人来说,这一结果会给他们带来不必要的压力,并可能进行包括痛苦的活组织检查在内的进一步检查。
COVID-19快速抗原检测是另一种广泛使用的不完善的检测方法。对这些检测的回顾发现,在没有症状但检测结果呈阳性的人中,只有52%的人实际感染了COVID。
在有COVID症状和阳性结果的人群中,测试的准确性上升到89%。这表明测试的性能不能用单个数字来概括,而是取决于个人情况。
为什么诊断测试不是完美的?一个关键原因是人是多变的。例如,对你来说发烧,对其他人来说可能是完全正常的。
对于血液检查,许多外来因素会影响结果,例如一天中的时间或最近吃的东西。
即使是无处不在的血压测试也可能不准确。结果可能会有所不同,这取决于袖带是否适合你的手臂,你是否交叉双腿,以及测试完成时你是否在说话。
在新的诊断模型上有大量的研究。新模型经常作为“医学突破”成为头条新闻,比如你的笔迹如何能检测出帕金森病,你的药房会员卡如何能更早地检测出卵巢癌,或者眼球运动如何能检测出精神分裂症。
但不辜负头条新闻往往是另一回事。
许多诊断模型是基于小样本量开发的。一项综述发现,一半的诊断研究只使用了100多名患者。从如此小的样本中很难得到诊断测试准确性的真实情况。
为了获得准确的结果,使用该测试的患者应该与用于开发该测试的患者相似。例如,广泛使用的用于识别心脏病高风险人群的弗雷明汉风险评分是在美国开发的,已知在土著和托雷斯海峡岛民中表现不佳。
在“多基因风险评分”中也发现了类似的准确性差异。这些方法结合了数千个基因的信息来预测疾病风险,但它们是在欧洲人群中发展起来的,在非欧洲人群中表现不佳。
最近,我们发现了另一个重要问题:研究人员夸大了一些模型的准确性,以获得期刊发表。
有很多方法可以夸大测试的表现,比如从样本中剔除难以预测的患者。一些测试也不是真正的预测,因为它们包括来自未来的信息,例如感染的预测模型,包括患者是否开过抗生素。
夸大诊断测试的作用的最极端的例子可能是Theranos丑闻,在该丑闻中,一种手指刺血测试本应诊断多种健康状况,却吸引了数亿美元的投资者。
这太好了,令人难以置信,而策划者现在已被判犯有诈骗罪。
在精准医疗和大数据时代,将患者的数十条或数百条信息结合起来——可能使用机器学习或人工智能——提供高度准确的预测,似乎很有吸引力。然而,到目前为止,承诺超出了现实。
一项研究估计,1995年至2020年期间,有8万个新的预测模型发表。每个月大约有250款新车型。
这些模式正在改变医疗保健吗?我们没有看到任何迹象——如果它们真的有很大的影响,我们当然不需要如此稳定的新模型流。
对于许多疾病来说,数据问题是再复杂的建模也无法解决的,比如测量误差或数据缺失,这些都使准确的预测变得不可能。
有些疾病可能天生就是随机的,涉及到一系列复杂的事件,病人无法描述,也没有模型可以预测。
例子可能包括几十年前发生在病人身上的伤害或以前的疾病,他们不记得,也没有在他们的医疗记录中。
诊断测试永远不会是完美的。承认它们的缺陷将使医生和病人能够就结果意味着什么进行知情的讨论——最重要的是,讨论下一步该做什么。(对话)皮皮