AI在医疗保健中的关键障碍是“黑匣子”问题。对于大多数AI系统来说,模型很难解释,也很难理解为什么它们会做出某种诊断或推荐。
作者|Susan Ruyu Qi
(资料图片)
编译|YIFEI DeepMind发表在的《自然医学》(Nature Medicine)杂志上的研究展示了他们的AI产品,该产品能够通过3D视网膜OCT扫描诊断许多眼部疾病。它的性能与最好的视网膜专家相当,甚至优于一些人类专家。
该产品的准确性和诊断范围令人印象深刻,这也是第一个AI模型达到专家级的性能与三维诊断扫描。然而,从临床的角度来看,更具开创性的是这种AI系统运作的巧妙方式,它模仿了现实生活中的临床决策过程,解决了“黑匣子”问题,而这个问题一直是AI技术在医疗领域的最大障碍之一。
视网膜的光学相干断层扫描扫描
两个神经网络
DeepMind的人工智能系统通过创建一个包含两个独立神经网络的框架,提高了“黑匣子”的可解释性。他们的框架不是训练一个单一的神经网络从医学图像中识别病理,这将需要大量的标记数据,每个病理,他们的过程解耦为两个:1.分割:识别图像上的结构;2.分类:分析分割,并提出诊断和转诊建议。
DeepMind的框架通过在两个神经网络之间使用一个容易看到的中间表示(组织图)来解决“黑匣子”问题
1.细分网络
使用三维U-Net结构,这是第一个神经网络,将原始OCT扫描转换成组织图。它使用877个临床OCT扫描进行训练,对于每次扫描的128个切片,只有大约3个具有代表性的切片被手动分割。这种稀疏的注释过程大大减少了工作量,并允许它们覆盖大量的扫描和病理。组织图识别显示的解剖(十层视网膜)和标记疾病特征(视网膜内液体,出血)和伪影。
这个过程模仿典型的临床决策过程。它允许医生检查AI的分割和获得洞察神经网络的“推理”。这种中间表征是未来AI融入临床实践的关键,它在困难和模棱两可的情况下特别有用,医生可以检查及可视化地自动分割,而不是简单地提出诊断和转诊建议。
这种分割技术在临床培训中也有巨大的潜力,因为它可以帮助专业人员学会阅读医学图像。
此外,它可以用来量化和测量视网膜病变。目前,视网膜专家只能通过观察当前和过去OCT扫描之间的差异来客观判断疾病进展(例如视网膜内液体增多)。通过人工智能的自动分割,可以自动获得所见异常的位置和体积等定量信息。这些数据可以用于疾病跟踪和研究,例如,作为临床试验的终点。
左:原始OCT扫描;中:手动分割;右:自动分割
2.分类网络
第二个神经网络分析组织分割图并输出诊断和转诊建议。它使用7621名患者的14884个OCT扫描卷进行训练,所有扫描都自动生成分割图,通过检查患者的临床记录获得临床标签,以便回顾性地确定最终诊断与最佳转诊途径。
因此,分类网络使用分割地图,并学习将患者的治疗需求优先级划分为紧急、半紧急、常规和仅观察。然后,它以多种伴随视网膜病变概率的形式输出诊断。
输出:预测的诊断概率和转诊建议
图像模糊与合成
对于人类和机器来说,由于存在模糊的区域,无法从图像中推断出真正的组织类型,因此图像的解释和分割都很困难,存在多种同样合理的解释。为了克服这个挑战,DeepMind的框架使用了5个分段实例,而不是1个。每个网络实例为给定的扫描创建一个完整的分段映射,产生5个不同的假设。这些不同的地图,就像不同的临床专家一样,在具有清晰图像结构的区域达成一致,但在模棱两可的低质量区域可能有所不同。使用这个集合,原始OCT扫描产生的模糊性被提交给后续的决策(分类)网络。该分类网络还有一个由5个实例组成的集合,它们被应用于5个分割图中的每一个,每次扫描得到总共25个分类输出。
结果:
该框架在ROC曲线下的面积达到了99%以上,与临床专家相当。至于转诊建议,其业绩与五名最佳专家相当,优于其他三名专家。
未来:
OCT是现在最常见的成像程序之一,仅2014年一年就有535万次OCT扫描在美国医疗保险人群中进行。
OCT的广泛应用还没有与专业人员解释扫描结果和将患者转诊到适当的临床护理的可用性相匹配。
DeepMind的人工智能解决方案有可能降低成本,增加使用OCT进行视网膜病变筛查的可用性。它不仅可以自动检测眼疾的特征,而且还可以优先考虑最需要紧急护理的患者,建议他们是否应该被转诊治疗。这种即时分流过程大大减少了扫描和治疗之间的延迟,使患有严重疾病的患者能够及时获得保护视力的治疗。
“每当谈到医学中的机器学习时,下意识的反应就是担心医生会被取代。但这并不能取代医生,事实上,这将增加那些真正需要治疗的真正疾病患者的数量。”Ehsan Rahimy博士,医学博士,谷歌大脑顾问,帕洛阿尔托医学基金会玻璃体视网膜实践专家。
*附录:
分割算法本身仍然是一个黑盒子,并不能真正解决问题。然而,从临床的角度来看,三维OCT扫描的分段视图是非常有价值的。这与医生如何通过影像学诊断非常相似:1.在扫描中识别异常,2.将异常与病理联系起来。因此,在诊断算法中增加一个中间表示可以显著提高AI系统的可解释性,使其在未来的临床部署中更加可行。