背景:7月28日,腾讯云在北京举办云+社区沙龙,邀请来自腾讯与四川云检科技的五位AI技术专家,分享他们在专业领域的AI开发经验,帮助开发者在具体行业场景中实践AI技术。本文根据江铖在【7.28日腾讯云+社区技术沙龙-AI技术全面场景化落地实践】现场演讲内容整理而成。
讲师介绍
江铖,武汉大学博士,法国傅里叶大学博士后,腾讯AI医疗中心高级工程师。研究方向主要为乳腺癌钼靶和病理AI学习系统构建。
本次分享大纲:
1.AI乳腺癌诊断的研究背景
2.乳腺钼靶AI诊断系统
3.乳腺病理、核磁共振和超声研究
4.总结
AI乳腺癌诊断的研究背景
随着时代的进步和经济发展,人们的健康意识日益提高,同时伴随着AI技术的发展,AI医疗理所应当地成为了互联网行业内的风口,值此之际,腾讯推出了腾讯觅影,目前已经涵盖了食管癌、肺癌、乳腺癌、结肠癌、宫颈癌和糖尿病性视网膜病变。
为什么研究乳腺癌?
开展乳腺癌方向的研究简单来说主要基于两方面的原因,一是对于女性来说乳腺癌是所有恶性肿瘤当中发病率最高的一种,在国内约占全部恶性肿瘤的17%左右,正严重危害着女性的健康;二是乳腺癌虽然发病率很高,但如果在较早期发现,治愈的可能性非常高。相对美国来说,我国的五年生存率还较低,这主要是因为中国人口基数过多,有经验的影像科医生较为缺乏,使得大范围早筛困难重重,腾讯觅影发布的AI乳腺癌诊断系统能够有效缓解这一矛盾,最大限度地帮助患者和医生。
AI乳腺癌一体化诊疗系统
现在对乳腺癌的诊断主要依赖超声、钼靶、核磁共振、病理和基因等,对于一般的三甲医院,通常先使用钼靶进行筛查,如果无法定性,会要求病人进一步进行超声和核磁共振检查,如果出现疑似恶性的情况,将进行病理穿刺检查,并对是否癌变,恶性程度以及分子分型做出判断。
我们的目标是能够把这些数据模态有机地结合起来,形成一个完整的体系,从而提高乳腺癌的诊疗技术。由于其中最主流和有效的筛查诊断方式是钼靶,因此我们在这方面的研究开展最早,目前腾讯的AI钼靶乳腺癌诊断系统已经对外发布,并已经在30多家三甲医院落地试用。
乳腺钼靶AI诊断系统
1.目标功能
乳腺钼靶诊断系统主要包含三方面的目标功能。第一是实现了疑似病灶的定位;第二是给出了乳房的良恶性判定;第三是能够自动生成影像报告。这些功能的目标是实现和医生的相互配合,减少误诊率和漏诊率,并且随着模型的不断优化可以逐步地降低医生的劳动强度。
2. 技术框架
这三方面的目标功能是如何实现的呢?这主要基于一个包含三个维度的技术框架。其中架构前端是钼靶影像的前处理层;中间层是AI学习模型;最后是通过医生反馈对前两部分进行的动态更新层。
在前处理层,主要是对不同厂商(例如西门子、Hologic、GE)设备进行窗宽窗位的归一化适配,使得输入后续算法的数据具有尽可能类似的风格。另外,会结合医生的看片经验,对于可能的异常区域进行ROI提取,以尽可能地减少不相关信息的干扰。
在中间层,我们为了乳腺癌钼靶检查而重新设计了全新的神经网络模型TMuNet,该网络包含四个方面的特点。第一是传统的网络输入通常都是单图输入,而现在的方案可实现对左右乳CC位和MLO位进行对比的四张图同时输入;第二是采用多尺度网络,使得图片输入网络前不需要进行缩放;第三是渐进式的网络构建,这种方式类似大脑学习过程,它把疑难问题分解后逐层解决,在构建网络时由局部到整体,由单幅图像到多幅图像;第四是自步学习的训练方式,类似于大脑由易到难的学习方式,先将训练的样本按难易程度进行分类,在训练过程当中由易到难地逐步把样本加进去,对模型进行多轮训练,这可以让模型达到最好的效果。
3.当前精度
在三层技术框架下,通过对各项技术合理的组织和运用,系统达到了业内领先的水平。在我们的工作经验中,我们发现疑难病例的数量和种类能在很大程度上决定AI系统的上限。因此,我们非常注重数据集的运营,对于部分难例,我们会请专家进行标注或者利用病理和其他模态数据进行交叉确认。
乳腺病理、核磁共振和超声研究
1.乳腺病理
目前乳腺癌病理研究主要解决两方面问题,第一是组织学分级,即定义肿瘤恶性的程度,它主要依据核分裂计数、核多形性打分、腺管形成程度三项内容;第二是免疫组化,使用不同染色片进行分子分型研究。目前研究团队已经完成了有丝分裂技术方面的研究,并已经开展对于KI-67和HER2染色片的研究工作。对于已经完成的有丝分裂检测部分,在学术界TUPAC专业比赛上,之前的冠军F1 score分值为0.73,而我们的系统可以达到0.82,有很大程度的提升。精度的提升主要归功于三方面的技术。第一点是使用了难例挖掘方式,采用多轮迭代方式然后在每一轮次对样本进行整理,由专家确认较难的标注,再放入样本集中强化训练;第二点是图像的归一化,通过使用对抗网络将图像做归一化,达到提升;第三点是在速度上改进,抛弃原始计算机视觉中将一整幅图切分的方式,采用共享计算和模型压缩的效果,让一幅病理片可以达到0.5秒以内的处理速度,基本上接近于实时。
2.核磁共振和超声
对于乳腺MRI,有多种3D数据模态,而对于病灶的标注依然是所有研究工作的基础。目前研究团队推出了一种半自动标注工具,通过构造一个半自动的神经网络模型,将医生手工信息融入神经网络,辅助分割病灶,此标注工具可以大大加速病灶的标注,由纯人工的几十分钟提升到1分钟的水平。在乳腺超声方面,我们正在开展数据收集工作,并与此同时进行相应的调研工作。
总结
通过乳腺癌AI诊断系统的研发,项目团队对于样本的选择和标记,网络结构的设计,训练方法和技巧等都有了较深的积淀。乳腺样本库也在不断的丰富和扩展中,大量的疑难病例被逐步加入,一步步地构建着产品的护城河。在各模态数据研究逐渐成熟之后,我们的最终目标是将多个模态数据进行融合,实现高精度诊断和个性化的服务,这将极大地造福患者和医生。