报告题目:变分跨模态学习及其在疾病诊断和影像报告生成的应用
报告摘要
视觉-语言跨模态学习是当前机器学习和计算机视觉的热点,在医疗图像分析中也有重要应用。例如,影像数据往往伴有文本报告,如何挖掘文本数据信息用于理解影像数据,对于基于影像的疾病诊断以及实现影像报告自动生成具有重要意义。视觉-语言跨模态学习的关键是如何搭建图像与文本之间的桥梁,实现信息的交互与传递。本次报告将介绍基于概率隐含变量模型的跨视觉和语言模态的学习框架。该框架构建概率模型,引入隐含变量,利用变分推断,在隐含空间中实现图像和文本信息的交互和传递,将文本信息用于指导神经网络从图像中提取与疾病相关的影像特征。该框架能够用于医疗图像多种分析任务,包括基于影像数据的肺部疾病诊断任务(IPMI, 2021)和影像自动报告生成任务(MICCAI, 2021; MedIA, 2022)。
相关文献:
1.T. van Sonbeek, X. Zhen, M Worring, L. Shao, Variational Knowledge Distillation for Disease Classification in Chest X-Rays, IPMI, 2021
2.I. Najdenkoska, X. Zhen, M Worring, L. Shao, Variational topic inference for chest x-ray report generation, MICCAI, 2021
3.I. Najdenkoska, X. Zhen, M. Worring, L. Shao, Uncertainty-aware report generation for chest X-rays by variational topic inference, Medical Image Analysis, 82, 102603, 2022
嘉宾简介
甄先通,博士,北京联影智能影像技术研究院。从事机器学习和医疗图像分析研究,主要研究方向包括贝叶斯统计推断、元学习、领域适应与泛化、多模态学习、医疗图像分割与分类,以及影像报告自动生成等。发表论文百余篇,涵盖领域内顶级期刊IEEE T-PAMI和Medical Image Analysis等,和机器学习、计算机视觉以及医学图像分析等国际会议,包括 ICML、NeurIPS、ICLR、CVPR、ICCV、ECCV,MICCAI和IPMI等。曾经获得2014年北美放射医师年会(RSNA)Country Presents Awards奖,和2022年MICCAI MEDIA 最佳论文二等奖(Best Paper Runners-up Award)。
特别感谢本次Webinar主要组织者:
王连生(厦门大学)