清华校友立功！谷歌发布首个全科医疗大模型，14项任务SOTA-- 迪族网

清华校友立功！谷歌发布首个全科医疗大模型，14项任务SOTA

来源：量子位　2023-08-03 05:42:36

丰色发自凹非寺
量子位 | 公众号 QbitAI

全球首个全科医疗大模型正式发布：

由谷歌Research和DeepMind共同打造的多模态生成模型 Med-PaLM M ，懂临床语言、懂影像，也懂基因组学。

在14项测试任务中，Med-PaLM M均接近或超过现有SOTA，前提是所有任务都使用 一组相同的模型权重 。

而在246份真实胸部X光片中，临床医生表示，在高达%的病例中，Med-PaLM M生成的报告都要比专业放射科医生的更受采纳，这表明Med-PaLM M并非“纸上谈兵”，用于临床指日可待。

对此，谷歌也自己给出了评价：

这是通用医学人工智能史上的一个里程碑。

所以，Med-PaLM M具体什么来头？

在正式了解Med-PaLM M之前，我们先简单介绍谷歌自建的多模态医学测试基准 MultiMedBench 。

谷歌表示，在MultiMedBench之前，市面上缺乏这样一个全面的多模态医学基准。

该基准由12个开源数据集和14个单独的任务组成，用于测量通用生物医学AI执行各种临床任务的能力。

其中12个数据集共包含了六种生物医学数据模式（文本、放射学（CT、MRI和X光）、病理学、皮肤病学、乳房X光检查和基因组学），14个任务则涵盖五种类型（问题回答、报告生成和摘要、视觉问题回答、医学图像分类和基因组变体调用）。

Med-PaLM M就在上面进行了微调。

正如其名“M”代表多模态，Med-PaLM M相比之前谷歌发布的Med-PaLM、Med-PaLM-2等医疗大模型，是一个主打全科、通才的医疗AI，不仅能回答各种医学问题，还能直接看片、懂基因组学。

它的基本架构是PaLM-E （多模态语言模型），并采用ViT预训练模型作为视觉编码器，具体实现了三种组合：

-PaLM 8B+ViT 4B(PaLM-E 12B) -PaLM 62B+ViT 22B (PaLM-E 84B) -PaLM 540B+ViT 22B (PaLM-E 562B)

通过MultiMedBench对PaLM-E模型进行微调，并将其与生物医学领域对齐，Med-PaLM M得以诞生。以下是一些实现细节：

（1）数据集和预处理方面，将MultiMedBench中所有图像大小调整为224×224×3，同时按需使用填充来保留原始纵横比。

（2）由于谷歌的目标是训练一个通用的生物医学AI模型，使用统一的模型架构和模型参数，用多模式输入执行多个任务。为此，他们为Med-PaLM M提供了特定于各种任务的指令以及一个纯文本的“一次性示例”。

如下图所示的胸部x光解读和皮肤病变分类任务所示，这些指令有一种写提示语的味道，以“你是一个很给力的放射科助理”开头。

（3）训练过程中，作者对PaLM-E进行了端到端的微调。在多模态任务中，图像标记与文本标记交错，以形成对PALM-E模型的多模式上下文输入。对于所有微调任务，多模式上下文输入最多包含1个图像，然而Med-PaLM M能够在推理过程中处理具有多个图像的输入。

性能评估阶段，作者主要测试Med-PaLM M的“多面手” （即全科）能力、突发涌现能力以及放射学报告生成质量（与真实放射科医生进行对比）。

结果显示：

（1）与专业SOTA模型和无生物医学领域微调的广义模型（PaLM-E 84B）相比，Med-PaLM M在MultiMedBench上的所有任务、数据集和指标组合（共计14项）中，性能均基本接近SOTA或超过SOTA。

需要注意的是，该结果是在没有任何特定任务定制的情况下使用相同的模型权重集实现的。

（2）在scale实验中，三个不同规模的Med-PaLM M对各类任务的影响各不相同：粗略来看，对于纯语言任务和需要调整的多模式任务来说，模型越大越好；但对图像分类和胸部X光报告生成任务来说，84B的效果比562B表现反而更好一些。

（3）零样本思维链推理能力涌现。Med-PaLM M可以通过胸部X射线图像检测没有训练过的结核病，与针对该类数据集进行专门优化过的SOTA结果相比，它的准确率已相差不大。

不过，它给出的具体报告还是存在具体错误，说明还有不足。

（4）放射性报告生成测试中，80B参数的Med-PaLM M平均有%的报告比放射科医生做的更好（被临床医生采纳），而12B和562B，分别为%和%。

另外，遗漏和错误率测试显示，Med-PaLM M 12B和84B模型平均每份报告的遗漏率最低，为，其次是562B模型为。这一结果与MIMIC-CXR上人类放射科医生基线报告的相当。

作为人类首个全科医学大模型，Med-PaLM M多久能投入实用，想必也是大家关心的问题。

虽然它被“自诩”为里程碑（主要是因为靠一组模型权重在各种生物医学任务上接近或超过SOTA），但谷歌也指出目前还有不少局限性待解决。

比如缺乏高质量的测试基准。谷歌表示，这是迄今为止通用生物医学人工智能发展的关键瓶颈，因为只有高质量的基准才能在很大程度上促进相关领域的发展。

而目前的MultiMedBench还存在单个数据集大小有限以及模式和任务多样性有限（比如缺乏转录组学和蛋白质组学）等问题。

再比如，扩展（scale）多模态AI模型也具有挑战性。

在语言领域，这一操作可以显著提高性能和应急能力。然而，谷歌在Med-PaLM M上的初步实验表明，由于医学数据的稀缺性，这对于生物医学任务领域的多模态广义模型来说并没有这么简单。

目前，谷歌仅发布了Med-PaLM M的论文。

它一共有两位共同一作，其中一位叫Tao Tu。

他本科毕业于北理工（2010年），硕士毕业于清华大学，博士为美国哥伦比亚大学，专业都是医学工程。目前已在谷歌担任软件工程师快两年。

论文地址： /abs/

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

关键词：

推荐DIY文章

主机存在磨损或划痕风险 PICO4便携包宣布召回

穿越湖海！特斯拉Cybertruck电动皮卡可以当“船”用

vivoXFold+折叠旗舰开售配备蔡司全焦段旗舰四摄

飞凡R7正式上市全系标配换电架构

中兴Axon30S开售拥有黑色蓝色两款配色

荣耀MagicBookV14 2022正式开售搭载TOF传感器

华硕无双上新新增指纹识别模块和键盘背光

曝爱彼迎联合创始人加入特斯拉董事会自愿放弃现金薪酬

联想YOGAPro14si9版将开启预售搭载i9-12900H处理器

RTX4090发布：性能提升高达2倍功耗保持450W

一加NordWatch智能手表官宣采用矩形表盘

小米米家智能枕开启众筹内置智能压电传感器可捕捉心跳

清华校友立功！谷歌发布首个全科医疗大模型2023-08-03
Yole发布2023车载摄像头市场报告2023-08-03
亚信科技公布2023年中期业绩净利润同比增2023-08-03
运营商财经网康钊：美国限制对华芯片出口把2023-08-03
印花税和水利基金的税率水利基金的税率20192023-08-03
16GB+512GB+骁龙8Gen2，跌价1110元，顶配旗2023-08-03
纤的组词（纤的组词两个字）2023-08-03
山东莘县：当好营商环境的“护航者”2023-08-03
一级造价师考试科目难易程度一级造价师考2023-08-03
吉林省白城市2023-08-03 01:39发布冰雹黄色预警2023-08-03
手相算命图解手相算命2023-08-03
安宁新安驾校有限公司(关于安宁新安驾校有2023-08-03
重生之官场风流为什么不写了（重生之官路风2023-08-03
2023佛山潮商奖学活动2023-08-03
今年大豆进口量大增，国产大豆价格弱势运行2023-08-02
相约大运成就梦想丨女子百米飞人大战，中2023-08-02
苏 27（关于苏 27的基本详情介绍）2023-08-02
创意菜园床廉价材料打造令人难忘的种植盛宴2023-08-02
眼睛健康，隐私无忧！威宝笔记本电脑防窥膜2023-08-02
构筑长坡厚雪新赛道！华为影像XMAGE引领行2023-08-02
iPhone 14电池老化被吐槽2023-08-02
上海索尼SIE总裁江口达雄：中国PlayStation2023-08-02
vivo X90s和iQOO11S的区别及选择2023-08-02
可爱系的表情包《二百五十一期》2023-08-02
荣耀Play7T Pro把电充满能打多久和平精英2023-08-02
CVS健康(CVS.US)Q2总营收超预期净利润同2023-08-02
商务部回应美将2家中国企业列入所谓“维吾2023-08-02
星空华文(06698)发盈警预期中期经调整净2023-08-02
华为影像XMAGE一周年：突破移动影像边界，2023-08-02
买iPhone13还是14？2023-08-02

清华校友立功！谷歌发布首个全科医疗大模型，14项任务SOTA

新闻排行

精彩推荐

综合信息