微软通过提示工程将GPT-4变成医学专家，首次准确率超90%

作者：AI方立体发布时间：2023-12-05

要点:

微软通过「提示工程」将GPT-4成功转化为医学专家，使用最新提示策略Medprompt在医疗专业领域取得了超过90%的准确率，首次超越其他高度微调的模型。

Medprompt是一个多种提示策略的组合，包括动态少样本选择、自生成思维链和选项洗牌集成，使GPT-4能够在医学领域表现出色，并且该方法具有通用性，可推广到其他专业领域。

在测试中，GPT-4结合Medprompt在MultiMed QA九个基准数据集中均取得最高分，平均准确率达到了91.3%。研究人员还进行了消融实验，发现自动生成思维链对性能提升的贡献最大。

近期微软的研究成果展示了通过「提示工程」成功将GPT-4转化为医学专家的威力。在医学专业领域，GPT-4使用最新提示策略Medprompt在MultiMed QA九个测试集中取得了超过90%的准确率，首次超越其他高度微调的模型，如BioGPT和Med-PaLM。

Medprompt是一个由动态少样本选择、自生成思维链和选项洗牌集成等多种提示策略组成的综合体，使GPT-4能够在医学领域表现出色，同时也具有通用性，可以推广到电气工程、机器学习、法律等专业中。

结构图

论文地址:https://arxiv.org/pdf/2311.16452.pdf

其中，动态少样本选择利用训练数据作为少样本示例的来源，通过向量相似度从训练集中选择最相似的样本，避免了对模型参数进行大量更新。

自生成思维链通过要求GPT-4使用特定提示生成思维链，实现了逐步思考和推理，从而提高了模型的细粒度逻辑。选项洗牌集成解决了在选择题中可能存在的位置偏差问题，通过打乱选项顺序并进行多轮预测，最终选择最一致、正确的选项。

在测试中，GPT-4结合Medprompt在MultiMed QA九个基准数据集中表现出色，优于其他微调方法。消融实验进一步验证了Medprompt各组件对整体性能的贡献，其中自动生成思维链步骤对性能提升的贡献最大。

此外，研究人员还探索了Medprompt的跨域泛化能力，发现其在不同领域的数据集上同样取得了显著的提升。这一研究成果引发了广泛关注，被认为是一项能够改变行业的技术。目前我们仍未触及提示的极限，也未达到微调的极限，为未来研究和发展提供了更多的探索空间。

近期资讯

阿鱼编辑 2024-12-26

无图智驾再升级，为何比亚迪天神之眼实力稳居行业第一梯队？

随着比亚迪在智能驾驶领域的积极布局，其他汽车厂商需要注意了。12月24日，比亚迪的高端智能驾驶辅助系统——“天神之眼”，已在全国范围内激活了无地图城市领航辅助驾驶（CNOA）功能，意味着无论何地，只要有路即可畅行，展现了其高阶智驾实力领先。对于渴望尝试“天神之眼”无地图城市领航辅助驾驶（CNOA）功能的用户，请耐心等待，因为OTA升级将陆续到来。而值得一提的是，仰望U8豪华版、腾势Z9 GT及腾势N7的车主将在本月内分批收到升级推送，他们无疑将率先享受到这份福祉。 [图片] 此次在全国范围内推出的无图城市

一一评测 2024-12-26

与查理·芒格的两顿饭

两篇分别在 2023 年和 2019 年与芒格共进晚餐后有感而发的文章。其中大卫· 森拉（David Senra）是《创始人》播客（Founders）的主理人，这是一档聚焦于全球最成功的企业家和商业领袖生平故事及创业历程的播客。肖恩· 帕里什（Shane Parrish），是Farnam Street 网站的博主，也是 TheKnowledge Project 这档采访跨行业顶尖专家播客的主理人。 [图片] [图片] [图片] [图片] [图片] [图片] [图片] [

ggl99 2024-12-26

各无人机成像滤光片的差距对比

无人机技术的飞速发展，使得无人机成像系统在各种领域中的应用日益广泛。从高空拍摄、环境监测到军事侦察，无人机的成像功能都起到了至关重要的作用。而在成像系统中，滤光片作为关键的组件，对于提高成像质量和适应不同拍摄环境起到了至关重要的作用。本文将探讨各种类型无人机对于滤光片的需求，并从高低档无人机成像需求出发进行对比分析。 [图片] （图源网络，侵删）高档无人机成像需求与滤光片选择高档无人机通常用于需要高精度和高清晰度的拍摄任务，例如军事侦察、地形测绘等。这类无人机对滤光片的需求主要体现在以下几个方面：

激埃特光电 2024-12-26

以色列真要对伊朗宣战吗？

趁你病要你命! 随着叙利亚阿萨德政权的垮台，德黑兰和贝鲁特之间的陆地通讯被切断，伊朗对抗美国和以色列的“抵抗之弧”战略再次遭遇重创，以色列对伊朗的军事打击的可能性正在增加，伊朗的国家安全面临前所未有的挑战。日前，以色列国防部长卡茨更是公然表示，以色列的所有系统都在为针对伊朗的行动做准备，并断言与德黑兰的外交不会取得实际成果。这是什么意思？意思很简单：跟伊朗搞外交没用，还是要来硬的！话不多，但是够狠、够霸道，难道以色列真要对伊朗宣战吗？从以色列的角度来看，这还真不好说。多年来，伊朗核计划一直是以色列的“眼中

俞洁讲武堂 2024-12-26

微软通过提示工程将GPT-4变成医学专家，首次准确率超90%

推荐体验

相关资讯

微软仅凭「提示工程」让GPT-4成医学专家，超过一众高度微调模型，专业测试准确率首次超90%

AI生成内容可以检测！准确率超90％

GPT-4准确率飙升64%，还当起了“老板”

GPT-4准确率大跳水，从97.6%降至2.4%

考公考编统统拿下，AI做题家来卷人类了！微软发布新型基准测试AGIEval，GPT-4作答高考英语准确率超90%

近期资讯

麦克威|详述电动屋顶通风天窗的优缺点

扫码点餐平台，再不知道就亏大了!

昂科烧录器支持MindMotion灵动微电子的32位微控制器MM32G0020B1T

一篇文章让你读懂实时数据库

2025全球航天展望：最值得期待的10大航天任务

授予外观设计专利权的条件有哪些？

无图智驾再升级，为何比亚迪天神之眼实力稳居行业第一梯队？

与查理·芒格的两顿饭

各无人机成像滤光片的差距对比

以色列真要对伊朗宣战吗？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响