医疗AI专题报告二：专业性与实用性兼备，ChatGPT类聊天AI在医疗端的使用报告

作者：AIGC资源社发布时间：2023-04-28

关注公众号【幻影视界】

一起学习ChatGPT，共同探索成长。

报告来源：华安证券

今天分享的是【华安证券医药团队】2023年4月27日发布【17页】医疗AI专题报告（二）：《专业性与实用性兼备，ChatGPT类聊天AI在医疗端的使用报告》

核心观点

l ChatGPT医学领域表现杰出，专业性凸显

ChatGPT是一个交互式人工智能模型，在医学领域，ChatGPT可以用于辅助医生进行疾病诊断、医疗保健管理等方面。从文献上可以看出，ChatGPT专业性是有保障的。1.具备合格的医学水平，GPT-4针对USMLE的测试准确率高达78.63%，能够对患者的医疗咨询问题提供准确的回复。2.ChatGPT能够处理多科室的复杂病例，克服了不同科室之间的专业壁垒。3.ChatGPT在使用上没有时间和空间的限制，回复速度快，内容丰富，患者满意度较高。

l 实用性测试：各类聊天AI达到实用级别，回复相对准确，还兼具患者安抚性

目前已进入市场的三种不同的主流AI交互软件是ChatGPT（Open AI），New Bing（Microsoft），文心一言（百度）。其中ChatGPT包含GPT-3.5 和GPT-4两种模式，New Bing（精准，平衡和创造三种模式）。因此我们用病例作为测试，以此来真实还原患者咨询场景。我们选取的常见的高血压，选取一个网上的病例作为样本，分别将病例输入到各模型，并结合指南和医生意见做对比分析。

l 应用场景：AI使C端医疗可及性大大提升，有望带来互联网医疗、基层医疗服务质量升级

从以上两章可以得出结论，ChatGPT类聊天AI在医疗端是兼具专业性与实用性的。

l 专业性上，ChatGPT4.0的论文测试显示其在各地区考试中都能获得良好的成绩，并且综合性和专科性医学问题都有良好表现。可以说是初步具备合格的医疗水平，并且随着影像/检验数据分析的迭代升级，提升空间巨大。

l 实用性上，从我们测试的高血压患者病例中可以看到，主流的几款聊天AI，无论是ChatGPT、Newbing还是文心一言，都能够对患者做出相应的指导，并提示最终需要临床医生指导。但对于一般患者而言，医疗的可及性大大增加，因为其操作的方便性，使用体验也大幅升级。

主要内容

1 ChatGPT医学领域表现杰出，专业性凸显

ChatGPT是一个交互式人工智能模型，在医学中被广泛应用。ChatGPT是由OpenAI在2022年11月30日发布的一种基于GPT-3.5架构的大型自然语言处理模型，其参数量高达1.75万亿，被广泛应用于对话生成、文本摘要、机器翻译、问答系统等自然语言处理任务中。

在医学领域，ChatGPT可以用于辅助医生进行疾病诊断、医疗保健管理等方面。例如，可以利用ChatGPT生成自然语言文本，从而帮助医生快速生成医学报告和病历记录。此外，ChatGPT还可以用于自然语言问答系统，帮助医生和患者解答医疗相关问题。

1.1 ChatGPT具备合格的医学水平

GPT-4医学能力卓越，USMLE准确率78.63%优于GPT-3.5。根据微软和Open AI于2023年3月20日共同发布的《Capabilities of GPT-4 on Medical Challenge Problems》一文展示，GPT-4在医学领域表现出卓越的能力。该项测试中，GPT-4针对MedQA题库中的美国医师执业资格考试（United States Medical Licensing Examination，USMLE）试题，准确率高达78.63%，明显优于GPT-3.5的47.05%准确率。这意味着GPT-4在医学性能上有显著提升，并且GPT-4优于平均水平（60%）。这进一步证明了ChatGPT在医学领域的卓越表现。

针对中国地区的医学问题，目前人工智能交互软件的表现尚未达到最佳水平，还存在提升空间。微软和Open AI针对MedQA数据集中的3426道中国大陆试题、1413道中国台湾试题和1273道美国试题进行了测试。测试结果显示，针对中国大陆试题，GPT-4的准确率为75.31%，GPT-3.5的准确率为40.31%。根据2022年执业医师考试的分数线360分，60%的正确率即可通过该考试。因此，GPT-4已经具备合格的医学水平，但GPT-3.5仍需改进。需要注意的是，GPT-4和GPT-3.5在中国大陆的表现仍未达到最佳水平，相较于美国和中国台湾的测试，准确率仍有5%-10%的提升空间。因此，未来这类人工智能技术的交互软件还需针对中国地区的医疗进一步开发，以更好地服务于中国的医学领域。

1.2 ChatGPT可以解决综合学科医学问题，但在针对单学科问题时的表现更出色

ChatGPT聚焦单学科专业问题表现更佳。针对USMLE这一综合性医学考试，GPT-3.5和GPT-4的正确率分别为47.05%和78.63%。然而，当ChatGPT的测试聚焦到某个具体医学学科，例如医学遗传学或解剖学时，GPT-4的正确率平均比GPT-3.5提高了5%-10%。这表明GPT-4的医学基础更加扎实，针对综合性医学问题的处理能力更强。相较于医生，ChatGPT在医学领域的知识掌握没有科室壁垒。例如，当患者提及他们最近使用的药物或保健品时，医生可能无法立即了解该药物的具体情况。但是，ChatGPT不会受到这种限制。这也是ChatGPT与医生相比的主要优势之一。

1.3 AI影像/检验数据分析或推动ChatGPT医学性能再提升

ChatGPT咨询医疗问题时，由于缺乏医学影像资料可能会影响ChatGPT回复的准确性。微软和Open AI的测试表明，在仅有文字的试题中，GPT-4的准确度高达89.51%，相较于图文试题（未提供图片）提高了近20%的准确度。因此，可以预见未来随着人工智能技术的不断发展，将有可能融入AI识别并分析影像、检验信息等技术，从而推动AI医疗咨询领域的发展。

1.4 小结：ChatGPT初步具有医疗专业性，优化空间

ChatGPT在医疗行业中的应用具有明显的优势。首先，ChatGPT具备合格的医学素养，能够对患者的医疗咨询问题提供准确的回复。其次，ChatGPT能够处理多科室的复杂病例，克服了不同科室之间的专业壁垒。此外，ChatGPT在使用上没有时间和空间的限制，回复速度快，内容丰富，患者满意度较高。

诚然，我们也应该注意到相关的劣势，仍存在可提升的空间。目前ChatGPT在针对中国地区的医疗问题时，回复准确性还未达到最佳性能，存在继续开发空间。此外，ChatGPT存在提供误导性错误答案的可能性。最后，由于ChatGPT无法获取医学影像信息，其提出的建议可能存在局限性。

2 实用性测试：各类聊天AI达到实用级别，回复相对准确，患者安抚性强

目前已进入市场的三种不同的主流AI交互软件是ChatGPT（Open AI），New Bing（Microsoft），文心一言（百度）。其中ChatGPT包含GPT-3.5 和GPT-4两种模式，New Bing则拥有精准，平衡和创造三种模式。

由于字数限制，报告内容节选到此结束。

免责声明：以上报告内容均系本平台通过公开、合法渠道获得，报告版权归原撰写/发布机构所有，如涉侵权，请联系删除；资料为推荐阅读，仅供参考学习，如对内容存疑，请与原撰写/发布机构联系。

关注公众号【幻影视界】获取完整PDF电子版

医疗AI专题报告二：专业性与实用性兼备，ChatGPT类聊天AI在医疗端的使用报告

关注公众号【幻影视界】

核心观点

主要内容

推荐体验

相关资讯

医疗AI专题二-专业性与实用性兼备-ChatGPT类聊天AI(附下载)

华安证券：兼具专业性与实用性互联网医疗及基层医疗在AI辅助下服务质量将显著提升

AI医疗行业专题报告（附下载）

chatGPT体验使用报告

苹果试点推进类ChatGPT工具Ask：提高其回答问题的准确性和实用性

近期资讯

万元羽绒服卖不动，波司登换个赛道跑｜商业Friday

不是哥们，我的console.log突然打印不出东西了！

JavaScript String

我从 2024 年的 LLM 应用开发实践中学到了什么？Part 1

一句话，我让 AI 帮我做了个 P 图网站！

灵感上线，云开发实现抽奖转盘是多么简单的一件事

B站推荐模型数据流的一致性架构

Electron 调试方法实践指南

中国“最简陋机场”全新登场，曾因候机大棚走红，还被调侃“一把U型锁就能关上大门、像县城汽车站”

银行盯上“县城贵妇”

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响