当前位置:首页|资讯|谷歌|微软|ChatGPT

谷歌股价暴跌,微软的ChatGPT就没翻车吗?

作者:庖丁科技发布时间:2023-02-10

原标题:谷歌股价暴跌,微软的ChatGPT就没翻车吗?

谷歌为应对 ChatGPT 仓促推出的 Bard,在演示时给出了错误回答。美股开盘后,谷歌股价大跌 7.68%,市值一夜蒸发 1000 多亿美元。

而微软这边风景甚好:早一天官宣了 ChatGPT 版 Bing 搜索和 Edge 浏览器,市值飙升了 800 多亿美元。

但微软的 ChatGPT 版搜索就没有翻车吗?

发布会上,微软副总裁 Yusuf Mehdi 展示了 Edge 浏览器分析财报的能力。他打开了 GAP 2022 Q3 的财报,并发送了「提炼要点」的指令,10 秒后 AI 助手(AI-powered copilot)就给出了要点总结。随即他又敲下了「与 lululemon Q3 财报对比」的指令,AI 助手很快就列出了各项财务指标的对比表格。

这样的能力让人惊叹,很多网友认为分析师也要被 AI 取代了。

而事实告诉我们,至少目前,Edge 的 AI 助手还不能胜任财报分析工作:在它所列出的 GAP 与 lululemon 的 14 个财务数据中,有 7 个数据与财报不符。

微软的 ChatGPT 版搜索,和谷歌 Bard 一样,也存在着「事实错误」的软肋,只是相较之下没那么明显。

然而,这种「静默出错」在工作中却是十分危险的。

01 ChatGPT 版 Edge,财报分析翻车

目前看来,即使是 ChatGPT 的亲家长 — OpenAI 和微软,也对它的「事实错误」无可奈何。

按照微软发布会上展示的 Demo,我们在 GAP 官网中找到了公开的 2022 Q3 的财报,其中「Operating margin」应为 4.6%,而 Edge AI 助手给出的答案却是 5.9%;「Diluted earnings per share」应为 $0.77,但 Edge AI 助手却认为是 $0.42

我们最初以为,基于 ChatGPT 的 Edge AI 助手错误地理解了财报中的相关概念,但翻遍整篇财报,却找不到「5.9%」「$0.42」这两个数据。不知道 ChatGPT 是从浩瀚互联网中的哪一个角落摘取了这些数据。

GAP 官网公布的 2022 Q3 财报

微软 Bing 官方 Youtube 的 Demo 示例(蓝框标注的数字与官方财报不符)

我们又进一步找到了 lululemon 官网公布的 2022 Q3 财报进行核实,发现 Edge AI 助手给出的 14 个财务数据中,7 个都与财报不符。

对于 GAP 的「Inventory」,Edge AI 助手给出的答案是 1.9 billion,和实际财报中的 3043 million,更是出现了数量级上的差错。

GAP 和 lululemon 官方财报与 Edge AI 助手答案对比(红色为不相符的数据)

也许 Edge AI 助手有它自己的计算方法,或是从非官方财报的其他来源拿到了不同的数据,导致了结果的差异。

但至少可以说明,我们不应该把 ChatGPT 当作财务专家,而应对它给出的答案保持谨慎态度。

02 ChatGPT 很厉害,但它不是万能的

ChatGPT 的高情商似乎让人们忘记了,它只是一个用大量数据训练出来的语言模型,而不是逻辑或者计算模型

它是一个深度学习模型,在训练时使用了大量的文本数据,几乎读完了 2021 年及以前互联网上的公开信息(约有 5000 亿个 token,3000 亿个词),模型有 1750 亿个参数。经过了大量语言数据的训练,它能够准确地预测下一个单词大概率是什么,再把每个单词连成一句通顺的话。

ChatGPT 擅长组织语言、写出文从字顺的段落,在问答和对话上的表现非常好。但如果给它一些更有挑战的任务,比如进行推理(reasoning),尽管相较之前的模型已经非常惊艳,它目前的表现仍难胜任专业任务。

真实性(factuality),就是 ChatGPT 的阿喀琉斯之踵。前文所提到的 GAP 财报数据错误就是如此,ChatGPT 给出的答案看起来非常让人信服,但也有可能是它胡编乱造的,缺乏证据支持。从微软展示的 Demo 界面中,我们可以看到 Edge AI 助手给出了信息来源,需要人来进行下一步的事实核查工作。

在播客「OnBoard!」中,AI 从业者们提到,GPT4 在做一些补救,希望通过与使用者的多轮对话,拿到足够的反馈和信息,从而优化后续的表现。

目前,即使在多轮对话中,ChatGPT 也不能给出靠谱的答案。

我们准备了一张数据表,其中包含一个错误:客户贷款净额占比,应为 57.34%(客户贷款净额占比 = 客户贷款净额/资产总计= 15,322,484/26,722,408 = 57.34%) ,而表格中给到的数据是 55.34%

实际的表格

随后,我们将表格转化为 Markdown 格式发送给 ChatGPT,尝试让它识别其中的占比计算错误。

最开始,ChatGPT 并不认为表格数据有问题:“The table does not appear to contain any errors in its calculation of proportions.”(该表格的占比计算看起来没有任何错误。)

给 ChatGPT 的 Markdown 表格

在我们的提示下,它先是道歉(I apologize),随后准确找到了计算的公式,语义抽取的能力相当出色。但遗憾的是,它并没有对公式进行验算,最后依然给出了原文中错误的计算结果:

15,322,484 / 26,722,408 = 55.34%

除了真实性存疑,信息无法及时更新同样阻碍了 ChatGPT 广泛应用。

目前而言,ChatGPT 的训练数据截止到了 2021 年,也没公布过日后更新信息的频率。在被投喂相应的数据之前,它对 2022 年的了解,并不比一个牙牙学语的婴孩更多。

03 如何让 AI 靠谱一点?

首先,我们要承认,目前没有任何一家 AI 公司,能够言之凿凿地说自己产品撰写、审核的准确率能达到 100%。

但可以实现的是,在模型的反复调整和训练中,距离 100% 正确的目标近一点,再近一点。同时,在产品设计上,给出对应的提示,以及核实的路径。

比如,庖丁科技开发的 Glazer 金融文档智能撰写系统 ,在财务数据识别与金融文档撰写的准确率相当出色。在三大报表财务数值部分,Glazer 的准确率达 95% 以上。

同时,用户还可以通过点击生成文档中的数据,快速溯源到数据底稿,方便人工进行二次验证。我们认为,可信的 AI 产品应该谨慎地给出答案,并提供人工判断的依据

截图来自于 Glazer 产品界面

在数据来源上,Glazer 支持对接可靠的数据库,也可以从用户上传的文档中提取,但并不会从文档之外的不可控信源中摘录数据。

庖丁科技的另一款产品,AutoDoc 金融文档智能审核系统,使用类似的技术原理,可以对人工或 AI 撰写的文档进行复核。例如上文中我们给到 ChatGPT 的表格,使用 AutoDoc 处理,它能快速地将错误数值标红,同时展现数据来源、公式计算过程。

截图来自于 AutoDoc 产品界面

ChatGPT 完成的任务,是「生成」;而 Glazer 和 AutoDoc,则是在进行「填空」。

经过数百万份页面的文档结构识别训练、几十万金融文本的关系标注后,Glazer 和 AutoDoc 能准确理解金融文档中每个数值的含义,以及内在的勾稽关系,再根据公式计算财务指标,并将计算的结果放置到对应的内容结构中。

打个比方,ChatGPT 所接受的训练,如同各学科的通识教育。而 Glazer 和 AutoDoc 的训练,则是专业教育、职业导向,类似于 CPA、CFA 的培训课程,目标明确、结果清晰。

ChatGPT 在交互体验上实现了巨大的突破,能够出色地完成续写、头脑风暴、辅助创作的任务;还可以应用在聊天机器人、智能客服中,协助处理大量客户咨询。

但在处理金融、医疗等行业的关键任务时,算法应具有更高的可信性。基于目前的模型能力,此时急于让 ChatGPT 广泛应用于各个行业、承担各种严肃的工作任务,有些为时过早。

各种 GPT 类的有趣应用,让大家感受到了科技之美,相信不久之后的 GPT4 会带来更多的可能性。庖丁科技期待人工智能的进一步发展,同时也会继续为 AI 的基础能力研究、行业落地应用贡献自己的一份力量。

如果想要体验产品,欢迎联系我们:

官网:https://paodingai.com/

邮箱:contact@paodingai.com

电话:010-58426539


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1