近期,chatGPT面向所有Plus用户开放了代码解释器(Code Interpreter),堪称GPT-4以来的最强应用。
代码解释器有多强大?网友们认为把它叫做「插件」简直低估了,应该称作GPT-4.5。
我们从图片处理、格式转换、数据分析等方面先来直观感受下:
1、图片处理
记得之前,我为了切割Midjourney出的四宫格图片,在chatGPT的帮助下,写了一个Python小程序来解决。现在有了代码解释器,直接把图片发给它,一句话描述下需求,它就直接把切好的4张图给我了。
2、GIF转MP4
我给了代码解释器一个GIF动画,让它转成MP4视频。并且我还给它出了个难题:要降低视频速度,延长视频时间。如果直接延长视频时间,因为帧率的降低,视频必然显得卡顿,所以我希望他通过插入中间帧的方式来解决。
代码解释器很好滴完成了这个任务,使用帧插入技术来增加帧率,保持视频的流畅性。
GIF
MP4
3、数据分析,表格转图表
我拿了一个excel表格给它分析,让其转为图表,并给出分析结论。
这里可以发现,代码解释器对于图表里中文标签的处理不太好,显示不正常,只能让其翻译成英文显示。
4、数据转为动画地图
我从网上找了个世界十大海岛旅游胜地的文章,转为word文档后给他分析,请他将这10个地点转为地图标注,并实现标注闪烁效果。
最终生成的效果如下
5、图片转视频
我给了它一个大图,让它转为左右移动的视频
效果如下
从上面几个例子来看,通过代码解释器,数据分析、图表制作和文件编辑等繁琐工作变得轻松。只需用自然语言向ChatGPT下达指令,它便能完成那些曾经需要复杂编程技术才能实现的任务,如分析数据、创建图表、编辑文件以及进行数学运算等复杂操作。
那代码解释器的本质是什么呢?
代码解释器是chatGPT里提供了一个沙盒环境(网络编程虚拟执行环境),chatGPT在里面编写和执行Python代码。该环境包括防火墙和临时磁盘空间。该沙盒环境在聊天对话的持续时间内保持活动状态,可多次调用。
该环境还支持用户上传本地文件,同时能将结果保存为文件,供用户下载。但是超出一定时间没有操作后,这个沙盒环境的临时磁盘空间和输出的结果文件会销毁。
所以,代码解释器是chatGPT内置的一个小型 Python 解释器,它可以调用诸多 Python 库。但是,他的能力无法超出Python 库的能力(当然,目前的 Python 库已经很强大了)。
另外还有3个缺点,1是不能联网;2是临时空间有限,不能处理太大的文件;3是前面示例中发现的,对中文的支持不够。
当然,因为要上传数据文件,隐私性也是要注意的问题。
代码解释器可以说是PAL(Program as Language)的实际应用。
PAL是一种新的自然语言推理方法,它利用程序作为中间推理步骤,与传统基于语言模型的推理方法有所不同。PAL的主要思想是将问题的求解和计算外包给外部的Python解释器,而不是依赖语言模型来理解问题和直接解决。
使用PAL方法,自然语言问题首先被解析成一个计算机程序,该程序以Python代码的形式表示。然后,这个程序被传递给Python解释器,通过执行该程序进行推理和计算。Python解释器可以利用丰富的库和算法来求解问题,并生成最终的答案。
因为使用到了成熟的、具有丰富的库和算法的编程语言,PAL方法比纯粹的基于概率输出的大预言模型在计算准确性、灵活性、延展性方面更具优势。
只有chatGPT Plus用户才能使用。点击左下角用户名,进入setting,选择Beta features,启用Code interpreter。
在会话中选择GPT4,选择Code interpreter即可。
输入框点击加号,即可上传本地文件。
AI界有一句话叫:天天工业革命,夜夜文艺复兴。AI技术的发展之快,总是令人瞠目结舌。
代码解释器不仅功能强大,从人与AI的交互上来说,无论之前的GPT4还是其他大语言模型,都是基于文本生成,要么给你一段文字,你再复制粘贴到其他地方去使用,要么给你一段代码,你拿到本地环境去运行。现在代码解释器可以直接给你输出文件,或者图片视频,我觉得离钢铁侠的贾维斯这样的AI agent,又大大地靠近了一步。
AI对人类世界的推动,还能给我们带来多大的惊喜?我们拭目以待!