先做个广告:如需代注册GPT4或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
在过去一段时间,OpenAI 就为 ChatGPT Plus 会员提供多个强大的插件,比如基于Bing的带网络浏览的Browse、文本生成图片的DALL·E3、高级数据分析功能等。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
就在前天晚上,ChatGPT 又重磅更新了!
此次更新发布了新的多模态 GPT-4 版本,允许用户上传和分析各种文件,无需切换即可访问所有工具,包括网页浏览和文生图工具DALL·E 3。
根据OpenAI的官方说明,最为关键的词是“automatic(自动)”。更新后,“所有工具”功能可以让用户访问所有GPT-4功能,而无需在功能之间手动切换。
ChatGPT 支持上传多种格式的文件,然后可以针对文件进行数据分析、回答问题或根据 prompt 生成数据可视化等。
对于上传文件分析,这个功能并不新奇,之前就可以进行 PDF 文档分析,需要单独选择Advanced Data Analysis功能,然后点击上传附件才能分析。
这次更新后,你可以上传任意文件,按照官方的功能提示,应该是比之前支持更多的文档类型。
直接传给ChatGPT一份文件,然后说出你的要求就好了。比如上传一个PDF文件,让ChatGPT总结并分析内容。
ChatGPT新功能不仅能处理文本文件,还可以处理图片。
在文本输入框,一句话就能直接调用DALL-E 3的插件。比如上传了一张水豚的图片,ChatGPT 可以通过 DALL-E 3 根据它创建一个皮克斯风格的图片。
再上传了另一张图片,这次是一块扭曲的滑板,并要求 ChatGPT 将它插入上述图片,ChatGPT 也成功做到了,不知道为什么还给水豚戴上了帽子。
此次更新的第二个功能是整合工具后的GPT-4不再需要切换即可使用所有的功能。也就是说,GPT-4将根据你给的指令理解你的意图,自动使用不同的工具完成任务!
在此之前ChatGPT Plus用户是可以通过GPT-4完成很多任务的,只是都是以插件的形式进行切换,如下图所示:
这个功能意味着GPT-4将比此前更加智能,而且非常像此前大家说的AI Agent的能力。
这次的更新可以说把 GPT-4 的多模态能力升级展现出来,比如图像生成,就充分利用「ChatGPT网页浏览+DALL·E 3」。
比如直接让 ChatGPT「生成美国科罗拉多州丹佛市当前时间和天气情况的图像」,并且没有给任何其他输入,ChatGPT 生成的结果如下图所示:
我们可以发现 ChatGPT 自动使用了浏览器搜索模式,用于搜索丹佛市即时的天气情况。
针对用户输入的任意一个任务,GPT-4可以自动选择并组合使用各种工具,在一个对话窗口里完成用户特定的任务目标。这一定程度上可能会使许多第三方插件变得过时。
如下图所示,网友还让 ChatGPT「搜索查询 2023 年大西洋飓风季的数据并生成关于飓风等级的可视化信息图表,在根据明年飓风可能发生的位置生成图像」:
可以看到,GPT-4准确理解了用户的意图,首先浏览网页查询天气,并做了2次的图片生成工作,第一次是总结天气类型,第二次是生成未来的天气图。
现在网上有很多关于GPT-4多模态能力的探索试验,出现了很多如何一起使用所有GPT-4工具的示例。
比如,在一个对话中完成一个涵盖数据分析、图像生成、可视化的复杂任务。
首先用GPT-4分析输入的图像,然后用DALL·E 3生成新图像,再用GPT-4根据生成的图像创建报告,最后把报告保存为可下载的CSV格式文件。
尽管测试中用户提供了一些具体的步骤,但是GPT-4的生成结果是连续调用了多个工具没有中断的。想象一下,如果给出一个目标任务,让GPT-4自己根据任务的复杂的规划步骤,并考虑每个步骤使用什么样的工具,那么这就是一个AI Agent形态了!
就目前来看,除了一些开源项目,大多主流大模型都没有像ChatGPT一下整合多个工具的单模型入口。而我们确实也需要建立AI Agent模式的大模型,即输入一个指令,然后模型自动调用多个工具解决问题。
参考:
https://www.theverge.com/2023/10/29/23937497/chatgpt-plus-new-beta-all-tools-update-pdf-data-analysis
https://the-decoder.com/chatgpt-might-have-been-updated-with-more-recent-information/
网友评论