在北京时间 5 月 14 日的凌晨时分,美国的 OpenAI 公司震撼推出了可免费使用的全新旗舰 AI 模型 GPT-4o,并即将推出 PC 桌面版的 ChatGPT。
OpenAI 的首席技术官米拉·穆拉蒂(Mira Murati)指出,GPT-4o 中的“o”乃是 Omni(全能模型)的缩写,其能够实时展开音频、视觉以及文本的推理,且能够在短至 232 毫秒、平均 320 毫秒的时间内对音频输入予以响应,这与人类在对话时的反应速度旗鼓相当。
米拉·穆拉蒂明确表示,在 API 的使用方面,和去年 11 月发布的 GPT-4-turbo 相比,GPT-4o 的价格降低了一半(50%),而速度则提升了两倍(200%)。
就在这个深夜,OpenAI 不但成功地在 15 日的 I/O 开发者大会之前抢尽了谷歌的风头,而且新的大模型交互体验正颠覆性地改变着世界。
自今日晨起,GPT-4o 新模型便陆续开始推出,付费版本的用户在今日就能看到 GPT-4o 新模型的提示,甚至今早关于 GPT-4o 的消息都是实时展示的。
OpenAI 的 CEO 奥尔特曼(Sam Altman)实时发布推文宣称,全新的 GPT-4o 是 OpenAI 有史以来最为卓越的模型,它极具智慧且速度飞快,属于原生多模态,并且可供所有 ChatGPT 的用户使用,无论是免费版本还是付费的 GPT-4 版。
“这对于我们的使命而言至关重要,我们期望将卓越的 AI 工具交付到每个人的手中。”奥尔特曼如是表示。
米拉·穆拉蒂透露,当下已有超过 1 亿的用户运用 ChatGPT 进行工作、学习的创造,更有 100 多万的开发者在 GPTs 上进行新工具的创造。
OpenAI 宣称,GPT-4o(“o”代表“omni”)乃是迈向更为自然的人机交互的关键一步——它能够接纳文本、音频以及图像的任意组合作为输入,并生成文本、音频以及图像的任意组合输出。
GPT-4o 能够在短至 232 毫秒的时间内对音频输入做出响应,平均为 320 毫秒,这与人类的响应时间相近。它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,在非英语文本上的性能则有显著提升,同时 API 的速度更快,成本降低了 50%。与现有的模型相比,GPT-4o 在视觉和音频理解方面的表现尤为出色。
具体而言,GPT-4o 的主要特色可分为四部分:模型能力、基准测试、模型安全性和局限性,以及模型何时可用。
OpenAI 也列举出了多个实例,总体而言其具有更高的连贯性、精准度以及更为迅速的反馈速度。
而在语言标记化方面,GPT-4o 在 20 种语言中,实现了新分词器在不同语系中的压缩,压缩规模超过了 50%。
在模型安全性和局限性方面,GPT-4o 通过对训练数据的过滤以及训练后对模型行为的细化等技术,在跨模式设计中内置了安全性。并且创建了全新的安全系统,为语音输出提供了防护。依据对网络安全、CBRN、说服力以及模型自主性的评估显示,GPT-4o 在这些类别中的任何类别中的得分都不高于中等风险,而且团队持续降低所发现的新风险。
那么,何时可以使用 GPT-4o 呢?主要有以下四个时间点:
GPT-4o 的文本和图像功能从今日起便开始在 ChatGPT 中推出。
在免费版中提供 GPT-4o,并为 Plus 用户提供高达 5 倍的消息限制。
在未来几周内会在 ChatGPT Plus 中推出带有 GPT-4o 的 Voice Mode 的新版本。
开发者当下也可以通过 API 访问 GPT-4o 作为文本和视觉模型。计划在未来几周内在 API 中向小部分测试者推出对 GPT-4o 新音频和视频功能的支持。
此外,OpenAI 今日还宣布,将免费向所有用户开放其 GPT 商店,包括创建自定义 GPT 的能力,以及即将推出 ChatGPT 桌面版本。
OpenAI 强调,GPT-4o 是 OpenAI 突破深度学习界限的最新举措,也是朝着实用性方向迈出的重要一步。
从通用走向聚焦,下一步大模型会重塑谷歌搜索引擎吗?
值得一提的是,在此之前,前加拿大魁北克省人工智能研究中心(Mila)研究员、麻省理工学院讲师利奥·S(Lior S)也在社交平台 X 上爆料称:OpenAI 最新的 SSL 证书日志显示,OpenAI 已经创建了 search.chatgpt.com 子域名。
“OpenAI 即将追赶谷歌搜索,这或许是谷歌有史以来面临的最大威胁。”利奥·S 说道。
随着 5 月 14 日谷歌举行 I/O 开发者大会,故而,一旦未来 ChatGPT Search AI 搜索产品发布,或许会对谷歌搜索业务造成冲击——当下其市场占有率高达 90%。
360 的周鸿祎认为,未来 OpenAI 必然会诞生 AI 搜索类型的产品。
截至目前,OpenAI 方面对此拒绝置评。
早些时候奥尔特曼称,未来的 AI 发展不应是一场数据和算力的军备竞赛,真正的突破需要在算法效率、芯片性能、能源供给等方面取得根本性进展。OpenAI 期待在算法上实现重大创新,以提高模型的运行效率。他透露,OpenAI 计划在 2024 年夏天推出更为先进的 GPT-5 模型。
值得注意的是,发布会结束后,奥尔特曼发布了一条博客,来阐述他对 GPT-4o 的看法。
“我为我们能够在 ChatGPT 中免费提供世界上最先进的模型而感到无比自豪,这一切都没有广告或其他干扰。最初,OpenAI 的设想是开发 AI 技术,并利用它为全球带来益处。然而,现实是我们开发了 AI 技术,而其他人则利用这些技术创造了令全世界受益的杰出成果。作为一家企业,我们有很多服务是需要收费的,但这并不妨碍我们支持向全球数十亿用户提供免费的顶尖 AI 服务。”奥尔特曼称。
他认为,这是以最低的价格甚至是免费,将最好的模型提供给世界上的所有人。同时达到与人类相似的响应速度和表达能力,标志着一个重大的转变,并预见到一个激动人心的未来。
然而,另一方面需要指出的是,特斯拉和 SpaceX 的首席执行官埃隆·马斯克却对 OpenAI 最新开发的 AI 模型的能力表示怀疑。
一名用户在 X 上分享了一段 GPT-4o 代表自己与另一名代表该公司的聊天机器人对话的演示视频。
另一名用户分享了这段视频,并评论道:“99%的经济将是 AI 之间的对话”,可能是指很快大多数经济活动将由人工智能系统推动。
然而,马斯克对这两位用户的帖子和评论并不以为然,回应称“不是以这种慢得离谱的比特率。”
与此同时,马斯克自己的人工智能初创公司 xAI 的估值预计将达到 200 亿美元,超过了最初的预期,这表明他对人工智能技术的兴趣日益浓厚。所以是否是对 OpenAI 的一种嫉妒或傲慢,这让人难以知晓。
尽管马斯克持怀疑态度,但 GPT-4o 仍代表了人工智能能力的重大飞跃。它可以实时处理文本、音频和图像,以及对口头问题的快速反应,这能够显著提高客户服务和其他 AI 驱动的应用程序的效率。同时它的免费也可以让更广大的用户能够轻松用上这一人类史上最伟大的人工智能产品。国内用户或许仍然需要使用科学上网的方式来尝鲜,但是我们追求新技术,享受更智能的现代生活的愿望与追求是值得肯定的。