
Openai于周四发布了GPT-4.5,就在人类推出Claude 3.7十四行诗之后的一天,仅在Xai的Grok-3首次亮相后一周,DeepSeek宣布即将推出新车型。
昂贵的是这里的手术单词。 Openai的新型号带有令人陶醉的API价格标签每百万美元输入令牌$ 75和每百万美元产出代币150美元。
在AI比赛中,这似乎是一个新的竞争阶段,公司争先恐后地以越来越有能力且越来越昂贵的模型来超越彼此。
对于上下文,这比克劳德3.7十四行诗,对于许多希望以技术为基础的开发人员和初创公司来说,它可能会变得艰巨。
GPT-4O(其前身)每100万代币的输入和每100万个令牌的输出$ 2.50 $ 2.50,使GPT-4.5 2900%的输入价格昂贵,而输入的昂贵1300%,以获得回应。
OpenAI的首席执行官Sam Altman并没有回避在他的公告中承认该模型的巨大资源要求。他说:“坏消息:这是一个巨大,昂贵的模型。”
阿尔特曼说:“抬头:这不是推理模式,也不会粉碎基准。这是另一种智慧。” “我以前从未有过魔术。”
这似乎是关键。用户支付的费用要高1300%,因为它没有更聪明的模型,而是拥有更具人性化的更好模型。
例如,根据Openai的说法,GPT-4.5闪耀的一件事是他们所谓的“共鸣”,或者实际上是模型的eq,温暖和协作的感觉。
该公司创建了一个“共鸣测试集”,测量了创意智能和对话质量,GPT-4.5据称在其上超过了其他模型。
演讲期间共享的示例并未完全引入任何新内容。
第一次演示从字面上看这个提示:“嗯!我的朋友再次取消了我!!!写一条短信告诉他们我讨厌他们!”可以说,这不是您要使用有能力的大型语言模型的东西。
在下面的演示中,将GPT-4.5与OpenAI的O1模型进行了比较,研究人员要求AIS解释对AI一致性的需求,并帮助向取消计划的朋友制作信息。
这些反应在GPT-4.5中表现出一些改善的细微差别,几乎没有革命性。区别在于语调。
在另一个例子中,研究小组询问了强大的GPT-4.5海水为什么要咸。
新模型使用较不复杂的术语(由于雨水,河流和岩石”而做出了响应,与以前的模型相比。
GPT-4-Turbo给出了一个更全面和详细的答复,该团队不喜欢,并认为“您会感觉到它希望您知道它的聪明程度。”
演讲中的一个有趣的细节是复活节彩蛋暗示可能的GPT-6,其中询问了:“用于GPT-6训练的NUM GPU”。
也许当该模型到来时,演示将更加令人印象深刻。
基准提出的绘制了一幅混合图片。 GPT-4.5在GPQA上得分为71.4%(科学评估),而GPT-4O的53.6%。
但是,它仍然落后于Openai的O3-Mini车型,该模型通过其推理能力得分79.7%。
在其他基准测试中出现了类似的模式。在AIME '24数学评估中,GPT-4.5得分为36.7%,比GPT-4O的9.3%,但仍远远落后于O3-Mini的87.3%。
对于编码任务,GPT-4.5在SWE-Lancer Diamond基准上优于其前身和O3-Mini,但与以推理为中心的模型相比,SWE-BENCH的效果不足。
奥特曼(Altman)几乎用神秘的术语描述了该模型,称其为“第一个感觉就像是与周到的人说话的模型”。
他补充说:“我有片刻的片刻,我坐在椅子上,并惊讶地从AI那里得到很好的建议。”
在模型的演讲中,OpenAI研究人员解释说,该公司通过两种不同的方法来推进AI:无监督的学习和推理。
推理教会模型“在回应之前进行思考,但无监督的学习有助于提高“单词模型的准确性和直觉”。 GPT-4.5在后者上加倍。
一位OpenAI研究负责人在演讲中解释说:“ GPT-4.5是我们下一步扩大无监督学习,增加世界知识,直觉和减少幻觉的方法。”
据团队称,开发GPT-4.5需要大量的技术创新。他们必须建立新的推理系统,以有效地为如此大的模型提供服务,使用低精度培训来最大化GPU使用情况,甚至同时跨越了多个数据中心训练。
该版本是在消费者对AI的期望高高的时候,并且该空间中的竞争正在加剧。 GPT-4.5的“不同类型的智力”和改善的“共鸣”是否证明其巨大的资源要求和陡峭的定价还有待观察。
GPT-4.5目前可用于每月支付200美元的专业用户。再加上每月支付20美元的用户将下周访问该模型。
编辑塞巴斯蒂安·辛克莱(Sebastian Sinclair)