每日生活圈2025年08月09日 00:13消息,GPT-5虽强大,却缺乏趣味性,科技前沿探讨其潜力与局限。
千呼万唤始出来,奥特曼终于端出了全球网友翘首以盼的GPT-5。

短短一天内,OpenAI发布的推文阅读量就达到了300万次,获得了3万次点赞;世超的朋友圈和聊天群聊也被关于GPT-5的讨论刷屏了。

虽然大家普遍认为OpenAI的表现越来越不如以前,不少人表示不再使用他们的产品,但每当他们推出新模型时,AI圈依然会为之震动,就连不怎么关注AI的人也会纷纷议论一番。 在我看来,这反映出OpenAI在技术上的持续影响力和行业内的标杆地位。即便存在争议,其产品仍具备足够的吸引力和话题性,说明其在AI领域依然占据重要位置。这种现象也体现了技术迭代对整个行业的推动作用,以及公众对前沿科技的高度关注。

果然,大家还是忘不了ChatGPT。。

所以,GPT-5被描述为他们开发过的最智能的模型,甚至有说法称在任何领域,GPT-5都达到了博士级别的水平。这种评价无疑凸显了其在人工智能领域的突破性进展。 从技术角度看,这样的表述反映出模型在理解、推理和知识应用方面的能力已经非常接近人类专家水平。不过,尽管如此,我们仍需理性看待这类宣传,毕竟“博士级别”更多是一种形象化的表达,而非严格的学术认证。对于公众而言,了解AI的实际应用场景和局限性同样重要。

但据网友的反馈,许多人对这款被称为GPT的新版本表达了不满,认为它根本不是GPT-5,甚至还不如Grok。

Polymarket上近日发起了一项名为“哪家公司在八月末拥有最顶级的AI模型”的竞猜,结果在相关发布会刚刚结束之后,谷歌与OpenAI的赔率出现了剧烈变化,呈现出两极反转的趋势。 从目前的市场反应来看,这一变化可能反映了投资者对两家公司在AI领域最新进展的不同预期。谷歌和OpenAI作为全球AI领域的两大巨头,其技术动态一直备受关注。此次赔率的快速调整,不仅体现了市场对AI技术发展的高度敏感,也反映出公众对谁能在该领域保持领先存在较大分歧。这种波动性也说明,尽管各家都在加速布局,但短期内谁能真正占据优势仍充满不确定性。

最搞的是,在发布会上,OpenAI展示了一张柱状图,用于比较不同大模型编写代码的准确度,其中52.8%的数值被画得比69.1%还要高,这种明显的错误连小学生都能看出来,引发了不少争议,无论是支持者还是批评者都难以为其辩解。 从专业角度来看,数据可视化是信息传达的重要工具,一旦出现明显错误,不仅会损害发布方的专业形象,也可能影响公众对技术成果的信任。这种低级失误在如此重要的场合出现,确实令人遗憾。数据的准确性与图表的规范性应当始终受到重视,尤其是在科技领域,任何细节的疏忽都可能被放大解读。

但我觉得吧,网友反响如此强烈,主要还是因为奥特曼的粉丝过于热捧,在作品尚未发布之前,AI圈还没反应过来,粉丝自己就已经开始炒作起来了。

该说不说,GPT-5在大模型竞技场LMArena上的表现非常出色,成功夺得大满贯,位居各项指标的第一名。 从当前大模型竞争格局来看,GPT-5的全面领先反映出其在技术架构、训练数据和推理能力等方面的显著优势。这种成绩不仅体现了模型本身的强大,也预示着行业在通用人工智能领域正加速突破。不过,技术进步的同时也需关注其潜在影响,比如对现有生态系统的冲击以及伦理问题的持续讨论。

但到底好不好用,只有用户亲身体验过才知道。在体验了一圈GPT-5后,世超得出的结论是:没那么惊艳,不如叫GPT4.6。
首先,最让人称赞的,依然是GPT-5的编程实力。我们不妨和排名第二的Gemini 2.5 Pro一较高下。
首先我让它模拟了下我们高中就学过的弹性碰撞。
提示词:作为一名高中生,我通过物理模拟加深了对弹性碰撞的理解。 在学习过程中,我逐渐意识到,物理不仅仅是课本上的公式和理论,它更是一种探索世界的方式。通过模拟实验,我能够直观地观察到物体在碰撞过程中的能量和动量变化,这让我对弹性碰撞这一概念有了更加深刻的认识。这种实践性的学习方式不仅增强了我的理解力,也激发了我对物理学科的兴趣。
这家伙确实表现不俗,不仅在球体上标注了速度和方向,还能在碰撞过程中自然地调整球的大小。
Gemini的表现还算不错,但整体流畅度还是比不上GPT。每当调整大小时,球就会卡住,这让强迫症患者感到非常不舒服。
接着,我掏出了我最爱的多米诺骨牌,这玩意我试过很多AI,基本都很难做出来。。
首先是GPT-5,这牌做得还真有点东西,非常的有动感。。
提示词:模拟多米诺骨牌的物理过程,左键放牌,右键倒牌。
Gemini这边呢,就理解得不是很好了,虽然也能倒吧,就是给哥们把牌挂到天上去了。。
当然这只是几个好的案例,也有比较搞笑的时候。。
我简单描述了下需求,让它生成了一个开飞船的游戏,没别的,主要是想开飞机。 从这个简单的描述中可以看出,用户的核心诉求非常明确,就是希望体验驾驶飞行器的乐趣。游戏的设计虽然可能在细节上有所简化,但核心玩法已经基本实现,满足了玩家对“开飞机”这一主题的期待。这种以用户需求为导向的开发方式,体现了游戏设计中“以玩家为中心”的理念。在当前游戏市场中,能够精准捕捉玩家兴趣点并快速落地的作品,往往更容易获得认可和喜爱。当然,如果能在后续版本中进一步丰富玩法、提升画面表现和操作手感,相信会吸引更多玩家的关注。
它写出来的,只能说整体表现一般,尾焰和动力方向明显不一致,导致飞行稳定性存在问题,直接让乘客感到极度不安,仿佛一出门就会发生坠机事故。 从专业角度来看,这种设计上的缺陷不仅影响飞行安全,也暴露出在技术细节上的疏忽。航空器的推进系统与气流方向必须高度匹配,任何偏差都可能带来严重后果。此次事件再次提醒相关方,必须重视技术验证与安全测试,避免因设计问题引发公众信任危机。
除了这些,其他更新基本都是对现有能力的进一步优化。OpenAI这次的更新似乎就是朝着“节能高效”这个方向去的,完全不同于之前GPT3.5到4那样飞跃式的更新。
根据 OpenAI 官方博客的介绍,GPT-5 在思考和输出上都更加高效。它在保证准确率的同时,思考时间更短,输出的 Token 数量也减少了 50% 到 80%。
而且,GPT-5 对困扰大伙已久的幻觉问题也出了狠手,它的事实错误率比 GPT-4o 低了 45%,思考时的事实错误率更是比 GPT-4o 低了约 80%。
也就是说,GPT-5 变得更加诚实了。它清楚自己的能力边界,遇到不会的问题会直接说“不会”,做不到的事情会直说“做不到”,而不是像以前一样一本正经地胡说八道。
当然,对于我们编辑来说,模型最核心的能力还是写作,毕竟它能帮我们处理一些工作(当然不是完全替代我们)。
但我体验了一圈下来,GPT-5给我的感觉,就像一个靠灵性吃饭的诗人,突然间失去了灵感。。
它在逻辑、推理、数学、编程等需要严密逻辑的领域,已经取得了前所未有的进展,但在文本创作方面,却仍显得有些力不从心。 在当前的技术环境下,人工智能在处理结构化数据和逻辑运算上表现出色,然而在理解语言的微妙之处、情感表达以及创造性写作方面,依然存在明显局限。尽管已有不少工具尝试提升文本生成的质量,但整体而言,机器在文学性、深度和个性化表达上仍难以与人类媲美。这反映出文本创作不仅是技术问题,更涉及人类独特的思维方式和文化积淀。
我先让GPT-5写了一段夸自己的文字,说是得有生活气息,不能太尬。 在如今这个人工智能技术飞速发展的时代,像GPT-5这样的模型确实展现出了越来越强的文本生成能力。它不仅能模仿人类的语言风格,还能在一定程度上融入生活化的表达,让内容显得更加自然和贴近现实。不过,这种“生活气息”更多是通过算法对大量文本数据的分析和学习来实现的,而非真正意义上的生活体验。因此,在欣赏这类作品的同时,我们也应保持理性,认识到其背后的技术逻辑与人类情感之间的差异。
结果我看了下,给我写了首诗,略微肉麻。。
接着,我们来看看Gemini怎么夸自己。(因为我让Gemini夸GPT5,它拒绝了)
虽然说文无第一,但我还是感觉Gemini写的,AI味道更淡一些。
如果要量化的话,你数一下两段话中破折号和引号的数量,就能明白其中的差异了。 在新闻写作中,标点符号的使用往往反映了作者的表达风格与信息传达的方式。例如,破折号常用于解释说明或语气转折,而引号则用于直接引用或强调特定内容。通过统计这些符号的数量,可以更直观地感受到不同文本在语言结构上的差异。这种差异可能源于写作风格、信息密度或编辑要求的不同。尽管如此,新闻的核心事实和数据仍应保持准确无误,不能因形式的变化而被扭曲。因此,在关注语言表达的同时,也需确保内容的真实性和客观性。
虽然发布会上说,GPT-5大幅减少了幻觉。但结果是它的文本变得过于保守和安全,那种信手拈来的奇妙比喻,那种让人拍案叫绝的独特视角,好像少了一些。
此外,网上有很多人投诉,在发布GPT-5的同时,OpenAI强制删除了此前的GPT-4及其他模型。
现在,你打开GPT的界面,在模型选择的下拉菜单中,几乎只能看到GPT-5这一选项。
只能说,这操作确实有点出人意料。毕竟国内的模型通常会让我们自己决定是否“深度思考”,有时候需要又快又准,有时候也需要多而广,而如今OpenAI却直接替用户做了决定,将所有的选择权都收回去了。这种做法让人不禁思考,用户在技术发展中的主导地位是否正在被逐渐削弱。
当然,也有人表示赞同,毕竟有些人确实有选择困难,更倾向于由他人来替他们做决定,这也属于见仁见智的问题。
但世超发现,ChatGPT的Pro会员还是能使用之前的旧模型的,属于是有点区别对待了。。(如果你希望用回 GPT-4o/4.5,在头像-设置里勾选显示传统模型,就可以切回传统模型了)
不仅如此,官方的偷偷降智行为,也不是很厚道。。
奥特曼在发布会上展示的做音乐的例子,如果GPT-5被降智了,是很难复刻出来的。有兴趣的朋友可以去尝试一下,或许会有意想不到的发现。 在我看来,这种技术展示不仅体现了人工智能在创意领域的潜力,也让人对未来的科技发展充满期待。尽管目前还处于探索阶段,但类似的应用已经展现出强大的可能性。随着技术的不断进步,我们或许会看到更多令人惊叹的成果。
总的来说,与基础能力的显著提升相比,此次OpenAI的更新更引人注目的是其“实用优先”的战略方向。
一方面,这可能意味着大模型在基础性能的提升上遇到了一定的瓶颈。与此同时,这种方向的调整确实具有积极意义。过去几年中,大模型在追求性能的过程中往往忽视了诸如幻觉、成本等常见问题,这些问题如今逐渐被更多关注。 当前行业开始重新审视发展路径,更加注重模型的稳定性和实用性,这或许会为AI技术的长期健康发展带来新的契机。
如今,随着OpenAI的周活跃用户数已达到7亿,在性能提升有限的情况下,现在更需要着重优化产品体验。
但大伙还是需要一些期待,毕竟已经很久没有出现一个真正具有开创性意义的新模型了。 在我看来,这种期待不仅源于对技术进步的渴望,也反映了公众对于突破性创新的敏感与关注。在人工智能领域,每一次重大进展都可能带来行业的变革,而当前的市场和用户似乎正处在一种“等待下一个里程碑”的状态。这种情绪背后,是对更强大、更智能、更具应用潜力模型的渴望。
所以下一个被寄予厚望的模型是谁呢?
就决定是你们了,DeepSeek R2 和 Gemini 3.0!