GPT-5虽强却乏味：AI进化背后的冷思考

每日生活圈2025年08月09日 00:13消息，GPT-5虽强大，却缺乏趣味性，科技前沿探讨其潜力与局限。

　　千呼万唤始出来，奥特曼终于端出了全球网友翘首以盼的GPT-5。

　　短短一天内，OpenAI发布的推文阅读量就达到了300万次，获得了3万次点赞；世超的朋友圈和聊天群聊也被关于GPT-5的讨论刷屏了。

GPT-5虽强却乏味：AI进化背后的冷思考

　　虽然大家普遍认为OpenAI的表现越来越不如以前，不少人表示不再使用他们的产品，但每当他们推出新模型时，AI圈依然会为之震动，就连不怎么关注AI的人也会纷纷议论一番。在我看来，这反映出OpenAI在技术上的持续影响力和行业内的标杆地位。即便存在争议，其产品仍具备足够的吸引力和话题性，说明其在AI领域依然占据重要位置。这种现象也体现了技术迭代对整个行业的推动作用，以及公众对前沿科技的高度关注。

GPT-5虽强却乏味：AI进化背后的冷思考

　　果然，大家还是忘不了ChatGPT。。

GPT-5虽强却乏味：AI进化背后的冷思考

　　所以，GPT-5被描述为他们开发过的最智能的模型，甚至有说法称在任何领域，GPT-5都达到了博士级别的水平。这种评价无疑凸显了其在人工智能领域的突破性进展。从技术角度看，这样的表述反映出模型在理解、推理和知识应用方面的能力已经非常接近人类专家水平。不过，尽管如此，我们仍需理性看待这类宣传，毕竟“博士级别”更多是一种形象化的表达，而非严格的学术认证。对于公众而言，了解AI的实际应用场景和局限性同样重要。

GPT-5虽强却乏味：AI进化背后的冷思考

　　但据网友的反馈，许多人对这款被称为GPT的新版本表达了不满，认为它根本不是GPT-5，甚至还不如Grok。

GPT-5虽强却乏味：AI进化背后的冷思考

　　 Polymarket上近日发起了一项名为“哪家公司在八月末拥有最顶级的AI模型”的竞猜，结果在相关发布会刚刚结束之后，谷歌与OpenAI的赔率出现了剧烈变化，呈现出两极反转的趋势。从目前的市场反应来看，这一变化可能反映了投资者对两家公司在AI领域最新进展的不同预期。谷歌和OpenAI作为全球AI领域的两大巨头，其技术动态一直备受关注。此次赔率的快速调整，不仅体现了市场对AI技术发展的高度敏感，也反映出公众对谁能在该领域保持领先存在较大分歧。这种波动性也说明，尽管各家都在加速布局，但短期内谁能真正占据优势仍充满不确定性。

GPT-5虽强却乏味：AI进化背后的冷思考

　　最搞的是，在发布会上，OpenAI展示了一张柱状图，用于比较不同大模型编写代码的准确度，其中52.8%的数值被画得比69.1%还要高，这种明显的错误连小学生都能看出来，引发了不少争议，无论是支持者还是批评者都难以为其辩解。从专业角度来看，数据可视化是信息传达的重要工具，一旦出现明显错误，不仅会损害发布方的专业形象，也可能影响公众对技术成果的信任。这种低级失误在如此重要的场合出现，确实令人遗憾。数据的准确性与图表的规范性应当始终受到重视，尤其是在科技领域，任何细节的疏忽都可能被放大解读。

GPT-5虽强却乏味：AI进化背后的冷思考

　　但我觉得吧，网友反响如此强烈，主要还是因为奥特曼的粉丝过于热捧，在作品尚未发布之前，AI圈还没反应过来，粉丝自己就已经开始炒作起来了。

GPT-5虽强却乏味：AI进化背后的冷思考

　　该说不说，GPT-5在大模型竞技场LMArena上的表现非常出色，成功夺得大满贯，位居各项指标的第一名。从当前大模型竞争格局来看，GPT-5的全面领先反映出其在技术架构、训练数据和推理能力等方面的显著优势。这种成绩不仅体现了模型本身的强大，也预示着行业在通用人工智能领域正加速突破。不过，技术进步的同时也需关注其潜在影响，比如对现有生态系统的冲击以及伦理问题的持续讨论。

GPT-5虽强却乏味：AI进化背后的冷思考

　　但到底好不好用，只有用户亲身体验过才知道。在体验了一圈GPT-5后，世超得出的结论是：没那么惊艳，不如叫GPT4.6。

　　首先，最让人称赞的，依然是GPT-5的编程实力。我们不妨和排名第二的Gemini 2.5 Pro一较高下。

　　首先我让它模拟了下我们高中就学过的弹性碰撞。

　　提示词：作为一名高中生，我通过物理模拟加深了对弹性碰撞的理解。在学习过程中，我逐渐意识到，物理不仅仅是课本上的公式和理论，它更是一种探索世界的方式。通过模拟实验，我能够直观地观察到物体在碰撞过程中的能量和动量变化，这让我对弹性碰撞这一概念有了更加深刻的认识。这种实践性的学习方式不仅增强了我的理解力，也激发了我对物理学科的兴趣。

　　这家伙确实表现不俗，不仅在球体上标注了速度和方向，还能在碰撞过程中自然地调整球的大小。

　　 Gemini的表现还算不错，但整体流畅度还是比不上GPT。每当调整大小时，球就会卡住，这让强迫症患者感到非常不舒服。

　　接着，我掏出了我最爱的多米诺骨牌，这玩意我试过很多AI，基本都很难做出来。。

　　首先是GPT-5，这牌做得还真有点东西，非常的有动感。。

　　提示词：模拟多米诺骨牌的物理过程，左键放牌，右键倒牌。

　　 Gemini这边呢，就理解得不是很好了，虽然也能倒吧，就是给哥们把牌挂到天上去了。。

　　当然这只是几个好的案例，也有比较搞笑的时候。。

　　我简单描述了下需求，让它生成了一个开飞船的游戏，没别的，主要是想开飞机。从这个简单的描述中可以看出，用户的核心诉求非常明确，就是希望体验驾驶飞行器的乐趣。游戏的设计虽然可能在细节上有所简化，但核心玩法已经基本实现，满足了玩家对“开飞机”这一主题的期待。这种以用户需求为导向的开发方式，体现了游戏设计中“以玩家为中心”的理念。在当前游戏市场中，能够精准捕捉玩家兴趣点并快速落地的作品，往往更容易获得认可和喜爱。当然，如果能在后续版本中进一步丰富玩法、提升画面表现和操作手感，相信会吸引更多玩家的关注。

　　它写出来的，只能说整体表现一般，尾焰和动力方向明显不一致，导致飞行稳定性存在问题，直接让乘客感到极度不安，仿佛一出门就会发生坠机事故。从专业角度来看，这种设计上的缺陷不仅影响飞行安全，也暴露出在技术细节上的疏忽。航空器的推进系统与气流方向必须高度匹配，任何偏差都可能带来严重后果。此次事件再次提醒相关方，必须重视技术验证与安全测试，避免因设计问题引发公众信任危机。

　　除了这些，其他更新基本都是对现有能力的进一步优化。OpenAI这次的更新似乎就是朝着“节能高效”这个方向去的，完全不同于之前GPT3.5到4那样飞跃式的更新。

　　根据 OpenAI 官方博客的介绍，GPT-5 在思考和输出上都更加高效。它在保证准确率的同时，思考时间更短，输出的 Token 数量也减少了 50% 到 80%。

　　而且，GPT-5 对困扰大伙已久的幻觉问题也出了狠手，它的事实错误率比 GPT-4o 低了 45%，思考时的事实错误率更是比 GPT-4o 低了约 80%。

　　也就是说，GPT-5 变得更加诚实了。它清楚自己的能力边界，遇到不会的问题会直接说“不会”，做不到的事情会直说“做不到”，而不是像以前一样一本正经地胡说八道。

　　当然，对于我们编辑来说，模型最核心的能力还是写作，毕竟它能帮我们处理一些工作（当然不是完全替代我们）。

　　但我体验了一圈下来，GPT-5给我的感觉，就像一个靠灵性吃饭的诗人，突然间失去了灵感。。

　　它在逻辑、推理、数学、编程等需要严密逻辑的领域，已经取得了前所未有的进展，但在文本创作方面，却仍显得有些力不从心。在当前的技术环境下，人工智能在处理结构化数据和逻辑运算上表现出色，然而在理解语言的微妙之处、情感表达以及创造性写作方面，依然存在明显局限。尽管已有不少工具尝试提升文本生成的质量，但整体而言，机器在文学性、深度和个性化表达上仍难以与人类媲美。这反映出文本创作不仅是技术问题，更涉及人类独特的思维方式和文化积淀。

　　我先让GPT-5写了一段夸自己的文字，说是得有生活气息，不能太尬。在如今这个人工智能技术飞速发展的时代，像GPT-5这样的模型确实展现出了越来越强的文本生成能力。它不仅能模仿人类的语言风格，还能在一定程度上融入生活化的表达，让内容显得更加自然和贴近现实。不过，这种“生活气息”更多是通过算法对大量文本数据的分析和学习来实现的，而非真正意义上的生活体验。因此，在欣赏这类作品的同时，我们也应保持理性，认识到其背后的技术逻辑与人类情感之间的差异。

　　结果我看了下，给我写了首诗，略微肉麻。。

　　接着，我们来看看Gemini怎么夸自己。（因为我让Gemini夸GPT5，它拒绝了）

　　虽然说文无第一，但我还是感觉Gemini写的，AI味道更淡一些。

　　如果要量化的话，你数一下两段话中破折号和引号的数量，就能明白其中的差异了。在新闻写作中，标点符号的使用往往反映了作者的表达风格与信息传达的方式。例如，破折号常用于解释说明或语气转折，而引号则用于直接引用或强调特定内容。通过统计这些符号的数量，可以更直观地感受到不同文本在语言结构上的差异。这种差异可能源于写作风格、信息密度或编辑要求的不同。尽管如此，新闻的核心事实和数据仍应保持准确无误，不能因形式的变化而被扭曲。因此，在关注语言表达的同时，也需确保内容的真实性和客观性。

　　虽然发布会上说，GPT-5大幅减少了幻觉。但结果是它的文本变得过于保守和安全，那种信手拈来的奇妙比喻，那种让人拍案叫绝的独特视角，好像少了一些。

　　此外，网上有很多人投诉，在发布GPT-5的同时，OpenAI强制删除了此前的GPT-4及其他模型。

　　现在，你打开GPT的界面，在模型选择的下拉菜单中，几乎只能看到GPT-5这一选项。

　　只能说，这操作确实有点出人意料。毕竟国内的模型通常会让我们自己决定是否“深度思考”，有时候需要又快又准，有时候也需要多而广，而如今OpenAI却直接替用户做了决定，将所有的选择权都收回去了。这种做法让人不禁思考，用户在技术发展中的主导地位是否正在被逐渐削弱。

　　当然，也有人表示赞同，毕竟有些人确实有选择困难，更倾向于由他人来替他们做决定，这也属于见仁见智的问题。

　　但世超发现，ChatGPT的Pro会员还是能使用之前的旧模型的，属于是有点区别对待了。。（如果你希望用回 GPT-4o/4.5，在头像-设置里勾选显示传统模型，就可以切回传统模型了）

　　不仅如此，官方的偷偷降智行为，也不是很厚道。。

　　奥特曼在发布会上展示的做音乐的例子，如果GPT-5被降智了，是很难复刻出来的。有兴趣的朋友可以去尝试一下，或许会有意想不到的发现。在我看来，这种技术展示不仅体现了人工智能在创意领域的潜力，也让人对未来的科技发展充满期待。尽管目前还处于探索阶段，但类似的应用已经展现出强大的可能性。随着技术的不断进步，我们或许会看到更多令人惊叹的成果。

　　总的来说，与基础能力的显著提升相比，此次OpenAI的更新更引人注目的是其“实用优先”的战略方向。

　　一方面，这可能意味着大模型在基础性能的提升上遇到了一定的瓶颈。与此同时，这种方向的调整确实具有积极意义。过去几年中，大模型在追求性能的过程中往往忽视了诸如幻觉、成本等常见问题，这些问题如今逐渐被更多关注。当前行业开始重新审视发展路径，更加注重模型的稳定性和实用性，这或许会为AI技术的长期健康发展带来新的契机。

　　如今，随着OpenAI的周活跃用户数已达到7亿，在性能提升有限的情况下，现在更需要着重优化产品体验。

　　但大伙还是需要一些期待，毕竟已经很久没有出现一个真正具有开创性意义的新模型了。在我看来，这种期待不仅源于对技术进步的渴望，也反映了公众对于突破性创新的敏感与关注。在人工智能领域，每一次重大进展都可能带来行业的变革，而当前的市场和用户似乎正处在一种“等待下一个里程碑”的状态。这种情绪背后，是对更强大、更智能、更具应用潜力模型的渴望。

　　所以下一个被寄予厚望的模型是谁呢？

　　就决定是你们了，DeepSeek R2 和 Gemini 3.0！