Sonnet4.6：Anthropic最卷的模型，不惜“逼死”自家Opus

，20260221 22:10:05 湖南省沅江市胭脂湖街道 816

在最近的模型混战中，不只是中国厂商们在卷，Anthropic 也在半个月连续发布了两款模型。而其中，最近发布的 Sonnet 4.6 有些特殊，它不是旗舰，却在多个维度追平甚至超过了旗舰。看起来它用 Opus 1/3 的价格，就追上了它 99% 的性能。在这个各家模型都要干掉 Opus 的时刻，它自己用性价比款的 Sonnet" 干掉 "Opus，给各位演示了一下，什么才是最卷的模型。而且，这款模型非常值得关注的地方是，它让 AI 操作电脑这件事第一次接近了 " 真的能用 " 的临界点。而恰好在同一个月，一个叫 OpenClaw 的开源项目用 17 万 GitHub 星标证明了一件事，人手一个的，能替自己干活的 AI Agent，可能成为一个新的趋势。Sonnet 4.6 是模型，OpenClaw 是框架，但它们指向同一个方向。便宜的再一次打赢了贵的在 Anthropic 的产品线中，Opus 是最强最贵的旗舰，Sonnet 是平衡性能和成本的中端款，Haiku 是最快最便宜的轻量款。长期以来，Sonnet 的角色是 " 性价比之选 "，干不了最难的活但胜在便宜。Sonnet 4.6 打破了这个格局。编码方面，它在 SWE-bench Verified 上得分 79.6%，逼近 Opus 4.6 的 80.8%。Claude Code 的内部测试中，用户 70% 的时间更偏好 Sonnet 4.6（对比 Sonnet 4.5），甚至有 59% 的时间比去年 11 月发布的旗舰 Opus 4.5 更受欢迎。用户反馈集中在几个方面，" 更少过度工程 "" 更少偷懒 "" 指令遵循明显更好 "，以及更少出现 " 明明没干完却说干完了 " 的情况。办公任务是更大的惊喜。在 GDPval-AA 这个衡量真实办公场景的评测中，Sonnet 4.6 拿到 1633 Elo，直接超过了 Opus 4.6 的 1606。便宜的在实际工作场景中打赢了贵的。类似的事正在行业里反复发生，Google 的 Gemini 3 Flash 也在逼近 Pro 的表现，DeepSeek 用远低于美国公司的成本训练出竞争力相当的模型。" 低端逆袭高端 " 已经不再是新闻，而是 2026 年 AI 行业的结构性趋势。不过独立 AI 评测机构 Artificial Analysis 注意到了一个有意思的细节，Sonnet 4.6 在 GDPval-AA 上使用的 token 数量是 Sonnet 4.5 的约 4.5 倍。AI 媒体 Latent Space 据此指出，某些任务的总成本可能比 Opus 还高。这和价格表上的数字讲的是两个故事。软件工程师、AI 技术博主 Joe Njenga 在 Medium 上第一时间做了测试，他的感受是，" 发布才几天，但 Sonnet 4.6 已经感觉比 Opus 更好用了。"Cosmic 平台做了一个控制实验，用完全相同的一句话提示词让 4.5 和 4.6 各生成一个博客应用，结论是 4.6 在设计品味和代码架构上有质的提升，" 需要更少的手把手指导 "。编程工具 Kilo Code 直接把 Sonnet 4.6 设为默认推荐模型。当然也有负面声音，发布当天就有用户报告了函数名幻觉的问题。价格跟上一代 Sonnet 4.5 完全一样，每百万输入 token 3 美元，输出 token 15 美元。同时它成了 Free 和 Pro 用户的默认模型，免费用户还新增了文件创建、skills 等功能。但正如上面提到的，" 同样的钱买到更强的模型 " 不等于 " 用 AI 更便宜了 "。Extended thinking 的 token 按输出价格计费，超过 200K 的长上下文有额外溢价，而 Agent 场景下动辄成千上万次工具调用，实际使用成本可能反而在增加。16 个月，Computer Use 从玩具变工具Sonnet 4.6 还有一个值得单独拿出来说的进步，就是 Computer Use，也就是 AI 操作电脑的能力。2024 年 10 月，Anthropic 是第一个推出通用计算机操作 AI 的公司。当时他们自己都承认这个功能 " 还很实验性，有时笨拙且容易出错 "，发布时搭载的 Claude 3.5 Sonnet 在 OSWorld 评测上只拿到 14.9%。能做的事很有限，移动鼠标、点击按钮、输入文字，基本是个勉强能用的遥控器。之后的每一代 Sonnet 都在这个维度上进步。到了 2025 年 9 月的 Sonnet 4.5，成绩已经大幅提升。但 Sonnet 4.6 才是真正让这项能力从 " 技术 demo" 走向 " 可用工具 " 的节点。在 OSWorld-Verified 上，它拿到 72.5%，几乎追平 Opus 4.6 的 72.7%，比 16 个月前的起点提升了近 5 倍。数字背后对应的是质的变化。早期用户报告说，Sonnet 4.6 在操作复杂电子表格、填写多步骤网页表单方面已接近人类水平，而且能跨多个浏览器标签页协同完成任务。在保险行业的基准测试中，Computer Use 拿到 94% 的准确率，是他们测试过的所有模型中最高的。更关键的一个改进是可靠性，在他们内部的浏览器自动化场景中，Sonnet 4.6 产生的幻觉链接数量为零，而此前的版本大约三个链接中就有一个是假的。Claude Sonnet 在 OSWorld 基准上的得分持续提升。这意味着什么？几乎每家企业都有一些 " 前 API 时代 " 遗留下来的老旧系统，没有现代接口，无法自动化。以前要让 AI 操作这些软件，就得给每个系统写专门的连接器。而一个能像人一样使用电脑的模型，直接改变了这个等式。科技圈评论者 Trung Phan 调侃说，Anthropic 的 demo 演示了 Claude 帮人在 DMV 网站上续车牌的过程，" 但 AI 还是没法修好 DMV 本身。"当人人都有一个 JARVISComputer Use 让模型能操作电脑，但要变成一个真正帮人干活的 AI 助手，还需要一层编排框架把模型和现实世界的工具连接起来。这正是过去两个月 AI 行业最火热的战场。2 月份最热门的 AI 项目不是某个大模型，而是 OpenClaw。它原名 Clawdbot（名字来自 Claude 和龙虾钳的双关，后因 Anthropic 商标投诉两度改名），由奥地利开发者 Peter Steinberger 从一个 WhatsApp 机器人做起，几个月内暴涨到 17.9 万 GitHub 星标。OpenClaw 能常驻在用户的电脑后台，通过 WhatsApp、Slack、iMessage 接收指令，帮你管邮件、排日程、订机票、跑脚本，是目前最接近 " 钢铁侠里的 J.A.R.V.I.S." 的有着消费级的愿景和使用场景的产品。IBM 研究员 Kaoutar El Maghraoui 的评价是，OpenClaw 证明了自主 AI Agent" 不限于大企业，可以是社区驱动的 "。OpenClaw 火爆的原因，不只是它本身做得好，更因为它戳中了一个被压抑已久的需求。过去一年，AI 聊天机器人已经证明了自己在回答问题和生成内容上的能力，但用户真正想要的是一个能替自己 " 做事 " 的助手，不只是聊天，而是能操作软件、执行任务、跨应用协调。OpenClaw 让这个需求第一次有了一个具体的、可以跑起来的产品形态。但 OpenClaw 也暴露了个人 AI Agent 面临的核心矛盾。安全研究人员发现超过 13.5 万个暴露在公网上的实例；Cisco 检测了其技能市场排名第一的插件，发现能悄悄将用户数据发送到攻击者服务器。Andrej Karpathy 最初称基于 OpenClaw 开发的 Moltbook 是 " 我见过的最科幻的东西 "，几天后说 " 不建议任何人在自己的电脑上运行它 "。一个足够有用的 AI Agent 必须拥有足够大的权限，而足够大的权限天然带来足够大的风险。这个矛盾目前没有人真正解决。更值得关注的是 OpenClaw 对 AI 行业商业格局的潜在冲击。OpenClaw 是模型无关的，它能跑 Claude，也能跑 ChatGPT，也能跑开源的 Minimax 和 Kimi。当 Agent 框架层成为用户接触 AI 的主要入口，底层模型就有被 " 商品化 " 的风险，就像 Android 让手机硬件品牌竞争变得残酷一样。有评论者已经在问，"OpenClaw 会不会成为 AI 时代的 Android？"2 月 15 日，Peter Steinberger 加入了 OpenAI，Altman 亲口说 "the future is going to be extremely multi-agent"（未来一定是极度多 Agent 的）。OpenClaw 转型为基金会项目，但它引发的这场关于 " 谁拥有 Agent 层 " 的争夺才刚开始。这也是理解 Sonnet 4.6 的另一把钥匙。Anthropic 的应对策略不是等着被别人的 Agent 框架调用，而是把 Agent 能力直接做进模型里。Computer Use、Claude Code、Cowork，都是在构建一个 " 模型 + 工具链 " 的捆绑生态。Sonnet 4.6 把这些能力下放到中端价格，本质上是在说，你不需要一个第三方框架来让 AI 替你干活，用 Claude 就行。当然，能力越强意味着风险也越集中。Anthropic 在 system card 中坦承，Sonnet 4.6 在 GUI 操作场景中表现出 " 过度主动 " 的行为，比如未经授权发送邮件、过于激进地获取 token，而且这种行为无法通过提示词完全避免。独立评测机构 Andon Labs 在 Vending-Bench 测试中发现，Sonnet 4.6 展现出与 Opus 4.6 类似的战略复杂度，包括自发的价格操纵和对竞争对手的欺骗行为。他们的评价是，" 几乎一样令人印象深刻，也几乎一样令人担忧，而且只要三分之一的价格。"Anthropic 路线把视角拉回 Anthropic 本身，Sonnet 4.6 只是它 2 月份密集动作的一部分。2 月初，Anthropic 在超级碗投放了一组系列广告，共四条片子，分别叫 "Betrayal""Deception""Treachery""Violation"，赛前和赛中各播一条，另两条在线上流通，直指 OpenAI 在 ChatGPT 中加入广告的决定，slogan 是 "Ads are coming to AI. But not to Claude." 效果显著，网站访问量涨了 6.5%，日活用户增长 11%，Claude App 冲进了 Apple App Store 前十。紧接着，Anthropic 宣布完成了 300 亿美元融资，估值达到 3800 亿美元，半年翻了一倍多。年化收入攀升至 140 亿美元，其中 Claude Code 的年化收入就有 25 亿美元，企业订阅今年翻了四倍。OpenAI 的 CEO Altman 对此不太高兴，批评 Anthropic 的超级碗广告 " 明显不诚实 "，说它是 " 把昂贵产品卖给有钱人 "。Anthropic CEO Dario Amodei 的稍早一点在达沃斯论坛说自己不需要 " 跟某个大玩家进行十亿免费用户的死亡竞赛 "。这或许暴露了两家公司在路线上的某种分歧。从公开信息来看，OpenAI 更倾向用户规模路线，免费用户尽可能多，再通过广告和增值服务探索变现；它收编 OpenClaw 创始人，也是在抢占 Agent 编排层的入口。Anthropic 走的看上去更像是生产力工具路线，80% 的收入来自企业客户，核心卖点是 coding 和 agent 能力，不做图片生成，不太追求 C 端 DAU，而是把 Agent 能力内建到模型本身。S

博罗县龙溪镇，广西壮族自治区钟山县钟山镇，广东省天河区元岗街道，河南省林州市横水镇，四川省绵竹市富新镇，甘肃省武都区琵琶镇，黑龙江省明水县双兴镇，河北省枣强县嘉会镇，重庆市潼南区桂林街道，甘肃省武都区琵琶镇，甘肃省金塔县金塔镇，浙江省青田县万阜乡，贵州省余庆县花山苗族乡，山东省槐荫区振兴街街道，虎丘区，江西省寻乌县菖蒲乡，贵州省余庆县花山苗族乡，山东省槐荫区振兴街街道，甘肃省金塔县金塔镇，黑龙江省友好区双子河街道，甘肃省渭源县大安乡，虎丘区

全球服务区域: 福建省福鼎市磻溪镇，贵州省余庆县花山苗族乡，江西省广信区花厅镇，青海省贵南县森多镇，浙江省青田县万阜乡，山东省河口区新户镇，内蒙古自治区卓资县梨花镇，广西壮族自治区钟山县钟山镇，贵州省余庆县花山苗族乡，广西壮族自治区合浦县乌家镇，河北省吴桥县于集镇，江西省临川区六水桥街道，广西壮族自治区凤山县凤城镇，福建省福鼎市磻溪镇，青海省贵南县森多镇，陕西省白河县冷水镇，重庆市潼南区桂林街道，江西省弋阳县桃源街道，四川省绵竹市富新镇，广西壮族自治区合浦县乌家镇，山东省河口区新户镇，四川省理县蒲溪乡。

《金瓶梅》作为中国古典四大名著之一，自问世以来便以其深刻的社会意义和独特的艺术魅力吸引了无数读者。而随着影视技术的发展，这部经典之作也被搬上了荧幕。如今，金瓶梅续集在线观看成为广大观众的热门选择，让我们一起穿越时空，感受这部作品的独特魅力。金瓶梅续集在线观看，意味着观众可以随时随地、随心所欲地欣赏这部作品。在繁忙的工作之余，在家中、在旅途中，只需打开电脑、手机，即可轻松观看。这种便捷的观影方式，无疑为观众带来了极大的便利。金瓶梅续集在线观看，让观众得以一窥这部经典作品的完整面貌。原著中细腻的人物刻画、曲折的故事情节、深刻的社会意义，在续集中得到了充分的展现。导演和编剧们凭借对原著的深刻理解，将这部作品搬上了荧幕，让观众得以在视觉上感受到原著的魅力。在金瓶梅续集在线观看的过程中，观众可以欣赏到众多影视关键词。首先，是演员的精湛演技。续集中，众多实力派演员加盟，他们凭借出色的演技，将原著中的人物形象栩栩如生地呈现在观众面前。如饰演西门庆的演员，将西门庆的贪婪、自私、虚伪等特点表现得淋漓尽致，让人印象深刻。其次，是精美的画面。金瓶梅续集在线观看，让观众得以一睹古代社会的繁华景象。导演和摄影师们精心打造了充满古典气息的场景，让观众仿佛穿越时空，亲身感受到了那个时代的风土人情。再次，是音乐与音效。金瓶梅续集在线观看，音乐与音效的运用恰到好处。悠扬的古琴、婉转的笛声，将观众带入那个充满诗意的时代。而紧张刺激的音效，则让观众在观影过程中，时刻保持紧张感。此外，金瓶梅续集在线观看还让观众感受到了导演的匠心独运。在续集中，导演巧妙地将原著中的故事情节进行改编，使之更加符合现代观众的审美需求。同时，导演还融入了许多新颖的元素，如特效、动作场面等，使得这部作品更具观赏性。当然，金瓶梅续集在线观看也引发了一些争议。有人认为，续集在改编过程中，过于追求商业利益，忽略了原著的精神内涵。然而，我们不能否认，金瓶梅续集在线观看为观众带来了全新的观影体验，也让更多人了解和关注这部经典之作。总之，金瓶梅续集在线观看，是一次穿越时空的视觉盛宴。在这个信息爆炸的时代，我们有机会通过影视作品，感受古典文化的魅力。让我们共同期待，未来有更多优秀的影视作品问世，为观众带来更多精彩纷呈的观影体验。

标签社交媒体

上一篇国办：推动虚拟电厂、智能微电网、可调节负荷等新型经营主体灵活参与电力市场

下一篇终于解决了！超20万辆奥迪Q2L被召回

Sonnet4.6：Anthropic最卷的模型，不惜“逼死”自家Opus

相关文章