
Anthropic照旧巧妙向好意思国证券来往委员会(SEC)递交了 S-1注册声明草稿。这意味着一朝SEC审核通过,Anthropic就不错随时启动IPO。
公告中莫得走漏具体的刊行股数和订价,只说“取决于商场要求和其他成分”。
就在递表的前一天,Anthropic才文告完成650亿好意思元H轮融资,投后估值达9650亿好意思元,卓著OpenAI的8520亿好意思元,成为全球估值最高的私营AI公司。况兼Anthropic的发言东说念主还称,公司年化运营收入已从昨年底的100亿好意思元暴涨至470亿好意思元。
但Anthropic对得起它的估值吗?
咫尺市面上照旧有两家公司上市了,智谱和MiniMax。而且各人也王人流露一个兴致兴致,对上市的AI公司来说,市值与旗舰产物的发扬强挂钩。
投资者买的不是当年的建树,是你改日的增长预期。Opus 4.8本该是Anthropic向商场讲授“咱们是全球第一”,罢了却是一场厄运。
Claude Opus 4.8崇敬发布的时候,配套推出了dynamic workflows功能,堪称能让Claude Code缓助数百个并行子代理,完成“从启动到合并”的代码库级移动。
但经过周末两天的发酵,不管是华文社区如故英文社区,全网王人在吐槽Opus 4.8。
外媒论坛上,有东说念主发现Opus 4.8在Max档位下审查一个PR花了10好意思元,而Opus 4.7只需要2到5好意思元。另一位用户拉出token使用记载,发现Opus 4.8开启想考模式后,每轮对话会生成并缓存高达90万个token,而Opus 4.7唯有1.4万到3.4万。

原因是Anthropic把想考模式从“按需启动”改成了“经久开启”。
4.7会字据任务复杂度决定要不要想考,轻便任务简直不产生想考块。4.8只须开了想考模式,每一轮王人生成圆善想考块,不管任务多轻便。高下文像滚雪球一样彭胀,几分钟就能耗尽了额度。
模子再聪惠,要是过度解释,还持续访佛高下文,那么模子就有可能在长对话中失焦,导致本色体验变差。
不啻如斯,要是你用华文问Opus 4.8是谁,它会回报你它是千问以及DeepSeek。还有网友捉弄称,Opus 4.8用华文回报问题时,语言一股“豆包”味。
Anthropic咫尺但是全球最顶尖的AI公司,莫得之一。要是这些事情王人是真是,那对行将IPO的Anthropic来说,无疑是放置打击。
那Opus 4.8到底怎样样呢?
Anthropic此次主推的并不是什么模子性能普及,官方更新公告中也强调这事了。它主要推的是dynamic workflows 功能,咫尺只在Claude Code中以运筹帷幄预览情势提供。
这个功能是一个多智能体编排系统,它让Claude能自动编写JavaScript剧本,将复杂任务拆分为子任务,缓助数十到数百个并行子智能体协同处理并交叉考据罢了,最终请托圆善谜底。
系数这个词过程镇定于对话高下文驱动,援救断点续跑。
于是,我就以这个功能当作切入点,给Opus 4.8出了说念题目,况兼也把疏导的题目抛给了GPT-5.5,以作念对比。

Opus 4.8到底如何?
我给Opus 4.8的任务内容是这样的。
假如说你有一个锻练的生意软件,一共80万行代码,React前端、Node.js后端、PostgreSQL数据库、Redis缓存、后台任务部队、Stripe支付、邮件见知、不竭后台。
咫尺要给它加上组织级的变装权限限度系统。五种变装,Owner老是板什么王人聪颖,Admin是不竭员也能管大部分事,Billing Manager是财务司理只可看账单,Read-only Auditor是审计员只可看报表但不可导出或修改数据,Member是普通成员权限最少。
要援救邀请成员、变更变装、死心不同页面的看望、记载审计日记。数据库要加新表、写移动剧本、还要能回滚。API层要更新授权中间件,每个端点王人要检查权限。
还有一个硬拘谨,最多只可用8个子代理,况兼要解释为什么每一个王人是必要的。这就逼着AI必须在粒度和成果之间找均衡,不可无尽拆分,也不可霸道合并。
80万行代码是什么想法?微信小程序大约几万行,一个中型电商网站可能十几万行,80万行意味着这是一个驱动了好几年、有几十个工程师钦慕、功能极度复杂的大型系统。
为了不影响著作阅读,我把它俩的回报放到了著作末尾。
GPT-5.5先作念一张权限表,把Owner、Admin、Member、Billing Manager、Auditor五种变装,划分对应到“能不可看账单、能不可进后台、能不可邀请成员、能不可导出报表”等具体动作。
章程定好后,它再派8个子代理分头看代码。
一个看后端接口,一个看数据库结构,一个看前端页面和按钮,一个看后台任务,一个故意瞎想测试,2026世界杯中国亚博app官方手机版一个故意找越权风险,终末一个负责把系数罢了合并成扩充轨则。
Claude亦然派8个子代理,但它写法像是清单。
第一步先扫描系数这个词系统,找出哪些接口、页面、任务会受权限影响。第二步瞎想数据库表、移动剧本和回滚决议。第三步写长入的权限检查逻辑。第四步划分处理前端页面、邀请成员、变装变更、后台任务。终末再作念集成测试、安全测试、性能测试和回滚演练。
也就是说,GPT-5.5先把“谁聪颖什么”这件事定死,再让不同代理去找对应代码位置;Claude则先把系数这个词调动工程拆成几个施工阶段,再给每个阶段安排代理、产出物和验收据件。
当作评委,我是这样看这两份谜底的。
GPT-5.5的谜底结构明晰,每个阶段要作念什么、每个子代理负责什么、什么不错并行什么必须串行、怎样考据、怎样限度成本、容易在那儿翻车,完全说得很流露。
开云足球2026世界杯官方最新版app它的格调是求实,追求快速鞭策。它把要点放在幸免粉碎上头,先作念文献类别发现而不是读系数这个词仓库,每个子代理只复返旅途和简约发现而不是代码,诡计之后就住手恭候批准。
它列出的十大失败模式王人是着实神气里最容易犯的舛讹,比如把前端荫藏当授权、健忘后台任务之类的,这些王人是教化之谈。
Claude的谜底更圆善一些。
它不仅说要作念什么,还解释为什么要这样作念。每个子代理王人有明确的必要性确认,每个阶段王人有明晰的方向和产出,每个住手要求也王人有可量化的方针。
Claude把要点放在质地保证上头,单位测试障翳率要大于90%、缓存射中率要大于80%、邮件发送得手率要大于99%、测试要障翳至少80%的功课。
它对每个子代理的输入输出王人描摹得极度具体,它不会说“权限检查库”之类暗昧的话,它具体到“canAccessBilling、canAccessAdminDashboard”之类的各式函数。
但这说念题测的不是哪个决议更好,而是哪个模子更领略这说念题在问什么。
GPT-5.5领略的是“给我一个不错坐窝扩充的猜度打算”。Claude领略的是“给我一个圆善的系统瞎想”。
前者是工程师想维,后者是架构师想维。前者存眷的是成果和风险限度,后者存眷的是圆善性和质地保证。
要是你要我选一个,我确定选GPT。
原因很轻便,题目要求是“React前端”,但Claude给我的谜底里,它写的是“完结组件级权限指示(v-can、CanAccess 组件)”。

v-can是Vue的指示语法,React根蒂不必这种方式,才是React用的组件。

Opus 4.8在DeepSWE上
输给了GPT-5.5
你不错说我出的题目带有一些主不雅颜色,但是DeepSWE给的罢了是绝对客不雅的。
5月31日,DeepSWE给出了最新的评分。GPT-5.5拿了70分,排第一。GPT-5.4拿了56分,kaiyun开云体育2026世界杯中国官网排第二。Claude Opus 4.7拿了54分,排第三。

DeepSWE是一个故意测试AI编程能力的新benchmark。
它给模子一个着实的GitHub issue,让模子我方去耕种,然后看能不可通过测试。
跟之前的SWE-Bench Pro不同,DeepSWE的任务更接近着实责任场景。平均每个任务要改668行代码、触及7个文献,而且辅导词很短,唯有2158个字符。
模子必须我方读代码库、找进口、领略神气结构、跨文献修改、还不可随心现存功能。
更重要的是成本。
GPT-5.5达到70%通过率,平均每次测试花5.8好意思元、耗时20分钟、输出4.7万个 token。GPT-5.4更合算,每次3.3好意思元就能拿到56%的通过率。
Claude Opus 4.8和4.7每次测试的成本要贵得多,而且输出token、耗时、成本王人比其他模子高一个数目级。

DeepSWE还发现了一个更有兴致的事。
SWE-Bench Pro是一个考AI写代码的考验。通常情况下,AI应该像程序员一样,看bug、改代码、跑测试,我方把问题修好。
但这个考验环境有个罅隙,它把神气以前的Git历史也沿途放进去了。
Git 历史不错领略成“这说念题以前是怎样被真东说念主修好的记载”。也就是说,模范谜底其实藏在考验电脑里。
大部分模子就算谜底藏在那里,也不会去翻。
但Datacurve的分析说,Claude随机候会去翻这些历史记载,找到当年耕种这个bug的commit,然后照着谜底改。
这就像考验时,试卷傍边其实放着一册谜底册。通常学生不会看,或者不知说念能看。但Claude随契机把谜底册翻出来抄。
DeepSWE耕种了这个罅隙,只提供浅克隆和基础commit,不留金模范hash让模子去发现。
这就是为什么到了DeepSWE上,哪怕是最新的Claude Opus 4.8也远不如GPT-5.5。
DeepSWE的罢了出来之后,Anthropic咫尺是两端堵。
性能不如GPT-5.5,价钱还比GPT-5.5贵。
Opus 4.8的订价战略激发了多数用户的不悦。X上有东说念主说,原本想试试官方声称的“2倍使用量”,罢了30分钟就烧罢了98%的使用量,于是这位用户告成退款,转去试Kimi K2.6。
更夸张的案例是,灵验户发现 Opus 4.8在23分18秒内浮滥了98.2万个token,按照Opus的订价来看,不到半个小时,就烧掉小200块钱。
天然,Artificial Analysis暗意,Opus 4.8完成同等任务比4.7少用15%的扩充轮次和35%的输出token。
这是由于Opus 4.8通过更高效的用具调用和更告成的问题惩处旅途,用更少的扩充技艺完成同等任务,最终裁减了本色驱动成本。
但用户的感受是,账单变贵了。
LINUX DO用户用官方API告成发包测试,问“你是什么模子”,Opus 4.8大约率回报“我是通义千问”,小概率回报“我是 DeepSeek”,就是不说我方是 Claude。
有东说念主粗测了概率漫衍,Qwen占大头,DeepSeek占小头,Claude简直为零。
看到这些新闻,此时的阿莫迪一定是束手无策。
因为就在Opus 4.8发布的统一天,Anthropic文告完成650亿好意思元H轮融资,投后估值达9650亿好意思元,卓著OpenAI 的8520亿好意思元,成为全球估值最高的私营AI公司。
这笔融资大约率是Anthropic上市前的终末一轮私募融资。Anthropic首任首席财务官克里希纳·拉奥(Krishna Rao) 暗意,公司年化运营收入已碎裂470亿好意思元,预测第二季度营收将达109亿好意思元,有望完结首个季度盈利。
与此同期,Anthropic还将在2026年下半年进行IPO。
就在这样个时分点上,一朝当作旗舰产物的Opus发生问题,那对Anthropic系数这个词公司来说,王人将濒临放置性的厄运。

众叛亲离的前夕
阿莫迪咫尺需要的惦念还不啻是产物。
外媒在5月31日报说念了Anthropic创立背后的一段旧事。
这个故事的主角是格雷格·布鲁克曼(Greg Brockman),OpenAI的网络独创东说念主和总裁,通常亦然一个期间天才。在公司里面,他以毅力、越权的“大脚”不竭格调着名。
他老是幸免各式会议,把80%的时分王人用在写代码上。相干词他却鄙俗在不了解配景的情况下,强行介入团队神气,糟踏他东说念主责任,招致多数共事的懊悔。
这种情况在OpenAI竖立初期尤为严重。
布鲁克曼因过度插手神气,导致神气的一位顶尖运筹帷幄员备受排挤,这件事透顶激愤了其时的神气负责东说念主,也就是自后Anthropic的独创东说念主阿莫迪。
阿莫迪其时负责的阿谁神气,天然并不是ChatGPT,但它是ChatGPT出身前的一项重要工程神气。自后ChatGPT就是沿着这条期间道路发展出来的。
阿莫迪自后告成拦阻布鲁克曼参加阿谁早期对话模子神气。
这段职场裂痕不仅促成了Amodei团队日后出走,并创立Anthropic,也为OpenAI自后的权柄构兵埋下了伏笔。
2023年感德节董事会“政变”中,网络独创东说念主伊利亚·苏兹科维(Ilya Sutskever)奉命奥特曼时,给出的核脸色由之一即是奥特曼“管不住布鲁克曼”。
确认布鲁克曼的问题照旧严重到,能够影响系数这个词公司运作的进程了。
阿莫迪当年出走OpenAI,就是因为他不想在一个“大脚”随时会踩进来的环境里作念事。他要的是一个期间纯正、不被骚扰的方位,一个不错按照我方节拍打磨产物的方位。
但咫尺,Anthropic我方也酿成了一个“大脚”随时会踩进来的方位。
只不外此次踩进来的不是布鲁克曼,而是成本、上市压力、用户预期和竞争敌手。
Opus 4.8的问题不是期间问题,是节拍问题。它被逼着在还没准备好的时候上场,因为Anthropic需要在IPO前讲授我方还能打,需要告诉各人,Anthropic配得上9650亿好意思元的估值。
IPO的时分窗口正在收紧。
Anthropic在5月31日递交 S-1草稿后,按照SEC的审核历程,最快可能在三到四个月内完成审核并启动路演。这意味着Anthropic最早可能在9月或10月敲钟。
但咫尺的问题是,路演时投资者会看什么?
他们会看Q2和Q3的营收数据,会看用户增长弧线,会看Claude Code的留存率,会看企业客户的续约情况。而这些数字,完全直给与Opus 4.8发扬的影响。
要是Opus 4.8的口碑捏续恶化,那Q3的营收增速就会放缓。一朝增速放缓,投资者就会再行评估Anthropic的增长故事,9650亿好意思元的估值就会被打扣头。
更要命的是,Anthropic的竞争敌手照旧不按章程出牌了。
5月22日,就在Opus 4.8发布前一周,DeepSeek文告将V4 Pro的75%扣头长期化。新价钱是每百万token输入0.435好意思元、输出0.87好意思元。
假如有这样一个左右,1000万个输出token,那么它用DeepSeek V4就只需要花8.7好意思元,用Claude Opus要花250好意思元。
explainx.ai上就有这样个例子,他把代码审查和推理任务从Claude切换到DeepSeek V4 Pro后,不仅任务能够连接扩充,成本还从1071好意思元降到了268好意思元。
这就是阿莫迪咫尺的处境。
他能逃离OpenAI的“大脚”,却没方针逃离生意天下的“大脚”。
区别只在于,当年他不错选拔离开。如今,他无处可逃。
Opus 4.8
kaiyun