Opus 4.7 最直接的变化有三个:一是新加的 xhigh effort 档位介于 high 和 max 之间,给你多一档"多烧钱换精度"的选项;二是视觉支持长边 2576 像素,比之前直接翻 3 倍多,以前要手动切图的架构图、高清截图现在一次能喂完;三是内置了自我复查机制,Anthropic 说模型会在给最终答案前自己过一遍逻辑。SWE-Bench Verified、Terminal-Bench 2.0、Tau-Bench 这几个 agentic 硬骨头,Opus 4.7 都拿回了第一,直接盖过 GPT-5.4 和 Gemini 3.1 Pro。
商业层面这次落地速度超过以往。AWS Bedrock 同一天开放所有客户自助接入,覆盖 27 个区域;Vertex AI 和 Microsoft Foundry 也同步上架。更关键的是 Anthropic 在同一份 release notes 里承认:Claude Mythos 还在小范围内测(Project Glasswing 联盟),比 Opus 4.7 强但太危险,公开版本暂时不会有。
对开发者的影响:已经在用 Opus 4.6 的团队今天就可以切版本——价格没变、tokenizer 有更新,Anthropic 说有 breaking change,升级前看一眼 migration guide 就行。Claude Code 和 Cursor 的用户会第一批吃到 agentic 提升的红利,尤其是长跑的编码 agent。个人开发者关心的是配额:4.7 发布当天限流会涨一波,过两天缓过来再跑大任务比较稳。
报告里最刺眼的一组数字是人才流动。2017 到 2026 年,选择去美国工作的 AI 研究员下降了 89%,其中 80% 的降幅发生在过去这一年。对照的是私营投资:美国 2025 年私人 AI 投资 2859 亿美元,中国只有 124 亿,差了 23 倍——但中国靠政府牵引的算力 + 开源生态把差距硬是拉回到了个位数百分点。Anthropic 的 Claude Opus 4.6 目前领先,中国 Dola-Seed 2.0 紧追,Arena 分差 39 分,对应 2.7% 的能力差。
另外几个让人眼前一亮的点:AI 数据中心全球峰值功率 29.6 GW,够整个纽约州用电高峰;GPT-4o 一年的水资源消耗超过 120 万人的饮用水需求;生成式 AI 给美国消费者创造的每年价值约 1720 亿美元,人均价值一年翻了 3 倍。负面信号也有——AI 事故数据库记录的事件从 2024 年 233 起涨到 362 起,透明度指数平均分从 58 掉到 40。
对开发者的影响:这份报告的实用价值在于它给你一个"世界地图"。如果你在挑技术栈,现在押注国产开源模型(GLM、Qwen、DeepSeek)已经不是性价比问题,而是性能第一梯队的选择;如果你在找工作,AI 基建岗位(算力调度、推理优化、数据中心)薪资曲线比应用层更陡;如果你在做产品,53% 的人口渗透率意味着用户已经默认 AI 存在,产品没有 AI 反而要解释。
Gemma 4 把"能开源就开源"的路线推到了新高度。E2B 和 E4B 这两个小版本推理时只激活 20 亿和 40 亿参数,其它权重在需要时再加载,目的就是在移动端和边缘设备上省内存省电。31B Dense 在一些硬基准上据说已经能打 Llama 4 的 400B 版本——官方没有直接说,但 HuggingFace 上已经有几家第三方的对比数据支持这个结论。原生多模态,吃文本、图像、音频,输出文本。
商业意义比性能本身更重要。Apache 2.0 意味着你可以把模型权重塞进商业产品里不用交授权费,改都没问题。上一代 Gemma 全球下载超 4 亿次,Gemmaverse 里衍生了 10 万多个变体;这一代的下载曲线大概率会更陡。Google Cloud 同步上架了 Gemma 4 的 Vertex AI 托管推理,想一键切换、自己不想管算力的可以直接走 Google Cloud。
对开发者的影响:如果你在做端侧 AI(手机 App、IoT、本地 Copilot),Gemma 4 E2B/E4B 值得马上测一轮。比 Llama 的在端侧表现更稳、许可证更干净。如果你做 SaaS 但算力预算紧,31B Dense 是目前性价比最高的自部署选项之一,一张 80GB A100 / H100 能舒服跑起来。Raspberry Pi + Gemma 4 E2B 做家庭 AI 助手的 demo 估计会在 GitHub trending 霸榜好几周。
这条新闻硬核的地方不是参数而是芯片。DeepSeek 团队和华为、寒武纪一起重写了模型 stack 的底层,让 V4 既能在华为 Ascend 910C 上训练,也能在同一套硬件上推理。MoE 架构只激活 3.7% 的参数,实际计算量跟 37B 密集模型差不多,这样国产硬件的算力瓶颈被绕过去。泄漏的基准跑出 90% HumanEval 和 80%+ SWE-bench Verified,大致跟 Claude Opus 4.6 一个水平。
战略层面这件事比模型本身更值得关注。美国对 Nvidia H100/H200 的出口管制假设就是"没高端 GPU 你中国就做不了前沿模型";DeepSeek V4 如果跑通了,这个假设被直接掀翻。加上 V4 是开源权重(V3 也是),相当于把"国产芯片 + 开源模型"的组合推到所有国家面前——对要不要买美国 GPU 犹豫中的中东、东南亚国家,这是一个真实的替代方案。
对开发者的影响:短期内你能用上的是 API 和权重。V3 已经在 OpenRouter 上能跑,V4 大概率一周内跟进,且价格会比 Claude / GPT 便宜一大截。中期如果你在做 coding agent、长文档 RAG,可以把 DeepSeek V4 纳入 evaluation;1M 原生上下文 + 代码能力接近 SOTA,是一个不错的成本 baseline。长期要考虑的是供应链——云厂商如果转向 Ascend 推理卡,部署生态会跟 CUDA 体系分叉。
Muse Spark 的定位很有意思——Meta 没有往大参数方向堆,而是做了一个"小而快但能深度推理"的模型。输入吃语音、文本、图片,输出文本。最亮眼的是 Contemplating 模式:它会派多个 agent 并行推理同一个问题,再汇总答案。按 Meta 官方公布的数字,Humanity's Last Exam 拿 58%,FrontierScience Research 拿 38%,已经能跟 Gemini Deep Think、GPT Pro 的极限推理模式掰手腕。
战略意义在于 Meta 想重新拿回声誉。之前 Llama 4 在 Maverick 和 Behemoth 上踩了几个坑,Zuckerberg 花 143 亿美金把 Scale AI 的 Alexandr Wang 挖过来主导 MSL(Meta Superintelligence Labs),结果就是 Muse Spark。这次 Muse Spark 是闭源的 API 访问——Meta 之前一直在"开源旗手"和"商业闭源"之间摇摆,这次明确选了后者,未来版本"希望开源"说明短期内不开。
对开发者的影响:Muse Spark 目前只在 Meta 产品和合作伙伴 API 里能用,不是 developer-first 的模型。真正值得关注的是 Meta 2026 AI capex 砸到了 1150–1350 亿美元,这笔钱会落到 Llama 后续版本、自研芯片、数据中心。如果你在做多 agent 系统,Contemplating 模式的架构(并行 agent + 聚合)是一个值得抄的设计——不用等 Meta,Claude + OpenAI + LangGraph 已经能拼出类似效果。
📌 今日速览
- Claude Mythos 仍锁在 Project Glasswing 联盟内测;Sonnet 4 / Opus 4 老版本 6 月 15 日退役,建议迁 Sonnet 4.6 / Opus 4.7。
- Advisor Tool 4 月 9 日公测,把慢 advisor + 快 executor 配对,agentic 长任务少烧 token。
- OpenAI 融资轮从 1100 亿涨到 1220 亿美元,估值 8520 亿,年化营收破 250 亿。
- Microsoft Foundry 支持 Azure 账单付 Claude 全家桶调用,统一
/anthropic/v1/messages端点。 - Cerebras 递交 IPO 申请,目标 350 亿估值、募 30 亿美金。
官网 jiangren.com.au/blog · 历史日报全开放