跳转至

Reddit AI - 2026-04-22

1. 人们在讨论什么

1.1 GPT Image 2 主导视觉 AI 讨论 (🡕)

OpenAI 的 GPT Image 2 发布,带来了当天所有话题中最大的互动集群;至少 12 篇帖子分布在 singularity、ArtificialInteligence 和 generativeAI,合计得分超过 4,500。

u/Glittering-Neck-2505 发布了新的 ChatGPT 图像模型成为照片级图像生成的新标准(得分 1,308,306 条评论),引发广泛反应。u/TheRanker13 随后发布 Gpt image 2 创下有记录以来最大的质量跃迁(得分 1,070,120 条评论),分享基准对比和照片级样例。

用户强调的关键能力包括:

怀疑者也在场。u/Calm_Opportunist 警告:“一周左右就会恢复正常。总是这样。他们先用改进把你拉进来、抢到头条,然后就 nerf 下去。”u/Sharp-Dog545 指出:“模型越好,人们越不容易被打动。”

与昨日对比:GPT Image 2 在 4 月 21 日只是预热,今天全面发布,成为新的顶级讨论。昨天的图像生成讨论很少。

1.2 Qwen 3.6 27B 发布,Dense Powerhouse 登场 (🡕)

Qwen 3.6 27B 的发布是当天最高单帖。u/NoConcert8847 宣布 Qwen 3.6 27B 发布(得分 1,325,469 条评论),链接到 Hugging Face 模型卡u/ResearchCrafty1804Qwen3.6-27B 发布!(得分 546,141 条评论)中给出官方公告并列出基准:

Benchmark Qwen3.6-27B Qwen3.5-397B-A17B
SWE-bench Verified 77.2 76.2
SWE-bench Pro 53.5 50.9
Terminal-Bench 2.0 59.3 52.5
SkillsBench 48.2 30.0

Qwen 3.6 27B 在 12 项编码和推理基准上的对比

一个 27B dense 模型在编码基准上超过 397B MoE 模型,让社区震惊。u/adam_suncrest 庆祝:“densocrats 是时候开饭了。”u/Guilty_Rooster_6708 写道:“醒醒吧,我的 16gb VRAM GPU。准备好了伙计。”

u/Creative-Regular6799 随后发布 Qwen3.6-35B 配上合适 agent 后可与云模型竞争(得分 481,125 条评论),显示 little-coder scaffold 把 Qwen3.6 35B 推到 Polyglot 78.7%,使其可与前沿云模型竞争。u/DependentBat5432 反应:“只换 scaffold 就从 19% 到 45 再到 78,这有点吓人。”

同日,Unsloth 的 GGUF quants 由 u/jacek2023unsloth Qwen3.6-27B-GGUF(得分 350)中发布。

与昨日对比:昨天重点是 Qwen 3.6 35B MoE;今天的 27B dense 发布以新证据把讨论转向 dense-vs-MoE 架构辩论。

1.3 Claude Code 从 Pro Plan 中移除引发反弹 (🡕)

三篇高互动帖子记录了 Anthropic 测试从每月 $20 的 Pro 套餐中移除 Claude Code。u/bigboyparpa 发布 Claude Code 从 Claude Pro 套餐中移除(得分 1,302,383 条评论),附带 pricing page 截图,显示 Claude Code 在 Free 和 Pro 套餐中均标记为 X。

Claude 价格页面显示 Claude Code 从 Free 和 Pro 套餐移除

u/mhamza_hashimClaude Code 不再列为 Claude Pro 功能(得分 638,165 条评论)中发布同一发现。u/Just_Stretch5492Anthropic 似乎开始测试移除 Claude Code(得分 455)补充称,OpenAI 员工已经公开嘲笑这一动作。

Anthropic 通过 u/bigredsun 引用的一条推文回应:“说明一下,我们正在对约 2% 的新 prosumer 注册用户做小规模测试。现有 Pro 和 Max 订阅者不受影响。”社区普遍怀疑。u/Shot_Illustrator4264 说:“这不是测试,他们显然从对比页面上移除了它。只是遭到巨大反弹后在回撤。”u/rpkarma 总结情绪:“当然,rug pull 开始了 lmao。”

LocalLLaMA 版主 u/rm-rf-rm 虽然帖子讨论的是闭源产品,仍批准了它,并指出这“进一步凸显本地推理的重要性”。

与昨日对比:昨天没有出现。这是一个新发展,并放大了迁移到本地的既有趋势。

1.4 开放模型竞争:Qwen vs Gemma 加剧 (🡒)

Qwen-vs-Gemma 辩论从昨天延续下来,并带来更清晰的数据。u/FullChampionship7564 用 Toy Story meme 捕捉了情绪:每次新模型出来,旧模型当然就过时了(得分 970,177 条评论),图中 Qwen 3.6 替代了 Gemma 4。

评论给出了比 meme 更细腻的看法。u/MexInAbu 认为:“Gemma 4 在创意写作上明显更好,没有争议。”u/markole 补充:“编码?当然。翻译?不,qwen 翻译很差。”u/ComplexType568 给出共识:“这两个模型互补彼此弱点。编码和开发用 qwen,创意和语言用 Gemma。”

u/ThisGonBHardGemma 4 击败 Chat GPT 和 Gemini Chat(得分 246,48 条评论)中提供详细翻译测试,发现 Gemma 4 31B 在 Q4 量化下,中文到英文小说翻译优于 ChatGPT 5.3 和 Gemini Chat。u/Uncle___Marty 反思:“Google 在 Gemma 4 的语言能力上做了些东西,真的让它自成一类。”

u/seamonnGemma 4 Vision(得分 294,55 条评论)中披露,默认 vision token budget 280 远远过低,把它设为 2240 后 Gemma 4 “几乎是 Vision 的 SOTA”,尤其适合 OCR。

u/Lowkey_LokiSNPersonal Eval follow-up(得分 143)发布详细评估,显示 Qwen 3.5 27B 和 Gemma 4 31B 都达到 100% test fix rate(37/37),而 Qwen 3.6 35B 为 86.5%。

与昨日对比:昨天讨论的是 MoE 与 dense 模型之间的架构取舍。今天则用新的真实测试数据和实用建议把讨论推得更细。

1.5 Kimi K2.6 巩固成本有效前沿地位 (🡒)

Kimi K2.6 延续了昨天发布后的强劲表现。u/Snoo26837 发布 Kimi K2.6 在 Artificial Analysis Intelligence Index 上排名第 4(得分 258,75 条评论),显示 K2.6 得分 54,超过 Claude Opus 4.6 Max。

Artificial Analysis Intelligence Index 显示 Kimi K2.6 排名第 4

u/mxforest 指出:“击败 Opus 4.6 Max 太疯狂了。”u/sb5550 提供背景:“Kimi 只是 1T 模型,而 Opus 是 5T,好好想想。”

u/meaningegoOpus 4.7 Max 订阅者。切换到 Kimi 2.6(得分 245,78 条评论)中提供从业者视角,称因成本和 Opus 4.7 懒惰,整个团队都要切换。u/Ok-Contest-5856 推断:“把数十亿美元砸进 anthropic 和 openai 的私募股权会很难受。”

u/ENT_AlamMineBench(得分 267)上测试 K2.6,显示相对 K2.5 有巨大提升,完整基准总成本只有 $2.35。

基础设施方面,u/Cosmicdev_058 分享 Moonshot 开源 FlashKDA(得分 130),这是 Kimi Delta Attention 的 CUTLASS kernels,在 H20 上比 Triton baseline 最高快 2.22 倍。

与昨日对比:昨天是发布日兴奋。今天转向基准确认和真实迁移故事。

1.6 机器人、硬件与物理世界中的 AI (🡕)

一组帖子显示 embodied AI 正在加速。u/Distinct-Question-16 发布两条高互动内容:一家中国创业公司出售 $3 AI 陪伴设备,可生成已故亲人的交互式全息影像(得分 717,228 条评论),以及 又出现一张 CyberNani 脸(得分 692,99 条评论),展示接近 uncanny valley 的人形机器人脸。u/TwoFluid4446 写道:“这绝对正中恐怖谷……但仍然令人印象深刻。”

u/Distinct-Question-16 还发布了 AheadForm Origin F1 换新造型回归(得分 401,97 条评论),展示外观改进的人形机器人。

u/WhyLifeIs4 分享 Google 推出 TPU 8t 和 TPU 8i(得分 355,47 条评论)。TPU 8i 规格显示 pod size 为 1,152,每 pod 11.6 FP8 EFlops,331.8 TB HBM capacity——相比 Ironwood(2025)有巨大跃升。u/Worried-Squirrel2023 观察:“nvidia 终于有真正的 second source 问题了。每个 hyperscaler 现在要么已有自研 silicon,要么正在认真做。”

u/mientosiempre 发布 中国用武装机器狗和攻击无人机训练城市战(得分 342,62 条评论),为 embodied AI 讨论增添军事维度。

与昨日对比:昨天有 Apple 硬件 AI 战略。今天扩展到物理机器人和定制 silicon。

1.7 Agentic Tools 面临清算 (🡒)

围绕当前 agentic tools 实用性的批评线程出现。u/pacmanpill 发布 不受欢迎观点:OpenClaw 及其所有克隆,对懂行的人几乎没用(得分 572,229 条评论)。u/swiebertjee 以详细例子表示同意:“我上周末试了 Openclaw,惊讶于它竟然如此没用。”

u/superloser48 分享 OpenRouter 排名数据(得分 202,118 条评论),显示按 token 使用量排名的前 10 个 app 中有 6 个不是编码工具。OpenClaw 以 345B tokens 领先,其后是 Hermes Agent 268B 和 Kilo Code 179B。

OpenRouter top apps 排名,显示非编码 app 主导 token 使用量

u/FullstackSensei 报告 Roo Code 达到 300 万安装后宣布关闭(得分 80,70 条评论),转向云端 “Roomote”。u/mikael110 回应:“这基本就是所有公司支持的 OSS AI 项目如今的结局。”

与此同时,u/My_Unbiased_Opinion 宣布 Open WebUI Desktop 发布!(得分 273,102 条评论),捆绑 llama.cpp 用于本地推理。反应混合,u/Danmoreng 指出:“叫它 desktop app,但其实是打包的 web frontend。”

与昨日对比:昨天讨论的是 agentic tool 安全失败。今天批评加深,加入了使用数据和项目放弃。

1.8 AI 与社会:监控、深度伪造和真实性 (🡒)

多篇帖子审视 AI 的社会足迹。u/EmbarrassedStudent10 报告 Meta 据称通过 “Keylogger” 监控强迫美国员工训练自己的 AI 替代品(得分 321,53 条评论),详细描述 Meta 的 “Model Capability Initiative”,在计划裁员 8,000 人前捕捉键盘、鼠标和屏幕快照。u/heavy-minium 表示怀疑:“大概率不会有什么结果。他们现在在 AI 模型方面已经落后太多。”

u/EchoOfOppenheimer 分享 数百个虚假亲 Trump 头像出现在社交媒体(得分 213,49 条评论),链接到 NYT 报道。

u/JackFisherBooks 发布 Deezer 称 44% 新音乐上传由 AI 生成,大多数播放为欺诈(得分 219,43 条评论)。u/KoaKumaGirls 用 Deezer 自己的数据反驳:“尽管 AI 音乐上传数量很大,后续播放量中 AI 音乐占比极小。”

u/iamMARX随着 AI 变好,人们不会“回归真实性”(得分 113,79 条评论)中把 AI 内容比作超加工食品:“真实性不会消失。它只会变成一种人们必须有意识选择的东西。”

与昨日对比:昨天讨论 AI 生产力悖论。今天加入了 Meta 的具体监控证据和更深的文化分析。

2. 令人困扰的问题

Claude Code 定价变化

严重程度:High -- 三篇帖子合计得分超过 2,300。

Claude Code 可能从 Pro 套餐($20/月)移除,迫使用户为了使用编码智能体而升级到 $100 或 $200 的 Max 套餐。u/hacketyapps 写道:“你他妈在开玩笑吗?我用 Pro,还在用 Claude Code,可能等我订阅到期就没法用了……希望他们流失一大堆客户。”u/Super_Push7794 称其为“经典 enshittification”。

应对策略:用户立刻指向通过 OpenCode Go 使用 Kimi K2.6(首月 $5,之后 $10)以及本地运行 Qwen 3.6。u/bigboyparpa 概述替代方案:“每月 $20 的 Kimi K2.6 tokens,基本可以得到相当于 $100 plan 的 token 数量。”

Opus 4.7 懒惰与质量回退

严重程度:Medium-High -- SimpleBench 数据确认了主观抱怨。

u/EducationalCicada 发布 SimpleBench 结果(得分 241),显示 Opus 4.7 得分 61.7%,低于 Opus 4.6(67.6%)和 Opus 4.5(62.0%)。u/Worried-Squirrel2023 描述核心问题:“甚至不是质量,而是它会在任务中途停下,或者在事情真的做完前就收尾。”

SimpleBench 排行榜显示 Opus 4.7 得分低于 4.6 和 4.5

Agentic Tool 不成熟

严重程度:Medium -- 不满广泛存在,但有权宜方案。

u/swiebertjee 详细描述 OpenClaw 失败:“它只会在 incoming messages 上触发……我让它只做笔记,它确认了,却开始回复我母亲。”u/cosimoiaia 把批评扩展到 n8n:“没用。如果你懂一点自己在做什么,几个提示词就能做出任何 workflow。”

Gemma 4 Vision 配置错误

严重程度:Medium -- 可修复,但文档很差。

u/seamonn 发现 Gemma 4 的默认 vision budget(280 tokens,约 645K pixels)让它“基本失明”。修复需要在 llama.cpp 中手动设置 --image-max-tokens 2240,并调整 batch sizes。Ollama 用户“在他们愿意修 这个问题 之前基本没救”。

量化混乱

严重程度:Low-Medium -- 影响模型选择决策。

u/LawyerCompetitive478Google 是否把 Gemma 4 e4b 最好版本藏在 Android 里?(得分 274)中发现,Google AI Edge Gallery 的 LiteRT 模型优于社区 GGUF quants。u/Fit-Produce420 直白解释:“Gemma 4 是 google 的高薪工程师做的,他们设计了模型和 edge app,也懂得如何正确 serving。你的社区 fine tune 是随机陌生人做的。”

3. 人们期望的功能

能轻松适配消费级 GPU 的 Dense Qwen3.6-27B

围绕 Qwen 3.6 27B 的兴奋显示了对消费级硬件规模 dense 模型的强需求。u/Guilty_Rooster_6708 说:“醒醒吧,我的 16gb VRAM GPU。”用户想要不必在量化上妥协、同时仍能超过大得多 MoE 架构的模型。

中档 Gemma(60-70B)

你希望下一个 Gemma 模型是什么?(得分 187,103 条评论)中,社区强烈要求更大的 Gemma 模型。u/DelKarasique 写道:“中档的。比如 70b。我觉得那是一个甜点位,而且现在空着。”u/ResidentPositive4122 进一步推动:“小模型已经不错了。看看 124B 到底是什么样。”

可负担的 Coding Agent 访问

Claude Code 移除事件把用户对 $20/月可靠 coding agents 的需求具体化。用户想要 Kimi K2.6 级表现,但不被云供应商锁定。u/meaningego 提到,Kimi 不能“开箱即用地与 Forge 配合”令人沮丧,并提交了 PR 来修复。

面向本地模型的更好 Agent Scaffolds

u/Creative-Regular6799 展示 scaffold 选择比模型选择更重要:只换智能体运行框架,同一基准从 19% 提到 78.7%。用户想要专为本地模型设计、经过充分测试的标准 scaffold,而不是复用云模型运行框架。

可靠的 Vision 配置默认值

u/seamonn 展示 Gemma 4 vision 默认配置严重不足。用户希望模型提供商发布合理默认值,也希望 Ollama 和 LM Studio 这类 serving frameworks 暴露 vision budget 调节项。

4. 使用中的工具与方法

工具 类别 评价 优势 局限
Qwen 3.6 (27B/35B) Local LLM Very positive Dense 模型击败更大 MoE;编码基准强;Apache 2.0 刚发布,长期测试有限
Gemma 4 (31B/26B/E4B) Local LLM Positive 创意写作、翻译、vision(调好后);免费 Vision 默认值过低;dense 推理慢
Kimi K2.6 Cloud/Local LLM Very positive Artificial Analysis Index 第 4;完整基准运行 $2.35 256K 上下文限制;输出质量不稳定
Claude Opus 4.7 Cloud LLM Mixed-negative 投入执行时 agentic coding 强 懒惰;SimpleBench 回退;定价担忧
llama.cpp 推理引擎 Very positive Auto-fit 功能;硬件支持广;迭代快 Vision 模型需要手动调优
GPT Image 2 图像生成 Very positive 照片真实感;文字渲染;自我审查循环;角色一致性 复杂图片需 11 分钟;成本未知
Unsloth 量化 Positive 同日 GGUF 发布;动态量化 社区 quants 可能落后于 vendor quants
little-coder Agent scaffold Positive 将 Qwen3.6 35B 在 Polyglot 上推到 78.7% 新项目,主要限于特定基准
pi coding agent Agent scaffold Positive 可扩展;local-first;与 Qwen 3.6 和 Gemma 4 配合好 用户规模较小
Open WebUI LLM interface Mixed 捆绑 llama.cpp 的桌面应用 基于 Electron;MCP 集成受批评
OpenClaw Automation agent Negative 对新手友好 有经验用户称“完全没用”;行为不安全
Roo Code Coding agent Negative(关闭中) 300 万安装;用户控制 转向云;放弃 OSS 项目

本地推理栈(llama.cpp + Unsloth quants + Qwen/Gemma models)继续巩固为默认路径。Scaffold 层(little-coder、pi、OpenCode)正在成为本地模型表现的关键差异点。

5. 人们在构建什么

项目 Who What It Does Problem It Solves Stack Stage Links
Koharu u/mayocream39 带内置 LLM 的本地漫画/图像翻译器 漫画翻译流水线缺少高性能本地工具 Rust、llama.cpp、Gemma 4、Qwen3.5、object detection、inpainting 活跃,打磨 1 年 GitHub
little-coder u/Creative-Regular6799 让本地模型具备竞争力的 agent scaffold 云设计 scaffold 在本地模型上表现差 Python、Qwen3.6 活跃,基准测试中 GitHub
MineBench u/ENT_Alam 3D Minecraft 结构生成基准 缺少 LLM 空间推理基准 JSON coordinate mapping 活跃,公开基准 minebench.ai
1386.ai / Plasma u/ExcellentTip9926 从零训练的 235M 参数 LLM 学习完整 LLM pipeline PyTorch、SentencePiece、FineWeb-Edu v1.0,训练 v1.1(500M) GitHub
simple_dlm u/Encrux615 从零实现 diffusion language model 不用 AI code assistance 理解 diffusion LM 架构 PyTorch、7.5M params 教育原型 GitHub
FlashKDA Moonshot AI Kimi Delta Attention 的 CUTLASS kernels Triton baseline 对 linear attention 太慢 CUTLASS、C++、SM90+ 已发布,仅 forward-pass GitHub
Forge PR for Kimi u/meaningego 给 Forge coding tool 增加 Kimi K2.6 支持 Kimi 不能与 Forge 开箱即用 -- PR 已提交 PR #3098

6. 新动态与亮点

Qwen 3.6 27B:Dense 模型击败自家 397B MoE 前代

一个 27B dense 模型在所有主要编码基准上超过 397B(17B active)MoE,是高效模型架构的里程碑。Apache 2.0 许可和 GGUF 即时可用,意味着它会在发布数小时内跑上消费级硬件。这挑战了 MoE 架构才是高效前沿性能路径的假设。

Mozilla 用 Mythos 找到 271 个 Firefox Bug

u/Tinac4 分享 Mozilla 使用 Anthropic 的 Mythos 找到并修复 271 个 Firefox Bug(得分 649),引用 Wired 报道。Firefox CTO Bobby Holley 表示:“现在我们有自动化技术,据我们所知,可以覆盖完整的 vulnerability-inducing bugs 空间。”这是公开报道中 AI 驱动生产浏览器漏洞发现的最大案例。不过 u/helg0ret 指出 Firefox 150 changelog 只列出 3 个 Claude 找到的漏洞,质疑 271 这个数字。

OpenAI Codex 模型泄露

u/DavidAGMM 在修复前录下了一场大规模 OpenAI Codex 模型泄露(得分 129),泄露未发布内部模型,包括 GPT-5.5、“Arcanine”、“glacier-alpha”和“Heisenberg”(描述为“最新前沿生命科学研究模型”)。

Google 发布 Deep Research Max 和 TPU 8

Google 同日有两项重要公告:Google 推出 TPU 8t 和 TPU 8i,每 pod 11.6 FP8 EFlops;以及 Deep Research Max(得分 224)在研究基准上超过 GPT 5.4。u/FateOfMuffins 指出 Google “现在发这篇博客纯粹是因为如果这周不发,接下来就没机会发了。”

MiMo-V2.5 发布

u/WhyLifeIs4 分享 MiMo-V2.5 已发布(得分 97),来自 Xiaomi,现已上线 OpenRouter。这在前一天开放模型时间线中曾被标为即将发布。

Roo Code 300 万安装后关闭

Roo Code 从开源 VS Code extension 转向云端 “Roomote”,标志着另一个 OSS AI 项目放弃社区。Kilo Code 据说也在“走类似路线”,社区维护的 coding agent 空间正在碎片化。

7. 机会在哪里

[+++] 缩小与云差距的本地 Coding Agent Scaffolds

证据:u/Creative-Regular6799 展示,仅 scaffold 选择就让基准表现从 19% 提到 78.7%。Qwen 3.6 27B 在编码基准上匹配或超过云模型。Claude Code 定价变化正在主动把用户推向替代品。多个线程评论确认,scaffold 层是主要瓶颈,而不是模型质量。现在本地与云的差距主要是工具问题。

[+++] AI 驱动的安全审计工具

证据:Mozilla 使用 Mythos 找到 271 个 Firefox bug,CTO 称自动化技术现在可以覆盖“完整的 vulnerability-inducing bugs 空间”。今天只有 50 家公司能访问 Mythos,但 u/shadow-knight-cz 指出开放权重模型可以找到同样漏洞。用开放模型民主化这种能力,是明确的近期机会——649 score 帖子的需求信号很强。

[++] Gemma 4 Vision 配置与工具

证据:u/seamonn 显示 Gemma 4 vision 只改一个参数,就能从“基本失明”变成“SOTA”。Ollama 有公开 issue。LM Studio 不暴露这个旋钮。任何能自动优化 vision model 配置的工具都能解决一个已有记录的高价值缺口。

[++] 面向从 Anthropic 迁移团队的成本有效模型服务

证据:多篇帖子记录团队级别从 Opus Max($200/seat)迁移到 Kimi K2.6。u/meaningego 让整个团队切换。MineBench 完整运行在 Kimi 上只花 $2.35。市场需要托管部署,来连接原始 API 访问与打磨过的团队体验。

[+] 内容认证与溯源

证据:Deezer 报告 44% 上传内容由 AI 生成且存在 bot-farm 欺诈。NYT 报道数百个虚假政治头像。u/iamMARX 认为真实性会成为主动选择,而不是默认。验证人类来源或标记合成内容的工具,在音乐、社交媒体和新闻领域都有增长需求。

[+] 使用本地模型的专用翻译流水线

证据:u/ThisGonBHard 显示 Gemma 4 31B 在中文到英文翻译上优于所有测试的云模型。u/mayocream39 为漫画翻译构建了 Koharu。云模型在回退(Qwen 审查、GPT A/B 退化),本地模型在进步,这为专用翻译工具打开窗口。

8. 要点总结

  1. Dense 模型回来了。 Qwen 3.6 27B 在所有编码基准上击败自家 397B MoE 前代,挑战了 MoE 主导叙事。社区以 1,300+ 赞和 469 条评论庆祝,同日 GGUF quants 意味着可立即本地部署。(Qwen 3.6 27B is out

  2. Scaffold 和模型一样重要。 同一基准只换智能体运行框架就从 19% 到 78.7%,这是一次警钟。本地模型比基准显示的更接近前沿表现——工具层才是真正瓶颈。(Qwen3.6-35B becomes competitive with cloud models

  3. Anthropic 正在测试用户群的承受极限。 Claude Code 从 Pro plan 移除,加上 Opus 4.7 SimpleBench 回退和用户报告的懒惰,正在驱动可测量迁移。反弹在三个 subreddit 上即时且猛烈。(Claude Code removed from Pro plan

  4. GPT Image 2 树立了新的视觉 AI 基准。 自我审查迭代循环、准确文字渲染和角色一致性代表代际提升。复杂图像 11 分钟生成时间体现了质量与吞吐之间的取舍,将塑造生产工作流。(GPT Image 2 has the biggest jump in quality ever recorded

  5. Kimi K2.6 正在重定价前沿能力。 一个 1T 模型在 Artificial Analysis Intelligence Index 排名第 4,与 5T 竞争对手对比,完整 MineBench 运行只需 $2.35,具体证明了接近前沿的性能不再需要前沿级支出。(Kimi K2.6 lands at #4

  6. AI 安全工具已经跨过阈值。 Mozilla 使用 Mythos 在 Firefox 中找到 271 个 bug,CTO 表示自动化技术现在可以覆盖“完整的 vulnerability-inducing bugs 空间”,这是 AI 辅助安全从实验走向生产的具体信号。(Mozilla Used Anthropic's Mythos

  7. 开放模型互补性正在成为实用策略。 从业者不再追求一个模型统治一切,而是收敛到 Qwen 负责编码、Gemma 负责创意写作、翻译和 vision——各自覆盖对方弱点。这种互补方式可能比追逐单一前沿模型更持久。(Every time a new model comes out

  8. 物理 AI 正在多线加速。 Google TPU 8 每 pod 11.6 EFlops、接近恐怖谷的 CyberNani 脸、城市战训练中的武装机器狗,以及 $3 AI 全息伴侣都出现在同一天。embodied AI 的硬件基底扩展速度比软件讨论暗示的更快。(Google introduces TPU 8t and TPU 8i