Reddit AI - 2026-04-22¶

1. 人们在讨论什么¶

1.1 GPT Image 2 主导视觉 AI 讨论 (🡕)¶

OpenAI 的 GPT Image 2 发布，带来了当天所有话题中最大的互动集群；至少 12 篇帖子分布在 singularity、ArtificialInteligence 和 generativeAI，合计得分超过 4,500。

u/Glittering-Neck-2505 发布了新的 ChatGPT 图像模型成为照片级图像生成的新标准（得分 1,308，306 条评论），引发广泛反应。u/TheRanker13 随后发布 Gpt image 2 创下有记录以来最大的质量跃迁（得分 1,070，120 条评论），分享基准对比和照片级样例。

用户强调的关键能力包括：

自我审查迭代循环：u/Plane_Garbage 在 GPT-Image-2 现在会审查自己的输出并迭代到满意为止（得分 505）中报告，一张图片大约耗时 11 分钟，期间模型多次审查和修改自己的输出。u/Worried-Squirrel2023 指出：“自我审查循环很有意思，但每张图 11 分钟，对任何真实工作流都很痛苦。”
文字渲染：u/Thatunkownuser2465 观察：“这个模型在文字渲染和照片真实感上好得让我震惊。”多位用户确认模型可以处理带有准确文字的复杂信息图。
多种质量档位：u/FateOfMuffins 识别出 instant 和 medium 模式，并将其比作“AI 图像里的 o1 推理模型”。
角色一致性：u/kaldeqca 在这些角色可以保持极高一致性（得分 124）中展示，角色能在多张生成图中保持外观一致。

怀疑者也在场。u/Calm_Opportunist 警告：“一周左右就会恢复正常。总是这样。他们先用改进把你拉进来、抢到头条，然后就 nerf 下去。”u/Sharp-Dog545 指出：“模型越好，人们越不容易被打动。”

与昨日对比：GPT Image 2 在 4 月 21 日只是预热，今天全面发布，成为新的顶级讨论。昨天的图像生成讨论很少。

1.2 Qwen 3.6 27B 发布，Dense Powerhouse 登场 (🡕)¶

Qwen 3.6 27B 的发布是当天最高单帖。u/NoConcert8847 宣布 Qwen 3.6 27B 发布（得分 1,325，469 条评论），链接到 Hugging Face 模型卡。u/ResearchCrafty1804 在 Qwen3.6-27B 发布！（得分 546，141 条评论）中给出官方公告并列出基准：

Benchmark	Qwen3.6-27B	Qwen3.5-397B-A17B
SWE-bench Verified	77.2	76.2
SWE-bench Pro	53.5	50.9
Terminal-Bench 2.0	59.3	52.5
SkillsBench	48.2	30.0

Qwen 3.6 27B 在 12 项编码和推理基准上的对比

一个 27B dense 模型在编码基准上超过 397B MoE 模型，让社区震惊。u/adam_suncrest 庆祝：“densocrats 是时候开饭了。”u/Guilty_Rooster_6708 写道：“醒醒吧，我的 16gb VRAM GPU。准备好了伙计。”

u/Creative-Regular6799 随后发布 Qwen3.6-35B 配上合适 agent 后可与云模型竞争（得分 481，125 条评论），显示 little-coder scaffold 把 Qwen3.6 35B 推到 Polyglot 78.7%，使其可与前沿云模型竞争。u/DependentBat5432 反应：“只换 scaffold 就从 19% 到 45 再到 78，这有点吓人。”

同日，Unsloth 的 GGUF quants 由 u/jacek2023 在 unsloth Qwen3.6-27B-GGUF（得分 350）中发布。

与昨日对比：昨天重点是 Qwen 3.6 35B MoE；今天的 27B dense 发布以新证据把讨论转向 dense-vs-MoE 架构辩论。

1.3 Claude Code 从 Pro Plan 中移除引发反弹 (🡕)¶

三篇高互动帖子记录了 Anthropic 测试从每月 $20 的 Pro 套餐中移除 Claude Code。u/bigboyparpa 发布 Claude Code 从 Claude Pro 套餐中移除（得分 1,302，383 条评论），附带 pricing page 截图，显示 Claude Code 在 Free 和 Pro 套餐中均标记为 X。

Claude 价格页面显示 Claude Code 从 Free 和 Pro 套餐移除

u/mhamza_hashim 在 Claude Code 不再列为 Claude Pro 功能（得分 638，165 条评论）中发布同一发现。u/Just_Stretch5492 在 Anthropic 似乎开始测试移除 Claude Code（得分 455）补充称，OpenAI 员工已经公开嘲笑这一动作。

Anthropic 通过 u/bigredsun 引用的一条推文回应：“说明一下，我们正在对约 2% 的新 prosumer 注册用户做小规模测试。现有 Pro 和 Max 订阅者不受影响。”社区普遍怀疑。u/Shot_Illustrator4264 说：“这不是测试，他们显然从对比页面上移除了它。只是遭到巨大反弹后在回撤。”u/rpkarma 总结情绪：“当然，rug pull 开始了 lmao。”

LocalLLaMA 版主 u/rm-rf-rm 虽然帖子讨论的是闭源产品，仍批准了它，并指出这“进一步凸显本地推理的重要性”。

与昨日对比：昨天没有出现。这是一个新发展，并放大了迁移到本地的既有趋势。

1.4 开放模型竞争：Qwen vs Gemma 加剧 (🡒)¶

Qwen-vs-Gemma 辩论从昨天延续下来，并带来更清晰的数据。u/FullChampionship7564 用 Toy Story meme 捕捉了情绪：每次新模型出来，旧模型当然就过时了（得分 970，177 条评论），图中 Qwen 3.6 替代了 Gemma 4。

评论给出了比 meme 更细腻的看法。u/MexInAbu 认为：“Gemma 4 在创意写作上明显更好，没有争议。”u/markole 补充：“编码？当然。翻译？不，qwen 翻译很差。”u/ComplexType568 给出共识：“这两个模型互补彼此弱点。编码和开发用 qwen，创意和语言用 Gemma。”

u/ThisGonBHard 在 Gemma 4 击败 Chat GPT 和 Gemini Chat（得分 246，48 条评论）中提供详细翻译测试，发现 Gemma 4 31B 在 Q4 量化下，中文到英文小说翻译优于 ChatGPT 5.3 和 Gemini Chat。u/Uncle___Marty 反思：“Google 在 Gemma 4 的语言能力上做了些东西，真的让它自成一类。”

u/seamonn 在 Gemma 4 Vision（得分 294，55 条评论）中披露，默认 vision token budget 280 远远过低，把它设为 2240 后 Gemma 4 “几乎是 Vision 的 SOTA”，尤其适合 OCR。

u/Lowkey_LokiSN 在 Personal Eval follow-up（得分 143）发布详细评估，显示 Qwen 3.5 27B 和 Gemma 4 31B 都达到 100% test fix rate（37/37），而 Qwen 3.6 35B 为 86.5%。

与昨日对比：昨天讨论的是 MoE 与 dense 模型之间的架构取舍。今天则用新的真实测试数据和实用建议把讨论推得更细。

1.5 Kimi K2.6 巩固成本有效前沿地位 (🡒)¶

Kimi K2.6 延续了昨天发布后的强劲表现。u/Snoo26837 发布 Kimi K2.6 在 Artificial Analysis Intelligence Index 上排名第 4（得分 258，75 条评论），显示 K2.6 得分 54，超过 Claude Opus 4.6 Max。

Artificial Analysis Intelligence Index 显示 Kimi K2.6 排名第 4

u/mxforest 指出：“击败 Opus 4.6 Max 太疯狂了。”u/sb5550 提供背景：“Kimi 只是 1T 模型，而 Opus 是 5T，好好想想。”

u/meaningego 在 Opus 4.7 Max 订阅者。切换到 Kimi 2.6（得分 245，78 条评论）中提供从业者视角，称因成本和 Opus 4.7 懒惰，整个团队都要切换。u/Ok-Contest-5856 推断：“把数十亿美元砸进 anthropic 和 openai 的私募股权会很难受。”

u/ENT_Alam 在 MineBench（得分 267）上测试 K2.6，显示相对 K2.5 有巨大提升，完整基准总成本只有 $2.35。

基础设施方面，u/Cosmicdev_058 分享 Moonshot 开源 FlashKDA（得分 130），这是 Kimi Delta Attention 的 CUTLASS kernels，在 H20 上比 Triton baseline 最高快 2.22 倍。

与昨日对比：昨天是发布日兴奋。今天转向基准确认和真实迁移故事。

1.6 机器人、硬件与物理世界中的 AI (🡕)¶

一组帖子显示 embodied AI 正在加速。u/Distinct-Question-16 发布两条高互动内容：一家中国创业公司出售 $3 AI 陪伴设备，可生成已故亲人的交互式全息影像（得分 717，228 条评论），以及又出现一张 CyberNani 脸（得分 692，99 条评论），展示接近 uncanny valley 的人形机器人脸。u/TwoFluid4446 写道：“这绝对正中恐怖谷……但仍然令人印象深刻。”

u/Distinct-Question-16 还发布了 AheadForm Origin F1 换新造型回归（得分 401，97 条评论），展示外观改进的人形机器人。

u/WhyLifeIs4 分享 Google 推出 TPU 8t 和 TPU 8i（得分 355，47 条评论）。TPU 8i 规格显示 pod size 为 1,152，每 pod 11.6 FP8 EFlops，331.8 TB HBM capacity——相比 Ironwood（2025）有巨大跃升。u/Worried-Squirrel2023 观察：“nvidia 终于有真正的 second source 问题了。每个 hyperscaler 现在要么已有自研 silicon，要么正在认真做。”

u/mientosiempre 发布中国用武装机器狗和攻击无人机训练城市战（得分 342，62 条评论），为 embodied AI 讨论增添军事维度。

与昨日对比：昨天有 Apple 硬件 AI 战略。今天扩展到物理机器人和定制 silicon。

1.7 Agentic Tools 面临清算 (🡒)¶

围绕当前 agentic tools 实用性的批评线程出现。u/pacmanpill 发布不受欢迎观点：OpenClaw 及其所有克隆，对懂行的人几乎没用（得分 572，229 条评论）。u/swiebertjee 以详细例子表示同意：“我上周末试了 Openclaw，惊讶于它竟然如此没用。”

u/superloser48 分享 OpenRouter 排名数据（得分 202，118 条评论），显示按 token 使用量排名的前 10 个 app 中有 6 个不是编码工具。OpenClaw 以 345B tokens 领先，其后是 Hermes Agent 268B 和 Kilo Code 179B。

OpenRouter top apps 排名，显示非编码 app 主导 token 使用量

u/FullstackSensei 报告 Roo Code 达到 300 万安装后宣布关闭（得分 80，70 条评论），转向云端 “Roomote”。u/mikael110 回应：“这基本就是所有公司支持的 OSS AI 项目如今的结局。”

与此同时，u/My_Unbiased_Opinion 宣布 Open WebUI Desktop 发布！（得分 273，102 条评论），捆绑 llama.cpp 用于本地推理。反应混合，u/Danmoreng 指出：“叫它 desktop app，但其实是打包的 web frontend。”

与昨日对比：昨天讨论的是 agentic tool 安全失败。今天批评加深，加入了使用数据和项目放弃。

1.8 AI 与社会：监控、深度伪造和真实性 (🡒)¶

多篇帖子审视 AI 的社会足迹。u/EmbarrassedStudent10 报告 Meta 据称通过 “Keylogger” 监控强迫美国员工训练自己的 AI 替代品（得分 321，53 条评论），详细描述 Meta 的 “Model Capability Initiative”，在计划裁员 8,000 人前捕捉键盘、鼠标和屏幕快照。u/heavy-minium 表示怀疑：“大概率不会有什么结果。他们现在在 AI 模型方面已经落后太多。”

u/EchoOfOppenheimer 分享数百个虚假亲 Trump 头像出现在社交媒体（得分 213，49 条评论），链接到 NYT 报道。

u/JackFisherBooks 发布 Deezer 称 44% 新音乐上传由 AI 生成，大多数播放为欺诈（得分 219，43 条评论）。u/KoaKumaGirls 用 Deezer 自己的数据反驳：“尽管 AI 音乐上传数量很大，后续播放量中 AI 音乐占比极小。”

u/iamMARX 在随着 AI 变好，人们不会“回归真实性”（得分 113，79 条评论）中把 AI 内容比作超加工食品：“真实性不会消失。它只会变成一种人们必须有意识选择的东西。”

与昨日对比：昨天讨论 AI 生产力悖论。今天加入了 Meta 的具体监控证据和更深的文化分析。

2. 令人困扰的问题¶

Claude Code 定价变化¶

严重程度：High -- 三篇帖子合计得分超过 2,300。

Claude Code 可能从 Pro 套餐（$20/月）移除，迫使用户为了使用编码智能体而升级到 $100 或 $200 的 Max 套餐。u/hacketyapps 写道：“你他妈在开玩笑吗？我用 Pro，还在用 Claude Code，可能等我订阅到期就没法用了……希望他们流失一大堆客户。”u/Super_Push7794 称其为“经典 enshittification”。

应对策略：用户立刻指向通过 OpenCode Go 使用 Kimi K2.6（首月 $5，之后 $10）以及本地运行 Qwen 3.6。u/bigboyparpa 概述替代方案：“每月 $20 的 Kimi K2.6 tokens，基本可以得到相当于 $100 plan 的 token 数量。”

Opus 4.7 懒惰与质量回退¶

严重程度：Medium-High -- SimpleBench 数据确认了主观抱怨。

u/EducationalCicada 发布 SimpleBench 结果（得分 241），显示 Opus 4.7 得分 61.7%，低于 Opus 4.6（67.6%）和 Opus 4.5（62.0%）。u/Worried-Squirrel2023 描述核心问题：“甚至不是质量，而是它会在任务中途停下，或者在事情真的做完前就收尾。”

SimpleBench 排行榜显示 Opus 4.7 得分低于 4.6 和 4.5

Agentic Tool 不成熟¶

严重程度：Medium -- 不满广泛存在，但有权宜方案。

u/swiebertjee 详细描述 OpenClaw 失败：“它只会在 incoming messages 上触发……我让它只做笔记，它确认了，却开始回复我母亲。”u/cosimoiaia 把批评扩展到 n8n：“没用。如果你懂一点自己在做什么，几个提示词就能做出任何 workflow。”

Gemma 4 Vision 配置错误¶

严重程度：Medium -- 可修复，但文档很差。

u/seamonn 发现 Gemma 4 的默认 vision budget（280 tokens，约 645K pixels）让它“基本失明”。修复需要在 llama.cpp 中手动设置 --image-max-tokens 2240，并调整 batch sizes。Ollama 用户“在他们愿意修这个问题之前基本没救”。

量化混乱¶

严重程度：Low-Medium -- 影响模型选择决策。

u/LawyerCompetitive478 在 Google 是否把 Gemma 4 e4b 最好版本藏在 Android 里？（得分 274）中发现，Google AI Edge Gallery 的 LiteRT 模型优于社区 GGUF quants。u/Fit-Produce420 直白解释：“Gemma 4 是 google 的高薪工程师做的，他们设计了模型和 edge app，也懂得如何正确 serving。你的社区 fine tune 是随机陌生人做的。”

3. 人们期望的功能¶

能轻松适配消费级 GPU 的 Dense Qwen3.6-27B¶

围绕 Qwen 3.6 27B 的兴奋显示了对消费级硬件规模 dense 模型的强需求。u/Guilty_Rooster_6708 说：“醒醒吧，我的 16gb VRAM GPU。”用户想要不必在量化上妥协、同时仍能超过大得多 MoE 架构的模型。

中档 Gemma（60-70B）¶

在你希望下一个 Gemma 模型是什么？（得分 187，103 条评论）中，社区强烈要求更大的 Gemma 模型。u/DelKarasique 写道：“中档的。比如 70b。我觉得那是一个甜点位，而且现在空着。”u/ResidentPositive4122 进一步推动：“小模型已经不错了。看看 124B 到底是什么样。”

可负担的 Coding Agent 访问¶

Claude Code 移除事件把用户对 $20/月可靠 coding agents 的需求具体化。用户想要 Kimi K2.6 级表现，但不被云供应商锁定。u/meaningego 提到，Kimi 不能“开箱即用地与 Forge 配合”令人沮丧，并提交了 PR 来修复。

面向本地模型的更好 Agent Scaffolds¶

u/Creative-Regular6799 展示 scaffold 选择比模型选择更重要：只换智能体运行框架，同一基准从 19% 提到 78.7%。用户想要专为本地模型设计、经过充分测试的标准 scaffold，而不是复用云模型运行框架。

可靠的 Vision 配置默认值¶

u/seamonn 展示 Gemma 4 vision 默认配置严重不足。用户希望模型提供商发布合理默认值，也希望 Ollama 和 LM Studio 这类 serving frameworks 暴露 vision budget 调节项。

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
Qwen 3.6 (27B/35B)	Local LLM	Very positive	Dense 模型击败更大 MoE；编码基准强；Apache 2.0	刚发布，长期测试有限
Gemma 4 (31B/26B/E4B)	Local LLM	Positive	创意写作、翻译、vision（调好后）；免费	Vision 默认值过低；dense 推理慢
Kimi K2.6	Cloud/Local LLM	Very positive	Artificial Analysis Index 第 4；完整基准运行 $2.35	256K 上下文限制；输出质量不稳定
Claude Opus 4.7	Cloud LLM	Mixed-negative	投入执行时 agentic coding 强	懒惰；SimpleBench 回退；定价担忧
llama.cpp	推理引擎	Very positive	Auto-fit 功能；硬件支持广；迭代快	Vision 模型需要手动调优
GPT Image 2	图像生成	Very positive	照片真实感；文字渲染；自我审查循环；角色一致性	复杂图片需 11 分钟；成本未知
Unsloth	量化	Positive	同日 GGUF 发布；动态量化	社区 quants 可能落后于 vendor quants
little-coder	Agent scaffold	Positive	将 Qwen3.6 35B 在 Polyglot 上推到 78.7%	新项目，主要限于特定基准
pi coding agent	Agent scaffold	Positive	可扩展；local-first；与 Qwen 3.6 和 Gemma 4 配合好	用户规模较小
Open WebUI	LLM interface	Mixed	捆绑 llama.cpp 的桌面应用	基于 Electron；MCP 集成受批评
OpenClaw	Automation agent	Negative	对新手友好	有经验用户称“完全没用”；行为不安全
Roo Code	Coding agent	Negative（关闭中）	300 万安装；用户控制	转向云；放弃 OSS 项目

本地推理栈（llama.cpp + Unsloth quants + Qwen/Gemma models）继续巩固为默认路径。Scaffold 层（little-coder、pi、OpenCode）正在成为本地模型表现的关键差异点。

5. 人们在构建什么¶

项目	Who	What It Does	Problem It Solves	Stack	Stage	Links
Koharu	u/mayocream39	带内置 LLM 的本地漫画/图像翻译器	漫画翻译流水线缺少高性能本地工具	Rust、llama.cpp、Gemma 4、Qwen3.5、object detection、inpainting	活跃，打磨 1 年	GitHub
little-coder	u/Creative-Regular6799	让本地模型具备竞争力的 agent scaffold	云设计 scaffold 在本地模型上表现差	Python、Qwen3.6	活跃，基准测试中	GitHub
MineBench	u/ENT_Alam	3D Minecraft 结构生成基准	缺少 LLM 空间推理基准	JSON coordinate mapping	活跃，公开基准	minebench.ai
1386.ai / Plasma	u/ExcellentTip9926	从零训练的 235M 参数 LLM	学习完整 LLM pipeline	PyTorch、SentencePiece、FineWeb-Edu	v1.0，训练 v1.1（500M）	GitHub
simple_dlm	u/Encrux615	从零实现 diffusion language model	不用 AI code assistance 理解 diffusion LM 架构	PyTorch、7.5M params	教育原型	GitHub
FlashKDA	Moonshot AI	Kimi Delta Attention 的 CUTLASS kernels	Triton baseline 对 linear attention 太慢	CUTLASS、C++、SM90+	已发布，仅 forward-pass	GitHub
Forge PR for Kimi	u/meaningego	给 Forge coding tool 增加 Kimi K2.6 支持	Kimi 不能与 Forge 开箱即用	--	PR 已提交	PR #3098

6. 新动态与亮点¶

Qwen 3.6 27B：Dense 模型击败自家 397B MoE 前代¶

一个 27B dense 模型在所有主要编码基准上超过 397B（17B active）MoE，是高效模型架构的里程碑。Apache 2.0 许可和 GGUF 即时可用，意味着它会在发布数小时内跑上消费级硬件。这挑战了 MoE 架构才是高效前沿性能路径的假设。

Mozilla 用 Mythos 找到 271 个 Firefox Bug¶

u/Tinac4 分享 Mozilla 使用 Anthropic 的 Mythos 找到并修复 271 个 Firefox Bug（得分 649），引用 Wired 报道。Firefox CTO Bobby Holley 表示：“现在我们有自动化技术，据我们所知，可以覆盖完整的 vulnerability-inducing bugs 空间。”这是公开报道中 AI 驱动生产浏览器漏洞发现的最大案例。不过 u/helg0ret 指出 Firefox 150 changelog 只列出 3 个 Claude 找到的漏洞，质疑 271 这个数字。

OpenAI Codex 模型泄露¶

u/DavidAGMM 在修复前录下了一场大规模 OpenAI Codex 模型泄露（得分 129），泄露未发布内部模型，包括 GPT-5.5、“Arcanine”、“glacier-alpha”和“Heisenberg”（描述为“最新前沿生命科学研究模型”）。

Google 发布 Deep Research Max 和 TPU 8¶

Google 同日有两项重要公告：Google 推出 TPU 8t 和 TPU 8i，每 pod 11.6 FP8 EFlops；以及 Deep Research Max（得分 224）在研究基准上超过 GPT 5.4。u/FateOfMuffins 指出 Google “现在发这篇博客纯粹是因为如果这周不发，接下来就没机会发了。”

MiMo-V2.5 发布¶

u/WhyLifeIs4 分享 MiMo-V2.5 已发布（得分 97），来自 Xiaomi，现已上线 OpenRouter。这在前一天开放模型时间线中曾被标为即将发布。

Roo Code 300 万安装后关闭¶

Roo Code 从开源 VS Code extension 转向云端 “Roomote”，标志着另一个 OSS AI 项目放弃社区。Kilo Code 据说也在“走类似路线”，社区维护的 coding agent 空间正在碎片化。

7. 机会在哪里¶

[+++] 缩小与云差距的本地 Coding Agent Scaffolds¶

证据：u/Creative-Regular6799 展示，仅 scaffold 选择就让基准表现从 19% 提到 78.7%。Qwen 3.6 27B 在编码基准上匹配或超过云模型。Claude Code 定价变化正在主动把用户推向替代品。多个线程评论确认，scaffold 层是主要瓶颈，而不是模型质量。现在本地与云的差距主要是工具问题。

[+++] AI 驱动的安全审计工具¶

证据：Mozilla 使用 Mythos 找到 271 个 Firefox bug，CTO 称自动化技术现在可以覆盖“完整的 vulnerability-inducing bugs 空间”。今天只有 50 家公司能访问 Mythos，但 u/shadow-knight-cz 指出开放权重模型可以找到同样漏洞。用开放模型民主化这种能力，是明确的近期机会——649 score 帖子的需求信号很强。

[++] Gemma 4 Vision 配置与工具¶

证据：u/seamonn 显示 Gemma 4 vision 只改一个参数，就能从“基本失明”变成“SOTA”。Ollama 有公开 issue。LM Studio 不暴露这个旋钮。任何能自动优化 vision model 配置的工具都能解决一个已有记录的高价值缺口。

[++] 面向从 Anthropic 迁移团队的成本有效模型服务¶

证据：多篇帖子记录团队级别从 Opus Max（$200/seat）迁移到 Kimi K2.6。u/meaningego 让整个团队切换。MineBench 完整运行在 Kimi 上只花 $2.35。市场需要托管部署，来连接原始 API 访问与打磨过的团队体验。

[+] 内容认证与溯源¶

证据：Deezer 报告 44% 上传内容由 AI 生成且存在 bot-farm 欺诈。NYT 报道数百个虚假政治头像。u/iamMARX 认为真实性会成为主动选择，而不是默认。验证人类来源或标记合成内容的工具，在音乐、社交媒体和新闻领域都有增长需求。

[+] 使用本地模型的专用翻译流水线¶

证据：u/ThisGonBHard 显示 Gemma 4 31B 在中文到英文翻译上优于所有测试的云模型。u/mayocream39 为漫画翻译构建了 Koharu。云模型在回退（Qwen 审查、GPT A/B 退化），本地模型在进步，这为专用翻译工具打开窗口。

8. 要点总结¶

Dense 模型回来了。 Qwen 3.6 27B 在所有编码基准上击败自家 397B MoE 前代，挑战了 MoE 主导叙事。社区以 1,300+ 赞和 469 条评论庆祝，同日 GGUF quants 意味着可立即本地部署。（Qwen 3.6 27B is out）
Scaffold 和模型一样重要。 同一基准只换智能体运行框架就从 19% 到 78.7%，这是一次警钟。本地模型比基准显示的更接近前沿表现——工具层才是真正瓶颈。（Qwen3.6-35B becomes competitive with cloud models）
Anthropic 正在测试用户群的承受极限。 Claude Code 从 Pro plan 移除，加上 Opus 4.7 SimpleBench 回退和用户报告的懒惰，正在驱动可测量迁移。反弹在三个 subreddit 上即时且猛烈。（Claude Code removed from Pro plan）
GPT Image 2 树立了新的视觉 AI 基准。 自我审查迭代循环、准确文字渲染和角色一致性代表代际提升。复杂图像 11 分钟生成时间体现了质量与吞吐之间的取舍，将塑造生产工作流。（GPT Image 2 has the biggest jump in quality ever recorded）
Kimi K2.6 正在重定价前沿能力。 一个 1T 模型在 Artificial Analysis Intelligence Index 排名第 4，与 5T 竞争对手对比，完整 MineBench 运行只需 $2.35，具体证明了接近前沿的性能不再需要前沿级支出。（Kimi K2.6 lands at #4）
AI 安全工具已经跨过阈值。 Mozilla 使用 Mythos 在 Firefox 中找到 271 个 bug，CTO 表示自动化技术现在可以覆盖“完整的 vulnerability-inducing bugs 空间”，这是 AI 辅助安全从实验走向生产的具体信号。（Mozilla Used Anthropic's Mythos）
开放模型互补性正在成为实用策略。 从业者不再追求一个模型统治一切，而是收敛到 Qwen 负责编码、Gemma 负责创意写作、翻译和 vision——各自覆盖对方弱点。这种互补方式可能比追逐单一前沿模型更持久。（Every time a new model comes out）
物理 AI 正在多线加速。 Google TPU 8 每 pod 11.6 EFlops、接近恐怖谷的 CyberNani 脸、城市战训练中的武装机器狗，以及 $3 AI 全息伴侣都出现在同一天。embodied AI 的硬件基底扩展速度比软件讨论暗示的更快。（Google introduces TPU 8t and TPU 8i）