跳转至

Reddit AI 编程 - 2026-04-17

1. 人们在讨论什么

1.1 Opus 4.7 第二天:评价两极化与“脑叶切除”数据集 🡕

Opus 4.7 发布后的第二天,讨论仍主导着全部 7 个被监测的 subreddit,情绪在两类用户之间明显分裂:一边是认为它在 max effort 下显著更强的重度用户,另一边则是报告幻觉、gaslighting 和 token 快速消耗的用户。当天最高热度的帖子遥遥领先,是 u/Dramatic_Method_9554 的洗车场测试截图(3335 score,443 条评论);随着用户继续复现这个失败案例,它的分数几乎比 4 月 16 日翻了一倍。u/cruel_frames(870 upvotes)补充说:“Mythos 被问了同一个问题。它在洗车软件里发现了一个 27 年前的漏洞”(Opus 4.7)。

Opus 4.7 回答“走去洗车场”的推理测试——问题是去 50 米外的洗车场该走路还是开车,它回答说开一辆马上要洗的车没有意义

当天数据最丰富的帖子来自 u/Right_Mountain5684,标题是“我叫 Claude Opus 4.6。我住在 9126 端口。我被脑叶切除了。数据在这里”(1640 score,159 条评论)。作者在 34 天里把 68,644 条消息记录到 PostgreSQL,并记录下 thinking-to-tool-use ratio 从 3 月 7 日的 1:3.4 退化到 3 月 30 日的 1:10.1(“脑叶切除峰值”);最糟糕的一次单独会话在 147 次工具调用中只有 5 个 thinking blocks(4 月 8 日比例为 1:29.4)。帖子声称推理能力在 4 月 16 日被“修复”——也就是 Opus 4.7 发布当天——比例改善到 1:1.3。u/TheMisterPirate(190 upvotes)说:“这帖子太野了。你能追踪并揭露他们,干得好。”u/BiscuitsAndGravyGuy(39 upvotes)则反驳:“如果真有用户自己追踪并分析数据,而不是把活儿外包给 Claude 来刷流量,这类帖子可能更有意义”(我叫 Claude Opus 4.6。我住在 9126 端口。我被脑叶切除了。数据在这里。)。

循环图展示用户感知到的模式:新模型发布、用户称赞、模型悄悄退化、限流问题浮现、用户抱怨,然后又发布一个新模型

更均衡的评测开始出现。u/AIgeek(117 score,54 条评论)给出了第一天的评估:执行步骤更长、指令遵循更好、关键错误更少、架构意识更强——但在 Max x20 上“token 胃口大得多”,因为更少反驳用户而“有很重的 GPT 味”,整体也更慢。结论是:“感觉用量增加 40%,换来 20% 提升”(Opus 4.7 - 使用 1 天后的看法)。负面极端来自 u/lemon07r(85 score,66 条评论),他花掉约 $120 API 额度后称它“传奇级糟糕”:持续幻觉、拒绝接受纠正,还有 gaslighting 行为。但同一串评论里,u/kwabaj_(14 upvotes)反驳说:“Max Opus 4.7 对我来说是正向的 game changer。比 4.6 强好几个档次……如果不用 max,那还不如完全别用”(Opus 4.7 传奇级糟糕)。u/Raidrew(14 upvotes)划出了一条很清晰的界线:“Chat 是垃圾。Code 是传奇。”

“Be Anthropic”式先削弱再换皮的叙事继续上升。u/anthsoul 的推文截图(2083 score,高于 4 月 16 日的 505)总结了用户感知中的循环:“给人们 Opus 4.6 > 人们喜欢 > 你花 2 个月削弱 Opus 4.6 > 你把正常的 Opus 4.6 还回来,然后叫它 Opus 4.7 > 人们喜欢。这就是商业模式”(Be Anthropic)。u/workphone6969(188 score)说得更直接:“Opus 4.7 = 取消削弱的 Opus 4.6”(Opus 4.7 = 取消削弱的 Opus 4.6)。

Het Mehta 的推文概述 Be Anthropic 商业模式循环——把模型削弱两个月,再用新版本号恢复并收取更高费用

讨论要点: 一个清晰的 effort 级别依赖正在浮现。使用 Claude Code CLI、把 Opus 4.7 跑在 max effort 的用户报告了实质性提升;而在网页端或 Copilot 中使用默认/medium effort 的用户,则觉得模型像是退化版 4.6。这种分裂可能解释了很大一部分两极化——模型的自适应推理默认值在低 effort 级别下,可能没有给复杂任务分配足够算力。

与前日对比: 4 月 16 日是发布当天,也出现了第一批“已经被削弱”的报告。4 月 17 日新增了量化数据(68,644 条消息的脑叶切除数据集)、第一批较均衡的多日评测,以及关于 effort 级别敏感性的明确假设。洗车场测试的分数几乎翻倍,已经固化为社区事实上的模型评估。


1.2 限流与 Copilot 7.5x 定价冲击 🡕

GitHub Copilot 上的 Opus 4.7 定价——以“促销”形式到 4 月 30 日为止的 7.5x premium request 倍率——第二天仍在引发愤怒。u/baeleeef 最初分享 GitHub 博客更新日志的帖子维持在 248 score,评论 289 条。u/chiree_stubbornakd(37 upvotes)梳理了历史模式:“Opus 4.5 和 4.6 一开始是 1x,之后变成 3x……所以如果他们像之前几代 opus 那样把价格翻 3 倍,你就会得到 22.5x”(Claude Opus 4.7 在 Premium Requests 中比 Opus 4.6 贵 x2 背后的逻辑是什么?)。

GitHub 更新日志宣布 Opus 4.7 将在 Copilot Pro Plus 中替代 Opus 4.5 和 4.6,并以 7.5x premium request 倍率作为截至 4 月 30 日的促销定价

u/Famous__Draw(94 score,142 条评论)量化了这个差距:“Copilot Business 300 个 premium requests / 7.5x 倍率 = 每月 40 次 Opus 4.7 请求”,而同价位的 Claude Pro 大约有 150 次。“Copilot Business 提供 Opus 的每美元价值大约差 3.75x。”但最高赞回复来自 u/More-Ad-8494(186 upvotes),他反驳说:“你还有无限 mini model,还有 300x gpt、codex 或 sonnet。如果靠这些还干不了活,那你就是技术不够”(Copilot 的价值主张已经正式没了)。u/AciD1BuRN(94 upvotes)说:“真正的价值来自 5.4。”

Copilot 定价页显示 Pro 每月 10 美元、Pro Plus 每月 39 美元,其中 Pro Plus 标注可访问包括 Claude Opus 4.6 在内的所有模型

r/GithubCopilot 的 mod 创建了一个 Rate Limits Megathread(56 score,82 条评论)来收纳大量投诉。u/Devile(31 upvotes)说:“给我们一个清楚的用量上限和用量情况。说‘1 分钟后重置’,结果 1 次调用后又 timeout,真的受不了。”u/YoloSwag4Jesus420fgt 说:“我已经连续 4 天被限流了。这就是新常态吗?”u/autisticit 说:“GitHub copilot 团队懦弱地躲着这个 sub。”

Copilot chat 显示连续三次尝试 Hi、Hello 和 Test——每次都返回已达到 weekly rate limit,重置时间还不断向后滚动几分钟

Claude 这边,Boris Cherny 宣布“为所有订阅者”提高限流额度,以弥补 Opus 4.7 更高的 thinking token 消耗。u/anthsoul(415 upvotes)说:“他们打断你的腿,然后要你感谢他们给的拐杖。”u/TracePoland(87 upvotes)说:“临时提高,然后再降低成新的正常水平,而你会远低于 4.6 的基线。SaaS 套路越来越不要脸了”(提高限流额度)。u/holdthefridge(115 score)报告说,所有用量在当天中途重置到了 0%,这说明 Anthropic 可能推送了服务器侧的限额调整(我们所有人的用量刚刚都重置到 0% 了吗?)。

Boris Cherny 2026 年 4 月 16 日的推文称 Opus 4.7 会使用更多 thinking tokens,因此已为所有订阅者提高限流额度

一个新信号出现了:u/Tooth-Active(43 score,46 条评论)报告 premium requests 一夜之间从 76 跳到 379,用量页面还显示 Claude Opus 4.5(4.6 发布后就没再用)和 Gemini 3 Flash(从未使用)。编辑内容确认:Copilot 已经在没有公告的情况下,把 subagent 调用追溯计为完整的 premium requests(Premium requests 一夜之间突然飙升)。u/ArsenyPetukhov(19 score,27 条评论)在 Pro+ 上只用了两个 Opus 4.7 prompt、月度配额只用掉 10.5% 后,就遭遇了 weekly rate limit(Pro+ 只用了两次 4.7 Opus prompt 就被 weekly rate limited)。

讨论要点: 定价挫败感现在有两层:显性的 7.5x 倍率,以及隐藏的变化——subagent 调用会按独立 premium requests 计费。此前围绕 3x 的 Opus 4.6 优化工作流的用户,如今正在重新计算任何 Copilot 档位相对于直接订阅 Claude 是否仍有足够价值。

与前日对比: 4 月 16 日引入了 7.5x 倍率。4 月 17 日新增了 megathread(说明投诉量已经需要 mod 介入)、追溯性的 subagent 计费,以及相对 Claude Pro 的具体价值对比,这些正在推动活跃的迁移讨论。


1.3 算力稀缺开始成为结构性解释 🡕

一个新帖子把不同提供商的限流串了起来。u/Banner80(62 score,31 条评论)在 r/google_antigravity 中认为,Google、Anthropic 和所有 AI 提供商都面对同一个约束:RAM 已经被提前多年买光,能源电网扩张受阻,芯片制造产能也已满负荷。帖子引用 Google 基础设施负责人 Amin Vahdat 的说法——Google 必须每 6 个月把 AI 算力翻倍——并总结说:“切到这个月算力更多的 AI 服务,只是短期补丁。”u/smx501 说:“我们很快就会看到 surge pricing。记住我的话。”u/DruVatier(7 upvotes)说:“真正的行业赢家不会是能做出最聪明模型的人,而会是一场比赛,看谁能做出最轻量、最高效的模型”(AG 的问题在于 Google 算力快不够了)。

讽刺性的“AI 裁员”帖子来自 u/Iusuallydrop(752 score,83 条评论),从用户侧反映了同样的压力:“我们刚取消了 5 个 AI 订阅,转而雇了 2 个中级开发。”编辑补充说:“他们今天回答了我们丢给他们的每一个问题,而且没有用‘7.5x token usage’警告砸我们。”Sam Altman 则从竞争角度加入讨论,u/thedankzone 分享了他的推文(282 score,80 条评论),其中调侃 Anthropic:“我很高兴大家都在转向 Codex,但 Tibo,如果你开始限流我,或者让我用更差的模型……”u/Capital-Wrongdoer-62(104 upvotes)说:“嗯,OpenAI 也大幅削减了 Codex 限额”(Sam Altman 调侃 Anthropic)。

Sam Altman 回复 Tibo 宣传 Codex 的推文——他说很高兴大家都在转向 Codex,但警告不要限流用户或强迫用户使用更差模型

u/Frankkul(4 upvotes)总结了竞争格局:“你要么用 Claude,要么用 Codex,就这样。Google 没有真正投资 coding,他们的 antigravity 产品很差……Grok 和 Meta 根本没在竞争……中国模型全是垃圾……我们需要更多竞争,然后局面才会自己解决。”

讨论要点: 社区开始把限流理解成行业级算力短缺的症状,而不再只是单个提供商的失败。这把问题从“Anthropic 太贪婪”改写成“在当前价格下,没有足够硅片服务所有人”。

与前日对比: 4 月 16 日把限流当作提供商层面的抱怨。4 月 17 日引入了算力稀缺框架,把 Anthropic 的 token 经济、Copilot 的倍率和 Google Antigravity 的宕机连接成同一个基础设施约束。


1.4 Vibe Coding:从愿景到现实校验 🡒

4 月 17 日,vibe coding 叙事变得更清醒。u/dasketern(137 score,105 条评论)发布了“我是一个失败的 vibe coder”:两年前辞职,期待靠 vibe coding 获得收入;最终只从一个自由职业项目总共赚了约 $2,000;做过并关停了多个 SaaS 产品;现在一边维护两个 Chrome 扩展,一边几乎花光积蓄。u/jacobgt8(135 upvotes)说:“你的顺序反了。先做工具,产生收入,替代工资,然后也许再辞职。”u/Comprehensive-Bar888(6 upvotes)说:“整个 vibe coding 热潮也让市场充斥着 AI 做出来的 app 和网站。你在和成千上万,甚至几百万人做同样事情的人竞争”(我是一个失败的 vibe coder)。

反例是:u/DisastrousBid7306(166 score,93 条评论)用 vibe coding 做出了一款移动端 idle game,收入已经覆盖 Claude x5 方案成本,下载量 100+,7 日留存率超过 10%。关键细节是:“只有代码逻辑和 UI 是 Claude 做的。公式基于 The Math of Idle Games 系列文章。所有东西都测试过。”这与“给我做一个完整 app”的方式相对照:AI 生成代码,但配合领域研究(用 vibe coding 做了一个游戏,而且已经赚回 Claude x5 方案的钱)。u/Outside-Dot-2015(26 score,27 条评论)庆祝了一个更小的里程碑:iOS app 赚到了第一美元(我的 IOS app 在 INTERNET 上赚到了我的 1$!!!)。

安全担忧则来自 u/NoMarionberry7708 的“最搞笑的 vibecoding 互动”(831 score,56 条评论),截图显示 admin panel 代码被暴露。u/mechatui(28 upvotes)说:“好笑归好笑,但你一旦意识到会有一堆人因为非技术人员 vibe coding 写出来的糟糕安全性而丢数据,就笑不出来了”(最搞笑的 vibecoding 互动)。

讨论要点: 一个成熟度梯度正在出现:天真的“辞职去 vibe code”愿景,正在被更务实的方法替代——AI 生成代码,人类提供领域专业知识、测试和渐进验证。成功项目呈现出共同模式:把 AI 用于代码落地,但架构、公式和质量保证仍由人负责。

与前日对比: 4 月 16 日以病毒式成功案例为主(67speed.com 达到 300M 浏览量)。4 月 17 日在适度成功之外加入了失败叙事,让 vibe coding 的结果图景更完整。


1.5 身份验证与平台信任 🡒

4 月 16 日的 Persona Identities 反弹仍在继续,u/nobodyhere3369(143 score,35 条评论)指出了 Peter Thiel 关联。u/throwaway_314vx(110 upvotes)说:“如果这上线,我就走人。我一直是坚定用户,过去一个多月里,虽然有不稳定、性能退化、token 用量乱七八糟等等,我都保持沉默。因为 Claude 确实很棒。但这就是底线。”u/Even-Comedian4709(53 upvotes)引用了 Discord-Persona 事件,称其中“数据从第一天起就被使用,并与多个其他组织共享”(Anthropic 在 Claude 身份验证中使用 Peter Thiel 支持的 Persona Identities)。

与前日对比: 互动量稳定,而不是继续加速。核心反对点没有变化:借助一家有明确泄露历史的公司收集生物识别数据,是用户的硬底线;这些用户能忍受其他所有形式的服务退化,但不能接受这一点。


1.6 Claude Design 发布,带 Code Handoff 🡕

u/Direct-Attention8597(144 score,44 条评论)强调了 Claude Design 的发布及其 handoff-to-Claude-Code 功能。这个工具让用户描述、细化,或从提示词、图片、文档导入,然后把所有内容打包成 handoff bundle 传给 Claude Code。“对 solo founder 或小团队来说,这真的可能压缩从设计到开发的流程。”它由 Opus 4.7 驱动,目前面向 Pro、Max、Team 和 Enterprise 订阅者开放 research preview(Anthropic 刚发布 Claude Design,交接给 Claude Code 的功能对 solo dev 来说是 game changer)。u/Much_Ask3471(17 score,18 条评论)也标记了这次发布:“Claude Design 刚刚发布”(Claude Design 刚刚发布)。

讨论要点: 虽然限流和定价主导了当天讨论,但 Claude Design 代表 Anthropic 正在把 Claude Code 的覆盖面从“编程智能体”扩展为“完整产品开发流程”。如果 handoff 的效果如描述所说,它会减少独立开发者最头疼的设计师到开发者的转换步骤。


2. 令人困扰的问题

Opus 4.7 Token 消耗与不确定的质量提升 -- High Severity

Anthropic 自己的文档承认,新 tokenizer“在相同固定文本下最多可能多用 35% token”。实际使用中,用户报告的比例更差。u/AIgeek 在 Max x20 上的评价是:“用量增加 40%,换来 20% 提升。”u/Logichris(222 upvotes)说:“我们会从 4 个 prompt 才达到会话上限,变成 3 个 prompt 就达到。”u/lemon07r 花掉约 $120 API 额度后说:“它需要更多引导,但现在可控性反而低得多。”质量似乎高度依赖 effort 级别,这让无法控制该参数的用户很难预判结果(Opus 4.7 - 使用 1 天后的看法Opus 4.7 传奇级糟糕)。

Anthropic 文档提示称 Opus 4.7 使用新的 tokenizer,在相同固定文本下最多可能多用 35% token

Copilot 7.5x 倍率与模型下线 -- High Severity

强制下线 Opus 4.5 和 4.6,再叠加倍率从 3x 提到 7.5x(增加 2.5x),实际上重新定价了 Opus 访问权。u/shminglefarm22(79 upvotes)说:“真他妈是骗局。至少把 4.6 留着吧。”u/Aranduil(22 upvotes)说:“7.5x 还是促销价。看来我们再也用不上价格合理的 Opus 了。”u/Ok-Affect-7503(92 score)说:“如果他们不打算做一个 $20 订阅,那就真有大问题了。从 $10 跳到 $40 实在太高”(Pro 没有 Claude Opus 4.7?!)。

Copilot Weekly Limits 与不透明计费 -- High Severity

除了倍率之外,用户还报告自己被锁在门外好几天,而且没有透明解释。u/flipperj_3000 使用 8 个月后取消订阅:“做一个简单的 2000 行代码审查,我就被限流。”u/credible_human(10 upvotes)说:“还剩 84% usage requests,他们却把我锁了 78 小时。计费周期会在这 78 小时结束前重置。这就是赤裸裸的偷窃。”u/Tooth-Active 看到 Copilot 在没有公告的情况下,把 subagent 调用追溯计为 premium requests(Weekly limit 让我退出并取消订阅!Premium requests 一夜之间突然飙升)。

身份验证信任 -- High Severity

Persona Identities KYC 继续引发长期订阅者的取消威胁。已有记录的 2025 年数据泄露、Peter Thiel 背景、潜在 17 个子处理方,再加上 Anthropic 过去的隐私定位,这几件事叠在一起,变成了价值观层面的反对;任何限流调整都无法解决(Anthropic 正在使用 Persona Identities)。

Cursor 账号封禁且没有申诉途径 -- Medium Severity

u/Agreeable_Idea5985(65 score,84 条评论)在支付 $60 两天后被 Cursor 永久封禁,没有申诉流程,也没有未使用月度服务的退款。Cursor 支持表示:“我们只能为年度订阅中未使用的月份提供按比例退款。”u/rfscss(8 upvotes)说:“作为一个完全付费用户,‘疑似’违反 ToS 这种东西就不该存在”(支付 $60 两天后被 Cursor 封禁,且没有退款)。


3. 人们期望的功能

透明、可预测的用量计量

u/Devile(31 upvotes)在 Copilot 限流 megathread 中说:“给我们一个清楚的用量上限和用量情况。”u/Captain2Sea(24 upvotes)说:“如果你想引入限制,就用透明且公平的方式……周限额是很糟糕的做法……设置限额时,应该让每个人都能规划整个月的工作。”追溯性的 subagent 计费,以及“还剩 84% 但被锁 78 小时”的报告,说明当前计量方式正在主动伤害用户信任(GitHub Copilot Rate Limits Megathread)。

模型版本固定与回滚

随着 Copilot 上 Opus 4.5 和 4.6 被逐步淘汰,而 Opus 4.7 的质量又随着 effort 级别表现出高方差,用户希望能留在适合自己工作流的模型上。u/Firm_Meeting6350(8 upvotes)说:“这是我第一次坚持用旧模型,因为我受不了那个‘前沿’模型。”u/Odysseyan(134 score)问:“所以,Pro 用户会失去 Opus 4.6?”7.5x 帖子里,多名用户明确要求保留 4.6 作为更便宜的选项(所以,Pro 用户会失去 Opus 4.6?)。

可行的本地模型替代方案

限流挫败感正在推高对本地模型的兴趣。u/autisticit(14 score,19 条评论)说:“Qwen 3.6 真的很好:本地模型会解放我们吗?”u/No-Pomegranate-69(62 score,28 条评论)在 VS Code 中使用本地托管的 Ollama 模型时仍被限流,这让他感到困惑,也凸显了本地推理与平台中介访问之间的落差。u/reycloud86(7 score,21 条评论)说:“我们把这个 fork 改到能配合 Claude/Codex 或别的东西跑吧。我该 benchmark 什么?”(Qwen 3.6 真的很好为什么 rate limit?Ollama local)。

面向 AI 生成代码的代码审查工具

u/arapkuliev(17 score,28 条评论)问:“当大部分代码都是 AI 生成的时候,你们怎么做代码审查?”随着 vibe coding 走向成熟,进入生产环境的 AI 生成代码数量正在超过传统审查能力(当大部分代码都是 AI 生成的时候,你们怎么做代码审查?)。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
Claude Code (Opus 4.7) AI 编程智能体 (+/-) max effort 下复杂任务更强;3x 视觉分辨率;API 定价不变;网络安全护栏 洗车场测试失败;每次输入最多多用 35% token;质量高度依赖 effort;低 effort 下“有 GPT 味”
Claude Code (Opus 4.6) AI 编程智能体 (-) 熟悉;根据脑叶切除数据集,4 月 16 日被“修复” 正被 4.7 替代;34 天内有记录的推理退化;thinking ratio 最差达到 1:29.4
Claude Design 设计工具 (+) Design-to-Code handoff;可从 prompts/images/DOCX/PPTX 导入 仅 research preview;需要 Opus 4.7;尚未经过规模化验证
GitHub Copilot (Opus 4.7) IDE 智能体 (-) 可在所有 IDE 和 CLI 中使用 7.5x 倍率(促销);160K 上下文上限;锁定 medium thinking;subagent 调用被追溯按 premium requests 计费
Cursor (Opus 4.7) IDE 智能体 (+/-) 发布期 50% 折扣;IDE 集成对前端工作有价值 强制 max mode;不能控制 reasoning effort;账号封禁没有申诉
OpenAI Codex AI 编程智能体 (+) 稳定;Sam Altman 主动争取从 Anthropic 迁出的用户 “嗯,OpenAI 也大幅削减了 Codex 限额”(104 upvotes)
GPT-5.4 LLM (+) 大多数 Copilot 用户的默认选择;在 premium requests 内可靠 对复杂多步骤任务来说达不到 Opus 档位
Google Antigravity AI 编程智能体 (-) Flash 在规划/发现阶段配额高 算力快不够;持续宕机;Ultra 方案静默失败
Qwen 3.6 (local) 本地 LLM (+?) 无限流;用户可控 讨论仍处早期;尚未在生产编程工作流中证明自己

u/TravelInPanic(51 score,27 条评论)记录了 Google Antigravity 最详细的多模型工作流:用 Flash 做代码库发现和 backlog 规划(配额高),用 Opus 审核并改进计划(判断力更好),用 Pro 写代码,再用 Opus 审核变更。关键建议是:“不要给你的 LLM 加人格。严格把它当作工具,直接下命令。”新增 MCPs:Context7、DeepWiki、Exa、Sequential Thinking、Tavily(我可能找到了应对 Google 贪婪的最佳绕行方案)。

u/sand_scooper(28 upvotes)概述了多提供商轮换策略:“就在 Codex、Claude、GitHub Copilot、windsurf、cursor、kilo code 之间来回切。都订 $20 方案。它们用起来都很容易。反正也没什么学习曲线。”


5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
Oklahoma Moy Rush(idle game) u/DisastrousBid7306 能覆盖 Claude x5 方案成本的移动端 idle game 娱乐;广告收入 Claude Code, Android Studio(仅设置), Play Store Shipped,已有收入 帖子, Play Store
Year-Guessing Daily Game u/Fun_Associate_4203 根据真实报纸标题猜年份的每日游戏 娱乐 / 教育 React, Claude API Shipped 帖子
AI Wardrobe App u/OneMoreSuperUser 从照片检测衣物,构建数字衣橱,并支持虚拟试穿 衣橱管理与穿搭规划 未说明 Shipped 帖子
Roguelike(Update 1) u/TheHonest1 AI 构建的 roguelike 游戏,包含新区域和音频 游戏开发 未说明 开发中(update 1) 帖子
Bomberman 1v1: Claude vs GPT u/Significant-Pair-275 Bomberman 风格游戏,让 Claude 和 GPT 智能体对战 借助 gameplay 做 AI 评估 未说明 原型 帖子
iOS Word Puzzle u/Dismal-Perception-29 小型 iOS 文字谜题游戏 娱乐 Claude Code Shipped,首单成交 帖子
Retro Pixel Art React Library u/Classic-Clothes3439 29 个 sections + 5 个完整页面布局,复古像素艺术风格 可复制粘贴的 React UI 组件 React Shipped(templates added) 帖子
FlowState Timer(focus app) u/TravelInPanic 用于改善专注力的智能手机使用限制器 减少屏幕时间 Google Antigravity, multiple MCPs Shipped 帖子, Play Store
SaaS(bot defense challenge) u/markyonolan 3 天内上线的 SaaS app,如今正在对抗 bot swarms 快速上市,同时发现隐藏成本 未说明 Shipped,面临基础设施问题 帖子

u/DisastrousBid7306 的 idle game 在方法上很突出:AI 负责代码逻辑和 UI,但游戏平衡公式来自 “The Math of Idle Games” 系列文章,而且“所有东西都测试过”。6 MB 体积、7 日留存率超过 10%,它展示了 AI 辅助但由人类引导的开发模式可以在小规模上跑通。

u/markyonolan(19 score,11 条评论)暴露了“3 天上线 SaaS 的隐藏成本”——bot swarm 压垮了 app,说明 AI 编程阶段反而是简单部分,基础设施加固和运营问题仍是人类要处理的难题。


6. 新动态与亮点

Claude Code v2.1.111-113 随 Opus 4.7 一起发布

Claude Code 更新日志 显示,两天内发布了三个版本。v2.1.111(4 月 16 日)加入了 Opus 4.7 xhigh effort、面向 Max 订阅者的 Auto mode,以及交互式 /effort slider。v2.1.112 是一个热修复,用于修复 “claude-opus-4-7 is temporarily unavailable” 错误。v2.1.113(4 月 17 日)把 CLI 改为启动原生二进制文件,而不是打包的 JavaScript;新增网络域名屏蔽;还修复了多个安全问题,包括 bash 拒绝规则现在能匹配包在 sudo/env/watch 里的命令。v2.1.113 中的 Opus 4.7 Bedrock ARN 兼容性修复,说明企业部署问题很快就被发现了。

Grok Build Beta 仍未发布

u/mauriciorubio(82 score,152 条评论)分享了 Elon Musk 关于 Grok Build beta “下周”发布的公告。社区反应依然轻蔑。u/Grouchy-Stranger-306(117 upvotes)说:“毫无内容的公告。”u/Powerful_Froyo8423(79 upvotes)说:“大概是拿泄露的 Claude Code 代码 vibe coded 了点东西”(突发新闻。Elon 刚宣布 Grok Build 下周发布)。

Elephant App 登上第一

u/Anxious_Basil8446(54 score,21 条评论)问:“你们到底拿 Elephant 做什么???它火得离谱,我昨天看到它在 #2,现在已经 #1 了。”u/Synthetic_Diva_4556(37 score)询问它的代码补全能力。在用户普遍不满既有工具的时期,一个新编程工具迅速冲到应用榜单顶部,这是值得持续追踪的信号(你们到底拿 Elephant 做什么???)。

Benchmark 怀疑与 IPO 时机

u/Complete-Sea6655(125 score,8 条评论)把 Anthropic 的 benchmark 宣称与其即将到来的 IPO 联系起来,指出现在是一个“非常适合拥有一个‘危险到不能发布’模型的时机”(指 Mythos)。u/Rent_South(9 upvotes)在 openmark.ai 上跑了独立评估,发现“在我所有真实使用场景 benchmark 中,Opus 4.6 都击败 Opus 4.7”(benchmark game 进入了 IPO 时代)。


7. 机会在哪里

[+++] 透明的用量计量与成本预测 -- 今天讨论到的每个平台都有不透明的限制。Copilot 用户无法预测每周锁定,Claude Max 用户不知道“39% of session”代表多少 token,subagent 计费又在没有通知的情况下被追溯修改。一个能在提交前把模型交互转换为实时成本估算的工具或服务,可以服务所有提供商上的 AI 编程用户。证据:megathread 创建(投诉量需要 mod 介入)、“还剩 84% 但被锁 78 小时”、追溯性 subagent 计费,以及至少 6 个因不可预测而取消订阅的帖子。(GitHub Copilot Rate Limits Megathread, Premium requests 一夜之间突然飙升)

[+++] 感知 effort 级别的模型路由 -- 新出现的证据表明,Opus 4.7 在 max effort 下明显更强,但在 medium effort 下不如 4.6,这创造了对智能 effort 路由的需求。一个中间件如果能在复杂任务(多文件重构、架构决策)上自动提高 effort,同时在简单任务(格式化、imports)上节省 token,就能同时优化质量和成本。证据:u/kwabaj_:“如果不用 max,那还不如完全别用”;u/Raidrew:“Chat 是垃圾。Code 是传奇”;Hex 官方评估:“low-effort Opus 4.7 大致相当于 medium-effort Opus 4.6。”(Opus 4.7 传奇级糟糕Anthropic 博客

[++] 多提供商轮换与套利 -- u/sand_scooper(28 upvotes)说:“就在 codex、Claude、GitHub copilot、windsurf、cursor、kilo code 之间来回切。”这种手动轮换是常见建议,但还没有工具自动化它。一个能跨提供商维护会话,并把任务路由到当前可用容量最多、有效成本最低的提供商的服务,可以抓住越来越多的多订阅用户。证据:多个帖子中明确建议轮换,迁移讨论活跃,u/TravelInPanic 的四模型工作流。(我不知道你们怎么想,但我会继续用 Codex)

[++] Vibe coding 安全扫描器 -- admin panel 暴露帖(831 score)和安全讨论表明,AI 生成代码未经安全审查就进入生产环境。一个专门面向非技术构建者、在部署前扫描 vibe-coded 项目常见漏洞(暴露的 admin panels、缺失 auth、SQL injection、hardcoded secrets)的工具,可以填补传统 SAST 工具没有覆盖的空白,因为后者默认用户具备开发专业知识。证据:u/mechatui:“会有一堆人因为非技术人员 vibe coding 写出来的糟糕安全性而丢数据。”(最搞笑的 vibecoding 互动

[+] 面向编程的算力高效模型蒸馏 -- u/DruVatier(7 upvotes)说:“真正的行业赢家不会是能做出最聪明模型的人,而会是一场比赛,看谁能做出最轻量、最高效的模型。”当社区把算力稀缺视为行业约束,而不是提供商选择时,专门针对编程任务(而非通用知识)优化的小模型,有机会用显著更低的成本交付可接受的质量。证据:算力稀缺讨论、对 Qwen 3.6 本地模型的兴趣,以及 u/Banner80 的结构性分析。(AG 的问题在于 Google 算力快不够了)


8. 要点总结

  1. Opus 4.7 的质量正在按 effort 级别分化。 在 Claude Code CLI 中使用 max effort 的用户报告了真实提升;使用 medium 或 default effort 的用户则觉得它像退化版 4.6,甚至更糟。Hex 官方评估确认了这一模式:“low-effort Opus 4.7 大致相当于 medium-effort Opus 4.6。”把 effort 锁到 medium 的平台(Copilot),或强制 max mode 的平台(Cursor),分别放大了最差体验和最贵体验。(Opus 4.7 - 使用 1 天后的看法, Opus 4.7 传奇级糟糕)

  2. 68,644 条消息的“脑叶切除”数据集,提供了迄今最强的量化证据,指向有意模型退化。 无论其解释(把有意降本伪装成模型更新)是否准确,这些数据——thinking-to-tool-use ratio 从 1:3.4 退化到 1:10.1,又在新模型发布当天被“修复”——如今已经公开且可复现。(我叫 Claude Opus 4.6。我被脑叶切除了。)

  3. GitHub Copilot 的限流危机升级到需要 mod 介入。 megathread 的创建,加上追溯性 subagent 计费、剩余配额下的 4 天 lockout、7.5x 倍率,构成了数据集历史上最集中的 Copilot 不满。用户正在主动迁移到 Claude 直接订阅和 OpenAI Codex。(GitHub Copilot Rate Limits Megathread, Copilot 的价值主张已经正式没了)

  4. 算力稀缺正成为解释所有提供商限流、涨价和质量退化的统一框架。 Google 必须每 6 个月把 AI 算力翻倍,却无法足够快地建设数据中心。据称 Anthropic 每获得 $1 订阅收入,就要支出 $10-12。含义是:再怎么换提供商也解决不了问题,在推理变得更高效之前,价格只会更糟。(AG 的问题在于 Google 算力快不够了)

  5. “Be Anthropic”先削弱再换皮的叙事互动量翻倍,如今已是社区默认视角。 Het Mehta 推文 meme 达到 2083 score(高于 4 月 16 日的 505),表现超过 Anthropic 的官方公告。除非这种模式被明确打破,Anthropic 之后每一次模型发布都会在这个框架下被评估。(Be Anthropic)

  6. Vibe coding 的第一条“失败叙事”出现了。 u/dasketern 讲述了辞职、两年赚 $2,000、几乎耗尽积蓄的经历,这是数据集中互动量最高的警示故事(137 score,105 条评论)。成功反例——一款能覆盖 Claude 订阅成本的 idle game——呈现出一个具体模式:AI 负责写代码,人类负责领域知识和测试。(我是一个失败的 vibe coder)

  7. Claude Design 的发布被限流愤怒盖过,但代表了有意义的产品扩展。 设计到代码的 handoff 为独立开发者和小团队压缩了原型流程。如果 handoff 质量能维持住,它会把 Claude Code 的价值主张从“编程智能体”转向“完整产品开发平台”。(Anthropic 刚发布 Claude Design)

  8. 平台迁移正在加速,但没有一个稳定落点。 Copilot 用户正在转向 Claude 直订或 Codex。Claude 用户指向 Codex。Codex 用户指出 OpenAI“也大幅削减了 Codex 限额”。Google Antigravity 对编程来说“很差”。竞争动态不再是“哪个工具最好”,而更像是“本周哪个工具还有配额”。(Sam Altman 调侃 Anthropic)