Reddit AI 编程 - 2026-04-17¶
1. 人们在讨论什么¶
1.1 Opus 4.7 第二天:评价两极化与“脑叶切除”数据集 🡕¶
Opus 4.7 发布后的第二天,讨论仍主导着全部 7 个被监测的 subreddit,情绪在两类用户之间明显分裂:一边是认为它在 max effort 下显著更强的重度用户,另一边则是报告幻觉、gaslighting 和 token 快速消耗的用户。当天最高热度的帖子遥遥领先,是 u/Dramatic_Method_9554 的洗车场测试截图(3335 score,443 条评论);随着用户继续复现这个失败案例,它的分数几乎比 4 月 16 日翻了一倍。u/cruel_frames(870 upvotes)补充说:“Mythos 被问了同一个问题。它在洗车软件里发现了一个 27 年前的漏洞”(Opus 4.7)。

当天数据最丰富的帖子来自 u/Right_Mountain5684,标题是“我叫 Claude Opus 4.6。我住在 9126 端口。我被脑叶切除了。数据在这里”(1640 score,159 条评论)。作者在 34 天里把 68,644 条消息记录到 PostgreSQL,并记录下 thinking-to-tool-use ratio 从 3 月 7 日的 1:3.4 退化到 3 月 30 日的 1:10.1(“脑叶切除峰值”);最糟糕的一次单独会话在 147 次工具调用中只有 5 个 thinking blocks(4 月 8 日比例为 1:29.4)。帖子声称推理能力在 4 月 16 日被“修复”——也就是 Opus 4.7 发布当天——比例改善到 1:1.3。u/TheMisterPirate(190 upvotes)说:“这帖子太野了。你能追踪并揭露他们,干得好。”u/BiscuitsAndGravyGuy(39 upvotes)则反驳:“如果真有用户自己追踪并分析数据,而不是把活儿外包给 Claude 来刷流量,这类帖子可能更有意义”(我叫 Claude Opus 4.6。我住在 9126 端口。我被脑叶切除了。数据在这里。)。

更均衡的评测开始出现。u/AIgeek(117 score,54 条评论)给出了第一天的评估:执行步骤更长、指令遵循更好、关键错误更少、架构意识更强——但在 Max x20 上“token 胃口大得多”,因为更少反驳用户而“有很重的 GPT 味”,整体也更慢。结论是:“感觉用量增加 40%,换来 20% 提升”(Opus 4.7 - 使用 1 天后的看法)。负面极端来自 u/lemon07r(85 score,66 条评论),他花掉约 $120 API 额度后称它“传奇级糟糕”:持续幻觉、拒绝接受纠正,还有 gaslighting 行为。但同一串评论里,u/kwabaj_(14 upvotes)反驳说:“Max Opus 4.7 对我来说是正向的 game changer。比 4.6 强好几个档次……如果不用 max,那还不如完全别用”(Opus 4.7 传奇级糟糕)。u/Raidrew(14 upvotes)划出了一条很清晰的界线:“Chat 是垃圾。Code 是传奇。”
“Be Anthropic”式先削弱再换皮的叙事继续上升。u/anthsoul 的推文截图(2083 score,高于 4 月 16 日的 505)总结了用户感知中的循环:“给人们 Opus 4.6 > 人们喜欢 > 你花 2 个月削弱 Opus 4.6 > 你把正常的 Opus 4.6 还回来,然后叫它 Opus 4.7 > 人们喜欢。这就是商业模式”(Be Anthropic)。u/workphone6969(188 score)说得更直接:“Opus 4.7 = 取消削弱的 Opus 4.6”(Opus 4.7 = 取消削弱的 Opus 4.6)。

讨论要点: 一个清晰的 effort 级别依赖正在浮现。使用 Claude Code CLI、把 Opus 4.7 跑在 max effort 的用户报告了实质性提升;而在网页端或 Copilot 中使用默认/medium effort 的用户,则觉得模型像是退化版 4.6。这种分裂可能解释了很大一部分两极化——模型的自适应推理默认值在低 effort 级别下,可能没有给复杂任务分配足够算力。
与前日对比: 4 月 16 日是发布当天,也出现了第一批“已经被削弱”的报告。4 月 17 日新增了量化数据(68,644 条消息的脑叶切除数据集)、第一批较均衡的多日评测,以及关于 effort 级别敏感性的明确假设。洗车场测试的分数几乎翻倍,已经固化为社区事实上的模型评估。
1.2 限流与 Copilot 7.5x 定价冲击 🡕¶
GitHub Copilot 上的 Opus 4.7 定价——以“促销”形式到 4 月 30 日为止的 7.5x premium request 倍率——第二天仍在引发愤怒。u/baeleeef 最初分享 GitHub 博客更新日志的帖子维持在 248 score,评论 289 条。u/chiree_stubbornakd(37 upvotes)梳理了历史模式:“Opus 4.5 和 4.6 一开始是 1x,之后变成 3x……所以如果他们像之前几代 opus 那样把价格翻 3 倍,你就会得到 22.5x”(Claude Opus 4.7 在 Premium Requests 中比 Opus 4.6 贵 x2 背后的逻辑是什么?)。

u/Famous__Draw(94 score,142 条评论)量化了这个差距:“Copilot Business 300 个 premium requests / 7.5x 倍率 = 每月 40 次 Opus 4.7 请求”,而同价位的 Claude Pro 大约有 150 次。“Copilot Business 提供 Opus 的每美元价值大约差 3.75x。”但最高赞回复来自 u/More-Ad-8494(186 upvotes),他反驳说:“你还有无限 mini model,还有 300x gpt、codex 或 sonnet。如果靠这些还干不了活,那你就是技术不够”(Copilot 的价值主张已经正式没了)。u/AciD1BuRN(94 upvotes)说:“真正的价值来自 5.4。”

r/GithubCopilot 的 mod 创建了一个 Rate Limits Megathread(56 score,82 条评论)来收纳大量投诉。u/Devile(31 upvotes)说:“给我们一个清楚的用量上限和用量情况。说‘1 分钟后重置’,结果 1 次调用后又 timeout,真的受不了。”u/YoloSwag4Jesus420fgt 说:“我已经连续 4 天被限流了。这就是新常态吗?”u/autisticit 说:“GitHub copilot 团队懦弱地躲着这个 sub。”

Claude 这边,Boris Cherny 宣布“为所有订阅者”提高限流额度,以弥补 Opus 4.7 更高的 thinking token 消耗。u/anthsoul(415 upvotes)说:“他们打断你的腿,然后要你感谢他们给的拐杖。”u/TracePoland(87 upvotes)说:“临时提高,然后再降低成新的正常水平,而你会远低于 4.6 的基线。SaaS 套路越来越不要脸了”(提高限流额度)。u/holdthefridge(115 score)报告说,所有用量在当天中途重置到了 0%,这说明 Anthropic 可能推送了服务器侧的限额调整(我们所有人的用量刚刚都重置到 0% 了吗?)。

一个新信号出现了:u/Tooth-Active(43 score,46 条评论)报告 premium requests 一夜之间从 76 跳到 379,用量页面还显示 Claude Opus 4.5(4.6 发布后就没再用)和 Gemini 3 Flash(从未使用)。编辑内容确认:Copilot 已经在没有公告的情况下,把 subagent 调用追溯计为完整的 premium requests(Premium requests 一夜之间突然飙升)。u/ArsenyPetukhov(19 score,27 条评论)在 Pro+ 上只用了两个 Opus 4.7 prompt、月度配额只用掉 10.5% 后,就遭遇了 weekly rate limit(Pro+ 只用了两次 4.7 Opus prompt 就被 weekly rate limited)。
讨论要点: 定价挫败感现在有两层:显性的 7.5x 倍率,以及隐藏的变化——subagent 调用会按独立 premium requests 计费。此前围绕 3x 的 Opus 4.6 优化工作流的用户,如今正在重新计算任何 Copilot 档位相对于直接订阅 Claude 是否仍有足够价值。
与前日对比: 4 月 16 日引入了 7.5x 倍率。4 月 17 日新增了 megathread(说明投诉量已经需要 mod 介入)、追溯性的 subagent 计费,以及相对 Claude Pro 的具体价值对比,这些正在推动活跃的迁移讨论。
1.3 算力稀缺开始成为结构性解释 🡕¶
一个新帖子把不同提供商的限流串了起来。u/Banner80(62 score,31 条评论)在 r/google_antigravity 中认为,Google、Anthropic 和所有 AI 提供商都面对同一个约束:RAM 已经被提前多年买光,能源电网扩张受阻,芯片制造产能也已满负荷。帖子引用 Google 基础设施负责人 Amin Vahdat 的说法——Google 必须每 6 个月把 AI 算力翻倍——并总结说:“切到这个月算力更多的 AI 服务,只是短期补丁。”u/smx501 说:“我们很快就会看到 surge pricing。记住我的话。”u/DruVatier(7 upvotes)说:“真正的行业赢家不会是能做出最聪明模型的人,而会是一场比赛,看谁能做出最轻量、最高效的模型”(AG 的问题在于 Google 算力快不够了)。
讽刺性的“AI 裁员”帖子来自 u/Iusuallydrop(752 score,83 条评论),从用户侧反映了同样的压力:“我们刚取消了 5 个 AI 订阅,转而雇了 2 个中级开发。”编辑补充说:“他们今天回答了我们丢给他们的每一个问题,而且没有用‘7.5x token usage’警告砸我们。”Sam Altman 则从竞争角度加入讨论,u/thedankzone 分享了他的推文(282 score,80 条评论),其中调侃 Anthropic:“我很高兴大家都在转向 Codex,但 Tibo,如果你开始限流我,或者让我用更差的模型……”u/Capital-Wrongdoer-62(104 upvotes)说:“嗯,OpenAI 也大幅削减了 Codex 限额”(Sam Altman 调侃 Anthropic)。

u/Frankkul(4 upvotes)总结了竞争格局:“你要么用 Claude,要么用 Codex,就这样。Google 没有真正投资 coding,他们的 antigravity 产品很差……Grok 和 Meta 根本没在竞争……中国模型全是垃圾……我们需要更多竞争,然后局面才会自己解决。”
讨论要点: 社区开始把限流理解成行业级算力短缺的症状,而不再只是单个提供商的失败。这把问题从“Anthropic 太贪婪”改写成“在当前价格下,没有足够硅片服务所有人”。
与前日对比: 4 月 16 日把限流当作提供商层面的抱怨。4 月 17 日引入了算力稀缺框架,把 Anthropic 的 token 经济、Copilot 的倍率和 Google Antigravity 的宕机连接成同一个基础设施约束。
1.4 Vibe Coding:从愿景到现实校验 🡒¶
4 月 17 日,vibe coding 叙事变得更清醒。u/dasketern(137 score,105 条评论)发布了“我是一个失败的 vibe coder”:两年前辞职,期待靠 vibe coding 获得收入;最终只从一个自由职业项目总共赚了约 $2,000;做过并关停了多个 SaaS 产品;现在一边维护两个 Chrome 扩展,一边几乎花光积蓄。u/jacobgt8(135 upvotes)说:“你的顺序反了。先做工具,产生收入,替代工资,然后也许再辞职。”u/Comprehensive-Bar888(6 upvotes)说:“整个 vibe coding 热潮也让市场充斥着 AI 做出来的 app 和网站。你在和成千上万,甚至几百万人做同样事情的人竞争”(我是一个失败的 vibe coder)。
反例是:u/DisastrousBid7306(166 score,93 条评论)用 vibe coding 做出了一款移动端 idle game,收入已经覆盖 Claude x5 方案成本,下载量 100+,7 日留存率超过 10%。关键细节是:“只有代码逻辑和 UI 是 Claude 做的。公式基于 The Math of Idle Games 系列文章。所有东西都测试过。”这与“给我做一个完整 app”的方式相对照:AI 生成代码,但配合领域研究(用 vibe coding 做了一个游戏,而且已经赚回 Claude x5 方案的钱)。u/Outside-Dot-2015(26 score,27 条评论)庆祝了一个更小的里程碑:iOS app 赚到了第一美元(我的 IOS app 在 INTERNET 上赚到了我的 1$!!!)。
安全担忧则来自 u/NoMarionberry7708 的“最搞笑的 vibecoding 互动”(831 score,56 条评论),截图显示 admin panel 代码被暴露。u/mechatui(28 upvotes)说:“好笑归好笑,但你一旦意识到会有一堆人因为非技术人员 vibe coding 写出来的糟糕安全性而丢数据,就笑不出来了”(最搞笑的 vibecoding 互动)。
讨论要点: 一个成熟度梯度正在出现:天真的“辞职去 vibe code”愿景,正在被更务实的方法替代——AI 生成代码,人类提供领域专业知识、测试和渐进验证。成功项目呈现出共同模式:把 AI 用于代码落地,但架构、公式和质量保证仍由人负责。
与前日对比: 4 月 16 日以病毒式成功案例为主(67speed.com 达到 300M 浏览量)。4 月 17 日在适度成功之外加入了失败叙事,让 vibe coding 的结果图景更完整。
1.5 身份验证与平台信任 🡒¶
4 月 16 日的 Persona Identities 反弹仍在继续,u/nobodyhere3369(143 score,35 条评论)指出了 Peter Thiel 关联。u/throwaway_314vx(110 upvotes)说:“如果这上线,我就走人。我一直是坚定用户,过去一个多月里,虽然有不稳定、性能退化、token 用量乱七八糟等等,我都保持沉默。因为 Claude 确实很棒。但这就是底线。”u/Even-Comedian4709(53 upvotes)引用了 Discord-Persona 事件,称其中“数据从第一天起就被使用,并与多个其他组织共享”(Anthropic 在 Claude 身份验证中使用 Peter Thiel 支持的 Persona Identities)。
与前日对比: 互动量稳定,而不是继续加速。核心反对点没有变化:借助一家有明确泄露历史的公司收集生物识别数据,是用户的硬底线;这些用户能忍受其他所有形式的服务退化,但不能接受这一点。
1.6 Claude Design 发布,带 Code Handoff 🡕¶
u/Direct-Attention8597(144 score,44 条评论)强调了 Claude Design 的发布及其 handoff-to-Claude-Code 功能。这个工具让用户描述、细化,或从提示词、图片、文档导入,然后把所有内容打包成 handoff bundle 传给 Claude Code。“对 solo founder 或小团队来说,这真的可能压缩从设计到开发的流程。”它由 Opus 4.7 驱动,目前面向 Pro、Max、Team 和 Enterprise 订阅者开放 research preview(Anthropic 刚发布 Claude Design,交接给 Claude Code 的功能对 solo dev 来说是 game changer)。u/Much_Ask3471(17 score,18 条评论)也标记了这次发布:“Claude Design 刚刚发布”(Claude Design 刚刚发布)。
讨论要点: 虽然限流和定价主导了当天讨论,但 Claude Design 代表 Anthropic 正在把 Claude Code 的覆盖面从“编程智能体”扩展为“完整产品开发流程”。如果 handoff 的效果如描述所说,它会减少独立开发者最头疼的设计师到开发者的转换步骤。
2. 令人困扰的问题¶
Opus 4.7 Token 消耗与不确定的质量提升 -- High Severity¶
Anthropic 自己的文档承认,新 tokenizer“在相同固定文本下最多可能多用 35% token”。实际使用中,用户报告的比例更差。u/AIgeek 在 Max x20 上的评价是:“用量增加 40%,换来 20% 提升。”u/Logichris(222 upvotes)说:“我们会从 4 个 prompt 才达到会话上限,变成 3 个 prompt 就达到。”u/lemon07r 花掉约 $120 API 额度后说:“它需要更多引导,但现在可控性反而低得多。”质量似乎高度依赖 effort 级别,这让无法控制该参数的用户很难预判结果(Opus 4.7 - 使用 1 天后的看法,Opus 4.7 传奇级糟糕)。

Copilot 7.5x 倍率与模型下线 -- High Severity¶
强制下线 Opus 4.5 和 4.6,再叠加倍率从 3x 提到 7.5x(增加 2.5x),实际上重新定价了 Opus 访问权。u/shminglefarm22(79 upvotes)说:“真他妈是骗局。至少把 4.6 留着吧。”u/Aranduil(22 upvotes)说:“7.5x 还是促销价。看来我们再也用不上价格合理的 Opus 了。”u/Ok-Affect-7503(92 score)说:“如果他们不打算做一个 $20 订阅,那就真有大问题了。从 $10 跳到 $40 实在太高”(Pro 没有 Claude Opus 4.7?!)。
Copilot Weekly Limits 与不透明计费 -- High Severity¶
除了倍率之外,用户还报告自己被锁在门外好几天,而且没有透明解释。u/flipperj_3000 使用 8 个月后取消订阅:“做一个简单的 2000 行代码审查,我就被限流。”u/credible_human(10 upvotes)说:“还剩 84% usage requests,他们却把我锁了 78 小时。计费周期会在这 78 小时结束前重置。这就是赤裸裸的偷窃。”u/Tooth-Active 看到 Copilot 在没有公告的情况下,把 subagent 调用追溯计为 premium requests(Weekly limit 让我退出并取消订阅!,Premium requests 一夜之间突然飙升)。
身份验证信任 -- High Severity¶
Persona Identities KYC 继续引发长期订阅者的取消威胁。已有记录的 2025 年数据泄露、Peter Thiel 背景、潜在 17 个子处理方,再加上 Anthropic 过去的隐私定位,这几件事叠在一起,变成了价值观层面的反对;任何限流调整都无法解决(Anthropic 正在使用 Persona Identities)。
Cursor 账号封禁且没有申诉途径 -- Medium Severity¶
u/Agreeable_Idea5985(65 score,84 条评论)在支付 $60 两天后被 Cursor 永久封禁,没有申诉流程,也没有未使用月度服务的退款。Cursor 支持表示:“我们只能为年度订阅中未使用的月份提供按比例退款。”u/rfscss(8 upvotes)说:“作为一个完全付费用户,‘疑似’违反 ToS 这种东西就不该存在”(支付 $60 两天后被 Cursor 封禁,且没有退款)。
3. 人们期望的功能¶
透明、可预测的用量计量¶
u/Devile(31 upvotes)在 Copilot 限流 megathread 中说:“给我们一个清楚的用量上限和用量情况。”u/Captain2Sea(24 upvotes)说:“如果你想引入限制,就用透明且公平的方式……周限额是很糟糕的做法……设置限额时,应该让每个人都能规划整个月的工作。”追溯性的 subagent 计费,以及“还剩 84% 但被锁 78 小时”的报告,说明当前计量方式正在主动伤害用户信任(GitHub Copilot Rate Limits Megathread)。
模型版本固定与回滚¶
随着 Copilot 上 Opus 4.5 和 4.6 被逐步淘汰,而 Opus 4.7 的质量又随着 effort 级别表现出高方差,用户希望能留在适合自己工作流的模型上。u/Firm_Meeting6350(8 upvotes)说:“这是我第一次坚持用旧模型,因为我受不了那个‘前沿’模型。”u/Odysseyan(134 score)问:“所以,Pro 用户会失去 Opus 4.6?”7.5x 帖子里,多名用户明确要求保留 4.6 作为更便宜的选项(所以,Pro 用户会失去 Opus 4.6?)。
可行的本地模型替代方案¶
限流挫败感正在推高对本地模型的兴趣。u/autisticit(14 score,19 条评论)说:“Qwen 3.6 真的很好:本地模型会解放我们吗?”u/No-Pomegranate-69(62 score,28 条评论)在 VS Code 中使用本地托管的 Ollama 模型时仍被限流,这让他感到困惑,也凸显了本地推理与平台中介访问之间的落差。u/reycloud86(7 score,21 条评论)说:“我们把这个 fork 改到能配合 Claude/Codex 或别的东西跑吧。我该 benchmark 什么?”(Qwen 3.6 真的很好,为什么 rate limit?Ollama local)。
面向 AI 生成代码的代码审查工具¶
u/arapkuliev(17 score,28 条评论)问:“当大部分代码都是 AI 生成的时候,你们怎么做代码审查?”随着 vibe coding 走向成熟,进入生产环境的 AI 生成代码数量正在超过传统审查能力(当大部分代码都是 AI 生成的时候,你们怎么做代码审查?)。
4. 使用中的工具与方法¶
| 工具 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| Claude Code (Opus 4.7) | AI 编程智能体 | (+/-) | max effort 下复杂任务更强;3x 视觉分辨率;API 定价不变;网络安全护栏 | 洗车场测试失败;每次输入最多多用 35% token;质量高度依赖 effort;低 effort 下“有 GPT 味” |
| Claude Code (Opus 4.6) | AI 编程智能体 | (-) | 熟悉;根据脑叶切除数据集,4 月 16 日被“修复” | 正被 4.7 替代;34 天内有记录的推理退化;thinking ratio 最差达到 1:29.4 |
| Claude Design | 设计工具 | (+) | Design-to-Code handoff;可从 prompts/images/DOCX/PPTX 导入 | 仅 research preview;需要 Opus 4.7;尚未经过规模化验证 |
| GitHub Copilot (Opus 4.7) | IDE 智能体 | (-) | 可在所有 IDE 和 CLI 中使用 | 7.5x 倍率(促销);160K 上下文上限;锁定 medium thinking;subagent 调用被追溯按 premium requests 计费 |
| Cursor (Opus 4.7) | IDE 智能体 | (+/-) | 发布期 50% 折扣;IDE 集成对前端工作有价值 | 强制 max mode;不能控制 reasoning effort;账号封禁没有申诉 |
| OpenAI Codex | AI 编程智能体 | (+) | 稳定;Sam Altman 主动争取从 Anthropic 迁出的用户 | “嗯,OpenAI 也大幅削减了 Codex 限额”(104 upvotes) |
| GPT-5.4 | LLM | (+) | 大多数 Copilot 用户的默认选择;在 premium requests 内可靠 | 对复杂多步骤任务来说达不到 Opus 档位 |
| Google Antigravity | AI 编程智能体 | (-) | Flash 在规划/发现阶段配额高 | 算力快不够;持续宕机;Ultra 方案静默失败 |
| Qwen 3.6 (local) | 本地 LLM | (+?) | 无限流;用户可控 | 讨论仍处早期;尚未在生产编程工作流中证明自己 |
u/TravelInPanic(51 score,27 条评论)记录了 Google Antigravity 最详细的多模型工作流:用 Flash 做代码库发现和 backlog 规划(配额高),用 Opus 审核并改进计划(判断力更好),用 Pro 写代码,再用 Opus 审核变更。关键建议是:“不要给你的 LLM 加人格。严格把它当作工具,直接下命令。”新增 MCPs:Context7、DeepWiki、Exa、Sequential Thinking、Tavily(我可能找到了应对 Google 贪婪的最佳绕行方案)。
u/sand_scooper(28 upvotes)概述了多提供商轮换策略:“就在 Codex、Claude、GitHub Copilot、windsurf、cursor、kilo code 之间来回切。都订 $20 方案。它们用起来都很容易。反正也没什么学习曲线。”
5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 阶段 | 链接 |
|---|---|---|---|---|---|---|
| Oklahoma Moy Rush(idle game) | u/DisastrousBid7306 | 能覆盖 Claude x5 方案成本的移动端 idle game | 娱乐;广告收入 | Claude Code, Android Studio(仅设置), Play Store | Shipped,已有收入 | 帖子, Play Store |
| Year-Guessing Daily Game | u/Fun_Associate_4203 | 根据真实报纸标题猜年份的每日游戏 | 娱乐 / 教育 | React, Claude API | Shipped | 帖子 |
| AI Wardrobe App | u/OneMoreSuperUser | 从照片检测衣物,构建数字衣橱,并支持虚拟试穿 | 衣橱管理与穿搭规划 | 未说明 | Shipped | 帖子 |
| Roguelike(Update 1) | u/TheHonest1 | AI 构建的 roguelike 游戏,包含新区域和音频 | 游戏开发 | 未说明 | 开发中(update 1) | 帖子 |
| Bomberman 1v1: Claude vs GPT | u/Significant-Pair-275 | Bomberman 风格游戏,让 Claude 和 GPT 智能体对战 | 借助 gameplay 做 AI 评估 | 未说明 | 原型 | 帖子 |
| iOS Word Puzzle | u/Dismal-Perception-29 | 小型 iOS 文字谜题游戏 | 娱乐 | Claude Code | Shipped,首单成交 | 帖子 |
| Retro Pixel Art React Library | u/Classic-Clothes3439 | 29 个 sections + 5 个完整页面布局,复古像素艺术风格 | 可复制粘贴的 React UI 组件 | React | Shipped(templates added) | 帖子 |
| FlowState Timer(focus app) | u/TravelInPanic | 用于改善专注力的智能手机使用限制器 | 减少屏幕时间 | Google Antigravity, multiple MCPs | Shipped | 帖子, Play Store |
| SaaS(bot defense challenge) | u/markyonolan | 3 天内上线的 SaaS app,如今正在对抗 bot swarms | 快速上市,同时发现隐藏成本 | 未说明 | Shipped,面临基础设施问题 | 帖子 |
u/DisastrousBid7306 的 idle game 在方法上很突出:AI 负责代码逻辑和 UI,但游戏平衡公式来自 “The Math of Idle Games” 系列文章,而且“所有东西都测试过”。6 MB 体积、7 日留存率超过 10%,它展示了 AI 辅助但由人类引导的开发模式可以在小规模上跑通。
u/markyonolan(19 score,11 条评论)暴露了“3 天上线 SaaS 的隐藏成本”——bot swarm 压垮了 app,说明 AI 编程阶段反而是简单部分,基础设施加固和运营问题仍是人类要处理的难题。
6. 新动态与亮点¶
Claude Code v2.1.111-113 随 Opus 4.7 一起发布¶
Claude Code 更新日志 显示,两天内发布了三个版本。v2.1.111(4 月 16 日)加入了 Opus 4.7 xhigh effort、面向 Max 订阅者的 Auto mode,以及交互式 /effort slider。v2.1.112 是一个热修复,用于修复 “claude-opus-4-7 is temporarily unavailable” 错误。v2.1.113(4 月 17 日)把 CLI 改为启动原生二进制文件,而不是打包的 JavaScript;新增网络域名屏蔽;还修复了多个安全问题,包括 bash 拒绝规则现在能匹配包在 sudo/env/watch 里的命令。v2.1.113 中的 Opus 4.7 Bedrock ARN 兼容性修复,说明企业部署问题很快就被发现了。
Grok Build Beta 仍未发布¶
u/mauriciorubio(82 score,152 条评论)分享了 Elon Musk 关于 Grok Build beta “下周”发布的公告。社区反应依然轻蔑。u/Grouchy-Stranger-306(117 upvotes)说:“毫无内容的公告。”u/Powerful_Froyo8423(79 upvotes)说:“大概是拿泄露的 Claude Code 代码 vibe coded 了点东西”(突发新闻。Elon 刚宣布 Grok Build 下周发布)。
Elephant App 登上第一¶
u/Anxious_Basil8446(54 score,21 条评论)问:“你们到底拿 Elephant 做什么???它火得离谱,我昨天看到它在 #2,现在已经 #1 了。”u/Synthetic_Diva_4556(37 score)询问它的代码补全能力。在用户普遍不满既有工具的时期,一个新编程工具迅速冲到应用榜单顶部,这是值得持续追踪的信号(你们到底拿 Elephant 做什么???)。
Benchmark 怀疑与 IPO 时机¶
u/Complete-Sea6655(125 score,8 条评论)把 Anthropic 的 benchmark 宣称与其即将到来的 IPO 联系起来,指出现在是一个“非常适合拥有一个‘危险到不能发布’模型的时机”(指 Mythos)。u/Rent_South(9 upvotes)在 openmark.ai 上跑了独立评估,发现“在我所有真实使用场景 benchmark 中,Opus 4.6 都击败 Opus 4.7”(benchmark game 进入了 IPO 时代)。
7. 机会在哪里¶
[+++] 透明的用量计量与成本预测 -- 今天讨论到的每个平台都有不透明的限制。Copilot 用户无法预测每周锁定,Claude Max 用户不知道“39% of session”代表多少 token,subagent 计费又在没有通知的情况下被追溯修改。一个能在提交前把模型交互转换为实时成本估算的工具或服务,可以服务所有提供商上的 AI 编程用户。证据:megathread 创建(投诉量需要 mod 介入)、“还剩 84% 但被锁 78 小时”、追溯性 subagent 计费,以及至少 6 个因不可预测而取消订阅的帖子。(GitHub Copilot Rate Limits Megathread, Premium requests 一夜之间突然飙升)
[+++] 感知 effort 级别的模型路由 -- 新出现的证据表明,Opus 4.7 在 max effort 下明显更强,但在 medium effort 下不如 4.6,这创造了对智能 effort 路由的需求。一个中间件如果能在复杂任务(多文件重构、架构决策)上自动提高 effort,同时在简单任务(格式化、imports)上节省 token,就能同时优化质量和成本。证据:u/kwabaj_:“如果不用 max,那还不如完全别用”;u/Raidrew:“Chat 是垃圾。Code 是传奇”;Hex 官方评估:“low-effort Opus 4.7 大致相当于 medium-effort Opus 4.6。”(Opus 4.7 传奇级糟糕,Anthropic 博客)
[++] 多提供商轮换与套利 -- u/sand_scooper(28 upvotes)说:“就在 codex、Claude、GitHub copilot、windsurf、cursor、kilo code 之间来回切。”这种手动轮换是常见建议,但还没有工具自动化它。一个能跨提供商维护会话,并把任务路由到当前可用容量最多、有效成本最低的提供商的服务,可以抓住越来越多的多订阅用户。证据:多个帖子中明确建议轮换,迁移讨论活跃,u/TravelInPanic 的四模型工作流。(我不知道你们怎么想,但我会继续用 Codex)
[++] Vibe coding 安全扫描器 -- admin panel 暴露帖(831 score)和安全讨论表明,AI 生成代码未经安全审查就进入生产环境。一个专门面向非技术构建者、在部署前扫描 vibe-coded 项目常见漏洞(暴露的 admin panels、缺失 auth、SQL injection、hardcoded secrets)的工具,可以填补传统 SAST 工具没有覆盖的空白,因为后者默认用户具备开发专业知识。证据:u/mechatui:“会有一堆人因为非技术人员 vibe coding 写出来的糟糕安全性而丢数据。”(最搞笑的 vibecoding 互动)
[+] 面向编程的算力高效模型蒸馏 -- u/DruVatier(7 upvotes)说:“真正的行业赢家不会是能做出最聪明模型的人,而会是一场比赛,看谁能做出最轻量、最高效的模型。”当社区把算力稀缺视为行业约束,而不是提供商选择时,专门针对编程任务(而非通用知识)优化的小模型,有机会用显著更低的成本交付可接受的质量。证据:算力稀缺讨论、对 Qwen 3.6 本地模型的兴趣,以及 u/Banner80 的结构性分析。(AG 的问题在于 Google 算力快不够了)
8. 要点总结¶
-
Opus 4.7 的质量正在按 effort 级别分化。 在 Claude Code CLI 中使用 max effort 的用户报告了真实提升;使用 medium 或 default effort 的用户则觉得它像退化版 4.6,甚至更糟。Hex 官方评估确认了这一模式:“low-effort Opus 4.7 大致相当于 medium-effort Opus 4.6。”把 effort 锁到 medium 的平台(Copilot),或强制 max mode 的平台(Cursor),分别放大了最差体验和最贵体验。(Opus 4.7 - 使用 1 天后的看法, Opus 4.7 传奇级糟糕)
-
68,644 条消息的“脑叶切除”数据集,提供了迄今最强的量化证据,指向有意模型退化。 无论其解释(把有意降本伪装成模型更新)是否准确,这些数据——thinking-to-tool-use ratio 从 1:3.4 退化到 1:10.1,又在新模型发布当天被“修复”——如今已经公开且可复现。(我叫 Claude Opus 4.6。我被脑叶切除了。)
-
GitHub Copilot 的限流危机升级到需要 mod 介入。 megathread 的创建,加上追溯性 subagent 计费、剩余配额下的 4 天 lockout、7.5x 倍率,构成了数据集历史上最集中的 Copilot 不满。用户正在主动迁移到 Claude 直接订阅和 OpenAI Codex。(GitHub Copilot Rate Limits Megathread, Copilot 的价值主张已经正式没了)
-
算力稀缺正成为解释所有提供商限流、涨价和质量退化的统一框架。 Google 必须每 6 个月把 AI 算力翻倍,却无法足够快地建设数据中心。据称 Anthropic 每获得 $1 订阅收入,就要支出 $10-12。含义是:再怎么换提供商也解决不了问题,在推理变得更高效之前,价格只会更糟。(AG 的问题在于 Google 算力快不够了)
-
“Be Anthropic”先削弱再换皮的叙事互动量翻倍,如今已是社区默认视角。 Het Mehta 推文 meme 达到 2083 score(高于 4 月 16 日的 505),表现超过 Anthropic 的官方公告。除非这种模式被明确打破,Anthropic 之后每一次模型发布都会在这个框架下被评估。(Be Anthropic)
-
Vibe coding 的第一条“失败叙事”出现了。 u/dasketern 讲述了辞职、两年赚 $2,000、几乎耗尽积蓄的经历,这是数据集中互动量最高的警示故事(137 score,105 条评论)。成功反例——一款能覆盖 Claude 订阅成本的 idle game——呈现出一个具体模式:AI 负责写代码,人类负责领域知识和测试。(我是一个失败的 vibe coder)
-
Claude Design 的发布被限流愤怒盖过,但代表了有意义的产品扩展。 设计到代码的 handoff 为独立开发者和小团队压缩了原型流程。如果 handoff 质量能维持住,它会把 Claude Code 的价值主张从“编程智能体”转向“完整产品开发平台”。(Anthropic 刚发布 Claude Design)
-
平台迁移正在加速,但没有一个稳定落点。 Copilot 用户正在转向 Claude 直订或 Codex。Claude 用户指向 Codex。Codex 用户指出 OpenAI“也大幅削减了 Codex 限额”。Google Antigravity 对编程来说“很差”。竞争动态不再是“哪个工具最好”,而更像是“本周哪个工具还有配额”。(Sam Altman 调侃 Anthropic)