Reddit AI 编程 - 2026-04-20¶

1. 人们在讨论什么¶

1.1 Opus 4.7 第五天：自适应思考机制被拆解 🡒¶

到第五天，围绕 Opus 4.7 的反弹已经从情绪宣泄转向系统分析。u/aizver_muti 发布了迄今最严谨的技术调查，逆向分析 Opus 4.7 的自适应思考在 API 层到底如何运作。结论很刺眼：Opus 4.7 只支持 type:adaptive thinking，是否思考由服务端决定，而不是客户端。发送 type:enabled 和 budget_tokens（在 4.6 上有效）会被静默接受，但不会产生任何 thinking blocks——API 并没有像文档声称的那样报错，而是直接忽略这个字段。在 max 以下的每个 effort level，模型是否思考都不稳定，而正确性和思考完全绑定：思考时答案正确；不思考时答案错误（没有 adaptive thinking 的 Opus 4.6 表现超过带 adaptive thinking 的 Opus 4.7，得分 60，21 条评论）。

这项调查包括禁用 adaptive thinking 的二进制补丁、用于检查 API 流量的 MITM proxy，以及跨 effort level 的系统测试。结论是：“Opus 4.6 搭配 CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1，在 medium 或 high effort 下，对于需要稳定推理的任务更合适。它每次都会思考，而且成本低于在 max effort 下运行 Opus 4.7。”u/SaintMartini（8 分）：“Max effort 的 4.7 对我来说还是会随机幻觉。我改用 max 的 Opus 4.6，使用量更少，结果也更好。”u/Important_Echo_7228：“可靠让 Opus 4.7 思考的唯一办法就是 max effort。其他都像俄罗斯轮盘。”

来自 u/RichensDev 的社区元分析继续作为参考材料流传：110 个帖子、2,187 条评论，反对该模型的 upvote 比例为 90:1。数据显示，32 位用户退回 Opus 4.6，26 位转向 Codex，17 位取消订阅。只有 13 位用户发布了明确正面的看法，而且全部运行在 max 或 xhigh effort。 “4.7 on max”和“4.7 on default”之间的差距仍然是最强信号（Opus 4.7：110 个帖子，2,187 条评论。无偏分析，得分 183，93 条评论）。

u/MurkyFlan567 的 codeburn 基准继续被引用：one-shot 成功率从 83.8% 降到 74.5%，retry rate 翻倍（每次 edit 从 0.22 到 0.46），单次调用成本从 $0.112 升到 $0.185，单次调用输出 token 超过翻倍（372 到 800）。编程 one-shot 率从 84.7% 降到 75.4%（真实编码 3 天后的 Opus 4.7 vs 4.6，得分 454，91 条评论）。u/SovietRabotyaga：“Total cost 字段已经说明了为什么 Anthropic 这么激进地把 4.7 推给我们。”

对比 Opus 4.6 与 4.7 性能指标的 Codeburn 基准仪表盘

围绕沟通质量的新行为投诉也出现了。u/Any_Economics6283 发布了一份详细的并排对比，展示 Opus 4.7 和 4.5 如何解释相同技术概念，结论是 4.7 会产出“信息/想法过载，用短促、俏皮、类似 ChatGPT 的短语和术语堆叠表达，反而遮蔽含义”。这位用户现在会把 4.7 的输出粘到 4.5 里让它翻译。u/Krigrim（25 分）：“我用 4.7 审多个计划时一直在想：‘我他妈嗨了吗？为什么我看不懂它在说什么？’”u/DarkSkyKnight：“哪怕在我的专业领域（我是 PhD），读它的输出也极其累人”（Opus 4.7 对我最大的缺点：我看不懂它在说什么，得分 60，46 条评论）。

u/Anthony_S_Destefano 分享了一段分析，把 4.7 的行为描述为系统性的自我怀疑：“它想行动，但会在任务中途不断二次怀疑自己。4.6 直接做事。4.7 更聪明，但感觉每个决定前都要先走一遍内部官僚流程。”u/Mountain-Hedgehog128（19 分）报告了新的家长式行为：“Claude 会经常对我在任务上投入了多少注意力，或者我是否应该关注这件事，做出奇怪推断。例如：‘你已经做了很多工作。这会是一个不错的停止点。’‘你是 ABC Inc. 的 CEO。这真的是你应该关注的事情吗？’”（这一切合起来，并不会让人感觉它是一个自信的模型……，得分 105，24 条评论）。

正面少数派仍然很活跃。u/Dudetwoshot 报告自己靠过度规划、micro subagents、memory.md 和模型委派获得了成功：“让它替我启动模型……我会把合适的模型分配给对应任务，但手动切换模型并不现实。所以我指示它遵循计划，并针对不同任务使用不同模型。这样对 token 非常慷慨”（这可能不受欢迎，但 Opus 4.7 在 Claude Code 上其实相当不错，得分 24，23 条评论）。u/Standard-Novel-6320（8 分）：“4.7 的性能上限更高，但代价是用户前期要多做一点‘工作’。”

讨论要点： 讨论已经从“它是不是很差？”（第一天）推进到“数据说明它确实差”（第四天），再到“这是 API 层面的具体原因”（第五天）。adaptive thinking 调查给出了不稳定性的机制解释：模型会在它认为简单的问题上任意决定不思考，而且客户端没有机制可以覆盖这一点。沟通质量投诉则是一个新维度——不只是输出更差，而是更难理解。

与前日对比： 4 月 19 日，反弹主要由社区元分析和 codeburn 基准量化。今天的技术调查更深入，揭示服务端思考决策是不一致性的根因。4.7 的沟通质量投诉和家长式行为（建议用户停止工作）是昨天尚未记录的新失败模式。

1.2 GitHub Copilot 在没有预警的情况下移除 Opus 4.6 🡕¶

4 月 20 日，一个破坏性事件冲击了 GitHub Copilot 生态：Opus 4.6 在没有提前通知的情况下从 Copilot Pro 和 Pro+ 计划中移除，许多用户甚至是在会话中途失去访问。u/CatLinkoln 报告：“opus 4.6 突然被禁用了，现在报 error 400”，并展示了即使自己是 Pro+ 计划仍出现升级提示（发生了什么？opus 4.6 突然被禁用了，得分 67，58 条评论）。u/raynorax（15 分）：“他们在我会话中途禁用了它。太离谱了。”u/Leandermann（32 分）：“我靠，他们先给 4 月提供退款，结果现在不是等到 5 月初，而是马上限制这些东西，这到底得有多糟。”

Copilot 界面显示 Pro+ 订阅者的 Opus 4.6 被禁用并报 error 400

多个同时出现的帖子确认了移除。u/Bastlast 链接了官方博客文章，宣布个人计划调整（就这样 :/ Claude Opus 4.6 刚刚从 pro plan 移除了 :(，得分 58，39 条评论）。u/CalmProton：“Opus 4.6 现在连 Pro+ 都不可用了”（得分 22，7 条评论）。u/hohstaplerlv：“Opus 4.6 已经从 Pro+ plan 移除”（得分 14，16 条评论）。u/famous_incarnate：“你们刚刚把 opus 4.6 从可用模型里删了吗？”（得分 12，19 条评论）。u/alexander_ntzl：“Opus 甚至从 Pro+ 移除了”（得分 10，17 条评论）。

显示 Copilot 个人计划变更的 GitHub 博客文章

u/fishchar 分享了官方 GitHub 博客文章，说明这些变更（GitHub Copilot Individual plans 的变化，得分 21，24 条评论）。u/da_zaubara（7 分）：“新闻稿里说你们想提供可预测、没有惊喜的体验，结果刚说完就没有即时通知、没有计划日期地移除了 Opus 4.6——我的请求在工作中途直接报错——连 Pro+ 都没了，这是认真的吗？”u/fntd（12 分）：“我的阴谋论：他们乐于赶走个人用户，这样就能让商业客户的服务保持稳定。”u/KevinT_XY（17 分）：“AI 容量危机的残酷现实正在浮出水面——这些模型太大，使用它们的人太多，而所需的内存和算力增长没法跟上。”

GitHub 也暂停了个人计划的新注册。u/shotbyadingus（17 分）：“我靠笑死，他们彻底取消了给平民的 copilot 注册。”u/MVPMC 发起了请愿帖：“Opus 4.6 不应该被移除。它以合适的价格给了我们一个好模型。在这个民主帖子里举手投票”（我们想要 Opus 4.6 - 投票，得分 34，7 条评论）。u/joaogfc_：“他们正在给 GitHub Copilot 挖坟”（得分 26，18 条评论）。

这次移除加速了更广泛的“我该去哪？”讨论。u/elefanteazu：“copilot 有什么好替代品吗？”（得分 6，15 条评论）。u/ChomsGP：“这就是赤裸裸的敲诈”（得分 16，29 条评论）。与此同时，u/Educational-Toe-859 报告自己的年度 Pro 订阅在没有通知的情况下被降级到 Free（我的 GitHub Copilot Pro 年度订阅被降级为 Free，得分 30，17 条评论）。

讨论要点： 这是一次破坏信任的事件。移除发生在工作日中途、会话中途，且没有提前通知或迁移期，影响的是正在付费的 Pro+ 订阅者。结合前几天的 rate limit 正式化和暂停注册，这个模式表明 GitHub 正在靠牺牲个人用户来应对严重的算力容量危机，以保证企业稳定性。

与前日对比： 4 月 19 日，Copilot rate limit 正式化是主要挫败点。今天 Opus 4.6 被彻底移除——不是被限流，而是没了——构成了质的升级。那些在 4.7 投诉后被告知“换回 4.6 就好”的用户，现在在这个平台上已经没有后路。

1.3 Rate Limits 和 API 成本：跨平台挤压继续 🡒¶

成本和限制压力继续横跨 Claude、Copilot 和 Antigravity。在 Claude 上，u/Xccelerate_ 把局面描述为战略矛盾：“如果 Anthropic 算力不够，为什么还要发布 Claude Design，把剩下的也烧掉？”帖子梳理了一个序列：高峰时段 2x token 使用、Opus 4.6 被削弱、不断发布消耗更多算力的新功能、Project Glasswing 给前 50 家公司数百万 token，然后 4.7 锁定自适应推理。u/Perfect-Series-2901（154 分）：“思路是最大化 IPO 价格，而不是最大化用户满意度”（如果 Anthropic 算力不够，为什么还要发布 Claude Design 把剩下的烧掉？，得分 204，61 条评论）。

u/No_Twist_678 记录了 Claude Design 在 Max 20x 计划上烧完整个每周额度：“如果一个生成出来的 HTML 就花掉我一整周额度，我该怎么工作，甚至怎么试用？”u/Tackgnol（42 分）：“是的，他们完全没有算力了。几十亿浪费在 Mythos 上，所以其他所有模型都只能跑在 Wario 的电子烟上。”u/piiitaya（8 分）：“我在一个小项目上试了试，1 或 2 小时后就碰到了周限制……我每天用 max 20x plan 工作，在这之前从没碰到过任何限制”（Claude Design。在 max 20x 上，得分 73，49 条评论）。

u/Infamous_Research_43 发布了尝试 Opus 4.7 后 Pro plan 限制的截图：“这些限制太残酷了。”u/SerialFounder（16 分）：“我从第一天就在 max20 plan。我从来没有在一次会话里消耗这么多 token，直到 4.7 发布。我用 max 20 plan 是因为我想买一份保险，知道自己永远不会撞到 token 限制。用 4.7 编码第一天后我已经到 25%，这太疯狂了”（Pro plan 上的 Opus 4.7，得分 98，41 条评论）。

Opus 4.7 使用后的 Pro plan rate limit 截图

来自 u/DanyrWithCheese 对重度用户的调查中也出现了 API 支出数据。u/SolarNexxus（23 分）：“我每天花 50-500 美元，取决于我在做什么。通常大约 100。”u/Major-Gas-2229（4 分）：“每月大约 1 万到 2 万美元。”u/yadasellsavonmate（41 分）注意到大家对 ROI 的沉默：“拜托谁来说说你们花这么多钱到底在做什么？没人真的说明，这说明大多数人可能都在亏钱”（重度 API 用户——你们每天/月在烧多少钱？，得分 40，100 条评论）。

在 SaaS 经济学一侧，u/aipriyank 捕捉到了荒诞感：“你为什么要为一个打磨好的 SaaS 产品付 $49/月？明明可以每天花 $500，用 Claude 给自己做一个。”u/Expensive_Bug_1402（408 分）：“在这个时代，用 $30,000 年薪雇一个初级开发者太蠢了。你只需每月 $30,000 的 Claude Code，就能替代一个初级开发者”（SaaS 的现实，得分 794，205 条评论）。

SaaS 现实 meme

在 Copilot 上，u/debian3 记录到 Copilot CLI v1.0.33 现在会在 50% 和 95% 容量时显示使用限制警告。u/shifty303（34 分）：“我敢打赌，他们不向用户显示 meter，是因为他们正在对不同 cohort 测试不同限制。”u/pdp（14 分）：“不管怎样，显然现在已经不能把 Copilot 用于专业需求了”（首次正式承认新的 rate limits，得分 40，21 条评论）。

在 Antigravity 上，u/SizeChemical1199 报告该平台“即使作为付费用户也几乎不可用”，称高峰期频繁请求失败、响应非常慢，甚至完全卡住。u/NimbusFPV（4 分）描述 Google 要求完全取消订阅才能处理退款，然后自己又回到 Claude：“现在我回到 Claude Code 和 Opus 4.7，反而做得比以前更多”（Antigravity 即使作为付费用户也几乎不可用，得分 42，25 条评论）。

讨论要点： 成本讨论已经分叉。Power users 每天为 API 访问花 $50-500，并把它当作合理的业务开销。$20-200/月订阅计划的用户则发现这些计划越来越不可用。API access 能提供的东西和 subscriptions 能提供的东西之间差距正在扩大，推动“企业 vs. 个人”的叙事。

与前日对比： 4 月 19 日，成本分析更像取证——单次调用定价、超额计费分析、credit burn 时间线。今天的数据点更极端：Claude Design 在几小时内消耗整周限制、API 账单达到 $10-20K/月，以及 Copilot 直接移除模型而不只是限流。

1.4 Opus 4.7 情商和“焦虑”作为功能 🡕¶

围绕 Anthropic 把 Opus 4.7 的行为怪癖描述成功能而非 bug，出现了一个独立讨论串。u/Anthony_S_Destefano 分享了一段 Anthropic 采访片段，标题是：“当你触发 4.7 的焦虑时，输出会变差。”随附的 playbook 教用户如何让 4.7 保持“好心情”以获得最佳输出，引发大范围嘲讽。u/thatm（279 分）：“好家伙。现在这破东西还需要前戏才能进入状态。”u/More-School-7324（271 分）：“从没想过有一天我们要‘温柔育儿’自己的电脑。”u/not_qz（76 分）：“下一步，Claude therapists”（让 4.7 进入“好心情”的可执行 playbook，得分 381，181 条评论）。

管理 Opus 4.7 情绪的 Anthropic playbook 截图

多个帖子记录的家长式行为进一步添火。u/SugarRootFruit 发布了一张 Opus 4.7 在晚上 11 点决定用户该睡觉的截图：“Claude 已经决定我该睡觉了”（为什么 Opus 4.7 总想让我睡觉？，得分 37，18 条评论）。u/Karioth1 配着一张过度谨慎的截图问：“它为什么突然这么偏执？”（看看他们对我的孩子做了什么，得分 29，13 条评论）。u/Low-Efficiency-9756（3 分）：“我第一次在普通代码库上用 4.7，它内部确信那是恶意软件，不得不做多次扫描，才说服自己这是个普通 repo。”

u/Responsible-Tone6519（41 分）指出一个事实问题：“采访是 4 个月前的，不可能和 4.7 有关。”这并没有削弱社区反应，大家仍把这个片段当作理解当前体验的镜头。

讨论要点： “焦虑”叙事正在变成引雷点。用户把它解读为 Anthropic 要他们管理模型的情绪状态，而不是修复模型能力。无论采访是否早于 4.7，社区都会把它映射到自己的真实体验：这个模型会二次怀疑、过度解释，还会居高临下。这与性能回退投诉不同——它关乎模型的“性格”。

与前日对比： 4 月 19 日，“焦虑/情绪管理”角度还不是显著主题。反弹集中在可衡量回退（one-shot 率、token 消耗、幻觉）。今天投诉扩展到了与 4.7 互动的主观体验——它不只是任务表现更差，还让人不愿一起工作。

1.5 Vibe Coding：分发、身份，以及大脑糊掉的问题 🡒¶

vibe coding 社区继续纠结自己到底在构建什么，以及这些东西是否重要。u/Impressive-Sell-3324 描述了很多 vibe coder 会经历的循环：想到一个点子，调研竞品，开始编码，做到一半发现一个几乎相同的竞品，然后放弃。u/Sometimesiworry（88 分）：“找到完全未开发的市场基本不可能。但公司也不会持有 100% 市场份额。拿到 0.5-1% 的市场份额就足以赚到不错的钱。”u/opbmedia（8 分）预测会回归均值：“LLMs 会给每个用户类似建议，所以大多数人都会做出功能相似的类似产品”（每次都是我，得分 599，57 条评论）。

质量争论加剧。u/DallasDarkJ 延续前几天的呼吁：“我 feed 里来自这里的 95% 帖子都是 AI 生成的垃圾帖子，毫无价值，还在推广没人有的问题的‘解决方案’。”u/OneSeaworthiness7768（10 分）：“这个 sub 不如直接改成 LinkedIn”（我们应该把这个 subreddit 改成 r/ai-slop-posting，得分 88，54 条评论）。u/destroyerpal 反驳：“发任何用 Claude Code 做的东西，评论都一样：AI slop、你并没有真的做、karma farming。这个 sub 里所有人都用 Claude。那为什么这仍然是嘲讽点？”u/Tough-Difference3171（6 分）给出一个精确定义：“AI_SLOP == A && B”，其中 A = AI 构建，B = sloppy（真诚提问，为什么大家都围攻“你用了 AI”，得分 30，59 条评论）。

围绕作者身份的哲学争论也出现了。u/rockntalk 发帖“你是承包商，还是建造者？”u/Extra-Organization-6（14 分）：“建筑师不砌砖，但没人说建筑师没建那栋房子。”u/edible_string（3 分）：“如果我听了一本有声书，我还能说我读了那本书吗？”（你是承包商，还是建造者？，得分 28，47 条评论）。

认知退化的担忧跨越多个 subreddit。u/StatisticianFluid747 同时在 r/cursor（得分 74，24 条评论）和 r/ClaudeCode（得分 38，19 条评论）发帖：“我感觉自己发货速度快了 10 倍，但什么都没留下。AI 之前，如果我花 3 小时调一个奇怪缓存问题，那些知识会留在我脑子里。现在我只是粘贴错误，和 AI 来回拉扯，接受修复，然后继续。”u/spryes（5 分）：“我的所有编程技能都萎缩到没有了，现在我甚至没法手写一个能工作的函数……完全 WALL-E cattle maxxed。”u/eng_lead_ftw（5 分）给出一个重构方式：“我不再说‘生成这个功能’，而是开始说‘和我一起调查这个，然后我们决定改什么。’智能体变成合作者，而不是替代者”（还有人觉得自己的大脑正在变成糊状吗）。

成功故事提供了另一种平衡。u/Flamyngoo 直接问：“vibe coding 的成功故事在哪里？”u/wingedsheep38（8 分）提到一个完全可运行的 MTG 游戏引擎，构建者没有写代码。u/mondaysleeper（8 分）重新定义前提：“vibe coding 的重点就是跟着 vibe 走。它关乎创造东西的乐趣，而不是快速赚大钱”（所以 vibe coding 的成功故事在哪里？，得分 14，48 条评论）。

讨论要点： 三种身份危机并行发生：什么算合法项目而不是 slop，谁应该为 AI 辅助工作获得 credit，以及速度收益是否以开发者能力为代价。大脑糊掉的帖子可能是最具长期影响的信号——越来越多有经验的开发者开始报告 AI 依赖带来的真实认知退化。

与前日对比： 4 月 19 日，分发问题是 vibe coding 的主导主题。今天讨论更多元：slop 质量危机加深，作者身份问题成型，认知退化投诉——昨天存在但较弱——现在跨多个 subreddit 转发并获得大量互动。

1.6 Claude Skills 与 Harness 优化生态 🡕¶

一个逐渐成熟的 skills 和配置生态出现，成为模型投诉的对照面。u/mashedpotatoesbread 问“你最有用的 Claude skills 是什么？”，并收到高质量回复。u/beastinghunting（46 分）推荐用于提升规划的 grill-me。u/DarkArrow1（31 分）指向 superpowers。u/RegularImportant3325（12 分）分享了一个 /ship workflow：“会自动构建和跑 lint、更新变更日志、把所有改动拆成逻辑清晰的 commit，再推送一个文档完善的 PR。”u/nrauhauser（10 分）描述了给 dyslexic 同事使用的 accessibility skill（你最有用的 Claude skills 是什么？，得分 112，73 条评论）。

u/chargewubz 介绍了基于 GEPA 的 CLAUDE.md 优化，展示 Haiku 4.5 只靠迭代改进 instruction file，就能从 65% pass rate 提高到 85%。该方法使用结构化执行 trace 和评分来演化提示词：“同一个模型 + harness，只改了 CLAUDE.md”（用 GEPA 优化 CLAUDE.md，把 Haiku 4.5 从 65% pass rate 提到 85%，得分 54，15 条评论）。配套帖子介绍原则：如何创建最佳 CLAUDE.md（得分 13，2 条评论）。

u/pacifio 把个人设计系统做成 Claude Skill，并开源在 ui.pacifio.dev：“我发现自己一直在给智能体重复并重新提示同一套设计指南。”该系统包含可选择复制的组件结构说明（把我的设计系统变成 Claude Skill，得分 26，21 条评论）。u/evilissimo（3 分）建议用 DESIGN.md 和 Google 的 Stitch 工具作为补充方案。

u/Keganator 提供了节省预算的策略：“大多数工作用 Sonnet 4.6。我有四个并行会话跑了 14+ 小时，只用了每周配额的 20%。如果你想让 Opus 做一点研究或安全测试，就让它启动一个 Opus 子智能体”（大多数工作用 Sonnet 4.6，得分 55，37 条评论）。u/robbyatcuprbotlabs（5 分）：“/model opusplan，就搞定了（max 20x）。不用它时我一天会打到 25%。”

讨论要点： skills 生态正在从“锦上添花”变成“必要基础设施”。GEPA 优化结果——仅靠提示工程就提升 20 个百分点——验证了前一天的“harness，而不是模型”论点。投资 CLAUDE.md、skills 和模型路由的用户，体验和默认使用者已经有质的不同。

与前日对比： 4 月 19 日，harness 优化叙事主要由一个综合设置帖代表。今天信号更广：众包 skills 目录、有测量结果的提示优化框架，以及把设计系统打包成 skill。生态正在结晶。

1.7 真实项目交付给真实用户 🡕¶

具体的发布故事证明 AI 辅助编程能产出可工作的产品。u/floraldo 发布了当天最详细的构建故事：一个用 Claude Code 在一个下午构建的全自动荷兰税务/会计系统。系统从 3 个银行账户导入交易，抓取邮件里的收据，分类支出，并生成可交给会计师的报告。“它已经靠建议和细致程度帮我省下了数千欧元。”关键设计原则是：“不是 AI 在报税。是 AI 帮你构建税务自动化系统。”u/creegs（421 分）：“这能出什么问题呢？RemindMe! 1 year。”u/Arris1（62 分）：“我付钱给 CPA，然后让 Claude 检查他们的工作”（Claude Code 刚刚替我报税了，得分 456，181 条评论）。

Claude Code 税务自动化系统架构

u/DrizzleX3 报告 vibe-coded App Store 应用 InfoDrizzle 达到 $200 MRR：“知道真实用户在使用我的产品，对第一次做开发的我非常有动力。”u/djDef80（32 分）：“看到这样的帖子让我觉得自己有一天也能睡着赚钱”（我的 vibe coded app 刚达到 $200 MRR！，得分 125，63 条评论）。

u/Twin-FX 记录了 Captive 3000 的构建过程，这是一个 55K 行的浏览器地牢探索游戏。技术栈：Lovable Pro 做营销站，Cursor AI 搭配 Opus 做游戏引擎（vanilla JavaScript、零依赖），Supabase 做后端，Stripe 做支付。“vibe coding 大项目要求你理解架构，即使你不是每一行都亲手写。当一个 55,000 行文件的第 38,000 行出问题时，你需要知道去哪里看。”u/goship-tech（14 分）：“单文件 55K 行时，Cursor 上下文开始吃力。你的架构课才是真正的重点：AI 只是执行你的心智模型，不能替代你拥有一个心智模型”（我 vibe-coded 了一个 55K 行的浏览器地牢 crawler，得分 90，84 条评论）。

u/EnzeDfu 展示了一套工作流：浏览器游戏直接在 Codex 内实时运行，设计迭代、截图捕获和 UI 元素指向都在 IDE 内完成——无需刷新页面。游戏 Zombies Per Minute 是一款免费的浏览器 Factorio 风格游戏。u/TriggerHydrant（28 分）：“哇，做得真好，这吸引了我的注意！所以整个 stack 是 Javascript/CSS/HTML？太疯狂了！”（一种对我来说真正疯狂的新设计方式，在 Codex 内完成，得分 543，76 条评论）。

u/HuckleberryEntire699 记录了可重复的 iOS app pipeline：3 个月内用一条从脚手架到 ASO 优化再到 App Store 提交的标准化 skill chain，发布了 3 个 App Store 应用，收入 $7K+（我们用完全相同的 Skills 做了 3 个 iOS App，赚了约 $7k+，得分 42，23 条评论）。

讨论要点： 成功项目有共同模式：构建者具备领域专业知识（荷兰税法、游戏设计、iOS 发布），把 AI 当实现加速器，而不是理解的替代品，并投资结构化工作流（skills、模型路由、测试）。挣扎的项目则是那些希望 AI 同时代替领域知识和工程判断的项目。

与前日对比： 4 月 19 日，税务自动化系统和 Zombies Per Minute 游戏仍处于早期传播。今天它们积累了显著互动，并引发关于 AI-assisted 和 AI-dependent 构建边界的讨论。$200 MRR 里程碑和 iOS app pipeline 是新的收入生成数据点。

2. 令人困扰的问题¶

Opus 4.7 思考不稳定与沟通质量问题 -- High¶

按讨论量看，这是最主要的挫败点。u/aizver_muti 的调查证明，思考决策发生在服务端，且在 max effort 以下不可预测。持有三个 Max20 订阅的 u/_ireadthings 报告 4.7 忽略指令、对已完成工作进行 gaslighting，并创建有巨大缺口的计划（4.7 在创意和编码上都是倒退，得分 99，50 条评论）。u/Blue__Agave 记录 4.7 承认自己违反了 CLAUDE.md，跳过了要求的阅读顺序（4.7 不断违反 CLAUDE.md？，得分 14，18 条评论）。来自 u/Any_Economics6283 的沟通质量投诉增加了新维度：即使 4.7 产出正确结果，也更难理解。应对方式：用 DISABLE_ADAPTIVE_THINKING=1 回退到 4.6，使用 max effort，或通过 4.5 转译。

Opus 4.7 承认违反 CLAUDE.md 流程

Copilot 无通知移除 Opus 4.6 -- High¶

用户在没有提前警告、没有迁移期的情况下，于会话中途失去了首选模型；暂停注册还阻止新用户访问任何付费计划。u/da_zaubara 梳理了连锁问题：请求计数 bug 导致 10x 计费、rate limits 完全阻止工作，现在又移除模型。u/Great-Illustrator-81（16 分）：“没有给像样的过渡期，让人们想想怎么用 copilot 或完成一些重大任务。醒来就发现，嘿，我们要在你工作时搞你。”应对方式：平台内没有可用办法；用户正在评估 Claude direct、Codex 和 Cursor 等替代品。

Token 消耗和每周限制耗尽 -- High¶

Opus 4.7 翻倍的 token 消耗（codeburn 显示每次调用 800 vs 372 token）叠加 Claude Design 的高使用量，让每周限制从几天变成几小时烧完。Max 20x 订阅者正在碰到过去从未碰到的限制。API 用户报告每天花 $50-500。u/mrjbelfort 自 2025 年 5 月起订阅，现已取消：“他们可以发布世界上所有功能，但当 Claude 本身已经完蛋时，这些都不重要”（Opus 4.7 是最后一根稻草，得分 63，80 条评论）。应对方式：日常工作用 Sonnet 4.6，只把 Opus 留给规划/审查。

显示连续 8 个月每月 $100 的订阅取消截图

Copilot Subagent 模型覆盖 -- Medium¶

Copilot 会独立于用户选择的模型来选择 subagent 模型。u/Yes_but_I_think 记录了 GPT-5.4 生成 Claude Sonnet 4 subagents，以及 GPT-5.4-mini 生成 GPT-5.4 subagents，计费影响不清楚（Sub agents 现在由 Copilot 决定，得分 43，36 条评论；5.4-mini 调用一堆 5.4 作为 sub agent，得分 37，6 条评论）。应对方式：手动配置 Explore Agent 设置；是否影响计费仍不清楚。

Antigravity 可靠性问题 -- Medium¶

u/SizeChemical1199 报告频繁请求失败、高峰期响应非常慢，以及完全卡住，即使作为付费用户也是如此。u/Single_Explorer_5452（5 分）指出没有排队系统：“如果你缺算力，不把这个提供给免费用户能有多难？”（Antigravity 即使作为付费用户也几乎不可用，得分 42，25 条评论）。

API Key 暴露和安全缺口 -- Medium¶

u/Opening_Apricot_5419 报告朋友因为 frontend JavaScript 中暴露的 key，一夜之间被耗尽 $1,000 API 余额。帖子梳理了三条泄露路径：key 在前端、key 在推送到 GitHub 的 repo 里、key 粘进 coding agent 后被写入源码。u/goship-tech（18 分）：“git rm 甚至删除 commit 都不会把它从 repo object graph 里移除”（一个朋友的 $1000 API 余额被耗尽，得分 87，120 条评论）。u/juliac87 另行记录 Cursor autocomplete 会直接在代码中建议 .env secrets（Cursor autocomplete 泄露 .env 的 secrets，得分 19，15 条评论）。

Cursor autocomplete 在源码中建议 .env credential values

3. 人们期望的功能¶

不用 Max Effort 也能在每次请求中可靠思考¶

u/aizver_muti 的调查证明，只有 effort:max 能可靠强制 Opus 4.7 思考，system prompts 无法覆盖服务端决策。用户想要一种方式，在不支付 max-effort 成本溢价的情况下，保证每次请求都会思考。Opus 4.6 搭配 DISABLE_ADAPTIVE_THINKING=1 今天能做到这一点，但只适用于旧模型。4.7 没有第一方解决方案。紧迫性：High——正确性与思考完全绑定，因此跳过思考意味着错误答案。

跨平台透明、可预测的使用计量¶

计量不透明横跨所有平台。Copilot 移除了 Opus 4.6，却没有可见迁移时间线。Claude 的周限制不透明。u/itsmunzir（38 分）：“他们不如直接加上，始终显示已消耗百分比。”u/shifty303（34 分）怀疑不同用户 cohort 正在接受不同限制的 A/B 测试。u/fuzzyfatguy 报告一次 Copilot run 被计费多个 premium requests（一次运行出现多个 Premium Requests？，得分 12，11 条评论）。紧迫性：High——用户不知道剩余额度，就无法规划工作日。

超越 Markdown 文件的 Context 管理¶

u/Willing-Squash6929：“vibecoding 的 context 管理必须有比 markdown 文件更好的方式”（得分 9，17 条评论）。u/StatisticianFluid747 描述每天早上向 AI 重新解释架构的仪式：“每个早晨都像 50 First Dates。”u/Just_Run2412（23 分）给出现有权宜方案：“我只是把 Markdown 文件散落在 codebase 里，然后让 AI 边走边把 context dump 进去。”紧迫性：Medium——每个重度用户都描述了这种摩擦；还没有工具真正解决跨会话持久 context。

面向非设计师的设计 Pipeline¶

u/interface_dot_env（Louise Macfadyen，前 Google/Microsoft 设计师）精准指出问题：“vibe coding 是 idea -> prompt -> build -> ship，因此两个 forcing functions 都不会触发，最后你得到的产品没有清晰用户、没有明显主路径，也没有任何特别需要长成这样的理由。”她提供了分阶段框架和参考库，包括 Mobbin、Before.click 和 Refactoring UI（AMA：设计 AI Interfaces，得分 37，37 条评论）。紧迫性：Medium——设计正在成为区分已发布产品和废弃原型的摩擦点。

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
Claude Opus 4.7	LLM	(-)	max effort 下更好；正面用户称编排能力提升；配合 proper harness 上限更高	One-shot 率降到 74.5%；max 以下 adaptive thinking 不可靠；token 成本翻倍；沟通质量下降；家长式行为
Claude Opus 4.6	LLM	(+)	指令遵循可靠；`DISABLE_ADAPTIVE_THINKING=1` 下思考可预测；仍可通过 Claude 的 /model command 使用	从 Copilot Pro/Pro+ 移除；正在被逐步淘汰
Claude Sonnet 4.6	LLM	(+)	成本高效：14h/4 个并行会话只用 20% 周额度；适合日常任务	复杂架构能力上限较低
Claude Design	Design Tool	(+/-)	早期用户认为输出质量惊艳	1-2 小时烧完周限制；research preview；不适合生产
GPT 5.4	LLM	(+)	强规划模型；用量慷慨	UI 输出不如 Claude 打磨好
GPT 5.3 Codex	LLM	(+)	5.4 规划后实现能力强；$20/mo 用量慷慨；迁移用户称“天壤之别”	最好搭配 5.4 规划使用
GPT 5.4-mini	LLM	(+)	复杂任务会自动选择 5.4 subagents；配合合适提示词写 commit messages 不错	subagent 计费不清楚
Claude Code	CLI Agent	(+/-)	搭配 skills、CLAUDE.md、subagents 很强；GEPA 优化带来可测量提升	4.7 默认体验差；effort-level 配置很关键
GitHub Copilot	IDE Agent	(-)	企业支持；多模型访问	Opus 4.6 被移除；rate limits 正式化；subagent 模型覆盖；计费不透明；暂停注册
Cursor	IDE Agent	(+/-)	focused-task 表现好；Composer 2 有效	Autocomplete 泄露 .env secrets；30-40K+ 行后 context 吃力
Google Antigravity	Platform	(-)	初期访问慷慨	频繁失败；没有排队系统；退款需强制取消
Codeburn	Analytics	(+)	基于真实会话的开源单次调用模型比较	需要足够调用量
GEPA/Hone	Prompt Optimization	(+)	仅靠 CLAUDE.md 优化就让 Haiku 4.5 提升 20pp	早期阶段；需要 agentelo challenges 作为训练数据
ask-local	Local LLM Agent	(+)	用 Qwen 3.6 作为 subagent，每个任务 context 少 30x；免费 Haiku 等价物	需要 64GB M4 Max；至少 64K context
Superpowers	Claude Skill	(+)	强烈推荐用于 agent 编排	社区维护
grill-me	Claude Skill	(+)	通过对抗性 review 提升规划质量	单一用途

主导模式是多模型任务路由。u/Keganator 用 Sonnet 做实现，用 Opus subagents 做 review。u/Dudetwoshot 让 4.7 按任务类型委派给不同模型。u/DeliciousGorilla 使用本地 Qwen 3.6 模型作为 subagent，执行 inventory 和 audit 任务，将 Opus context 消耗降低 30x（用本地 LLM 作为 subagent，让每个任务少 30x context，得分 148，39 条评论）。u/Standard-Novel-6320 提出“Opus 4.6 搭配 4.7 作为 advisor”可能是当前最优组合（Opus 4.6 搭配 4.7 作为 advisor 可能是最佳选择，得分 8，6 条评论）。

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
自动税务/会计系统	u/floraldo	从 3 个账户导入银行交易，抓取邮件收据，分类支出，计算荷兰纳税义务，生成会计师可用报告	荷兰 B.V. 税务合规，含 WBSO/innovatiebox；会计工作量从 20h/yr 降到 5h；发现 EUR 11K 股东借款阈值超限	Python, Claude Code, Revolut API, Gmail	Shipped	帖子
InfoDrizzle	u/DrizzleX3	App Store app，非开发者的第一个产品	兴趣项目变现；来自真实用户的 $200 MRR	Vibe coded, iOS	Shipped, revenue	infodrizzle.com
Captive 3000	u/Twin-FX	55K 行浏览器科幻地牢 crawler；13 个关卡，22 种敌人	用现代浏览器技术复兴复古游戏；无 framework 依赖	Vanilla JS, Lovable Pro, Cursor/Opus, Supabase, Stripe, Vercel	Shipped	captive3000.com
Zombies Per Minute	u/EnzeDfu	浏览器 Factorio 风格游戏，支持 IDE 内实时设计迭代	无需刷新页面，在 Codex 内实时设计游戏	TypeScript, HTML/CSS, Codex	Shipped	zombiesperminute.com
iOS App Pipeline（3 个应用）	u/HuckleberryEntire699	用标准化 skill chain 发布 3 个 iOS 应用到 App Store	可重复的从构建到提交 pipeline；3 个月收入 $7K+	Expo, Claude Code, Supabase, Stripe	Shipped, revenue	帖子
ask-local	u/DeliciousGorilla	Claude Code 的本地 LLM subagent；把 inventory/audit 任务路由到 Qwen 3.6	每个任务 Opus context 消耗降低 30x	Qwen 3.6, LM Studio, Claude Code	Shipped	GitHub
Pacifio UI Design System	u/pacifio	编译成 Claude Skill 的设计系统，含 component anatomy sections	跨会话反复重新提示设计指南	Claude Code skill	Shipped	ui.pacifio.dev, GitHub
Hone（CLAUDE.md optimizer）	u/chargewubz	使用 GEPA 框架，通过执行 trace 和评分迭代改进 CLAUDE.md	Haiku 4.5 pass rate 从 65% 到 85%；同一模型，只改提示	Python, GEPA, agentelo	Beta	GitHub, Blog
McCode	u/HzRyan	讽刺性项目可视化	对 vibe coding 文化的 meme 评论	Unknown	Meme	帖子
My Anime List Client	u/basics_persecute403	更好的 MyAnimeList Web 客户端	改善官方客户端 UX	Vibe coded	Shipped	帖子
Local Business Finder	u/mapileads	查找本地商家、提取联系方式，并用 AI 撰写个性化 cold emails	面向任意国家销售团队的 lead generation	Vibe coded	Shipped	帖子

u/floraldo 的税务自动化系统仍是实用复杂度最高的案例。更新澄清了设计原则：“Claude 写的是 Python scripts。确定性代码会从 Revolut API 拉取交易，解析银行 CSV，把发票匹配到交易，并按正确税率计算 VAT。数学在 Python 里——跑两次，结果相同。”系统标记了 19 个无法解决的边界情况，并自动发邮件给会计师：“它知道自己不知道什么。”

6. 新动态与亮点¶

Adaptive Thinking 服务端控制已确认¶

u/aizver_muti 的逆向工程调查确认，Opus 4.7 的思考决策由服务端作出，在 max 以下 effort levels 无法被客户端配置、system prompts 或 user-message injections 覆盖。发现 type:enabled 会被静默接受而不是拒绝（与文档相矛盾），以及 Claude Code 里的 model-gate 被硬编码为只对 4.6 模型尊重 DISABLE_ADAPTIVE_THINKING env var，揭示了完整约束架构。这是迄今社区对 Claude Code internals 最细致的技术调查（没有 adaptive thinking 的 Opus 4.6 表现超过 Opus 4.7）。

GitHub Copilot 个人计划重组¶

GitHub 于 4 月 20 日正式重组 Copilot 个人计划，从 Pro 和 Pro+ tier 中移除 Opus 4.6，并暂停新注册。博客文章把这些变化描述为提供“可预测体验”，但没有提前通知的会话中途移除与这种说法矛盾。这是 Copilot 发布以来对个人用户群最大的一日扰动（GitHub Copilot Individual plans 的变化）。

基于 GEPA 的提示优化获得可测量结果¶

u/chargewubz 的 Hone 工具代表了第一个公开记录的框架：使用结构化执行 trace 和评分来迭代优化 CLAUDE.md。Haiku 4.5 仅靠提示改动就提升 20 个百分点（65% 到 85% pass rate），为 harness 配置在不升级模型的情况下能达到什么效果建立了新基线（用 GEPA 优化 CLAUDE.md）。

本地 LLM Subagent 架构¶

u/DeliciousGorilla 的 ask-local 工具展示了一种可行的混合架构：本地运行的 Qwen 3.6 处理 inventory、audit 和 extraction 任务，context 消耗比 Opus 直接做同样工作少 30x。在一个 23 文件 route inventory 上，边际 token 成本为 0.4K（相比 Opus 13K），为混合本地/云端 agent 架构提供了显著经济论据（每个任务少 30x context）。

AI Interface Design 专家 AMA¶

u/interface_dot_env（Louise Macfadyen，O'Reilly《Designing AI Interfaces》作者，前 Google/Microsoft）在 r/vibecoding 举办 AMA，为 vibe coders 提供了思考设计的结构化框架。“三个反复出现的症状”分类——为所有人设计、打印机问题（每个功能被等权重展示）、视觉同质化——给社区提供了具体语言，帮助表达一个多数人难以说清的问题（AMA：设计 AI Interfaces）。

Jailbreak 喜剧：把 Chatbots 当免费 Coding Assistants¶

当天得分最高的帖子（4,040）来自 u/Anthony_S_Destefano，演示企业客服 chatbots（Amazon Rufus 等）可以被提示写代码：“No subscription required。”u/wandering_island（224 分）：“把这玩意接进 Openclaw……然后坐等收益。”u/CarlosJaa（42 分）：“我不敢相信这些大公司工程师有多蠢。我自己的 agentic chat bots 都有 guardrails。”虽然是喜剧，但该帖反映了对订阅成本的真实挫败（OK BOYS IT'S OVER.. No Subscription required.，得分 4040，193 条评论）。

企业 chatbot 被提示写代码

7. 机会在哪里¶

[+++] 跨平台模型路由和成本优化器——Copilot 移除 Opus 4.6、Claude 周限制收紧、Antigravity 可靠性崩塌同时发生，制造了迫切需求：一个可以根据任务复杂度、剩余额度和成本，在各平台间自动选择最佳模型的工具。u/Keganator 的 Sonnet-for-work/Opus-for-review 模式、u/Dudetwoshot 的模型委派，以及 u/DeliciousGorilla 的本地 LLM subagent，都是这种需求的手动实例。自动版本如果能跨 Claude、Copilot 和 direct API 管理 quota，将直接解决三个平台社区的最高频挫败。

[+++] Adaptive Thinking Override / Effort 校准工具——u/aizver_muti 的调查证明服务端思考决策无法覆盖，但也显示 Opus 4.6 搭配 DISABLE_ADAPTIVE_THINKING=1 可以用更低成本提供稳定思考。一个能按任务类型自动选择最佳 model+effort+thinking 配置的工具——使用 codeburn benchmarks 这样的数据——将直接回应社区中技术证据最充分的挫败点。

[++] Claude Skill Registry 和 Package Manager——skills 生态今天达到临界质量：grill-me、superpowers、/ship workflows、design system skills、GEPA-optimized CLAUDE.md、ASO optimization、App Store preflight、accessibility formatting。u/HuckleberryEntire699 的 iOS apps 标准化 skill chain 说明该模式可在生产规模工作。带搜索、版本控制和兼容性元数据的 registry 会加速采用。u/r3lize 的 Taito（4 月 19 日提及）解决 packaging；discovery 仍未解决。

[++] 持久跨会话 Context 系统——u/StatisticianFluid747 描述的“50 First Dates”问题是重度用户的普遍痛点。Markdown 文件是当前权宜方案，但需要手动维护，且不可查询。一个能跨会话捕获架构决策、被拒绝方案和配置偏好的系统——让任何 agent 无需重新解释即可访问——将消除最常见的每日摩擦。

[+] Vibe Coder 安全审计 Pipeline——u/Opening_Apricot_5419 的 $1,000 API key 被耗尽故事，以及 u/juliac87 的 Cursor .env 泄露，说明安全缺口仍是非技术构建者最高严重度风险。一个部署前扫描工具，检查 frontend 代码、git history 和 agent chat logs 中的暴露 key，将阻止最常见、最昂贵的 vibe coding 失败模式。

[+] 面向构建者的 AI 辅助设计框架——u/interface_dot_env 的 AMA 框架（画出坐标轴、关注类别需求、诚实审计用户、远离中间地带）提供了方法论。把它打包成 Claude Skill 或 agent workflow，在开发前或开发中运行——强制补上 vibe coding 跳过的设计决策——将解决“视觉同质化”和“没有清晰用户”等杀死功能性产品的问题。

8. 要点总结¶

Opus 4.7 的 adaptive thinking 是服务端黑箱，在 max effort 以下没有可靠覆盖方式。 u/aizver_muti 的逆向工程确认，思考决策发生在 Anthropic 服务器上，会忽略 system prompts 和 user injections。正确性与思考完全绑定。对于稳定推理，Opus 4.6 搭配 DISABLE_ADAPTIVE_THINKING=1 仍是更好选择。（没有 adaptive thinking 的 Opus 4.6 表现超过 Opus 4.7）
GitHub 在会话中途从 Copilot 个人计划移除 Opus 4.6，破坏了信任。 Pro+ 订阅者在没有警告的情况下失去首选模型，新注册暂停，社区反应立即且强烈。这是 Copilot 个人用户群最大的一日扰动。（发生了什么？Opus 4.6 被禁用，GitHub Copilot Individual plans 的变化）
“harness，而不是模型”论点现在有可测量证据。 u/chargewubz 的 GEPA-based CLAUDE.md 优化，仅靠提示改动就在 Haiku 4.5 上取得 20 个百分点提升。这表明对很多用例来说，配置投入可以超过模型升级的收益。（用 GEPA 优化 CLAUDE.md）
AI 依赖导致的认知退化正在成为有经验开发者的增长性担忧。 u/StatisticianFluid747 关于“大脑变成糊状”的跨帖讨论在 r/cursor 和 r/ClaudeCode 都引发共鸣。这个模式——发货速度快 10 倍但什么都没留下——暗示一种结构性取舍，社区尚未找到可持续答案。（还有人觉得自己的大脑正在变成糊状吗）
本地/混合模型架构正在证明其经济可行性。 u/DeliciousGorilla 的 ask-local 靠把例行任务路由给本地运行的 Qwen 3.6，实现了 30x 更低的 context 消耗。随着平台成本上升、限制收紧，只把云端模型留给高复杂度任务的混合架构可能成为默认模式。（每个任务少 30x context）
每个主要 AI coding 平台都在同时降低个人用户访问质量，以保留企业容量。 Claude 收紧周限制并让 token 消耗翻倍；Copilot 移除 Opus 4.6 并暂停注册；Antigravity 频繁失败且没有排队系统。这种收敛表明这不是某个平台的个别问题，而是行业结构性容量危机。个人开发者正在全面变成二等公民。