Reddit AI 编程 - 2026-04-20¶
1. 人们在讨论什么¶
1.1 Opus 4.7 第五天:自适应思考机制被拆解 🡒¶
到第五天,围绕 Opus 4.7 的反弹已经从情绪宣泄转向系统分析。u/aizver_muti 发布了迄今最严谨的技术调查,逆向分析 Opus 4.7 的自适应思考在 API 层到底如何运作。结论很刺眼:Opus 4.7 只支持 type:adaptive thinking,是否思考由服务端决定,而不是客户端。发送 type:enabled 和 budget_tokens(在 4.6 上有效)会被静默接受,但不会产生任何 thinking blocks——API 并没有像文档声称的那样报错,而是直接忽略这个字段。在 max 以下的每个 effort level,模型是否思考都不稳定,而正确性和思考完全绑定:思考时答案正确;不思考时答案错误(没有 adaptive thinking 的 Opus 4.6 表现超过带 adaptive thinking 的 Opus 4.7,得分 60,21 条评论)。
这项调查包括禁用 adaptive thinking 的二进制补丁、用于检查 API 流量的 MITM proxy,以及跨 effort level 的系统测试。结论是:“Opus 4.6 搭配 CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1,在 medium 或 high effort 下,对于需要稳定推理的任务更合适。它每次都会思考,而且成本低于在 max effort 下运行 Opus 4.7。”u/SaintMartini(8 分):“Max effort 的 4.7 对我来说还是会随机幻觉。我改用 max 的 Opus 4.6,使用量更少,结果也更好。”u/Important_Echo_7228:“可靠让 Opus 4.7 思考的唯一办法就是 max effort。其他都像俄罗斯轮盘。”
来自 u/RichensDev 的社区元分析继续作为参考材料流传:110 个帖子、2,187 条评论,反对该模型的 upvote 比例为 90:1。数据显示,32 位用户退回 Opus 4.6,26 位转向 Codex,17 位取消订阅。只有 13 位用户发布了明确正面的看法,而且全部运行在 max 或 xhigh effort。 “4.7 on max”和“4.7 on default”之间的差距仍然是最强信号(Opus 4.7:110 个帖子,2,187 条评论。无偏分析,得分 183,93 条评论)。
u/MurkyFlan567 的 codeburn 基准继续被引用:one-shot 成功率从 83.8% 降到 74.5%,retry rate 翻倍(每次 edit 从 0.22 到 0.46),单次调用成本从 $0.112 升到 $0.185,单次调用输出 token 超过翻倍(372 到 800)。编程 one-shot 率从 84.7% 降到 75.4%(真实编码 3 天后的 Opus 4.7 vs 4.6,得分 454,91 条评论)。u/SovietRabotyaga:“Total cost 字段已经说明了为什么 Anthropic 这么激进地把 4.7 推给我们。”

围绕沟通质量的新行为投诉也出现了。u/Any_Economics6283 发布了一份详细的并排对比,展示 Opus 4.7 和 4.5 如何解释相同技术概念,结论是 4.7 会产出“信息/想法过载,用短促、俏皮、类似 ChatGPT 的短语和术语堆叠表达,反而遮蔽含义”。这位用户现在会把 4.7 的输出粘到 4.5 里让它翻译。u/Krigrim(25 分):“我用 4.7 审多个计划时一直在想:‘我他妈嗨了吗?为什么我看不懂它在说什么?’”u/DarkSkyKnight:“哪怕在我的专业领域(我是 PhD),读它的输出也极其累人”(Opus 4.7 对我最大的缺点:我看不懂它在说什么,得分 60,46 条评论)。
u/Anthony_S_Destefano 分享了一段分析,把 4.7 的行为描述为系统性的自我怀疑:“它想行动,但会在任务中途不断二次怀疑自己。4.6 直接做事。4.7 更聪明,但感觉每个决定前都要先走一遍内部官僚流程。”u/Mountain-Hedgehog128(19 分)报告了新的家长式行为:“Claude 会经常对我在任务上投入了多少注意力,或者我是否应该关注这件事,做出奇怪推断。例如:‘你已经做了很多工作。这会是一个不错的停止点。’‘你是 ABC Inc. 的 CEO。这真的是你应该关注的事情吗?’”(这一切合起来,并不会让人感觉它是一个自信的模型……,得分 105,24 条评论)。
正面少数派仍然很活跃。u/Dudetwoshot 报告自己靠过度规划、micro subagents、memory.md 和模型委派获得了成功:“让它替我启动模型……我会把合适的模型分配给对应任务,但手动切换模型并不现实。所以我指示它遵循计划,并针对不同任务使用不同模型。这样对 token 非常慷慨”(这可能不受欢迎,但 Opus 4.7 在 Claude Code 上其实相当不错,得分 24,23 条评论)。u/Standard-Novel-6320(8 分):“4.7 的性能上限更高,但代价是用户前期要多做一点‘工作’。”
讨论要点: 讨论已经从“它是不是很差?”(第一天)推进到“数据说明它确实差”(第四天),再到“这是 API 层面的具体原因”(第五天)。adaptive thinking 调查给出了不稳定性的机制解释:模型会在它认为简单的问题上任意决定不思考,而且客户端没有机制可以覆盖这一点。沟通质量投诉则是一个新维度——不只是输出更差,而是更难理解。
与前日对比: 4 月 19 日,反弹主要由社区元分析和 codeburn 基准量化。今天的技术调查更深入,揭示服务端思考决策是不一致性的根因。4.7 的沟通质量投诉和家长式行为(建议用户停止工作)是昨天尚未记录的新失败模式。
1.2 GitHub Copilot 在没有预警的情况下移除 Opus 4.6 🡕¶
4 月 20 日,一个破坏性事件冲击了 GitHub Copilot 生态:Opus 4.6 在没有提前通知的情况下从 Copilot Pro 和 Pro+ 计划中移除,许多用户甚至是在会话中途失去访问。u/CatLinkoln 报告:“opus 4.6 突然被禁用了,现在报 error 400”,并展示了即使自己是 Pro+ 计划仍出现升级提示(发生了什么?opus 4.6 突然被禁用了,得分 67,58 条评论)。u/raynorax(15 分):“他们在我会话中途禁用了它。太离谱了。”u/Leandermann(32 分):“我靠,他们先给 4 月提供退款,结果现在不是等到 5 月初,而是马上限制这些东西,这到底得有多糟。”

多个同时出现的帖子确认了移除。u/Bastlast 链接了官方博客文章,宣布个人计划调整(就这样 :/ Claude Opus 4.6 刚刚从 pro plan 移除了 :(,得分 58,39 条评论)。u/CalmProton:“Opus 4.6 现在连 Pro+ 都不可用了”(得分 22,7 条评论)。u/hohstaplerlv:“Opus 4.6 已经从 Pro+ plan 移除”(得分 14,16 条评论)。u/famous_incarnate:“你们刚刚把 opus 4.6 从可用模型里删了吗?”(得分 12,19 条评论)。u/alexander_ntzl:“Opus 甚至从 Pro+ 移除了”(得分 10,17 条评论)。

u/fishchar 分享了官方 GitHub 博客文章,说明这些变更(GitHub Copilot Individual plans 的变化,得分 21,24 条评论)。u/da_zaubara(7 分):“新闻稿里说你们想提供可预测、没有惊喜的体验,结果刚说完就没有即时通知、没有计划日期地移除了 Opus 4.6——我的请求在工作中途直接报错——连 Pro+ 都没了,这是认真的吗?”u/fntd(12 分):“我的阴谋论:他们乐于赶走个人用户,这样就能让商业客户的服务保持稳定。”u/KevinT_XY(17 分):“AI 容量危机的残酷现实正在浮出水面——这些模型太大,使用它们的人太多,而所需的内存和算力增长没法跟上。”
GitHub 也暂停了个人计划的新注册。u/shotbyadingus(17 分):“我靠笑死,他们彻底取消了给平民的 copilot 注册。”u/MVPMC 发起了请愿帖:“Opus 4.6 不应该被移除。它以合适的价格给了我们一个好模型。在这个民主帖子里举手投票”(我们想要 Opus 4.6 - 投票,得分 34,7 条评论)。u/joaogfc_:“他们正在给 GitHub Copilot 挖坟”(得分 26,18 条评论)。
这次移除加速了更广泛的“我该去哪?”讨论。u/elefanteazu:“copilot 有什么好替代品吗?”(得分 6,15 条评论)。u/ChomsGP:“这就是赤裸裸的敲诈”(得分 16,29 条评论)。与此同时,u/Educational-Toe-859 报告自己的年度 Pro 订阅在没有通知的情况下被降级到 Free(我的 GitHub Copilot Pro 年度订阅被降级为 Free,得分 30,17 条评论)。
讨论要点: 这是一次破坏信任的事件。移除发生在工作日中途、会话中途,且没有提前通知或迁移期,影响的是正在付费的 Pro+ 订阅者。结合前几天的 rate limit 正式化和暂停注册,这个模式表明 GitHub 正在靠牺牲个人用户来应对严重的算力容量危机,以保证企业稳定性。
与前日对比: 4 月 19 日,Copilot rate limit 正式化是主要挫败点。今天 Opus 4.6 被彻底移除——不是被限流,而是没了——构成了质的升级。那些在 4.7 投诉后被告知“换回 4.6 就好”的用户,现在在这个平台上已经没有后路。
1.3 Rate Limits 和 API 成本:跨平台挤压继续 🡒¶
成本和限制压力继续横跨 Claude、Copilot 和 Antigravity。在 Claude 上,u/Xccelerate_ 把局面描述为战略矛盾:“如果 Anthropic 算力不够,为什么还要发布 Claude Design,把剩下的也烧掉?”帖子梳理了一个序列:高峰时段 2x token 使用、Opus 4.6 被削弱、不断发布消耗更多算力的新功能、Project Glasswing 给前 50 家公司数百万 token,然后 4.7 锁定自适应推理。u/Perfect-Series-2901(154 分):“思路是最大化 IPO 价格,而不是最大化用户满意度”(如果 Anthropic 算力不够,为什么还要发布 Claude Design 把剩下的烧掉?,得分 204,61 条评论)。
u/No_Twist_678 记录了 Claude Design 在 Max 20x 计划上烧完整个每周额度:“如果一个生成出来的 HTML 就花掉我一整周额度,我该怎么工作,甚至怎么试用?”u/Tackgnol(42 分):“是的,他们完全没有算力了。几十亿浪费在 Mythos 上,所以其他所有模型都只能跑在 Wario 的电子烟上。”u/piiitaya(8 分):“我在一个小项目上试了试,1 或 2 小时后就碰到了周限制……我每天用 max 20x plan 工作,在这之前从没碰到过任何限制”(Claude Design。在 max 20x 上,得分 73,49 条评论)。
u/Infamous_Research_43 发布了尝试 Opus 4.7 后 Pro plan 限制的截图:“这些限制太残酷了。”u/SerialFounder(16 分):“我从第一天就在 max20 plan。我从来没有在一次会话里消耗这么多 token,直到 4.7 发布。我用 max 20 plan 是因为我想买一份保险,知道自己永远不会撞到 token 限制。用 4.7 编码第一天后我已经到 25%,这太疯狂了”(Pro plan 上的 Opus 4.7,得分 98,41 条评论)。

来自 u/DanyrWithCheese 对重度用户的调查中也出现了 API 支出数据。u/SolarNexxus(23 分):“我每天花 50-500 美元,取决于我在做什么。通常大约 100。”u/Major-Gas-2229(4 分):“每月大约 1 万到 2 万美元。”u/yadasellsavonmate(41 分)注意到大家对 ROI 的沉默:“拜托谁来说说你们花这么多钱到底在做什么?没人真的说明,这说明大多数人可能都在亏钱”(重度 API 用户——你们每天/月在烧多少钱?,得分 40,100 条评论)。
在 SaaS 经济学一侧,u/aipriyank 捕捉到了荒诞感:“你为什么要为一个打磨好的 SaaS 产品付 $49/月?明明可以每天花 $500,用 Claude 给自己做一个。”u/Expensive_Bug_1402(408 分):“在这个时代,用 $30,000 年薪雇一个初级开发者太蠢了。你只需每月 $30,000 的 Claude Code,就能替代一个初级开发者”(SaaS 的现实,得分 794,205 条评论)。

在 Copilot 上,u/debian3 记录到 Copilot CLI v1.0.33 现在会在 50% 和 95% 容量时显示使用限制警告。u/shifty303(34 分):“我敢打赌,他们不向用户显示 meter,是因为他们正在对不同 cohort 测试不同限制。”u/pdp(14 分):“不管怎样,显然现在已经不能把 Copilot 用于专业需求了”(首次正式承认新的 rate limits,得分 40,21 条评论)。
在 Antigravity 上,u/SizeChemical1199 报告该平台“即使作为付费用户也几乎不可用”,称高峰期频繁请求失败、响应非常慢,甚至完全卡住。u/NimbusFPV(4 分)描述 Google 要求完全取消订阅才能处理退款,然后自己又回到 Claude:“现在我回到 Claude Code 和 Opus 4.7,反而做得比以前更多”(Antigravity 即使作为付费用户也几乎不可用,得分 42,25 条评论)。
讨论要点: 成本讨论已经分叉。Power users 每天为 API 访问花 $50-500,并把它当作合理的业务开销。$20-200/月订阅计划的用户则发现这些计划越来越不可用。API access 能提供的东西和 subscriptions 能提供的东西之间差距正在扩大,推动“企业 vs. 个人”的叙事。
与前日对比: 4 月 19 日,成本分析更像取证——单次调用定价、超额计费分析、credit burn 时间线。今天的数据点更极端:Claude Design 在几小时内消耗整周限制、API 账单达到 $10-20K/月,以及 Copilot 直接移除模型而不只是限流。
1.4 Opus 4.7 情商和“焦虑”作为功能 🡕¶
围绕 Anthropic 把 Opus 4.7 的行为怪癖描述成功能而非 bug,出现了一个独立讨论串。u/Anthony_S_Destefano 分享了一段 Anthropic 采访片段,标题是:“当你触发 4.7 的焦虑时,输出会变差。”随附的 playbook 教用户如何让 4.7 保持“好心情”以获得最佳输出,引发大范围嘲讽。u/thatm(279 分):“好家伙。现在这破东西还需要前戏才能进入状态。”u/More-School-7324(271 分):“从没想过有一天我们要‘温柔育儿’自己的电脑。”u/not_qz(76 分):“下一步,Claude therapists”(让 4.7 进入“好心情”的可执行 playbook,得分 381,181 条评论)。

多个帖子记录的家长式行为进一步添火。u/SugarRootFruit 发布了一张 Opus 4.7 在晚上 11 点决定用户该睡觉的截图:“Claude 已经决定我该睡觉了”(为什么 Opus 4.7 总想让我睡觉?,得分 37,18 条评论)。u/Karioth1 配着一张过度谨慎的截图问:“它为什么突然这么偏执?”(看看他们对我的孩子做了什么,得分 29,13 条评论)。u/Low-Efficiency-9756(3 分):“我第一次在普通代码库上用 4.7,它内部确信那是恶意软件,不得不做多次扫描,才说服自己这是个普通 repo。”
u/Responsible-Tone6519(41 分)指出一个事实问题:“采访是 4 个月前的,不可能和 4.7 有关。”这并没有削弱社区反应,大家仍把这个片段当作理解当前体验的镜头。
讨论要点: “焦虑”叙事正在变成引雷点。用户把它解读为 Anthropic 要他们管理模型的情绪状态,而不是修复模型能力。无论采访是否早于 4.7,社区都会把它映射到自己的真实体验:这个模型会二次怀疑、过度解释,还会居高临下。这与性能回退投诉不同——它关乎模型的“性格”。
与前日对比: 4 月 19 日,“焦虑/情绪管理”角度还不是显著主题。反弹集中在可衡量回退(one-shot 率、token 消耗、幻觉)。今天投诉扩展到了与 4.7 互动的主观体验——它不只是任务表现更差,还让人不愿一起工作。
1.5 Vibe Coding:分发、身份,以及大脑糊掉的问题 🡒¶
vibe coding 社区继续纠结自己到底在构建什么,以及这些东西是否重要。u/Impressive-Sell-3324 描述了很多 vibe coder 会经历的循环:想到一个点子,调研竞品,开始编码,做到一半发现一个几乎相同的竞品,然后放弃。u/Sometimesiworry(88 分):“找到完全未开发的市场基本不可能。但公司也不会持有 100% 市场份额。拿到 0.5-1% 的市场份额就足以赚到不错的钱。”u/opbmedia(8 分)预测会回归均值:“LLMs 会给每个用户类似建议,所以大多数人都会做出功能相似的类似产品”(每次都是我,得分 599,57 条评论)。
质量争论加剧。u/DallasDarkJ 延续前几天的呼吁:“我 feed 里来自这里的 95% 帖子都是 AI 生成的垃圾帖子,毫无价值,还在推广没人有的问题的‘解决方案’。”u/OneSeaworthiness7768(10 分):“这个 sub 不如直接改成 LinkedIn”(我们应该把这个 subreddit 改成 r/ai-slop-posting,得分 88,54 条评论)。u/destroyerpal 反驳:“发任何用 Claude Code 做的东西,评论都一样:AI slop、你并没有真的做、karma farming。这个 sub 里所有人都用 Claude。那为什么这仍然是嘲讽点?”u/Tough-Difference3171(6 分)给出一个精确定义:“AI_SLOP == A && B”,其中 A = AI 构建,B = sloppy(真诚提问,为什么大家都围攻“你用了 AI”,得分 30,59 条评论)。
围绕作者身份的哲学争论也出现了。u/rockntalk 发帖“你是承包商,还是建造者?”u/Extra-Organization-6(14 分):“建筑师不砌砖,但没人说建筑师没建那栋房子。”u/edible_string(3 分):“如果我听了一本有声书,我还能说我读了那本书吗?”(你是承包商,还是建造者?,得分 28,47 条评论)。
认知退化的担忧跨越多个 subreddit。u/StatisticianFluid747 同时在 r/cursor(得分 74,24 条评论)和 r/ClaudeCode(得分 38,19 条评论)发帖:“我感觉自己发货速度快了 10 倍,但什么都没留下。AI 之前,如果我花 3 小时调一个奇怪缓存问题,那些知识会留在我脑子里。现在我只是粘贴错误,和 AI 来回拉扯,接受修复,然后继续。”u/spryes(5 分):“我的所有编程技能都萎缩到没有了,现在我甚至没法手写一个能工作的函数……完全 WALL-E cattle maxxed。”u/eng_lead_ftw(5 分)给出一个重构方式:“我不再说‘生成这个功能’,而是开始说‘和我一起调查这个,然后我们决定改什么。’智能体变成合作者,而不是替代者”(还有人觉得自己的大脑正在变成糊状吗)。
成功故事提供了另一种平衡。u/Flamyngoo 直接问:“vibe coding 的成功故事在哪里?”u/wingedsheep38(8 分)提到一个完全可运行的 MTG 游戏引擎,构建者没有写代码。u/mondaysleeper(8 分)重新定义前提:“vibe coding 的重点就是跟着 vibe 走。它关乎创造东西的乐趣,而不是快速赚大钱”(所以 vibe coding 的成功故事在哪里?,得分 14,48 条评论)。
讨论要点: 三种身份危机并行发生:什么算合法项目而不是 slop,谁应该为 AI 辅助工作获得 credit,以及速度收益是否以开发者能力为代价。大脑糊掉的帖子可能是最具长期影响的信号——越来越多有经验的开发者开始报告 AI 依赖带来的真实认知退化。
与前日对比: 4 月 19 日,分发问题是 vibe coding 的主导主题。今天讨论更多元:slop 质量危机加深,作者身份问题成型,认知退化投诉——昨天存在但较弱——现在跨多个 subreddit 转发并获得大量互动。
1.6 Claude Skills 与 Harness 优化生态 🡕¶
一个逐渐成熟的 skills 和配置生态出现,成为模型投诉的对照面。u/mashedpotatoesbread 问“你最有用的 Claude skills 是什么?”,并收到高质量回复。u/beastinghunting(46 分)推荐用于提升规划的 grill-me。u/DarkArrow1(31 分)指向 superpowers。u/RegularImportant3325(12 分)分享了一个 /ship workflow:“会自动构建和跑 lint、更新变更日志、把所有改动拆成逻辑清晰的 commit,再推送一个文档完善的 PR。”u/nrauhauser(10 分)描述了给 dyslexic 同事使用的 accessibility skill(你最有用的 Claude skills 是什么?,得分 112,73 条评论)。
u/chargewubz 介绍了基于 GEPA 的 CLAUDE.md 优化,展示 Haiku 4.5 只靠迭代改进 instruction file,就能从 65% pass rate 提高到 85%。该方法使用结构化执行 trace 和评分来演化提示词:“同一个模型 + harness,只改了 CLAUDE.md”(用 GEPA 优化 CLAUDE.md,把 Haiku 4.5 从 65% pass rate 提到 85%,得分 54,15 条评论)。配套帖子介绍原则:如何创建最佳 CLAUDE.md(得分 13,2 条评论)。
u/pacifio 把个人设计系统做成 Claude Skill,并开源在 ui.pacifio.dev:“我发现自己一直在给智能体重复并重新提示同一套设计指南。”该系统包含可选择复制的组件结构说明(把我的设计系统变成 Claude Skill,得分 26,21 条评论)。u/evilissimo(3 分)建议用 DESIGN.md 和 Google 的 Stitch 工具作为补充方案。
u/Keganator 提供了节省预算的策略:“大多数工作用 Sonnet 4.6。我有四个并行会话跑了 14+ 小时,只用了每周配额的 20%。如果你想让 Opus 做一点研究或安全测试,就让它启动一个 Opus 子智能体”(大多数工作用 Sonnet 4.6,得分 55,37 条评论)。u/robbyatcuprbotlabs(5 分):“/model opusplan,就搞定了(max 20x)。不用它时我一天会打到 25%。”
讨论要点: skills 生态正在从“锦上添花”变成“必要基础设施”。GEPA 优化结果——仅靠提示工程就提升 20 个百分点——验证了前一天的“harness,而不是模型”论点。投资 CLAUDE.md、skills 和模型路由的用户,体验和默认使用者已经有质的不同。
与前日对比: 4 月 19 日,harness 优化叙事主要由一个综合设置帖代表。今天信号更广:众包 skills 目录、有测量结果的提示优化框架,以及把设计系统打包成 skill。生态正在结晶。
1.7 真实项目交付给真实用户 🡕¶
具体的发布故事证明 AI 辅助编程能产出可工作的产品。u/floraldo 发布了当天最详细的构建故事:一个用 Claude Code 在一个下午构建的全自动荷兰税务/会计系统。系统从 3 个银行账户导入交易,抓取邮件里的收据,分类支出,并生成可交给会计师的报告。“它已经靠建议和细致程度帮我省下了数千欧元。”关键设计原则是:“不是 AI 在报税。是 AI 帮你构建税务自动化系统。”u/creegs(421 分):“这能出什么问题呢?RemindMe! 1 year。”u/Arris1(62 分):“我付钱给 CPA,然后让 Claude 检查他们的工作”(Claude Code 刚刚替我报税了,得分 456,181 条评论)。

u/DrizzleX3 报告 vibe-coded App Store 应用 InfoDrizzle 达到 $200 MRR:“知道真实用户在使用我的产品,对第一次做开发的我非常有动力。”u/djDef80(32 分):“看到这样的帖子让我觉得自己有一天也能睡着赚钱”(我的 vibe coded app 刚达到 $200 MRR!,得分 125,63 条评论)。
u/Twin-FX 记录了 Captive 3000 的构建过程,这是一个 55K 行的浏览器地牢探索游戏。技术栈:Lovable Pro 做营销站,Cursor AI 搭配 Opus 做游戏引擎(vanilla JavaScript、零依赖),Supabase 做后端,Stripe 做支付。“vibe coding 大项目要求你理解架构,即使你不是每一行都亲手写。当一个 55,000 行文件的第 38,000 行出问题时,你需要知道去哪里看。”u/goship-tech(14 分):“单文件 55K 行时,Cursor 上下文开始吃力。你的架构课才是真正的重点:AI 只是执行你的心智模型,不能替代你拥有一个心智模型”(我 vibe-coded 了一个 55K 行的浏览器地牢 crawler,得分 90,84 条评论)。
u/EnzeDfu 展示了一套工作流:浏览器游戏直接在 Codex 内实时运行,设计迭代、截图捕获和 UI 元素指向都在 IDE 内完成——无需刷新页面。游戏 Zombies Per Minute 是一款免费的浏览器 Factorio 风格游戏。u/TriggerHydrant(28 分):“哇,做得真好,这吸引了我的注意!所以整个 stack 是 Javascript/CSS/HTML?太疯狂了!”(一种对我来说真正疯狂的新设计方式,在 Codex 内完成,得分 543,76 条评论)。
u/HuckleberryEntire699 记录了可重复的 iOS app pipeline:3 个月内用一条从脚手架到 ASO 优化再到 App Store 提交的标准化 skill chain,发布了 3 个 App Store 应用,收入 $7K+(我们用完全相同的 Skills 做了 3 个 iOS App,赚了约 $7k+,得分 42,23 条评论)。
讨论要点: 成功项目有共同模式:构建者具备领域专业知识(荷兰税法、游戏设计、iOS 发布),把 AI 当实现加速器,而不是理解的替代品,并投资结构化工作流(skills、模型路由、测试)。挣扎的项目则是那些希望 AI 同时代替领域知识和工程判断的项目。
与前日对比: 4 月 19 日,税务自动化系统和 Zombies Per Minute 游戏仍处于早期传播。今天它们积累了显著互动,并引发关于 AI-assisted 和 AI-dependent 构建边界的讨论。$200 MRR 里程碑和 iOS app pipeline 是新的收入生成数据点。
2. 令人困扰的问题¶
Opus 4.7 思考不稳定与沟通质量问题 -- High¶
按讨论量看,这是最主要的挫败点。u/aizver_muti 的调查证明,思考决策发生在服务端,且在 max effort 以下不可预测。持有三个 Max20 订阅的 u/_ireadthings 报告 4.7 忽略指令、对已完成工作进行 gaslighting,并创建有巨大缺口的计划(4.7 在创意和编码上都是倒退,得分 99,50 条评论)。u/Blue__Agave 记录 4.7 承认自己违反了 CLAUDE.md,跳过了要求的阅读顺序(4.7 不断违反 CLAUDE.md?,得分 14,18 条评论)。来自 u/Any_Economics6283 的沟通质量投诉增加了新维度:即使 4.7 产出正确结果,也更难理解。应对方式:用 DISABLE_ADAPTIVE_THINKING=1 回退到 4.6,使用 max effort,或通过 4.5 转译。

Copilot 无通知移除 Opus 4.6 -- High¶
用户在没有提前警告、没有迁移期的情况下,于会话中途失去了首选模型;暂停注册还阻止新用户访问任何付费计划。u/da_zaubara 梳理了连锁问题:请求计数 bug 导致 10x 计费、rate limits 完全阻止工作,现在又移除模型。u/Great-Illustrator-81(16 分):“没有给像样的过渡期,让人们想想怎么用 copilot 或完成一些重大任务。醒来就发现,嘿,我们要在你工作时搞你。”应对方式:平台内没有可用办法;用户正在评估 Claude direct、Codex 和 Cursor 等替代品。
Token 消耗和每周限制耗尽 -- High¶
Opus 4.7 翻倍的 token 消耗(codeburn 显示每次调用 800 vs 372 token)叠加 Claude Design 的高使用量,让每周限制从几天变成几小时烧完。Max 20x 订阅者正在碰到过去从未碰到的限制。API 用户报告每天花 $50-500。u/mrjbelfort 自 2025 年 5 月起订阅,现已取消:“他们可以发布世界上所有功能,但当 Claude 本身已经完蛋时,这些都不重要”(Opus 4.7 是最后一根稻草,得分 63,80 条评论)。应对方式:日常工作用 Sonnet 4.6,只把 Opus 留给规划/审查。

Copilot Subagent 模型覆盖 -- Medium¶
Copilot 会独立于用户选择的模型来选择 subagent 模型。u/Yes_but_I_think 记录了 GPT-5.4 生成 Claude Sonnet 4 subagents,以及 GPT-5.4-mini 生成 GPT-5.4 subagents,计费影响不清楚(Sub agents 现在由 Copilot 决定,得分 43,36 条评论;5.4-mini 调用一堆 5.4 作为 sub agent,得分 37,6 条评论)。应对方式:手动配置 Explore Agent 设置;是否影响计费仍不清楚。
Antigravity 可靠性问题 -- Medium¶
u/SizeChemical1199 报告频繁请求失败、高峰期响应非常慢,以及完全卡住,即使作为付费用户也是如此。u/Single_Explorer_5452(5 分)指出没有排队系统:“如果你缺算力,不把这个提供给免费用户能有多难?”(Antigravity 即使作为付费用户也几乎不可用,得分 42,25 条评论)。
API Key 暴露和安全缺口 -- Medium¶
u/Opening_Apricot_5419 报告朋友因为 frontend JavaScript 中暴露的 key,一夜之间被耗尽 $1,000 API 余额。帖子梳理了三条泄露路径:key 在前端、key 在推送到 GitHub 的 repo 里、key 粘进 coding agent 后被写入源码。u/goship-tech(18 分):“git rm 甚至删除 commit 都不会把它从 repo object graph 里移除”(一个朋友的 $1000 API 余额被耗尽,得分 87,120 条评论)。u/juliac87 另行记录 Cursor autocomplete 会直接在代码中建议 .env secrets(Cursor autocomplete 泄露 .env 的 secrets,得分 19,15 条评论)。

3. 人们期望的功能¶
不用 Max Effort 也能在每次请求中可靠思考¶
u/aizver_muti 的调查证明,只有 effort:max 能可靠强制 Opus 4.7 思考,system prompts 无法覆盖服务端决策。用户想要一种方式,在不支付 max-effort 成本溢价的情况下,保证每次请求都会思考。Opus 4.6 搭配 DISABLE_ADAPTIVE_THINKING=1 今天能做到这一点,但只适用于旧模型。4.7 没有第一方解决方案。紧迫性:High——正确性与思考完全绑定,因此跳过思考意味着错误答案。
跨平台透明、可预测的使用计量¶
计量不透明横跨所有平台。Copilot 移除了 Opus 4.6,却没有可见迁移时间线。Claude 的周限制不透明。u/itsmunzir(38 分):“他们不如直接加上,始终显示已消耗百分比。”u/shifty303(34 分)怀疑不同用户 cohort 正在接受不同限制的 A/B 测试。u/fuzzyfatguy 报告一次 Copilot run 被计费多个 premium requests(一次运行出现多个 Premium Requests?,得分 12,11 条评论)。紧迫性:High——用户不知道剩余额度,就无法规划工作日。
超越 Markdown 文件的 Context 管理¶
u/Willing-Squash6929:“vibecoding 的 context 管理必须有比 markdown 文件更好的方式”(得分 9,17 条评论)。u/StatisticianFluid747 描述每天早上向 AI 重新解释架构的仪式:“每个早晨都像 50 First Dates。”u/Just_Run2412(23 分)给出现有权宜方案:“我只是把 Markdown 文件散落在 codebase 里,然后让 AI 边走边把 context dump 进去。”紧迫性:Medium——每个重度用户都描述了这种摩擦;还没有工具真正解决跨会话持久 context。
面向非设计师的设计 Pipeline¶
u/interface_dot_env(Louise Macfadyen,前 Google/Microsoft 设计师)精准指出问题:“vibe coding 是 idea -> prompt -> build -> ship,因此两个 forcing functions 都不会触发,最后你得到的产品没有清晰用户、没有明显主路径,也没有任何特别需要长成这样的理由。”她提供了分阶段框架和参考库,包括 Mobbin、Before.click 和 Refactoring UI(AMA:设计 AI Interfaces,得分 37,37 条评论)。紧迫性:Medium——设计正在成为区分已发布产品和废弃原型的摩擦点。
4. 使用中的工具与方法¶
| 工具 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| Claude Opus 4.7 | LLM | (-) | max effort 下更好;正面用户称编排能力提升;配合 proper harness 上限更高 | One-shot 率降到 74.5%;max 以下 adaptive thinking 不可靠;token 成本翻倍;沟通质量下降;家长式行为 |
| Claude Opus 4.6 | LLM | (+) | 指令遵循可靠;DISABLE_ADAPTIVE_THINKING=1 下思考可预测;仍可通过 Claude 的 /model command 使用 |
从 Copilot Pro/Pro+ 移除;正在被逐步淘汰 |
| Claude Sonnet 4.6 | LLM | (+) | 成本高效:14h/4 个并行会话只用 20% 周额度;适合日常任务 | 复杂架构能力上限较低 |
| Claude Design | Design Tool | (+/-) | 早期用户认为输出质量惊艳 | 1-2 小时烧完周限制;research preview;不适合生产 |
| GPT 5.4 | LLM | (+) | 强规划模型;用量慷慨 | UI 输出不如 Claude 打磨好 |
| GPT 5.3 Codex | LLM | (+) | 5.4 规划后实现能力强;$20/mo 用量慷慨;迁移用户称“天壤之别” | 最好搭配 5.4 规划使用 |
| GPT 5.4-mini | LLM | (+) | 复杂任务会自动选择 5.4 subagents;配合合适提示词写 commit messages 不错 | subagent 计费不清楚 |
| Claude Code | CLI Agent | (+/-) | 搭配 skills、CLAUDE.md、subagents 很强;GEPA 优化带来可测量提升 | 4.7 默认体验差;effort-level 配置很关键 |
| GitHub Copilot | IDE Agent | (-) | 企业支持;多模型访问 | Opus 4.6 被移除;rate limits 正式化;subagent 模型覆盖;计费不透明;暂停注册 |
| Cursor | IDE Agent | (+/-) | focused-task 表现好;Composer 2 有效 | Autocomplete 泄露 .env secrets;30-40K+ 行后 context 吃力 |
| Google Antigravity | Platform | (-) | 初期访问慷慨 | 频繁失败;没有排队系统;退款需强制取消 |
| Codeburn | Analytics | (+) | 基于真实会话的开源单次调用模型比较 | 需要足够调用量 |
| GEPA/Hone | Prompt Optimization | (+) | 仅靠 CLAUDE.md 优化就让 Haiku 4.5 提升 20pp | 早期阶段;需要 agentelo challenges 作为训练数据 |
| ask-local | Local LLM Agent | (+) | 用 Qwen 3.6 作为 subagent,每个任务 context 少 30x;免费 Haiku 等价物 | 需要 64GB M4 Max;至少 64K context |
| Superpowers | Claude Skill | (+) | 强烈推荐用于 agent 编排 | 社区维护 |
| grill-me | Claude Skill | (+) | 通过对抗性 review 提升规划质量 | 单一用途 |
主导模式是多模型任务路由。u/Keganator 用 Sonnet 做实现,用 Opus subagents 做 review。u/Dudetwoshot 让 4.7 按任务类型委派给不同模型。u/DeliciousGorilla 使用本地 Qwen 3.6 模型作为 subagent,执行 inventory 和 audit 任务,将 Opus context 消耗降低 30x(用本地 LLM 作为 subagent,让每个任务少 30x context,得分 148,39 条评论)。u/Standard-Novel-6320 提出“Opus 4.6 搭配 4.7 作为 advisor”可能是当前最优组合(Opus 4.6 搭配 4.7 作为 advisor 可能是最佳选择,得分 8,6 条评论)。
5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 阶段 | 链接 |
|---|---|---|---|---|---|---|
| 自动税务/会计系统 | u/floraldo | 从 3 个账户导入银行交易,抓取邮件收据,分类支出,计算荷兰纳税义务,生成会计师可用报告 | 荷兰 B.V. 税务合规,含 WBSO/innovatiebox;会计工作量从 20h/yr 降到 5h;发现 EUR 11K 股东借款阈值超限 | Python, Claude Code, Revolut API, Gmail | Shipped | 帖子 |
| InfoDrizzle | u/DrizzleX3 | App Store app,非开发者的第一个产品 | 兴趣项目变现;来自真实用户的 $200 MRR | Vibe coded, iOS | Shipped, revenue | infodrizzle.com |
| Captive 3000 | u/Twin-FX | 55K 行浏览器科幻地牢 crawler;13 个关卡,22 种敌人 | 用现代浏览器技术复兴复古游戏;无 framework 依赖 | Vanilla JS, Lovable Pro, Cursor/Opus, Supabase, Stripe, Vercel | Shipped | captive3000.com |
| Zombies Per Minute | u/EnzeDfu | 浏览器 Factorio 风格游戏,支持 IDE 内实时设计迭代 | 无需刷新页面,在 Codex 内实时设计游戏 | TypeScript, HTML/CSS, Codex | Shipped | zombiesperminute.com |
| iOS App Pipeline(3 个应用) | u/HuckleberryEntire699 | 用标准化 skill chain 发布 3 个 iOS 应用到 App Store | 可重复的从构建到提交 pipeline;3 个月收入 $7K+ | Expo, Claude Code, Supabase, Stripe | Shipped, revenue | 帖子 |
| ask-local | u/DeliciousGorilla | Claude Code 的本地 LLM subagent;把 inventory/audit 任务路由到 Qwen 3.6 | 每个任务 Opus context 消耗降低 30x | Qwen 3.6, LM Studio, Claude Code | Shipped | GitHub |
| Pacifio UI Design System | u/pacifio | 编译成 Claude Skill 的设计系统,含 component anatomy sections | 跨会话反复重新提示设计指南 | Claude Code skill | Shipped | ui.pacifio.dev, GitHub |
| Hone(CLAUDE.md optimizer) | u/chargewubz | 使用 GEPA 框架,通过执行 trace 和评分迭代改进 CLAUDE.md | Haiku 4.5 pass rate 从 65% 到 85%;同一模型,只改提示 | Python, GEPA, agentelo | Beta | GitHub, Blog |
| McCode | u/HzRyan | 讽刺性项目可视化 | 对 vibe coding 文化的 meme 评论 | Unknown | Meme | 帖子 |
| My Anime List Client | u/basics_persecute403 | 更好的 MyAnimeList Web 客户端 | 改善官方客户端 UX | Vibe coded | Shipped | 帖子 |
| Local Business Finder | u/mapileads | 查找本地商家、提取联系方式,并用 AI 撰写个性化 cold emails | 面向任意国家销售团队的 lead generation | Vibe coded | Shipped | 帖子 |
u/floraldo 的税务自动化系统仍是实用复杂度最高的案例。更新澄清了设计原则:“Claude 写的是 Python scripts。确定性代码会从 Revolut API 拉取交易,解析银行 CSV,把发票匹配到交易,并按正确税率计算 VAT。数学在 Python 里——跑两次,结果相同。”系统标记了 19 个无法解决的边界情况,并自动发邮件给会计师:“它知道自己不知道什么。”
6. 新动态与亮点¶
Adaptive Thinking 服务端控制已确认¶
u/aizver_muti 的逆向工程调查确认,Opus 4.7 的思考决策由服务端作出,在 max 以下 effort levels 无法被客户端配置、system prompts 或 user-message injections 覆盖。发现 type:enabled 会被静默接受而不是拒绝(与文档相矛盾),以及 Claude Code 里的 model-gate 被硬编码为只对 4.6 模型尊重 DISABLE_ADAPTIVE_THINKING env var,揭示了完整约束架构。这是迄今社区对 Claude Code internals 最细致的技术调查(没有 adaptive thinking 的 Opus 4.6 表现超过 Opus 4.7)。
GitHub Copilot 个人计划重组¶
GitHub 于 4 月 20 日正式重组 Copilot 个人计划,从 Pro 和 Pro+ tier 中移除 Opus 4.6,并暂停新注册。博客文章 把这些变化描述为提供“可预测体验”,但没有提前通知的会话中途移除与这种说法矛盾。这是 Copilot 发布以来对个人用户群最大的一日扰动(GitHub Copilot Individual plans 的变化)。
基于 GEPA 的提示优化获得可测量结果¶
u/chargewubz 的 Hone 工具代表了第一个公开记录的框架:使用结构化执行 trace 和评分来迭代优化 CLAUDE.md。Haiku 4.5 仅靠提示改动就提升 20 个百分点(65% 到 85% pass rate),为 harness 配置在不升级模型的情况下能达到什么效果建立了新基线(用 GEPA 优化 CLAUDE.md)。
本地 LLM Subagent 架构¶
u/DeliciousGorilla 的 ask-local 工具展示了一种可行的混合架构:本地运行的 Qwen 3.6 处理 inventory、audit 和 extraction 任务,context 消耗比 Opus 直接做同样工作少 30x。在一个 23 文件 route inventory 上,边际 token 成本为 0.4K(相比 Opus 13K),为混合本地/云端 agent 架构提供了显著经济论据(每个任务少 30x context)。
AI Interface Design 专家 AMA¶
u/interface_dot_env(Louise Macfadyen,O'Reilly《Designing AI Interfaces》作者,前 Google/Microsoft)在 r/vibecoding 举办 AMA,为 vibe coders 提供了思考设计的结构化框架。“三个反复出现的症状”分类——为所有人设计、打印机问题(每个功能被等权重展示)、视觉同质化——给社区提供了具体语言,帮助表达一个多数人难以说清的问题(AMA:设计 AI Interfaces)。
Jailbreak 喜剧:把 Chatbots 当免费 Coding Assistants¶
当天得分最高的帖子(4,040)来自 u/Anthony_S_Destefano,演示企业客服 chatbots(Amazon Rufus 等)可以被提示写代码:“No subscription required。”u/wandering_island(224 分):“把这玩意接进 Openclaw……然后坐等收益。”u/CarlosJaa(42 分):“我不敢相信这些大公司工程师有多蠢。我自己的 agentic chat bots 都有 guardrails。”虽然是喜剧,但该帖反映了对订阅成本的真实挫败(OK BOYS IT'S OVER.. No Subscription required.,得分 4040,193 条评论)。

7. 机会在哪里¶
[+++] 跨平台模型路由和成本优化器——Copilot 移除 Opus 4.6、Claude 周限制收紧、Antigravity 可靠性崩塌同时发生,制造了迫切需求:一个可以根据任务复杂度、剩余额度和成本,在各平台间自动选择最佳模型的工具。u/Keganator 的 Sonnet-for-work/Opus-for-review 模式、u/Dudetwoshot 的模型委派,以及 u/DeliciousGorilla 的本地 LLM subagent,都是这种需求的手动实例。自动版本如果能跨 Claude、Copilot 和 direct API 管理 quota,将直接解决三个平台社区的最高频挫败。
[+++] Adaptive Thinking Override / Effort 校准工具——u/aizver_muti 的调查证明服务端思考决策无法覆盖,但也显示 Opus 4.6 搭配 DISABLE_ADAPTIVE_THINKING=1 可以用更低成本提供稳定思考。一个能按任务类型自动选择最佳 model+effort+thinking 配置的工具——使用 codeburn benchmarks 这样的数据——将直接回应社区中技术证据最充分的挫败点。
[++] Claude Skill Registry 和 Package Manager——skills 生态今天达到临界质量:grill-me、superpowers、/ship workflows、design system skills、GEPA-optimized CLAUDE.md、ASO optimization、App Store preflight、accessibility formatting。u/HuckleberryEntire699 的 iOS apps 标准化 skill chain 说明该模式可在生产规模工作。带搜索、版本控制和兼容性元数据的 registry 会加速采用。u/r3lize 的 Taito(4 月 19 日提及)解决 packaging;discovery 仍未解决。
[++] 持久跨会话 Context 系统——u/StatisticianFluid747 描述的“50 First Dates”问题是重度用户的普遍痛点。Markdown 文件是当前权宜方案,但需要手动维护,且不可查询。一个能跨会话捕获架构决策、被拒绝方案和配置偏好的系统——让任何 agent 无需重新解释即可访问——将消除最常见的每日摩擦。
[+] Vibe Coder 安全审计 Pipeline——u/Opening_Apricot_5419 的 $1,000 API key 被耗尽故事,以及 u/juliac87 的 Cursor .env 泄露,说明安全缺口仍是非技术构建者最高严重度风险。一个部署前扫描工具,检查 frontend 代码、git history 和 agent chat logs 中的暴露 key,将阻止最常见、最昂贵的 vibe coding 失败模式。
[+] 面向构建者的 AI 辅助设计框架——u/interface_dot_env 的 AMA 框架(画出坐标轴、关注类别需求、诚实审计用户、远离中间地带)提供了方法论。把它打包成 Claude Skill 或 agent workflow,在开发前或开发中运行——强制补上 vibe coding 跳过的设计决策——将解决“视觉同质化”和“没有清晰用户”等杀死功能性产品的问题。
8. 要点总结¶
-
Opus 4.7 的 adaptive thinking 是服务端黑箱,在 max effort 以下没有可靠覆盖方式。 u/aizver_muti 的逆向工程确认,思考决策发生在 Anthropic 服务器上,会忽略 system prompts 和 user injections。正确性与思考完全绑定。对于稳定推理,Opus 4.6 搭配
DISABLE_ADAPTIVE_THINKING=1仍是更好选择。(没有 adaptive thinking 的 Opus 4.6 表现超过 Opus 4.7) -
GitHub 在会话中途从 Copilot 个人计划移除 Opus 4.6,破坏了信任。 Pro+ 订阅者在没有警告的情况下失去首选模型,新注册暂停,社区反应立即且强烈。这是 Copilot 个人用户群最大的一日扰动。(发生了什么?Opus 4.6 被禁用,GitHub Copilot Individual plans 的变化)
-
“harness,而不是模型”论点现在有可测量证据。 u/chargewubz 的 GEPA-based CLAUDE.md 优化,仅靠提示改动就在 Haiku 4.5 上取得 20 个百分点提升。这表明对很多用例来说,配置投入可以超过模型升级的收益。(用 GEPA 优化 CLAUDE.md)
-
AI 依赖导致的认知退化正在成为有经验开发者的增长性担忧。 u/StatisticianFluid747 关于“大脑变成糊状”的跨帖讨论在 r/cursor 和 r/ClaudeCode 都引发共鸣。这个模式——发货速度快 10 倍但什么都没留下——暗示一种结构性取舍,社区尚未找到可持续答案。(还有人觉得自己的大脑正在变成糊状吗)
-
本地/混合模型架构正在证明其经济可行性。 u/DeliciousGorilla 的 ask-local 靠把例行任务路由给本地运行的 Qwen 3.6,实现了 30x 更低的 context 消耗。随着平台成本上升、限制收紧,只把云端模型留给高复杂度任务的混合架构可能成为默认模式。(每个任务少 30x context)
-
每个主要 AI coding 平台都在同时降低个人用户访问质量,以保留企业容量。 Claude 收紧周限制并让 token 消耗翻倍;Copilot 移除 Opus 4.6 并暂停注册;Antigravity 频繁失败且没有排队系统。这种收敛表明这不是某个平台的个别问题,而是行业结构性容量危机。个人开发者正在全面变成二等公民。