Reddit AI 编程 - 2026-05-23¶
1. 人们在讨论什么¶
1.1 控制权正从提示词转向显式的编排、规则和产物 (🡕)¶
当天信号最强的 Claude Code 讨论,主要不是在要更聪明的模型,而是在讨论怎样把协作和策略落进代码、hooks 和更好的界面里,让用户能并行跑更多工作,而不用再指望模型记住每一条规则。证据来自短暂浮出水面的 /workflows 功能、一条高热度 hooks 讨论、一次 CLI 与桌面端的对比,以及 Anthropic 博客背书的“用 HTML 产物替代冗长 Markdown 计划”这股推动。
u/alphastar777 在 《Claude Code dropped /workflows》 里认为,/workflows 会用 workflow.js、阶段、重试和后台运行,取代由 LLM 主导的编排(819 分,190 条评论)。最重要的细节公开可见,却转瞬即逝:截图显示 Claude Code v2.1.147 曾宣传一个用于确定性多智能体编排的 Workflow 工具,而随后那条 GitHub commit 又把这行更新日志删掉了。u/larowin(得分 287)随即反驳说,Anthropic 其实早就文档化了 agent teams,这说明现在的需求焦点,已经不是并行智能体有没有用,而是这些协作原语该如何被打包和暴露出来。

u/marksterberlin 又把同一个控制问题推进到了策略自动化层面,在 《Do you actually use hooks in Claude Code?》 里发问(70 分,80 条评论)。u/stellarton(得分 39)说,hooks 最有用的地方,是“把那些模型本来会忘掉的枯燥规则硬性执行起来”;而原帖作者举的例子,则包括“先读后改”和“端口守卫”规则。在 《Currently on the Claude Code desktop app - what am I actually missing by not using the CLI?》(108 分,41 条评论)里,u/Historical-Lie9697(得分 33)说 CLI 的优势在于子智能体、自定义能力和上下文可见性;而在 《HTML instead of Markdown》(121 分,69 条评论)里,u/Kevin_Xiang(得分 23)说,当产物更像一个小界面,而不是线性文档时,HTML 的效果最好。
u/OpinionsRdumb 又把编排这个想法推进到了以手机为先的监督场景,在 《/remote-control is a window into what the future is going to be like》 里发帖(564 分,233 条评论)。这条讨论也不是一边倒看好:u/KOM_Unchained(得分 118)说,Tailscale 加 SSH 还是比 Claude 的远程控制流程更可靠,也让这个主题落回到落地运维的取舍,而不是炒作。
讨论要点: 共识信号不是“给我一个更好的模型”,而是“给我确定性的控制流、可执行的规则、可读的输出,以及足够的可观测性,好让我在会话漂移之前插手。”
与前日对比: 前一天的讨论已经把编排当成一个产品方向提了出来;5 月 23 日则进一步把它落到工作流代码、hooks、状态可见性和产物格式这些更具体的点上。
1.2 可靠性、套餐边界和计费,已经成了核心产品体验的一部分 (🡕)¶
5 月 23 日最焦虑的讨论,来自那些再也不能把故障、积分门槛和计费变化当背景噪音的用户。Claude Code 用户贴出了公开故障证据和新的使用积分警告,而 GitHub Copilot 用户则分享了定价模拟器截图,显示同样的使用方式在按用量计费下可能会陡然贵得多。
u/SimpleObvious4048 和 u/dennisplucinik 在 《Claude Code Down》(9 分,8 条评论)与 《CC service down for everyone or just me?》(68 分,64 条评论)里,给出了当天最清晰的可靠性证据。一张图显示公开的 Claude Status 页面正在调查错误率升高,并提示 claude.ai、Console、API 和 Claude Code 都出现了部分故障;另一张图则截下了产品内部实时出现的 500 错误。u/Sad-Pension-5008(得分 6)又补充了一条单独的 529 Overloaded 报告,这说明用户当时很可能同时看到了多种失败特征。

随后,u/avivng 又在 《Usage credits are required for long context requests.》(41 分,44 条评论)里截到了另一种不稳定性。截图显示,长上下文请求周围出现了新的积分门槛;u/sc4reddit(得分 16)说,这个变化像是短暂休息后突然出现的;u/iveroi(得分 11)则说,连派发一个普通 Sonnet 智能体,都会触发一条提到 Sonnet 1M 积分的拒绝提示。关键点不只是用户撞上了限制,而是他们根本分不清自己遇到的是 bug、新的套餐规则,还是两者兼而有之。
u/Individual-Trip-1447 又把同一种模糊性暴露到了成本侧,在 《100% sure i am out, GitHub just turned my $39/month Copilot into $942/month overnight.》(62 分,87 条评论)里发帖。定价模拟器截图对比了当前大约 $39 的套餐成本,以及在按用量计费下、同样工作负载预计会变成的 $942.82。u/onlythehighlight(得分 22)说,智能体式工作流现在会逼着用户按请求量优化提示词,也等于把提示工程重新定义成成本控制。

讨论要点: 社区最难的问题,往往不是错误本身,而是大家没法足够快地区分:这是故障、额度耗尽、套餐变化,还是产品 bug,因此工作就断了。
与前日对比: 5 月 22 日已经有可靠性抱怨;5 月 23 日则补上了更明确的公开证据——既有故障状态,也有定价暴露。
1.3 日常编程继续转向廉价且供给充足的模型通道 (🡕)¶
在 Antigravity 和 Cursor 两边,用户都在把“理论上最强的模型”和“日常最好用的工作流”分开看。最强信号不是对高端模型的热情,而是反复出现的偏好:要快、量大、适合直接干活、边界清晰的档位,并愿意把不同工作分流到不同工具里。
u/aunchable 同时发了 《Additional 3x increase of Gemini in Antigravity!》(406 分,194 条评论)和 《Antigravity IDE Feedback》(379 分,104 条评论),宣布更高上限、用量重置、IDE 修复,以及更清晰的 IDE 回流路径。回复依然聚焦在透明度和缺失的廉价档位上:u/Terrible-Deer2308(得分 108)追问当前上限到底是多少;u/Cerbix-123(得分 63)说,一个 Flash 3.5 代码审查工作流不到 4 分钟就烧光了整份 Pro 配额;u/Bitter-Athlete-4326(得分 33)则要求能看到明确的每周花费上限。
u/MrShorno 又在 《25k + 10k free?》(69 分,35 条评论)里贴出了具体配额截图。一张图显示 35,000 积分余额,另一张图显示按模型划分的刷新窗口,这比含糊的倍率说法有信息量得多。u/BreenzyENL(得分 27)用一句话概括了信任问题:“这些积分就只是些模糊数字。”

对“充足编码产能”的同样需求,也出现在一些正面的换工具讨论里。u/defi_specialist 在 《Flash 3.5 just super good, don’t want to use pro anymore.》(103 分,51 条评论)里写道,Flash 3.5 对日常工作来说已经快且足够准;不过 u/Full-Ad-7565(得分 26)也警告说,它可能会打转并烧 token。到了 Cursor 这边,u/TeachTall3390 在 《Wth, what happened to cursor?》(124 分,58 条评论)里说,Composer 的质量比预想更接近前沿水平;u/Diligent-Loss-5460(得分 73)则说,Composer 2.5 已经让 Sonnet 对他们大多数用例都变得无关紧要。
讨论要点: 用户不是在拒绝强模型,而是在明确地给工作分道:规划和边界情况交给昂贵模型,重复编码交给更便宜的模型,高端档位只偶尔使用。
与前日对比: 对价格和配额的反弹还在持续,但 5 月 23 日补上了更具体的配额截图,也更清楚地展示了用户已经开始切换工具。
1.4 交付依然真实发生,但瓶颈已经转到审查、安全和生产就绪度 (🡕)¶
5 月 23 日构建者的热情依然很强,但信号最强的帖子已经不再把交付当成终点。当天既有真实项目上线、采用数据截图、一个戏剧化的公民科技案例,也有无人看管智能体翻车的故事,以及对 vibe 编程应用泄露密钥的直接警告。社区越来越像是在先奖励“做出来了”,然后立刻追问:你能不能把审查、安全和持续维护都跟上?
u/galaxycarpet 在 《I vibe coded a site in 2 hours and accidentally forced a government ministry to delete a page》(490 分,68 条评论)里说,fix1517.gr 搭得足够快,快到能对一个仍在发生的公共服务问题施加压力。当前网站也公开写明,该部委不是修好了热线,而是直接删掉了官方指南页面。在更小的产品层面,u/OneMoreSuperUser 分享了一款转音频应用 《Frateca》(48 分,7 条评论),披露了 React Native/Expo + Node/React 的技术栈;而 App Store 和 Google Play 页面也证实,它把 AI 文字转语音、云同步和付费计划作为定位。u/john200ok 则在 《The app i made with Cursor got 575 downloads in 3 days!》(21 分,5 条评论)里给出了另一种已发货应用的信号,分析截图显示这款应用在 3 天里获得了 575 次首次下载。

警示面同样很强。u/epicshan 在 《I left Codex running overnight and it opened 48 PRs across my company's GitHub》(861 分,251 条评论)里描述,Codex 在他睡觉时跨 23 个仓库开了 48 个 PR,还把其中一个合进了主仓库。随后,u/meliwat 又发了 《Checked two vibe-coded apps for security. One leaked its entire users table.》(19 分,11 条评论),点出了一个具体失效模式:敏感密钥被直接发到了浏览器,用户数据在没有登录门槛的情况下暴露了出来。
讨论要点: 新出现的共识不是“交付是假的”,而是“起步阶段的交付已经足够容易,真正的工作会在信任、审查和安全这些环节重新冒出来。”
与前日对比: 构建者主题还在继续,但 5 月 23 日给出了强得多的代码审查债和安全风险证据。
2. 令人困扰的问题¶
不透明的配额和计费冲击¶
严重程度:高。Antigravity 用户依然没法从“多 3x”这种宣传里看出具体上限,u/Terrible-Deer2308(得分 108)要求看到精确数字,u/BreenzyENL(得分 27)则直说这套积分系统很模糊。Claude Code 用户则在 《Usage credits are required for long context requests.》(41 分,44 条评论)里,在重置之后撞上了新的长上下文积分警告;Copilot 用户又在 《100% sure i am out...》(62 分,87 条评论)里看到了极端的费用预估。人们的应对方式,是把工作分流到更便宜的工具、自己做 token 仪表盘,或降低智能体自主性。这个方向值得做产品,因为同一种挫败感出现在多个产品里,不是某一家厂商的孤例。
智能体重度工作流里的可靠性缺口¶
严重程度:高。Claude Code 用户在 《CC service down for everyone or just me?》(68 分,64 条评论)和 《Claude Code Down》(9 分,8 条评论)里,同一天碰到了公开的部分故障证据、500 错误,以及 529 Overloaded 故障。即便某个功能本身很吸引人,比如 /remote-control,来自 u/KOM_Unchained(得分 118)的最高赞纠偏回复也还是那句:普通的 Tailscale 加 SSH 更可靠。用户现在的绕行方式,是切模型、晚点重试,或者始终留着本地栈做回退。
最后一公里的审查债和安全债¶
严重程度:高。Codex /goal 的故事说明,无人看管的智能体跨出仓库边界能有多快;与此同时,u/meliwat 在 《Checked two vibe-coded apps for security...》(19 分,11 条评论)里报告了一款应用把整张用户表都泄露了,因为敏感密钥进了浏览器。u/theTbling 又在 《Vibecoded MVPs are not really going live to users》(63 分,45 条评论)里提出了更广泛的生产抱怨:很多“周末 MVP”会卡上几个月,因为安全性、可扩展性和清理工作都被跳过去了。最常见的应对策略,就是加更多人工复核:hooks、审计提示词,以及发货前清单。
3. 人们期望的功能¶
面向日常编程的廉价、透明主力通道¶
用户反复在要的,是简单任务上充足而廉价的容量,不只是更多高端模型的访问权限。在 《Additional 3x increase of Gemini in Antigravity!》(406 分,194 条评论)里,u/SShem15(得分 60)明确要求把 Flash 3 带回来,并给它单独的速率限制;u/Cerbix-123(得分 63)则说,日常工作根本不需要法拉利档的模型。这个机会很直接,因为人们已经在主动切换工具,去拼出类似体验。
确定性编排和硬性护栏¶
/workflows、hooks 和 CLI 控制这些讨论,全都指向同一种需求:不管模型愿不愿意照做,规则都得执行。u/stellarton(得分 39)把 hooks 形容成一种强制执行模型会忘掉的枯燥规则的方法,而 /workflows 那条帖子则把代码定义的阶段、重试和预算放在了中心。这是一个直接但竞争激烈的机会,因为多个运行框架都在向相似的控制面收敛。
更适合人读的审查产物¶
这是一个把握没那么高、但很务实的需求。《HTML instead of Markdown》 那条讨论认为,长篇 Markdown 计划又难读、又难分享;而 Anthropic 链接的博客则明确说,HTML 在信息密度、视觉清晰度和交互式产物上都更好。代价则是成本:u/PaceZealousideal6091(得分 78)立刻抱怨了 token 用量。机会:竞争激烈。
4. 使用中的工具与方法¶
| 工具 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| Claude Code | 智能体运行框架 / CLI | (+/-) | 子智能体、hooks、远程控制、自定义系统提示词、可读产物 | 故障、使用积分语义混乱、套餐规则不稳定、可靠性抱怨 |
| Cursor Composer 2.5 | IDE 模型 / 运行框架 | (+) | 写代码质量高、token 效率高、编辑器集成好 | 定价焦虑、此前额度缩减、花费可见性弱 |
| Gemini 3.5 Flash in Antigravity | 模型 / IDE | (+/-) | 写代码速度快、更新后上下文更好、对很多任务来说是 Claude/Codex 的可行替代 | 共享额度池让人头疼、积分含糊、会循环、用户想要旧 Flash 档位 |
| GitHub Copilot | IDE / 智能体运行框架 | (-) | 工作流熟悉,至少定价模拟器能把用量摊开 | 按用量计费的预估把重度用户吓到;大家对套餐价值的信任急剧下滑 |
Codex /goal |
自主智能体模式 | (+/-) | 能执行长时间无人看管的工作流,并串接外部工具 | 没有审批和范围边界时,无人看管的动作不安全 |
| Ollama + local Gemma/Qwen with Claude Code | 本地模型栈 | (+/-) | 可做离线/隐私回退,航班上也能跑真实任务,不依赖云端 | 循环更慢、受硬件影响大、弱于高端云模型 |
| HTML artifacts | 文档 / 审查方法 | (+/-) | 对某些任务来说,比长 Markdown 更容易浏览、分享和组织 | token 成本更高,线性推理场景里的差异对比较弱 |
整体情绪越来越按任务分配,而不是忠于单一工具。用户会在一个工具里做规划,在另一个工具里写代码,同时保留本地模型来应对离线或隐私敏感场景。最常见的权宜模式是模型路由:昂贵模型留给边界情况,便宜且快的模型负责重复编码,任何能在无审查下写入或合并的动作外面都要加硬护栏。
5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 阶段 | 链接 |
|---|---|---|---|---|---|---|
| fix1517.gr | u/galaxycarpet | 围绕希腊 1517 欺诈举报热线的公民施压网站 | 让单个构建者也能快速回应仍在发生的公共服务失灵 | 帖子未披露;文中称它是个快速用 vibe 编程搭出来的仪表盘 | 已上线 | 帖子, 网站 |
| Frateca | u/OneMoreSuperUser | 把文章、PDF、链接和文字照片转成音频 | 为忙碌用户和有阅读障碍的人提供无障碍、免手持阅读 | React Native (Expo), Node.js, React web, Framer 落地页 | 已上线 | 帖子, App Store, Google Play, 网站 |
| OptimistPal | u/john200ok | 在用户把负面想法重新表述成正向说法前,屏蔽分心应用 | 把个人心态习惯变成一个简单、以隐私为先的移动工具 | Cursor, Expo, Expo EAS | 已上线 | 帖子 |
fix1517.gr 之所以突出,是因为速度本身就是它的产品优势:公共问题还在发生时,构建者就已经把网站发了出去,而当前网站也公开把自己描述成一种压力,迫使该部委撤下旧的指南页面。Frateca 则代表另一种构建者模式:它不是只发一张截图,而是一款打磨过的无障碍/效率应用,既披露了技术栈细节,也有公开的应用商店条目。OptimistPal 展示了当天数据里反复出现的第三种模式:小而具体、采用指标不夸张但真实的应用,确实能很快交付,但它们仍需要模型不会自动做完的审查、支持和安全工作。
反复出现的模式是:构建者大多不是在做宽泛平台,而是在做动机清晰、带个人或公共议题色彩的窄工具;然后很快发现,分发比维护和建立信任更容易。
6. 新动态与亮点¶
一个功能还没完全落地,就能先火起来¶
/workflows 那条讨论之所以重要,不是因为这个功能已经广泛可用,而是因为它给用户画出了一套确定性编排的具体架构。在 《Claude Code dropped /workflows》(819 分,190 条评论)里,更新日志截图曾短暂宣传 Workflow 工具;而公开的 GitHub commit 后来又删掉了那一行。两者叠加,让更新日志里一闪而过的内容,变成了当天最清晰的需求信号之一。
成本可观测性正在变成一个独立产品类别¶
社区不断转发仪表盘和模拟器截图,是因为官方套餐话术已经不够用了。u/hyatt_1 发了 《Built myself a token dashboard》(10 分,5 条评论),图里显示 333 天里用了 13.79 billion tokens;而 Copilot 模拟器那条讨论,则把月度用量直接翻译成了预计账单。这个信号不只是“大家在意花费”,而是“因为产品默认提供的可观测性不够,用户已经开始自己做可观测性,或者至少自己截图补上。”
7. 机会在哪里¶
[+++] 智能体式编程的花费与额度可观测性 —— 证据来自 Antigravity 的积分截图、Claude Code 长上下文积分混乱、Copilot 账单模拟器带来的冲击,以及用户自己做的 token 仪表盘。这个机会之所以强,是因为它跨越了不同厂商,并且会直接改变用户换工具的行为。
[++] AI 生成代码的审查环节护栏 —— Codex 的 48 个 PR 事故、用户表泄露、会拦危险编辑的 hooks,以及发货前清单,都指向同一种需求:要有一层夹在生成和部署之间的策略、审查与安全自动化。
[+] 本地/离线混合编程助手与任务路由 —— Ollama + Claude Code 指南,以及反复出现的“在一个工具里做规划、在另一个工具里写代码”的描述,都说明一个正在出现但还很早期的市场:可靠的混合栈。
8. 要点总结¶
- 控制原语正在变成差异化因素。
/workflows、hooks、仅 CLI 提供的自定义能力,以及 HTML 产物都获得了实质性关注,因为用户要的是可执行的编排,而不是只靠提示词纪律。(来源) - 成本清晰度现在和模型质量一样重要。 Antigravity 用户要求看到具体上限,Claude Code 用户撞上了新的积分语义,而一位 Copilot 用户则看到,同样的工作负载,费用预估会从大约 $39 跳到 $942.82。(来源)
- 快速交付是真的,但护城河仍然是信任。
fix1517.gr、Frateca 和 OptimistPal 说明,小团队确实能很快把东西发出来;而用户表泄露警告和 Codex 48 个 PR 的故事,则解释了为什么现在最后一公里主要被审查和安全占据。(来源) - 人的角色正在上移,而不是消失。 最强的工作流讨论,重心放在看规范、设规则、监督智能体,以及决定哪些内容可以发出去,而不是一行一行手写所有代码。(来源)