Twitter AI 编程 - 2026-06-08¶

1. 人们在讨论什么¶

1.1 技能、契约与例行流程把提示词变成了文件 🡕¶

6 月 8 日的 Twitter 活动继续从一次性提示词转向智能体可以反复运行的可复用产物：技能包、Markdown 契约、检查点文档和定时例行流程。4 条保留内容共同支撑了这一主题。

@VaibhavSisinty 认为（7 次点赞、1 条回复、207 次浏览、10 次收藏），Addy Osmani 的 Agent Skills 包为编程智能体提供了 23 个生产级技能和从 /spec 到 /ship 的 7 条生命周期命令。Agent Skills 仓库为这一说法提供了支撑：它把这个包描述为可复用的工作流、质量门禁和反合理化表格，可安装到 Claude Code、Cursor、Gemini CLI、GitHub Copilot、OpenCode 和 Codex 中。

@TheTuringPost 强调（14 次点赞、3 条回复、1,214 次浏览、17 次收藏），OpenProse 是把智能体工作流变成可复用程序的一种方式。OpenProse 仓库将 *.prose.md 文件描述为 Markdown 契约，并称其 Reactor 运行时只有在订阅输入发生实质性变化时才会执行昂贵的模型计算，这比“把这个提示词存起来”的承诺更进一步。

@PrajwalTomar_ 表示（8 次点赞、4 条回复、109 次浏览、3 次收藏），Matt Pocock 的 /grill-me 循环之所以有效，是因为它会逐题提取决策并写入知识文档，而把每个回答都 checkpoint 到 brainstorms 文件夹，则能避免长会话丢失前面的上下文。

@AunySillyMe 展示（1 次点赞、1 条回复、70 次浏览、2 次收藏）了同一思路在定时工作中的应用：Claude Code routines 指向 Obsidian 仓库中的协议文件，写出带日期的 Markdown 结果，并在夜间跑完 8 个任务，而不用重新输入说明。

展示 Claude Code routines 按计划读取协议文件并写出带日期的 markdown 输出的示意图

讨论要点： 最关键的细微变化并不是“用更好的提示词”，而是“先让人的上下文变得可持久”。在 /grill-me 讨论串里，有条回复说检查点之所以重要，是因为杂乱的决策会变成可复用的构建上下文，而不是消失在漫长的聊天里。

与前日对比： 6 月 7 日已经偏向技能包和测试框架层系统。到了 6 月 8 日，这一趋势进一步收敛为协议文件、检查点文档，以及那些无需每次新建会话都重新提示、就能持续运行的例行流程。

1.2 Antigravity 同时成了接入层和工作空间 🡕¶

Antigravity 出现时，已经不太像一个新奇应用，而更像是人们获取高级模型、审阅 Codex 输出、或使用 Google 最新智能体功能的地方。4 条保留内容共同支撑了这一主题。

@hqmank 报告（744 次点赞、113 条回复、160,975 次浏览、420 次收藏）称，Google AI Pro 订阅者可以在 Antigravity 中免费使用 Claude Opus 4.6。回复的重要性不亚于原帖：有人指出 Opus 从 2 月起就已经在那里了，而 @hqmank 回应说，真正的价值只是多了一条可用的 Opus 路径。截图则提供了更具体的证据：它直接在模型选择器里显示了 Opus，而不是停留在含糊的接入说法上。

Antigravity 模型选择器显示 Claude Opus 4.6 与 Gemini 模型并列可用

@sunnykgupta 描述（36 次点赞、9 条回复、2,076 次浏览、9 次收藏）了一条手动循环：先由 Codex 写代码，再在 Antigravity 里审查改动，接着由 GitHub Copilot 审 PR，最后由 Codex 按意见修改。这是个很有代表性的变化：在这条工作流里，Antigravity 不只是另一个模型界面，而是生成与审查之间的工作环境。

@Google 表示（60 次点赞、2 条回复、4,690 次浏览、7 次收藏），Search 可以借助带有 Gemini 3.5 Flash 的 Antigravity 来构建自定义生成式 UI 和交互式可视化；同一讨论串中的回复还说，Search 也能创建监控主题并发送详细更新的信息智能体。另据 Ars Technica 报道，NotebookLM 现在也有了自己的“云电脑”，内嵌 Antigravity，并带有 100 多项软件技能。

讨论要点： 回复里并没有执着于“新发布”这件事本身。大家反复回到两个问题：Antigravity 是否是一条稳定通向目标模型的路径，以及它是否适合接入更广泛的工作栈。

与前日对比： 6 月 7 日把接入套利当成主线。到了 6 月 8 日，Antigravity 更进一步，开始扮演共享工作空间和 Google 全域运行时的角色。

1.3 智能体控制平面开始解决运行时问题，而不是提示词问题 🡕¶

最技术向的 builder 帖子，都在谈如何控制长时间运行的智能体：实时引导、预热的搜索状态、隔离的工作树，以及移动端执行界面。4 条保留内容共同支撑了这一主题。

@massgen_ai 宣布（2 次点赞、114 次浏览）发布 MassGen v0.1.95，把中途引导从 TUI 和 WebUI 扩展到了无头调用方，并升级了 Codex 和 Antigravity 后端，使其能够中断并恢复，而不是等到一轮结束。帖子还把这一更新与协作式多智能体团队、带权限的工具以及 Docker 隔离代码执行联系在一起，因此这更像是控制平面更新，而不是提示词库发布。

展示 Codex 和 Antigravity 的程序化 steering inbox 及 interrupt-and-resume 支持的发布说明截图

@nexxeln 展示（204 次点赞、10 条回复、8,076 次浏览、38 次收藏），下一个 OpenCode 版本将用 fff 驱动文件搜索，在智能体打开文件后提高这些文件的排序，并在多次工具调用之间复用同一层搜索能力，这样搜索就不会每次都从冷启动开始。@neogoose_btw 补充（56 次点赞、6 条回复、1,765 次浏览、4 次收藏），同一层现在每天已经处理至少 5,000 万次搜索。

@orca_build 介绍（41 次点赞、7 条回复、1,961 次浏览、29 次收藏）了 Orca ADE 内置的移动模拟器，每个 worktree 一个模拟器，因此智能体可以在代码所在的位置构建、测试、调试并验证移动端流程。Orca 仓库补全了这条推文之外的更大图景：原生面向 worktree 的编排、并排的 CLI 智能体、与 GitHub 关联的工作流，以及通知机制。

@mardehaym 提出异议（12 次点赞、3 条回复、603 次浏览、2 次收藏），反对那一波智能体循环图，理由是安全的循环仍然需要代码库地图、沙箱隔离、成本上限、审计日志、RBAC 和人工关卡。某条回复把差距说得很直接：循环图赢得演示，但能在生产环境活下来的，是那些看不见的基础设施。

讨论要点： 争论已经不再是智能体“能不能执行动作”。真正的问题是，在人们愿意信任这种执行之前，围绕它必须先具备哪些状态、引导和安全原语。

与前日对比： 6 月 7 日说测试框架比模型更重要。6 月 8 日则把这点具体化为 steering inbox、预热搜索状态和隔离执行界面。

2. 令人困扰的问题¶

AI 编程的预算依然像在定量配给¶

严重程度：高。@devXritesh 发问（68 次点赞、76 条回复、1,149 次浏览），如果开发者只能花 20 美元，他们会买什么；回复大致分成 ChatGPT Plus、Claude Pro 和什么都不买三派；有条回复说，很多开发者忙着写代码，根本不愿为那些仍然解决不了完整问题的工具买单。@edzitron 放大了（664 次点赞、11 条回复、18,637 次浏览、27 次收藏）主流媒体里的“AI 账单惊吓”叙事，而回复里又补充了更具体的价格震惊案例，比如财务团队把用量当成固定订阅，或消费者在聊天过程中就刷爆信用额度。@hqmank 展示（744 次点赞、113 条回复、160,975 次浏览、420 次收藏）了应对模式：只要某个捆绑套餐能免费提供 Opus，人们就会迅速切换工作空间。这值得投入，因为决定工作流选择的，已经不只是模型质量，还有计费边界。

免费与兜底模型在测试框架里依然会掉链子¶

严重程度：高。@shaun_on_x 报告（10 次点赞、5 条回复、1,050 次浏览），OpenCode 里的免费 Nemotron 3 Ultra 在工具调用时会失败、运行到一半会停下，而且与测试框架配合得不好。回复称 MiMo 或 DeepSeek 似乎更能用，这让它更像是一条关于质量路由的现实抱怨，而不是一次性吐槽。与此同时，@nexxeln 把（204 次点赞、10 条回复、8,076 次浏览、38 次收藏）OpenCode 新的 fff 层描述为削减冷启动搜索造成的上下文浪费的方法，而 @sunnykgupta 描述（36 次点赞、9 条回复、2,076 次浏览、9 次收藏）了一条仍需人工衔接的 Codex → Antigravity → Copilot 交接链。这值得投入，因为用户已经在自己拼凑各种权宜方案，好让脆弱的运行勉强撑下去。

循环式 demo 看起来依然比安全落地更容易卖出去¶

严重程度：中。@mardehaym 认为（12 次点赞、3 条回复、603 次浏览、2 次收藏），安全的智能体循环在第一次迭代开始前，就需要实时代码库地图、沙箱隔离、成本上限、审计日志、RBAC 和人工关卡。讨论串中的一条回复用更尖锐的话表达了同样的意思：循环赢得演示，但能在生产中活下来的，是那些看不见的基础设施。@massgen_ai 为 Codex 和 Antigravity 发布（2 次点赞、114 次浏览）无头 steering 以及 interrupt-and-resume 支持，说明 builder 们正在实时修补这些缺失的控制界面。这值得投入，因为无人值守的智能体工作来得比围绕它的安全护栏更快。

3. 人们期望的功能¶

可移植的工作流契约¶

人们要的东西既现实又紧迫：有一层工作流能力，装一次就能跨工具携带。@VaibhavSisinty 把 Agent Skills 展示为可复用的 slash-command 工作流，@TheTuringPost 指向（14 次点赞、3 条回复、1,214 次浏览、17 次收藏）OpenProse 契约，而 @Oluwaphilemon1 将（2 次点赞、73 次浏览、3 次收藏）ECC 描述为带有技能和子智能体的跨测试框架操作系统。这种需求不是情绪性的，而是运营层面的：别在每个智能体里反复重建同一套流程。机会：直接。

能把构建、审查、修复交接自动化的循环¶

@sunnykgupta 提问（36 次点赞、9 条回复、2,076 次浏览、9 次收藏），如何自动化一条已经跨越 Codex、Antigravity、GitHub PR 和 Copilot 审查的工作流。由 Real Python 教程和 @pycoders 解释（5 次点赞、338 次浏览、3 次收藏）的路径是：当人工审查缓慢或不稳定时，Copilot 审查可以作为快速的第一轮把关；而 @orca_build 补上了（41 次点赞、7 条回复、1,961 次浏览、29 次收藏）同一套由 worktree 驱动的工作空间中的移动端验证。这条循环的各个部分今天都已经存在，但人们仍在手工把它们串起来。机会：直接。

具备引导、沙箱和审计轨迹的安全循环操作¶

@mardehaym 表示（12 次点赞、3 条回复、603 次浏览、2 次收藏），一个能上生产的循环在值得信任之前，必须先有代码库地图、沙箱、成本上限、审计日志、RBAC 和人工关卡。@massgen_ai 展示（2 次点赞、114 次浏览）了一个局部答案：程序化 steering inbox 和 interrupt-and-resume 支持，但更广义的控制平面仍然分散在各类小众工具中。这种需求不是理想化愿望，而是现实所迫：社区已经在尝试无人值守地运行智能体。机会：直接。

不会出现质量断崖的预算感知模型路由¶

价格痛点很具体，路由行为同样如此。@hqmank 看重（744 次点赞、113 条回复、160,975 次浏览、420 次收藏）Antigravity 中另一条通往 Opus 的路径，@devXritesh 把（68 次点赞、76 条回复、1,149 次浏览）这个决定变成一道 20 美元的预算分配题，而 @shaun_on_x 展示（10 次点赞、5 条回复、1,050 次浏览）了当免费兜底方案脆弱到无法信任时会发生什么。捆绑套餐和免费菜单如今只能部分满足这种需求，却给不出稳定的质量底线。机会：竞争型。

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
Claude Code	智能体 CLI	(+/-)	与 routines、保存下来的协议文件和外部技能包配合时效果很好	用户仍需自行加入检查点和记忆模式，才能让长时间运行保持连贯
Google Antigravity	多模型工作空间	(+/-)	能访问高级模型，可作为 Codex 输出的审查界面，并且正在扩展到 Search 和 NotebookLM	发现和接入依然不够稳定，用户还在到处找捆绑套餐并手动拼接工作流
OpenAI Codex	编程智能体	(+)	适合快速原型、应用内浏览器工作、PR 生成和实验审查	往往仍需要第二层来负责编排、审查或策略检查
GitHub Copilot	PR 审查助手	(+/-)	适合作为快速的第一轮 pull request 审查，也仍可充当维护层	经常是在另一个编程智能体之后被使用，而不是工作流所有者
OpenCode	开源智能体	(+/-)	文件搜索更快、上下文可预热、适合大仓库导航，且提供商选择灵活	免费模型在工具调用时可能质量崩塌，或在任务中途停下
Agent Skills	技能包	(+)	把 spec、plan、build、test、review 和 ship 纪律编码成带验证门禁的流程	需要安装，也要求用户适应命令驱动的工作流
OpenProse	工作流 DSL	(+)	通过 Markdown 契约、回执和目标状态执行，让智能体工作可重复	术语体系仍偏早期，运行时复杂度也让它更像高级用户工具
Orca	多智能体工作空间	(+)	原生面向 worktree 的编排、GitHub 集成，以及如今同一界面内的移动端验证	能力面较广，团队仍需要学习或标准化具体用法
MassGen	编排层	(+)	提供无头 steering、interrupt-resume 控制、多智能体协同和 Docker 隔离代码执行	仍是早期的 v0.1x 控制平面，组成部分很多

整体评价最偏向那些能把聊天变成流程的层：技能、契约、回执、可复用搜索状态和 PR 审查。最常见的权宜方案是把多个工具叠起来，而不是等一个最终赢家出现——@sunnykgupta 描述（36 次点赞、9 条回复、2,076 次浏览、9 次收藏）了一条 Codex → Antigravity → Copilot 链，而 @mardehaym 警告（12 次点赞、3 条回复、603 次浏览、2 次收藏），循环在达到生产安全之前仍需要地图、沙箱和成本上限。因此，迁移压力正在同时朝两个方向移动：Antigravity 和 Codex 这类高级界面，只要能嵌入更大的工具栈就会赢；而 OpenCode、Orca、MassGen、Agent Skills、OpenProse 和 ECC 这类开放系统，则在它们对工作流、状态和执行暴露出更多控制权时占优。

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
/last30days	mvanhorn	由智能体驱动，跨 Reddit、X、YouTube、HN、TikTok、Polymarket、GitHub 和 Web 的搜索，并按真实互动量评分	没有任何单一助手能搜索开发者用来追踪快速变化 AI 工作的全部公开来源	技能规范、各来源连接器、安装向导、排序与综合管线、HTML 简报导出	已发布	仓库, 帖子
OpenProse + Reactor	openprose	基于 Markdown 契约和回执的 AI 会话声明式语言与运行时	用可复用、可审查的工作流状态替代脆弱的提示词链	`*.prose.md` 契约、ProseScript、Reactor 运行时、npm 包	测试版	仓库, 帖子
Agent Skills	Addy Osmani	把软件生命周期映射为 slash command 和验证门禁的跨测试框架技能包	防止编程智能体跳过 spec、test、review 和 ship 等纪律步骤	Markdown 技能、slash command、反合理化表格、多测试框架安装指南	已发布	仓库, 帖子
Orca Mobile Emulator	@orca_build	在多智能体编程工作空间里，为每个 worktree 添加移动模拟器	让智能体无需离开仓库上下文，就能构建、测试、调试和验证移动端流程	worktree、CLI 智能体标签页、GitHub 集成、移动模拟器	测试版	仓库, 帖子
MassGen v0.1.95	@massgen_ai	带有无头 steering inbox 和 interrupt-resume 控制的多智能体编排层	让长时间运行的智能体能被自动化引导，而不只靠 UI 人工介入	TUI、WebUI、文件 inbox、CLI 后端、MCP hooks、Docker 隔离	测试版	帖子
ECC	affaan-m	原生面向测试框架的操作系统，带有技能、子智能体、记忆、安全能力和跨测试框架工作流	把单次智能体会话变成可复用的工程系统，而不是一串提示词堆叠	Skills、hooks、MCP 配置、dashboard、多语言规则	测试版	仓库, 帖子

@israfill 提到（37 次点赞、13 条回复、1,609 次浏览、25 次收藏）了作为跨平台研究技能的 /last30days，而仓库解释了它为什么会引起共鸣：单个技能就能打通 Reddit、X、YouTube、HN、TikTok、Polymarket、GitHub 和开放 Web，并按人们真实参与过的内容给结果打分。OpenProse、Agent Skills 和 ECC 则把同一模式推进到了另一个方向。它们不是再加一个聊天界面，而是把流程本身封装成契约、技能或 operator 系统，可安装、可复用。

Orca 和 MassGen 展示了栈里更底下一层：执行控制。@orca_build 把（41 次点赞、7 条回复、1,961 次浏览、29 次收藏）新模拟器描述为一种让移动端验证留在同一套由 worktree 驱动环境中的方式，而 @massgen_ai 把（2 次点赞、114 次浏览）steering 和 interrupt-resume 描述为无人值守运行的基础原语。反复出现的构建模式已经很清楚：投入在更漂亮提示词上的精力变少了，投入在智能体运行地点、引导方式和可保留状态上的精力变多了。

即便没有独立公开应用，另一个相邻的构建者模式也很重要。@aakashgupta 报告（4 次点赞、1 条回复、1,537 次浏览、8 次收藏）称，一位 OpenAI PM 用 Codex 把 7 个 Databricks 和 Tableau 仪表盘替换成了一个原型 Web 应用，然后附上一份 FAQ，而不是写传统 PRD。这说明 AI 编程正在扩大 builder 群体：不只是工程师在给工程师造工具，也有运营人员和 PM 在用编程智能体跳过文档队列，直接拿着能跑的东西进场。

标题为《用原型替代你的 PRD》的幻灯片，展示 PM 使用 Codex 的原型优先工作流

6. 新动态与亮点¶

Google 把 Antigravity 变成了平台能力¶

最清晰的产品扩张信号来自 Google。@Google 表示（60 次点赞、2 条回复、4,690 次浏览、7 次收藏），Search 可以借助带有 Gemini 3.5 Flash 的 Antigravity 来构建自定义生成式 UI 和交互式可视化，而讨论串中的一条回复还说，Search 也能创建监控主题并发送更新的信息智能体。Ars Technica 又补上了互补的产品动作：NotebookLM 现在拥有一个内嵌 Antigravity 且带有 100 多项软件技能的“云电脑”。这之所以重要，是因为编程运行时这一层正在逃离 IDE，进入研究和搜索界面。

Copilot 靠审查与维护层角色维持存在感¶

6 月 8 日没有出现 Copilot 的重大新发布，但它展现出了一个稳定角色。@sunnykgupta 把（36 次点赞、9 条回复、2,076 次浏览、9 次收藏）Copilot 用作 Codex 和 Antigravity 之后的 PR 审查步骤，这在栈里是更窄但仍有价值的位置。@pycoders 分享（5 次点赞、338 次浏览、3 次收藏）了一篇关于 pull request 中 Copilot 代码审查的教程，而 @phoronix 报道（30 次点赞、1,488 次浏览）称，GitHub Copilot 正在帮助清理老旧的 AMD R600 图形驱动，并链接到了公开文章。值得注意的模式并不是 Copilot 在 6 月 8 日赢下了模型竞赛，而是它在团队需要快速审查和维护帮助的地方，依然很有用。

7. 机会在哪里¶

[+++] 可移植的工作流操作层 —— 反复出现的最强信号，是把流程本身做成产品：Agent Skills、OpenProse、ECC、@PrajwalTomar_ 描述的 /grill-me 检查点模式，以及 @AunySillyMe 描述的文件驱动 routines。这个信号之所以强，是因为同一种需求同时出现在人们分享的内容、安装的工具和实际构建的项目里。

[++] 面向无人值守工作的智能体控制平面 —— @massgen_ai 发布了无头 steering 和 interrupt-resume 支持，@orca_build 加入了 worktree 内的移动端验证，而 OpenCode 的搜索状态复用则由 @nexxeln 展示、再由 @neogoose_btw 放大。@mardehaym 说明了为什么这个机会只是中等而非很强：这些部件正在到位，但安全地图、审计轨迹、RBAC 和成本上限仍然是碎片化的。

[+] 带质量底线的预算感知模型路由 —— @hqmank 把捆绑的 Opus 接入本身就视为有价值，@devXritesh 把问题变成了 20 美元预算分配题，@edzitron 放大了账单冲击，而 @shaun_on_x 展示了当兜底方案是脆弱免费模型时会出现的质量断崖。这个信号还在冒头，因为用户显然很在意，但现有解法仍主要是捆绑套餐、小技巧和手动路由。

8. 要点总结¶

最大的升级是流程的可持久性，而不是提示词的小聪明。 6 月 8 日最强的帖子都把工作流外化成了文件或命令：Agent Skills、OpenProse 契约、/grill-me 检查点，以及 Claude Code routines。（来源）
Antigravity 已从捆绑套餐技巧升级成更广义的工作空间与运行时层。 它既是 Opus 接入路径，也是审查 Codex 输出的地方，还是 Search 运行时和 NotebookLM 云电脑。（来源）
智能体式编程最难的部分，如今是控制平面工程。 无头 steering、预热搜索状态、原生面向 worktree 的模拟器，以及安全循环要求，都比再来一套提示词配方更重要。（来源）
成本依然和能力一样，深刻影响着工作流决策。 用户会把订阅当作预算项来比较，到处找捆绑接入，并在免费兜底方案脆弱到不可信时发出抱怨。（来源）
Codex 正在把 builder 群体扩展到工程师之外。 6 月 8 日最清晰的例子，是一位 OpenAI PM 用 Codex 把一堆 dashboard 替换成可运行原型和 FAQ，而不是 PRD。（来源）