Twitter AI 编程 - 2026-06-08¶
1. 人们在讨论什么¶
1.1 技能、契约与例行流程把提示词变成了文件 🡕¶
6 月 8 日的 Twitter 活动继续从一次性提示词转向智能体可以反复运行的可复用产物:技能包、Markdown 契约、检查点文档和定时例行流程。4 条保留内容共同支撑了这一主题。
@VaibhavSisinty 认为(7 次点赞、1 条回复、207 次浏览、10 次收藏),Addy Osmani 的 Agent Skills 包为编程智能体提供了 23 个生产级技能和从 /spec 到 /ship 的 7 条生命周期命令。Agent Skills 仓库为这一说法提供了支撑:它把这个包描述为可复用的工作流、质量门禁和反合理化表格,可安装到 Claude Code、Cursor、Gemini CLI、GitHub Copilot、OpenCode 和 Codex 中。
@TheTuringPost 强调(14 次点赞、3 条回复、1,214 次浏览、17 次收藏),OpenProse 是把智能体工作流变成可复用程序的一种方式。OpenProse 仓库将 *.prose.md 文件描述为 Markdown 契约,并称其 Reactor 运行时只有在订阅输入发生实质性变化时才会执行昂贵的模型计算,这比“把这个提示词存起来”的承诺更进一步。
@PrajwalTomar_ 表示(8 次点赞、4 条回复、109 次浏览、3 次收藏),Matt Pocock 的 /grill-me 循环之所以有效,是因为它会逐题提取决策并写入知识文档,而把每个回答都 checkpoint 到 brainstorms 文件夹,则能避免长会话丢失前面的上下文。
@AunySillyMe 展示(1 次点赞、1 条回复、70 次浏览、2 次收藏)了同一思路在定时工作中的应用:Claude Code routines 指向 Obsidian 仓库中的协议文件,写出带日期的 Markdown 结果,并在夜间跑完 8 个任务,而不用重新输入说明。

讨论要点: 最关键的细微变化并不是“用更好的提示词”,而是“先让人的上下文变得可持久”。在 /grill-me 讨论串里,有条回复说检查点之所以重要,是因为杂乱的决策会变成可复用的构建上下文,而不是消失在漫长的聊天里。
与前日对比: 6 月 7 日已经偏向技能包和测试框架层系统。到了 6 月 8 日,这一趋势进一步收敛为协议文件、检查点文档,以及那些无需每次新建会话都重新提示、就能持续运行的例行流程。
1.2 Antigravity 同时成了接入层和工作空间 🡕¶
Antigravity 出现时,已经不太像一个新奇应用,而更像是人们获取高级模型、审阅 Codex 输出、或使用 Google 最新智能体功能的地方。4 条保留内容共同支撑了这一主题。
@hqmank 报告(744 次点赞、113 条回复、160,975 次浏览、420 次收藏)称,Google AI Pro 订阅者可以在 Antigravity 中免费使用 Claude Opus 4.6。回复的重要性不亚于原帖:有人指出 Opus 从 2 月起就已经在那里了,而 @hqmank 回应说,真正的价值只是多了一条可用的 Opus 路径。截图则提供了更具体的证据:它直接在模型选择器里显示了 Opus,而不是停留在含糊的接入说法上。

@sunnykgupta 描述(36 次点赞、9 条回复、2,076 次浏览、9 次收藏)了一条手动循环:先由 Codex 写代码,再在 Antigravity 里审查改动,接着由 GitHub Copilot 审 PR,最后由 Codex 按意见修改。这是个很有代表性的变化:在这条工作流里,Antigravity 不只是另一个模型界面,而是生成与审查之间的工作环境。
@Google 表示(60 次点赞、2 条回复、4,690 次浏览、7 次收藏),Search 可以借助带有 Gemini 3.5 Flash 的 Antigravity 来构建自定义生成式 UI 和交互式可视化;同一讨论串中的回复还说,Search 也能创建监控主题并发送详细更新的信息智能体。另据 Ars Technica 报道,NotebookLM 现在也有了自己的“云电脑”,内嵌 Antigravity,并带有 100 多项软件技能。
讨论要点: 回复里并没有执着于“新发布”这件事本身。大家反复回到两个问题:Antigravity 是否是一条稳定通向目标模型的路径,以及它是否适合接入更广泛的工作栈。
与前日对比: 6 月 7 日把接入套利当成主线。到了 6 月 8 日,Antigravity 更进一步,开始扮演共享工作空间和 Google 全域运行时的角色。
1.3 智能体控制平面开始解决运行时问题,而不是提示词问题 🡕¶
最技术向的 builder 帖子,都在谈如何控制长时间运行的智能体:实时引导、预热的搜索状态、隔离的工作树,以及移动端执行界面。4 条保留内容共同支撑了这一主题。
@massgen_ai 宣布(2 次点赞、114 次浏览)发布 MassGen v0.1.95,把中途引导从 TUI 和 WebUI 扩展到了无头调用方,并升级了 Codex 和 Antigravity 后端,使其能够中断并恢复,而不是等到一轮结束。帖子还把这一更新与协作式多智能体团队、带权限的工具以及 Docker 隔离代码执行联系在一起,因此这更像是控制平面更新,而不是提示词库发布。

@nexxeln 展示(204 次点赞、10 条回复、8,076 次浏览、38 次收藏),下一个 OpenCode 版本将用 fff 驱动文件搜索,在智能体打开文件后提高这些文件的排序,并在多次工具调用之间复用同一层搜索能力,这样搜索就不会每次都从冷启动开始。@neogoose_btw 补充(56 次点赞、6 条回复、1,765 次浏览、4 次收藏),同一层现在每天已经处理至少 5,000 万次搜索。
@orca_build 介绍(41 次点赞、7 条回复、1,961 次浏览、29 次收藏)了 Orca ADE 内置的移动模拟器,每个 worktree 一个模拟器,因此智能体可以在代码所在的位置构建、测试、调试并验证移动端流程。Orca 仓库补全了这条推文之外的更大图景:原生面向 worktree 的编排、并排的 CLI 智能体、与 GitHub 关联的工作流,以及通知机制。
@mardehaym 提出异议(12 次点赞、3 条回复、603 次浏览、2 次收藏),反对那一波智能体循环图,理由是安全的循环仍然需要代码库地图、沙箱隔离、成本上限、审计日志、RBAC 和人工关卡。某条回复把差距说得很直接:循环图赢得演示,但能在生产环境活下来的,是那些看不见的基础设施。
讨论要点: 争论已经不再是智能体“能不能执行动作”。真正的问题是,在人们愿意信任这种执行之前,围绕它必须先具备哪些状态、引导和安全原语。
与前日对比: 6 月 7 日说测试框架比模型更重要。6 月 8 日则把这点具体化为 steering inbox、预热搜索状态和隔离执行界面。
2. 令人困扰的问题¶
AI 编程的预算依然像在定量配给¶
严重程度:高。@devXritesh 发问(68 次点赞、76 条回复、1,149 次浏览),如果开发者只能花 20 美元,他们会买什么;回复大致分成 ChatGPT Plus、Claude Pro 和什么都不买三派;有条回复说,很多开发者忙着写代码,根本不愿为那些仍然解决不了完整问题的工具买单。@edzitron 放大了(664 次点赞、11 条回复、18,637 次浏览、27 次收藏)主流媒体里的“AI 账单惊吓”叙事,而回复里又补充了更具体的价格震惊案例,比如财务团队把用量当成固定订阅,或消费者在聊天过程中就刷爆信用额度。@hqmank 展示(744 次点赞、113 条回复、160,975 次浏览、420 次收藏)了应对模式:只要某个捆绑套餐能免费提供 Opus,人们就会迅速切换工作空间。这值得投入,因为决定工作流选择的,已经不只是模型质量,还有计费边界。
免费与兜底模型在测试框架里依然会掉链子¶
严重程度:高。@shaun_on_x 报告(10 次点赞、5 条回复、1,050 次浏览),OpenCode 里的免费 Nemotron 3 Ultra 在工具调用时会失败、运行到一半会停下,而且与测试框架配合得不好。回复称 MiMo 或 DeepSeek 似乎更能用,这让它更像是一条关于质量路由的现实抱怨,而不是一次性吐槽。与此同时,@nexxeln 把(204 次点赞、10 条回复、8,076 次浏览、38 次收藏)OpenCode 新的 fff 层描述为削减冷启动搜索造成的上下文浪费的方法,而 @sunnykgupta 描述(36 次点赞、9 条回复、2,076 次浏览、9 次收藏)了一条仍需人工衔接的 Codex → Antigravity → Copilot 交接链。这值得投入,因为用户已经在自己拼凑各种权宜方案,好让脆弱的运行勉强撑下去。
循环式 demo 看起来依然比安全落地更容易卖出去¶
严重程度:中。@mardehaym 认为(12 次点赞、3 条回复、603 次浏览、2 次收藏),安全的智能体循环在第一次迭代开始前,就需要实时代码库地图、沙箱隔离、成本上限、审计日志、RBAC 和人工关卡。讨论串中的一条回复用更尖锐的话表达了同样的意思:循环赢得演示,但能在生产中活下来的,是那些看不见的基础设施。@massgen_ai 为 Codex 和 Antigravity 发布(2 次点赞、114 次浏览)无头 steering 以及 interrupt-and-resume 支持,说明 builder 们正在实时修补这些缺失的控制界面。这值得投入,因为无人值守的智能体工作来得比围绕它的安全护栏更快。
3. 人们期望的功能¶
可移植的工作流契约¶
人们要的东西既现实又紧迫:有一层工作流能力,装一次就能跨工具携带。@VaibhavSisinty 把 Agent Skills 展示为可复用的 slash-command 工作流,@TheTuringPost 指向(14 次点赞、3 条回复、1,214 次浏览、17 次收藏)OpenProse 契约,而 @Oluwaphilemon1 将(2 次点赞、73 次浏览、3 次收藏)ECC 描述为带有技能和子智能体的跨测试框架操作系统。这种需求不是情绪性的,而是运营层面的:别在每个智能体里反复重建同一套流程。机会:直接。
能把构建、审查、修复交接自动化的循环¶
@sunnykgupta 提问(36 次点赞、9 条回复、2,076 次浏览、9 次收藏),如何自动化一条已经跨越 Codex、Antigravity、GitHub PR 和 Copilot 审查的工作流。由 Real Python 教程 和 @pycoders 解释(5 次点赞、338 次浏览、3 次收藏)的路径是:当人工审查缓慢或不稳定时,Copilot 审查可以作为快速的第一轮把关;而 @orca_build 补上了(41 次点赞、7 条回复、1,961 次浏览、29 次收藏)同一套由 worktree 驱动的工作空间中的移动端验证。这条循环的各个部分今天都已经存在,但人们仍在手工把它们串起来。机会:直接。
具备引导、沙箱和审计轨迹的安全循环操作¶
@mardehaym 表示(12 次点赞、3 条回复、603 次浏览、2 次收藏),一个能上生产的循环在值得信任之前,必须先有代码库地图、沙箱、成本上限、审计日志、RBAC 和人工关卡。@massgen_ai 展示(2 次点赞、114 次浏览)了一个局部答案:程序化 steering inbox 和 interrupt-and-resume 支持,但更广义的控制平面仍然分散在各类小众工具中。这种需求不是理想化愿望,而是现实所迫:社区已经在尝试无人值守地运行智能体。机会:直接。
不会出现质量断崖的预算感知模型路由¶
价格痛点很具体,路由行为同样如此。@hqmank 看重(744 次点赞、113 条回复、160,975 次浏览、420 次收藏)Antigravity 中另一条通往 Opus 的路径,@devXritesh 把(68 次点赞、76 条回复、1,149 次浏览)这个决定变成一道 20 美元的预算分配题,而 @shaun_on_x 展示(10 次点赞、5 条回复、1,050 次浏览)了当免费兜底方案脆弱到无法信任时会发生什么。捆绑套餐和免费菜单如今只能部分满足这种需求,却给不出稳定的质量底线。机会:竞争型。
4. 使用中的工具与方法¶
| 工具 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| Claude Code | 智能体 CLI | (+/-) | 与 routines、保存下来的协议文件和外部技能包配合时效果很好 | 用户仍需自行加入检查点和记忆模式,才能让长时间运行保持连贯 |
| Google Antigravity | 多模型工作空间 | (+/-) | 能访问高级模型,可作为 Codex 输出的审查界面,并且正在扩展到 Search 和 NotebookLM | 发现和接入依然不够稳定,用户还在到处找捆绑套餐并手动拼接工作流 |
| OpenAI Codex | 编程智能体 | (+) | 适合快速原型、应用内浏览器工作、PR 生成和实验审查 | 往往仍需要第二层来负责编排、审查或策略检查 |
| GitHub Copilot | PR 审查助手 | (+/-) | 适合作为快速的第一轮 pull request 审查,也仍可充当维护层 | 经常是在另一个编程智能体之后被使用,而不是工作流所有者 |
| OpenCode | 开源智能体 | (+/-) | 文件搜索更快、上下文可预热、适合大仓库导航,且提供商选择灵活 | 免费模型在工具调用时可能质量崩塌,或在任务中途停下 |
| Agent Skills | 技能包 | (+) | 把 spec、plan、build、test、review 和 ship 纪律编码成带验证门禁的流程 | 需要安装,也要求用户适应命令驱动的工作流 |
| OpenProse | 工作流 DSL | (+) | 通过 Markdown 契约、回执和目标状态执行,让智能体工作可重复 | 术语体系仍偏早期,运行时复杂度也让它更像高级用户工具 |
| Orca | 多智能体工作空间 | (+) | 原生面向 worktree 的编排、GitHub 集成,以及如今同一界面内的移动端验证 | 能力面较广,团队仍需要学习或标准化具体用法 |
| MassGen | 编排层 | (+) | 提供无头 steering、interrupt-resume 控制、多智能体协同和 Docker 隔离代码执行 | 仍是早期的 v0.1x 控制平面,组成部分很多 |
整体评价最偏向那些能把聊天变成流程的层:技能、契约、回执、可复用搜索状态和 PR 审查。最常见的权宜方案是把多个工具叠起来,而不是等一个最终赢家出现——@sunnykgupta 描述(36 次点赞、9 条回复、2,076 次浏览、9 次收藏)了一条 Codex → Antigravity → Copilot 链,而 @mardehaym 警告(12 次点赞、3 条回复、603 次浏览、2 次收藏),循环在达到生产安全之前仍需要地图、沙箱和成本上限。因此,迁移压力正在同时朝两个方向移动:Antigravity 和 Codex 这类高级界面,只要能嵌入更大的工具栈就会赢;而 OpenCode、Orca、MassGen、Agent Skills、OpenProse 和 ECC 这类开放系统,则在它们对工作流、状态和执行暴露出更多控制权时占优。
5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 阶段 | 链接 |
|---|---|---|---|---|---|---|
| /last30days | mvanhorn | 由智能体驱动,跨 Reddit、X、YouTube、HN、TikTok、Polymarket、GitHub 和 Web 的搜索,并按真实互动量评分 | 没有任何单一助手能搜索开发者用来追踪快速变化 AI 工作的全部公开来源 | 技能规范、各来源连接器、安装向导、排序与综合管线、HTML 简报导出 | 已发布 | 仓库, 帖子 |
| OpenProse + Reactor | openprose | 基于 Markdown 契约和回执的 AI 会话声明式语言与运行时 | 用可复用、可审查的工作流状态替代脆弱的提示词链 | *.prose.md 契约、ProseScript、Reactor 运行时、npm 包 |
测试版 | 仓库, 帖子 |
| Agent Skills | Addy Osmani | 把软件生命周期映射为 slash command 和验证门禁的跨测试框架技能包 | 防止编程智能体跳过 spec、test、review 和 ship 等纪律步骤 | Markdown 技能、slash command、反合理化表格、多测试框架安装指南 | 已发布 | 仓库, 帖子 |
| Orca Mobile Emulator | @orca_build | 在多智能体编程工作空间里,为每个 worktree 添加移动模拟器 | 让智能体无需离开仓库上下文,就能构建、测试、调试和验证移动端流程 | worktree、CLI 智能体标签页、GitHub 集成、移动模拟器 | 测试版 | 仓库, 帖子 |
| MassGen v0.1.95 | @massgen_ai | 带有无头 steering inbox 和 interrupt-resume 控制的多智能体编排层 | 让长时间运行的智能体能被自动化引导,而不只靠 UI 人工介入 | TUI、WebUI、文件 inbox、CLI 后端、MCP hooks、Docker 隔离 | 测试版 | 帖子 |
| ECC | affaan-m | 原生面向测试框架的操作系统,带有技能、子智能体、记忆、安全能力和跨测试框架工作流 | 把单次智能体会话变成可复用的工程系统,而不是一串提示词堆叠 | Skills、hooks、MCP 配置、dashboard、多语言规则 | 测试版 | 仓库, 帖子 |
@israfill 提到(37 次点赞、13 条回复、1,609 次浏览、25 次收藏)了作为跨平台研究技能的 /last30days,而仓库解释了它为什么会引起共鸣:单个技能就能打通 Reddit、X、YouTube、HN、TikTok、Polymarket、GitHub 和开放 Web,并按人们真实参与过的内容给结果打分。OpenProse、Agent Skills 和 ECC 则把同一模式推进到了另一个方向。它们不是再加一个聊天界面,而是把流程本身封装成契约、技能或 operator 系统,可安装、可复用。
Orca 和 MassGen 展示了栈里更底下一层:执行控制。@orca_build 把(41 次点赞、7 条回复、1,961 次浏览、29 次收藏)新模拟器描述为一种让移动端验证留在同一套由 worktree 驱动环境中的方式,而 @massgen_ai 把(2 次点赞、114 次浏览)steering 和 interrupt-resume 描述为无人值守运行的基础原语。反复出现的构建模式已经很清楚:投入在更漂亮提示词上的精力变少了,投入在智能体运行地点、引导方式和可保留状态上的精力变多了。
即便没有独立公开应用,另一个相邻的构建者模式也很重要。@aakashgupta 报告(4 次点赞、1 条回复、1,537 次浏览、8 次收藏)称,一位 OpenAI PM 用 Codex 把 7 个 Databricks 和 Tableau 仪表盘替换成了一个原型 Web 应用,然后附上一份 FAQ,而不是写传统 PRD。这说明 AI 编程正在扩大 builder 群体:不只是工程师在给工程师造工具,也有运营人员和 PM 在用编程智能体跳过文档队列,直接拿着能跑的东西进场。

6. 新动态与亮点¶
Google 把 Antigravity 变成了平台能力¶
最清晰的产品扩张信号来自 Google。@Google 表示(60 次点赞、2 条回复、4,690 次浏览、7 次收藏),Search 可以借助带有 Gemini 3.5 Flash 的 Antigravity 来构建自定义生成式 UI 和交互式可视化,而讨论串中的一条回复还说,Search 也能创建监控主题并发送更新的信息智能体。Ars Technica 又补上了互补的产品动作:NotebookLM 现在拥有一个内嵌 Antigravity 且带有 100 多项软件技能的“云电脑”。这之所以重要,是因为编程运行时这一层正在逃离 IDE,进入研究和搜索界面。
Copilot 靠审查与维护层角色维持存在感¶
6 月 8 日没有出现 Copilot 的重大新发布,但它展现出了一个稳定角色。@sunnykgupta 把(36 次点赞、9 条回复、2,076 次浏览、9 次收藏)Copilot 用作 Codex 和 Antigravity 之后的 PR 审查步骤,这在栈里是更窄但仍有价值的位置。@pycoders 分享(5 次点赞、338 次浏览、3 次收藏)了一篇关于 pull request 中 Copilot 代码审查的教程,而 @phoronix 报道(30 次点赞、1,488 次浏览)称,GitHub Copilot 正在帮助清理老旧的 AMD R600 图形驱动,并链接到了公开文章。值得注意的模式并不是 Copilot 在 6 月 8 日赢下了模型竞赛,而是它在团队需要快速审查和维护帮助的地方,依然很有用。
7. 机会在哪里¶
[+++] 可移植的工作流操作层 —— 反复出现的最强信号,是把流程本身做成产品:Agent Skills、OpenProse、ECC、@PrajwalTomar_ 描述的 /grill-me 检查点模式,以及 @AunySillyMe 描述的 文件驱动 routines。这个信号之所以强,是因为同一种需求同时出现在人们分享的内容、安装的工具和实际构建的项目里。
[++] 面向无人值守工作的智能体控制平面 —— @massgen_ai 发布了无头 steering 和 interrupt-resume 支持,@orca_build 加入了 worktree 内的移动端验证,而 OpenCode 的搜索状态复用则由 @nexxeln 展示、再由 @neogoose_btw 放大。@mardehaym 说明了为什么这个机会只是中等而非很强:这些部件正在到位,但安全地图、审计轨迹、RBAC 和成本上限仍然是碎片化的。
[+] 带质量底线的预算感知模型路由 —— @hqmank 把捆绑的 Opus 接入本身就视为有价值,@devXritesh 把问题变成了 20 美元预算分配题,@edzitron 放大了账单冲击,而 @shaun_on_x 展示了当兜底方案是脆弱免费模型时会出现的质量断崖。这个信号还在冒头,因为用户显然很在意,但现有解法仍主要是捆绑套餐、小技巧和手动路由。
8. 要点总结¶
- 最大的升级是流程的可持久性,而不是提示词的小聪明。 6 月 8 日最强的帖子都把工作流外化成了文件或命令:Agent Skills、OpenProse 契约、
/grill-me检查点,以及 Claude Code routines。(来源) - Antigravity 已从捆绑套餐技巧升级成更广义的工作空间与运行时层。 它既是 Opus 接入路径,也是审查 Codex 输出的地方,还是 Search 运行时和 NotebookLM 云电脑。(来源)
- 智能体式编程最难的部分,如今是控制平面工程。 无头 steering、预热搜索状态、原生面向 worktree 的模拟器,以及安全循环要求,都比再来一套提示词配方更重要。(来源)
- 成本依然和能力一样,深刻影响着工作流决策。 用户会把订阅当作预算项来比较,到处找捆绑接入,并在免费兜底方案脆弱到不可信时发出抱怨。(来源)
- Codex 正在把 builder 群体扩展到工程师之外。 6 月 8 日最清晰的例子,是一位 OpenAI PM 用 Codex 把一堆 dashboard 替换成可运行原型和 FAQ,而不是 PRD。(来源)