Twitter AI Coding - 2026-06-02¶
1. 人们在讨论什么¶
1.1 Antigravity 将智能体管理变成了核心产品界面 🡕¶
当天最强的产品讨论,不再是关于更好的代码补全循环,而是关于 Google Antigravity 能否真正成为研究、设计、编程和后台智能体工作的工作流中枢。四条保留内容支撑了这一主题。
@antigravity 宣布(1,378 次点赞、68 条回复、69,241 次浏览、421 次收藏),Antigravity 现已推出面向 30 多个科学数据库的 Science Skills 包和 Alpha* 工作流。公开的 Science Skills 仓库 显示,该包覆盖基因组学、结构生物学、化学信息学、文献检索等研究任务,使其成为垂直工作流包,而非通用编程演示。
@kevinhou22 解释(132 次点赞、27 条回复、8,167 次浏览、45 次收藏)了为何 Antigravity 2.0 将 IDE 与 Agent Manager 拆分开来。该帖子关联的产品讨论和公开的 XDA 评测 都把新界面描述为一个集 Projects、动态子智能体、定时任务和斜杠命令控制于一体的指挥中心;而帖子的一条回复则要求用更强力的监督模型来管理更廉价的子智能体,这说明路由与编排如今已是产品层面的预期能力。
@rseroter 指出(7 次点赞、704 次浏览、5 次收藏)了 Guillaume Laforge 关于使用 Google Stitch 搭配 Antigravity CLI 重新设计 Groovy Web Console 的记录文章。这篇文章的价值不在于炒作,而在于它展示了 Antigravity 在一个工作流里分别处理 UI 集成、Cypress 测试、DNS 与 OAuth 修改、Google Cloud 检查,乃至架构图生成的实际过程。
@xdadevelopers 分享(16 次点赞、2,006 次浏览)了一项体验性判断,称 Antigravity 2.0"在 Claude Code 和 Codex 擅长的领域上打败了它们"。附图比标题更有价值,因为它展示了实际的管理器界面——带项目标签、定时任务、实施计划和长篇计划面板——正是大家争论的那套界面转变。

讨论要点: 有价值的回复并不是在要求一个稍微聪明一点的编辑器,而是在要求混合模型监督、更好的协作界面,以及能跨越多个代码仓库或多条提示词的持久工作流。
与前日对比: 6 月 1 日已经偏向工作流包和集成。6 月 2 日则让管理器界面本身成了主角,带来了科学捆绑包、多文件夹项目和明确的编排功能。
1.2 瓶颈从生成代码转向交付安全、可理解的软件 🡕¶
当天最有实质内容的证据显示,AI 编程的代码产出增长速度,远快于实际发布、可维护的软件。四条保留内容支撑了这一主题。
@emollick 分享(122 次点赞、22 条回复、9,021 次浏览、60 次收藏)了一篇将代码体量与发布产出分开衡量的 AI 编程智能体研究论文。附图显示,异步智能体的代码行数是基线的 17.3 倍、涉及文件数是 3.9 倍、提交数是 2.8 倍,但发布次数只有 1.3 倍;论文截图则指出,在考虑生产链中人力瓶颈之后,版本发布的实际提升约为 30%。


@svpino 警告(8 次点赞、4 条回复、1,911 次浏览、6 次收藏),非技术用户已经在不了解 HTML、安全或 VPC 基础知识的情况下部署纯提示词生成的网站,并听说有公司因为"氛围编程就是他们的全部"而导致数据丢失。引用的 Superblocks 公告 正是这条帖子的价值所在:它把安全默认配置——VPC 内数据库、继承式 AWS 策略、审计轨迹和加密——定性为真正缺失的基础能力。
@zhenthebuilder 说(12 次点赞、350 次浏览),Replit 内部一直在用 ViBench,现在将其公开。公开的 ViBench 仓库 描述了一个基于 PRD 的测试框架,用于构建、生成测试数据和评估完整 web 应用,测试计划和隔离环境一应俱全,直接回应了当天关于编程基准测试忽视应用层现实的批评。
@jain_harshit 指出(5 次点赞、166 次浏览、2 次收藏),纯氛围编程终会遭遇扩展瓶颈。截图把这个论断变成了一个具体的失败案例:某人删掉了三个月 AI 生成代码的约 70%,因为他们再也无法追溯系统为何能跑起来,不得不像读陌生人的项目一样重新理解它。

讨论要点: 最好的回应并不是彻底否定 AI 编程,而是不断将问题聚焦到可维护性、安全护栏和发布就绪性上——恰恰是单纯的代码生成所无法解决的那几层。
与前日对比: 6 月 1 日聚焦于定价冲击和基准测试的局限。6 月 2 日则转向一个更深的问题:那些生成的代码,有多少能真正撑过部署、维护和团队理解的考验。
1.3 编程工作区变成了跨智能体、插件与可分享输出的路由器 🡕¶
第三个主要主题是:能在多个智能体、插件和输出格式之间路由工作的界面正在兴起。五条保留内容支撑了这一主题。
@dabit3 发布(40 次点赞、7 条回复、3,156 次浏览)了 Devin Desktop——一个兼容 ACP 协议的桌面,可搭配 Codex、Claude Agent、OpenCode 等多种智能体使用。截图是关键证据:它展示了一个实时选择器,列有 Devin Local、Devin Cloud、Claude Agent、Codex CLI 和 Cursor;一条回复更明确指出,IDE 正在变成智能体的审查器和路由器,而不再是单一智能体的启动器。

@OrenMe 重点介绍(7 次点赞、828 次浏览)了 GitHub Copilot 应用扩展技术预览版,并引用了 GitHub 更新日志帖子。GitHub 自己的 6 月 2 日博客 把该应用描述为一个集 My Work、画布、隔离 git 工作树和后台自动化于一体的控制中心;附图清晰说明了它的价值:计划、会话历史、diff 和状态更新都集中在同一界面。

@waynesutton 发帖(42 次点赞、3 条回复、5,921 次浏览、20 次收藏)称 Codex 的 Convex 插件已上线;@frankdotlee 随后(10 次点赞、92 次浏览)给出了一个具体的 Amplitude 插件示例,将 Codex 变成了"始终在线的专业产品分析师",可用于机会发现、基于回放的 UX 审计、每周简报和故障智能体排查。这两条帖子合在一起,让 Codex 插件生态的故事显得更像真实运营,而非单纯推广。
@RoundtableSpace 将(29 次点赞、8 条回复、1,116 次浏览)Codex 定位为能把文档和计划转化成可分享网站与交互应用的应用构建器。这条发布信号之所以值得关注,是因为 @_simonsmith 立刻报告(11 次点赞、827 次浏览、4 次收藏)了上线当天的问题:推广插件缺失、某些企业账号看不到 Sites,以及 Codex 中出现新的归档 bug。
@orca_build 补充(7 次点赞、229 次浏览、3 次收藏)了一个较小但颇具启示性的技术栈信号:在同一工作区中同时使用 OpenCode + Codex + Hermes。这张截图的互动量不高,但仍是目前最清晰的公开图像之一,展示了在多个编程智能体之间做工具路由,而非对单一工具保持忠诚。

讨论要点: 讨论越来越把 IDE 视为流量调度器。如今的开放问题不再是团队是否想用多个智能体,而是桌面层、插件层和推出层是否已稳定到可以信赖的程度。
与前日对比: 6 月 1 日已出现统一工作区和"超级应用"打包的早期信号。6 月 2 日则增加了具体的桌面应用、真实运行的插件工作流,以及可分享的输出界面,让路由器模式变得清晰可见。
2. 令人困扰的问题¶
交付软件依然远比生成代码更难¶
严重程度:高。@emollick 分享(122 次点赞、22 条回复、9,021 次浏览、60 次收藏)了一篇论文,显示异步编程智能体带来的代码产出增幅远大于实际发布次数;@svpino 警告(8 次点赞、4 条回复、1,911 次浏览、6 次收藏),非技术用户已经在不了解安全基础的情况下部署提示词生成的网站。@jain_harshit 补充(5 次点赞、166 次浏览、2 次收藏)了一个有截图佐证的案例:AI 生成的代码被大量删除,因为作者已无法解释或安全修改它。大家应对的方式是重写代码、缩窄范围,以及要求平台提供更安全的默认配置,比如 Superblocks 的 VPC 内数据库方案。这个问题值得去解决,因为差距不是表面的——它直接阻碍了部署、维护和团队所有权的建立。
用量上限与上线当天的不一致仍在消磨信任¶
严重程度:高。@sheriyuo 报告(18 次点赞、3 条回复、1,314 次浏览),Codex 对免费和 Go 用户的重置周期已从每周改为每月,附图显示余量为 0% left,下次重置日期在 7 月。@_simonsmith 指出(11 次点赞、827 次浏览、4 次收藏),当天 OpenAI 的发布问题重重:插件缺失、某个企业账号看不到 Sites,以及 Codex 出现归档 bug;@wieslawsoltes 则得出结论(17 次点赞、653 次浏览),Copilot 的定价如今大约只够一个工作日内的正常使用。公开可见的应对方式很直接:限制高价工具的使用,切换到其他界面,或者等到定价和推出稳定下来再说。这个问题值得去解决,因为团队对可靠性和可预测的用量余量都高度敏感。
团队仍缺少围绕多智能体的清晰协作层¶
严重程度:中高。@TaylorPearsonMe 说(3 次点赞、2 条回复、751 次浏览、2 次收藏),他认识的每个人都在试图把协作能力硬接到 Claude Code 和 Codex 上,这感觉像是在重建 Google Docs。@dabit3 发布(40 次点赞、7 条回复、3,156 次浏览)了 Devin Desktop,试图用共享界面支撑多个智能体;一条回复明确把 IDE 重新定义为审查器和路由层,但另一名用户随即说他还是看不到承诺中的所有智能体。@OrenMe 重点介绍(7 次点赞、828 次浏览)了 Copilot 应用以计划为核心的桌面,作为解决同一问题的另一种尝试。这个问题值得去解决,因为目前的权宜方案是叠加多个工具,然后寄希望于上下文在交接中不丢失。
3. 人们期望的功能¶
面向能写提示词却不懂运维生产系统的用户的安全默认部署¶
当天最清晰的实际诉求不是"更多代码生成",而是围绕数据库、网络、审计轨迹和部署的安全默认配置。@svpino 明确说出了这一点(8 次点赞、4 条回复、1,911 次浏览、6 次收藏),而引用的 Superblocks 帖子 则把 VPC 内数据库和继承式 AWS 控制作为答案。@jain_harshit 补充(5 次点赞、166 次浏览、2 次收藏),纯氛围编程在没有人理解最终代码库的时候终将崩溃。机会:直接。
跨多个智能体的共享计划、状态与审查界面¶
团队想要的是接近统一工作平台的东西,而不是一堆孤立的聊天会话。@TaylorPearsonMe 将(3 次点赞、2 条回复、751 次浏览、2 次收藏)当前的差距描述为要在 Claude Code 和 Codex 周围重建 Google Docs。新发布的 GitHub Copilot 应用博客 和 @dabit3 的发布(40 次点赞、7 条回复、3,156 次浏览)都指向同一个需求:可追溯的计划、共享的工作状态,以及从一处调度多个智能体。机会:直接且有竞争性。
能预测交付质量而非只衡量代码产出的基准测试¶
整个信息流反复区分"写了很多代码"与"帮团队交付好软件"。@emollick 分享(122 次点赞、22 条回复、9,021 次浏览、60 次收藏)的研究显示,版本发布的增幅远落后于代码产出的增幅;@zhenthebuilder 则指出(12 次点赞、350 次浏览),ViBench 正是为评估端到端 web 应用交付而生。这项需求很实际:人们想要一个能预测可维护性、发布就绪性和面向用户正确性的基准测试。机会:直接。
编程智能体内面向非编程工作的稳定插件与输出层¶
6 月 2 日展示了让编程智能体处理分析、文档和应用发布的强烈兴趣,但推出仍参差不齐。@waynesutton 宣布(42 次点赞、3 条回复、5,921 次浏览、20 次收藏)了 Codex 的 Convex 插件;@frankdotlee 描述(10 次点赞、92 次浏览)了 Codex 内的 Amplitude 工作流;@RoundtableSpace 将(29 次点赞、8 条回复、1,116 次浏览)Codex Sites 定位为把计划变成可分享应用的途径。@_simonsmith 立刻指出(11 次点赞、827 次浏览、4 次收藏)插件缺失和企业端可用性不一致的问题。机会:有竞争性。
4. 使用中的工具与方法¶
| 工具 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| Google Antigravity 2.0 | 智能体管理器 / IDE | (+) | 多文件夹 Projects、动态子智能体、定时任务、围绕 Gemini 的强力工作流打包 | 仍依赖用户对模型的信任,且要求学习全新的以管理器为先的界面 |
| Science Skills | 技能包 | (+) | 将 Antigravity 扩展至基因组学、生物学、化学、文献检索等科学工作流 | 部分技能需要 API 密钥,且该包仍绑定在 Antigravity 生态内 |
| Stitch + Antigravity CLI | 设计到代码工作流 | (+) | 让非前端开发者可在同一循环内迭代 UI、集成导出设计、更新测试并修改云配置 | 生成后仍需人工审查和项目特定的清理工作 |
| GitHub Copilot app | 桌面控制中心 | (+) | My Work 视图、画布、隔离工作树、可追溯计划和后台自动化 | 仍处于技术预览阶段,且更广泛的 Copilot 使用仍面临定价敏感性 |
| Devin Desktop | 多智能体桌面 | (+/-) | 一个桌面支持来自多家厂商的本地和云端智能体 | 上线当天的回复显示,部分承诺的智能体对某些用户不可见 |
| Codex 插件生态(Convex、Amplitude) | 插件 / MCP 界面 | (+) | 让 Codex 成为后端构建器和产品分析界面,而不只是编程工具 | 插件推出参差不齐,部分文档和可用性信号仍不稳定 |
| Codex Sites | 应用发布 / 协作界面 | (+/-) | 将计划和文档转为可分享的 web 输出和交互应用 | 同日报告显示该功能在某些企业账号中不可见 |
| ViBench | 测试框架 | (+) | 以 PRD、测试计划和隔离评估运行衡量端到端 web 应用交付 | 新基准测试;目前仍是衡量交付质量的一个代理指标,而非完整的生产度量 |
| Superblocks 安全默认配置 | 部署平台 | (+) | VPC 内数据库、继承式安全策略、审计轨迹,以及面向非专业用户的更安全默认配置 | 这是针对更广泛部署和可维护性问题的平台特定答案 |
| Claude Platform CLI / Claude Code shell 工作流 | API / 终端工具 | (+) | 让 API 和托管智能体可从终端调用,并可在 shell 工作流中编写脚本 | 更偏基础设施而非用户协作层;与成熟 CLI 相比仍处于早期阶段 |
整体评价务实而非站队。人们愿意混用 Antigravity、Codex、Copilot、Claude Code、OpenCode 和 Hermes,只要每个工具能负责好工作流的某个部分。最常见的权宜方案是:将昂贵或不稳定的任务路由到其他界面、用一个桌面做审查或路由而另一个工具负责实际执行,以及在氛围编程项目到达部署阶段时要求更安全的默认配置。竞争格局也在变化:Antigravity 在编排和速度上发力,Codex 通过插件和可分享输出扩张,GitHub 强调可追溯的智能体计划,Orca 和 Devin 这样的小玩家则押注多智能体路由。
5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 阶段 | 链接 |
|---|---|---|---|---|---|---|
| Science Skills | @antigravity / Google DeepMind | 为 Antigravity 增加领域专属科学工作流和数据库 | 通用编程智能体不自带科学工具、数据源或研究专属流程 | Antigravity 插件/skills、Alpha* 模型、30 多个科学数据库 | Shipped | 推文 / 仓库 |
| ViBench | @zhenthebuilder / Replit,经由 @pirroh | 用于端到端 web 应用开发的公开测试框架 | 现有编程基准测试忽视应用层质量和已发布应用的真实表现 | PRD、测试计划、基于 OpenHands 的运行器、Docker 编排、多模型评估 | Shipped | 推文 / 仓库 |
| GitHub Copilot app | GitHub,由 @OrenMe 重点介绍 | 用于管理会话、计划、画布、自动化和工作树的智能体原生桌面 | 智能体工作分散在终端、PR 和聊天窗口中 | 桌面应用、画布、git 工作树、本地/云端沙箱、后台自动化 | Beta | 推文 / 博客 |
| Devin Desktop | Cognition,由 @dabit3 分享 | 用于来自多家厂商的本地和云端智能体的桌面界面 | 开发者希望在一处规划、委派、审查并切换编程智能体 | 桌面 UI、ACP 兼容智能体、本地/云端执行界面 | Beta | 推文 |
| Codex 的 Convex 插件 | Convex,由 @waynesutton 分享 | 让 Codex 在 Convex 后端上构建和管理应用 | Codex 需要比单纯代码生成更深层的后端集成 | Codex 插件、Convex 后端 | Shipped | 推文 / 社区帖子 |
| Codex 的 Amplitude 插件 | Amplitude,由 @frankdotlee 分享 | 为 Codex 提供分析和回放工作流,如机会挖掘和 UX 审计 | 产品分析通常与负责实际修改的编程界面脱节 | Codex 插件、Amplitude MCP、精选技能 | Shipped | 推文 |
@antigravity 将(1,378 次点赞、68 条回复、69,241 次浏览、421 次收藏)Science Skills 定位为垂直包,@zhenthebuilder 则把(12 次点赞、350 次浏览)ViBench 本身做成了一个开放项目来推进基准测试设计。@OrenMe 展示(7 次点赞、828 次浏览)了以计划为核心的 Copilot 桌面,@dabit3 则展示(40 次点赞、7 条回复、3,156 次浏览)了作为多智能体路由器的 Devin Desktop。
反复出现的构建模式已经很清晰:一层负责编排,一层负责领域或数据访问,一层负责评估或发布。Convex 和 Amplitude 等插件将 Codex 推入后端和分析工作,而控制中心桌面则试图让多智能体工作变得可审查、可路由。就连评估体系也遵循同样的模式:ViBench 的存在,正是因为团队现在需要一种产品化的方式来判断智能体生成的代码能否撑过完整的应用交付,而不只是一段基准代码片段。
6. 新动态与亮点¶
ViBench 让应用层评估成为一个公开项目¶
@zhenthebuilder 说(12 次点赞、350 次浏览),Replit 内部一直在使用 ViBench,现在将其公开以帮助开发者;而引用的 @pirroh 帖子则将其定位为 web 应用开发的端到端基准测试。公开的 ViBench 仓库 以 PRD、测试计划、运行器框架和跨多模型的构建-生成数据-评估流水线加以佐证。这一点很重要,因为它直接回应了当天的核心论断:以代码为中心的基准测试无法衡量用户实际交付的内容。
Codex 进一步迈向发布和角色专属工作¶
@RoundtableSpace 说(29 次点赞、8 条回复、1,116 次浏览),Codex 现在可以把文档和计划转化为可分享的应用和站点;@frankdotlee 则展示(10 次点赞、92 次浏览)了一个更专业化的方向——Codex 内的 Amplitude 工作流。值得关注的不只是功能广度,而是 Codex 正在尝试成为非编程工作的发布、分析和协作界面。
Claude 的平台 API 获得了更适合智能体的终端界面¶
@minchoi 重点介绍(12 次点赞、644 次浏览、7 次收藏)了全新的 Claude Platform CLI——可从 shell 调用 API、启动智能体、上传文件、同步 YAML 并检查运行情况;引用的 @ClaudeDevs 帖子则说明 Claude Code 可以直接使用它。这一点值得关注,因为它把更多平台基础设施搬进了开发者已经编排编程智能体的同一个终端界面。
7. 机会在哪里¶
[+++] 安全默认的智能体交付 —— 多个章节都有证据支撑:@svpino 标记了提示词生成应用带来的数据丢失风险,@jain_harshit 展示了可维护性的崩溃,引用的 Superblocks 帖子则展示了对安全默认数据库和策略的具体需求。这项机会分量十足,因为痛点是运营层面的、迫在眉睫的,且代价高昂。
[+++] 共享计划的多智能体控制中心 —— GitHub Copilot app、Devin Desktop 和 Antigravity 2.0 都收敛到了同一种产品形态:一个集计划、智能体路由、后台任务和审查于一体的界面。@TaylorPearsonMe 把未被满足的需求说得很明白,称当前的权宜方案就像是在围绕编程智能体重建 Google Docs。
[++] 发布就绪性与应用层评估 —— Emollick 那篇论文显示代码产出的增幅远超版本发布的增幅,而 ViBench 的存在正是因为团队需要一种公开的方式来测试端到端应用交付,而非代码片段质量。这是中等程度的机会,因为需求明确,但基准测试仍需证明自己能预测真实生产结果。
[+] 领域包与角色专属插件 —— Science Skills、Codex 的 Convex 插件和 Amplitude 插件都表明,通用智能体正在被包裹进工作流专属层中。这仍处于新兴阶段,尚未完全得到验证,但需求横跨科学、后端构建、分析等多个非聊天场景。
8. 要点总结¶
- AI 编程竞争正在从编辑器功能转向编排界面。 Antigravity 2.0、Devin Desktop 和 GitHub Copilot app 都在计划、路由、定时/后台工作和多智能体控制上竞争,而不再只比拼代码补全。(来源)
- 更多代码不等于更多交付的软件。 Emollick 论文的图表和摘要让这一差距变得具体;删掉代码截图中的可维护性抱怨,则从从业者视角印证了同一问题。(来源)
- 下一个信任壁垒是安全护栏,而非原始输出速度。 安全默认基础设施、推出一致性和可预测的用量额度,都比再赢一次边际模型比拼更紧迫。(来源)
- 插件和领域包正将编程智能体变成更广泛的工作平台。 Science Skills、Convex、Amplitude 和 Codex Sites 都将这一品类推出了代码生成的范畴,走向研究、分析、后端构建和可分享输出。(来源)