Twitter AI 编程 - 2026-05-19¶
1. 人们在讨论什么¶
1.1 GitHub Copilot 正在从助手变成编排者 🡕¶
今天信息流里最清晰的变化,不只是 Copilot 能写代码,而是它有了更多运行位置、更多交接工作的方法,以及更多可被监督的方式。相较于 5 月 18 日围绕远程控制和 hooks 的发布型讨论,5 月 19 日又新增了云托管 CI 修复、桌面端会话派生、面向移动端的模型发布,以及围绕 Copilot app 易用性的新一轮用户讨论。
@code 宣布(140 次点赞,2 条回复,18,463 次浏览)说,GitHub Copilot CLI 和 @code 会话的远程控制现已正式可用,这等于把 Copilot 描述成一种可以随时随地监看并审批的东西,而不再是绑在某一个终端窗口上的工具。这个更宽的运行时故事,在另一条更新里又变得更具体:@GHchangelog 表示(11 次点赞,1,069 次浏览),Copilot Business 和 Enterprise 用户现在可以一键让云智能体修复失败的 GitHub Actions 作业;关联 changelog 说,Copilot 会在自己的云开发环境里调查问题、把修复推送到分支,并标记用户来审核。
@jfversluis 展示(4 次点赞,3 条回复,272 次浏览)展示了 Copilot app 如何在一个会话内部再派生出第二个会话,给它注入另一个仓库的上下文,并让它独立开始搜索代码。这比泛泛的“多智能体”营销更有力,因为截图里能清楚看到,新派生的会话会创建一个 worktree,并搜索 MAUI toolbar badge 代码。@lexrus 补充(9 次点赞,3 条回复,1,386 次浏览)则从产品设计角度补了一笔:他贴出了新的 Copilot app UI,又在回复里说它比 Codex 更卡,尤其是在渲染 markdown 时——这让桌面应用从抽象的发布讨论,变成了可比较的用户体验反馈。


讨论要点: 即便是支持性的讨论,现在谈的也是编排质量,而不是自动补全的新鲜感:云智能体这条线强调后台执行和可审查输出,而 app 截图则直接引出了与 Codex 在响应性上的对比。
与前日对比: 5 月 18 日,Copilot 最强的证据还是远程控制、hooks,以及 Spaces / API 覆盖面。到了 5 月 19 日,讨论进一步转向操作层交接:派生会话、云托管 CI 修复,以及一款已经开始被拿来和竞品智能体运行时做基准对比的桌面应用。
1.2 安全与治理走到了智能体讨论的中心 🡕¶
另一个强主题是,智能体采用如今开始用企业控制的语汇来讨论:代码在哪运行、它如何接入私有系统,以及在不把凭据泄露进提示词或上下文窗口的前提下,如何把凭据交给它。这是信息流里证据最密的一部分之一,因为它同时包含产品公告、架构图和外部报道。
@testingcatalog 总结(38 次点赞,3 条回复,2,004 次浏览)总结了 Anthropic 面向 Claude Managed Agents 的自托管沙箱与 MCP 隧道,附带的图把架构讲清了:由 Anthropic 托管的智能体循环,会把工作推给一个沙箱控制平面,再由后者把执行委派到桌面、浏览器或云沙箱。回复进一步点明了意义:对那些无法把敏感代码穿过第三方基础设施的企业来说,私有 MCP 访问和自托管执行,能帮它们跨过一大块信任门槛。

@ithilgore 指向(6 次点赞,985 次浏览)指向了 Forbes 对 OpenAI 和 1Password 的 Codex 安全合作报道。这篇文章补上了缺失的实质内容:1Password 的 Environments MCP Server 能让 Codex 按需获取凭据,而不用把秘密放进提示词、代码或模型上下文里;OpenAI 负责智能体安全的人也明确主张,随着子智能体越来越常见,审计轨迹、持续授权和凭据中介都会变得必要。把这些信息放在一起看,市场已经从“智能体能不能做成”转向“它是在谁的控制下、拿着什么凭据、留下什么审计记录来做成”。
讨论要点: 讨论围绕的不是抽象的 AI 安全,而是很具体的东西:私有网络 MCP 访问、自托管沙箱、按需凭据,以及对子智能体动作的可观测性。
与前日对比: 5 月 18 日,治理问题主要还是以 Copilot 的远程控制信任和管理员可见性焦虑出现。到了 5 月 19 日,讨论已经成熟成边界架构与凭据中介问题,而且桌面上同时摆着 Anthropic 和 OpenAI 的证据。
1.3 成本控制与路由正成为一等工作流议题 🡕¶
定价和 token 开销控制依旧是中心议题,但语气从抱怨转向了操作层权宜方案。信息流里有多个例子,都在展示人们如何通过更换运行框架、路由器和模型组合,让编程智能体在经济上变得可以承受。
@DeepakNesss 分享(4 次点赞,2 条回复,80 次浏览)分享了一套很具体的 OpenCode 优化模式:让 Kimi K2.6 充当主编排者,再由更便宜的 DeepSeek v4 Flash 子智能体去执行命令和测试,这样输出就不会烧掉昂贵的上下文。这张截图之所以重要,是因为它把机制讲清楚了,而不是只笼统声称成本更低。

@FellMentKE 介绍(3 次点赞,2 条回复,3,132 次浏览)介绍了 UncommonRoute;关联仓库称,这个本地路由器在 100 个留出的 SWE-bench Verified 任务中解决了 75 个,而仅用 Opus 的基线是 74 个,但 API 成本低了 53%,同时还能在仪表盘里展示 Claude Code、Codex、Cursor 和 OpenAI SDK 的逐请求路由决策。平台层面上,@Sarthak4Alpha 警告(16 次点赞,12 条回复,213 次浏览)说,GitHub Copilot 从 6 月 1 日开始按 token 计费后,重度智能体式工作流受到的冲击会比普通补全更大,连代码审查也会被拉进 GitHub Actions 的计量里。
讨论要点: 信息流现在把路由当作一种正常的工程杠杆。人们不再只是选一个最喜欢的模型,而是在引入子智能体、本地路由器,以及基于任务的升级规则来控制消耗。
与前日对比: 5 月 18 日,定价主题仍然更像配额震惊和免费层故障。到了 5 月 19 日,更强的信号已经是适应:把路由做得更便宜、对命令执行采取不同计量,并审计多步骤智能体工作流的真实成本。
1.4 Google 的编程模型势头,更多体现在 Copilot 上,而不是 Antigravity 🡒¶
围绕 Google 的关注度依然很高,但最强的证据并不来自 Antigravity 本身。今天数据集里最具体的 Google 模型故事,是 GitHub 把 Gemini 3.5 Flash 分发进 Copilot,而独立存在的 Antigravity 仍然更多引发怀疑与观望。
@github 宣布(52 次点赞,4 条回复,6,710 次浏览)说,Gemini 3.5 Flash 已正式可用,并正在 GitHub Copilot 中推出;@GHchangelog 补充(50 次点赞,5 条回复,3,123 次浏览)则补充说,它正覆盖 Copilot Pro、Pro+、Business 和 Enterprise 用户,范围包括主流 IDE 和 GitHub Mobile。关联 changelog 说,GitHub 看到的是接近 Pro 档的编码质量,同时保有 Flash 档的速度和成本,工具使用能力强、响应快、缓存效率高;但文中也提到暂定 14 倍的高级请求倍率,以及 Business 计划可能需要策略启用。
这条分发故事旁边,是更弱的独立产品信心。@Surendar__05 表示(24 次点赞,28 条回复,650 次浏览)说,他们接触到的人里,根本没人真的用 Antigravity 或 Gemini 模型来写代码;附图也只是一张带品牌的标题卡,而不是产品证据。@EdenKollcinaku 发帖(292 次点赞,8 条回复,16,930 次浏览)一张 I/O 倒计时图片,再次展示的更多是期待,而不是产品证明。
讨论要点: Google 的编程故事仍然是一分为二的:I/O 品牌化界面带来兴奋和猜测,而真正更清楚的日常采用证据,则出现在 Gemini 被分发进别人的编程产品时。
与前日对比: 5 月 18 日,Antigravity 的猜测主要由泄露文化和路由截图驱动。到了 5 月 19 日,公开、结构化的发布信号来自 GitHub 把 Gemini 3.5 Flash 上线进 Copilot,而 Antigravity 自己仍然缺少同等程度的用户信心。
2. 令人困扰的问题¶
按量计费的智能体工作流正在暴露真实的成本焦虑¶
@Sarthak4Alpha 警告(16 次点赞,12 条回复,213 次浏览)说,GitHub Copilot 按 token 计费后,重度智能体式工作流会更贵,甚至把代码审查也计进 GitHub Actions minutes。真正让人挫败的,并不是 AI 编程要花钱,而是更丰富的自主工作流现在被更明确地计量了,这会让人感觉自己在账单落地之前,根本摸不清每个月真正要付多少钱。严重度:高。
信息流别处也能看到应对模式。@DeepakNesss 采用(4 次点赞,2 条回复,80 次浏览)用更便宜的执行型子智能体去处理命令密集的工作,而 @FellMentKE 链接的 UncommonRoute 仓库,则明确把逐请求模型路由当成一种方法,来在不牺牲基准表现的前提下把 API 账单砍半。值得构建:是。这个痛点具体、反复出现,而且已经逼出了临时拼出来的路由层。
相比 Codex 风格竞品,Copilot 的新桌面界面依然显得粗糙¶
@lexrus 发帖(9 次点赞,3 条回复,1,386 次浏览)贴出了新的 GitHub Copilot app,又在回复里说它比 Codex 更卡,尤其是在 markdown 很重的视图里。这不是文化战式嘲讽,而是很实际的抱怨:用户已经开始拿这些产品比较渲染速度、会话清晰度,以及跟进智能体工作到底有多容易。严重度:中。
问题不是 Copilot 缺功能;第 1 节恰恰说明相反。问题在于,一旦用户能跨工具比较派生会话、plan mode 和远程控制,打磨上的差距就会更明显。值得构建:是,但机会在工作流可观测性和界面质量,而不是再包一层裸模型。
Google 依然没有说服实践者把 Antigravity 当成日常编程工具¶
@Surendar__05 提问(24 次点赞,28 条回复,650 次浏览)问,如果 Google 花了几十年爬取代码,为什么 Gemini 依然不擅长写代码,并说他接触到的人里,根本没人真的在用 Antigravity。这比当天那些倒计时图和品牌贴更像是实操层抱怨,因为后者展示的更多是期待,而不是成功使用。严重度:中。
当前的应对方式,是当别的产品把 Google 模型用更好的工作流胶水封装出来时,间接去用它们。今天 GitHub 上线 Gemini 3.5 Flash,正好说明了这一点。值得构建:可能,但机会更多在产品封装和工作流集成,而不是单纯提供模型本身。
3. 人们期望的功能¶
企业边界内可审计且安全的智能体运行时¶
今天信息流里最清晰、也最务实的需求,是让智能体能够接入私有系统,同时不迫使团队放弃安全控制。@testingcatalog 指出(38 次点赞,3 条回复,2,004 次浏览)介绍了 Claude Managed Agents 的自托管沙箱和 MCP 隧道,而 @ithilgore 链接的 Forbes 文章,则主张在 Codex 里使用按需凭据访问、持续授权,以及可审计的子智能体行为。机会评级:直接。
跨智能体技术栈的更聪明成本路由与预算控制¶
@DeepakNesss 写明 了一种子智能体模式,用来把 OpenCode 点数压低;而 @FellMentKE 链接的 UncommonRoute 仓库,则用本地路由、仪表盘和感知支出的模型选择,把同样的直觉正式产品化。这个需求很务实,也很紧迫,因为按量计费的智能体使用,已经不是假设问题了。机会评级:直接。
面向长时运行智能体的更好离席监管¶
@code 宣布 Copilot CLI 和 app 会话的远程控制,而 @DevAdventur3s 展示(4 次点赞,1 条回复,167 次浏览)ChatGPT app 里的 Codex 可以在移动端接收截图,并展示校验检查。人们显然希望自己离开工位时,智能体还能继续工作,但同时又有足够的可见性,能从手机上审批、检查和引导。机会评级:直接。
从买方视角看更清晰的智能体可观测性¶
@anandPa94 介绍(4 次点赞,2 条回复,49 次浏览)把 Scope 介绍成一个平台,用来展示 Claude Code、Codex 和 Cursor 如何与产品交互、在哪里卡住,以及何时转去竞争对手。这套说法之所以成立,是因为它回答了一个很新的买方问题:不是“哪个模型最好?”,而是“智能体到底是怎么体验我的产品的?”机会评级:竞争激烈。
4. 使用中的工具与方法¶
| 工具 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| GitHub Copilot / Copilot app / cloud agent | AI 编程助手 + 托管智能体 | (+/-) | 远程控制、派生会话、一键修复 CI,广泛分布在 GitHub 各个界面 | 桌面应用打磨仍常被拿来和 Codex 比;更丰富的工作流也把计费焦虑带到了台前 |
| Gemini 3.5 Flash in Copilot | 编程工具内的模型分发 | (+) | GitHub 宣称它拥有接近 Pro 的编码质量,同时保有 Flash 档速度 / 成本,工具使用能力强、响应快、缓存效率高 | 暂定 14 倍高级请求倍率;企业访问可能需要策略启用 |
| Claude Managed Agents with self-hosted sandboxes + MCP tunnels | 企业智能体运行时 | (+) | 私有网络访问、自托管执行,对敏感代码库的安全姿态更清晰 | 今天的公开证据还停留在架构层,而不是吞吐量或开发者体验的实操证明 |
| Codex mobile in ChatGPT | 移动端智能体监管 | (+) | 展示校验步骤、截图证据,以及离开工位后的远程任务审查 | 今天的证据量仍然不大,而且更偏移动优先,不是深度替代工作站 |
| OpenCode | 终端编程智能体 | (+/-) | 用户称赞用户体验更干净、支持 headless 运行;可支持多提供商配置和测试框架实验 | 成本依然重要到让用户开始发明子智能体执行方案并迁移测试框架 |
| UncommonRoute | 模型路由器 / 代理 | (+) | 本地逐请求路由、仪表盘、经基准测试验证的成本节省,可即插即用支持 Claude Code/Codex/Cursor/OpenAI SDK | 仍是早期基础设施层,会给运维再增加一个组件 |
| 1Password Environments MCP Server for Codex | 智能体凭据 / 安全层 | (+) | 按需获取凭据,不把秘密暴露到提示词或模型上下文里 | 增加了身份与访问管理复杂度,团队仍需谨慎设计 |
整体满意度光谱很宽,但也很务实。只要每一层能解决一个具体工作流问题,人们就愿意混搭模型、路由器、移动端监管和托管智能体。最大的迁移模式不是“所有人都从工具 X 跑去工具 Y”,而是引入路由层和测试框架层,让同样的模型用起来更便宜或更安全。竞争格局也在变化:Google 今天最强的编程模型证据,是通过 Copilot 的分发出现的;而 OpenCode 和 Codex 仍在用户体验与运行时控制上持续赢得心智。
5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 阶段 | 链接 |
|---|---|---|---|---|---|---|
| UncommonRoute | @FellMentKE / CommonstackAI | 把每次编程智能体请求路由到最便宜且合适的模型,并在仪表盘里展示路由决策 | 如果每个请求都发给最强模型,前沿模型质量就太贵 | Python、本地路由器、仪表盘、Claude Code/Codex/Cursor/OpenAI SDK 集成 | Beta | GitHub / 推文 |
| skillgrade v0.1.5 | @mgechev | 评估智能体技能,并新增 OpenCode 支持和可配置的评分器提供商 | 团队需要一套可重复的方法,检查系统能否发现技能、团队能否把技能用对 | Node.js, Docker, eval.yaml, OpenCode support | 已发布 | GitHub / 推文 |
| Wearable remote control for Codex agents | @DsouzaJovian | 一个用于远程控制 Codex 智能体的可穿戴硬件原型 | 只有当用户能从其他设备引导它们时,离开工位的智能体会话才真正有用 | 定制硬件、Codex、黑客松原型 | Alpha | 推文 |
| Scope | @anandPa94 | 一个可观测性平台,用来展示 Claude Code、Codex、Cursor 等智能体如何穿过产品 | 产品团队不知道智能体在哪里卡住,也不知道它们为什么转向竞争对手 | 智能体工作流回放、trace 分析、产品埋点 | Beta | 推文 |
UncommonRoute 是当天最强的构建者信号,因为这个仓库回答了那些最显然的后续问题:基准结果、支持哪些客户端、健康检查,以及一个可以检查每条路由的仪表盘。这说明路由器这个品类,正在从一句模糊的“用更便宜的模型”建议,成熟成产品化的运维层。
skillgrade 指向了另一种模式:构建者开始围绕技能本身搭基础设施,而不只是围绕模型。@mgechev 发布(7 次点赞,499 次浏览)发布了 0.1.5 版本,加入 OpenCode 支持和可配置的评分器提供商,这说明评估测试框架正在变成编程智能体工具链的一部分。
@DsouzaJovian 展示(12 次点赞,2 条回复,309 次浏览)展示了一个用于 Codex 智能体的可穿戴远程控制原型,而 @anandPa94 概括 Scope 是面向买方的、用于观察智能体驱动产品使用情况的可观测层。这两个构建,站在同一轮转向的两端:一个想让智能体更容易被监管,另一个想让产品团队更看得懂它们的行为。

反复出现的构建者模式是:人们不再主要去做“又一个编程聊天工具”,而是在已有智能体周围做路由层、评估器、可观测层和远程控制界面。
6. 新动态与亮点¶
Gemini 3.5 Flash 已进入 GitHub Copilot¶
@github 宣布(52 次点赞,4 条回复,6,710 次浏览)公布了这次上线,而 @GHchangelog 写明(50 次点赞,5 条回复,3,123 次浏览)则写清了它在 Copilot Pro、Pro+、Business、Enterprise、主流 IDE 和 GitHub Mobile 中的实际可用范围。这之所以比一次普通的模型选择器更新更重要,是因为它让 Google 最新的 Flash 档编程模型,立刻获得了进入开发者现有工作流产品的分发。
Copilot 云智能体现在可以在日志页修复失败的 Actions 作业¶
@GHchangelog 宣布(11 次点赞,1,069 次浏览)说,Business 和 Enterprise 用户现在可以一键让 Copilot 修复失败的 GitHub Actions 作业。关联 changelog 说,Copilot 会在独立的云环境里调查问题、把修复推送到分支,并标记用户来审核,这让它成为当天最干净的例子之一:AI 编程工作正在从本地 IDE 迁出,进入后台基础设施。
7. 机会在哪里¶
[+++] 智能体治理与安全中介 —— Anthropic 的自托管沙箱与 MCP 隧道,再加上 OpenAI / 1Password 围绕 Codex 的工作,都指向同一层尚未解决的能力:私有网络访问、凭据中介、审计轨迹,以及对子智能体的持续授权。这个机会之所以强,是因为它已经开始被用很具体的操作语言定义,而不再只是抽象的安全说法。
[+++] 智能体式工作流的成本路由与支出可见性 —— DeepakNess 的 OpenCode 子智能体模式、UncommonRoute 经基准验证的本地路由器,以及 Copilot 的 token 计费焦虑,其实都在说同一件事:团队需要帮助,来判断什么时候该为前沿推理付费,什么时候不该。最强的产品切口,不是一个更便宜的模型,而是一个能做路由、预算和支出解释的控制平面。
[++] 面向产品与工作流负责人的智能体可观测性 —— Scope 的说法,以及更广泛的信息流,都说明企业越来越需要知道:智能体是如何穿过 onboarding、文档、认证和功能流程的。这个机会中等,因为可观测性已经很拥挤,但底层需求正在变得更可见。
[+] 面向常驻智能体的远程监管界面 —— Copilot 远程控制、Codex 移动端截图,以及黑客松上的可穿戴控制器,都说明市场对“从其他设备监管长时间运行的智能体”有真实胃口。这个信号还在成型,因为使用已经是真实的,但市场形状还没完全定型。
8. 要点总结¶
- GitHub Copilot 的故事,正在从功能发布转向工作流编排。 远程控制、云托管 CI 修复,以及 Copilot app 里的派生会话,让这款产品更像一个运行时管理器,而不只是聊天侧边栏。(来源)
- 企业采用智能体,如今的论据已经变成边界与凭据设计。 Anthropic 的沙箱 / 隧道架构,以及 OpenAI-1Password 的 Codex 故事,都把重点放在安全执行和中介式访问,而不是原始模型能力。(来源)
- 围绕编程智能体的成本控制,正在变成一个产品品类。 这一天同时出现了一套实践者的低成本执行型子智能体配方,以及一个用本地模型路由对照 Opus-only 基线做基准测试的仓库。(来源)
- Google 的编程模型势头,在 Copilot 里比在 Antigravity 本身上更清晰。 最具体的 Google 模型信号,是 GitHub 把 Gemini 3.5 Flash 上线进 Copilot;而 Antigravity 的讨论仍然更多依赖期待和怀疑。(来源)
- 构建者越来越多是在给智能体包控制层,而不是替换掉它们。 今天值得注意的项目,聚焦在路由、评估、可观测性和远程监管,而不是另造一个全新的编程助手。(来源)