Twitter AI 编程 - 2026-06-09¶

1. 人们在讨论什么¶

1.1 Claude Fable 5 把 AI 编程讨论重新拉回前沿模型经济性 🡕¶

6 月 9 日的 AI 编程讨论，从工作流文件和控制平面猛地切回了一个发布日问题：Claude Fable 5 到底会如何改变长时程编程，以及随之而来的策略与计费取舍是什么？3 条高信号内容共同支撑了这一主题。

@kimmonismus 认为（771 次点赞、46 条回复、104,549 次浏览、179 次收藏），Fable 5 对软件工程来说是一次阶跃式升级，并附上了基准测试幻灯片，让这一判断不只是修辞。最有用的一页并排比较了智能体式编程和知识工作得分：Claude Fable 5 在 SWE-Bench Pro 上为 80.3%，在 FrontierCode（Diamond）上为 29.3%；Claude Opus 4.8 分别为 69.2% 和 13.4%；GPT-5.5 则为 58.6% 和 5.7%。一条回复立即收窄了热度：有从业者说，小规模使用时还没感觉到显著提升，作者则回应说，真正的测试还要等到当晚才能做，所以即便是这条看多的讨论串，也把代码库规模的验证视为还没收尾的工作。

对比 Claude Fable 5、Claude Opus 4.8、GPT-5.5 和 Gemini 3.1 Pro 在 SWE-Bench Pro、FrontierCode 及其他基准测试上的成绩表

@github 宣布（381 次点赞、43 条回复、49,496 次浏览、56 次收藏），Claude Fable 5 正在 GitHub Copilot 中逐步上线，用于长时程自主编程和知识工作任务。配套的 GitHub 更新日志补上了推文本身只略微提到的现实约束：上线是渐进式的，这个模型会在 VS Code、Copilot CLI、Copilot app、github.com、移动端、Xcode 和 JetBrains 中提供；它按 Usage Based Billing 采用提供商目录价计费；并且它是 Copilot 中唯一一个因 Anthropic 安全分类器而需要最多保留 30 天数据的 Claude 模型。

@Azure 表示（271 次点赞、12 条回复、13,509 次浏览、34 次收藏），同一模型也在当天进入了 Microsoft Foundry 和 GitHub Copilot。最值得注意的回复不是庆祝，而是运营层面的抱怨：有用户回复说 Azure 里仍显示 quota unavailable，这让发布公告立刻变成了接入投诉。

讨论要点： 真正有意思的分歧并不是“Fable 5 好”对“Fable 5 不好”，而是“基准测试上的跃升有多少能在真实代码库工作中保留下来？”以及“数据保留和按量计费会怎样影响信任与成本？”这些保留意见在第一波回复里就出现了。

与前日对比： 6 月 8 日由可复用技能、例行流程和控制平面主导。到了 6 月 9 日，注意力转向了单一模型发布，以及开发者可以在什么位置、面对什么策略和价格界面去使用它。

1.2 GitHub Copilot App 开始更像控制中心，而不是附属工具 🡕¶

另一个强势讨论簇，围绕的是 GitHub 自己的智能体界面。Copilot App 越来越少被描述成“另一个聊天入口”，而更像是并行会话、画布和持久记忆让智能体输出变得可检查的工作环境。4 条高信号内容共同支撑了这一主题。

@kdaigle 表示（30 次点赞、7 条回复、6,038 次浏览、6 次收藏），她每天早上都会用 GitHub Copilot App 处理“跑自动化，以及处理那些支撑工作的杂务”，晚上再写项目代码。配套的 GitHub Copilot App 发布文章解释了为什么这很关键：应用提供了统一的 My Work 视图，可查看活跃会话、issue、pull request 和后台自动化；每个会话都运行在独立的 git worktree 中；Agent Merge 负责让 pull request 经过审查、检查并最终合并；云端和本地沙箱则让同一系统可以检查、测试和迭代，而不只是给出代码建议。

@burkeholland 展示（37 次点赞、1 条回复、1,906 次浏览、12 次收藏）了这款应用中的新画布功能，它会生成一个实时界面，展示项目 worktree 以及它们与 main 的偏离程度。这让“画布”不再像发布文案里那样抽象，而成了一个用于检查智能体管理下仓库状态的具体视图。

@code_kartik 解释（5 次点赞、386 次浏览、8 次收藏），GitHub Copilot 的 memory 是一个绑定到精确文件与行号引用的事实存储，会在当前分支上重新读取，并在代码变更时重写。附图让这一机制变得可检查：store_memory 会把结构化对象写入 Memory API/DB，读取时的检查会在当前分支上验证引用，而给出的生产结果案例则是 pull request 合并率从 83% 提升到 90%。

GitHub Copilot memory 架构图，展示记忆如何与文件行号引用一起存储，并在复用前针对当前分支重新验证

@_Evan_Boyle 发帖（86 次点赞、8 条回复、5,391 次浏览、36 次收藏），称自己正在招聘产品和 AI 工程师来打造 GitHub Copilot App，并要求候选人带着证明来。这是一个有价值的 builder 信号，因为它说明 GitHub 正在围绕这个界面持续配置团队，而不是把它当成一次性预览。

讨论要点： 6 月 9 日关于 Copilot App 最强的证据，是可检查性：能看见的 worktree、带引用的 memory，以及暴露实时状态的画布。信息流奖励的是机制，而不是口号。

与前日对比： 6 月 8 日把 Antigravity 当作工作空间故事。6 月 9 日则用类似“控制中心”的语言描述 GitHub Copilot App，但在 worktree、memory 和智能体审查方面给出了更明确的证据。

1.3 Antigravity、Codex、OpenCode 和路由面板之间的接入仍然碎片化 🡒¶

即便 Fable 5 和 Copilot App 主导了当天讨论，市场在接入层看起来依然碎片化。人们仍在追问 Google 那个对标 Codex 或 Claude Code 的产品到底是什么，仍在手工拼一键移动端入口，也仍在尝试统一路由面板来避免频繁切换工具。5 条保留内容共同支撑了这一主题。

@petergyang 发问（84 次点赞、31 条回复、11,004 次浏览、9 次收藏），Google 对标 Codex 和 Claude Code 的到底是什么，Antigravity 是否应该属于 Gemini。最有价值的回复并不是夸某个模型，而是说 Antigravity 已经是 Google 最接近的东西了，但它更像一次 IDE 下注；相比之下，Claude Code 仍靠测试框架获胜——它如何规划、如何串联工具，以及如何从失败命令中恢复。

@Google 表示（70 次点赞、2 条回复、5,838 次浏览、8 次收藏），Search 可以借助带有 Gemini 3.5 Flash 的 Antigravity 来构建自定义生成式 UI 和交互式可视化；同一讨论串中的一条回复还说，Search 也能创建监控主题并发送详细更新的信息智能体。另据 Ars Technica 报道，NotebookLM 现在拥有自己的云电脑，内嵌 Antigravity，并带有 100 多项软件技能，这进一步把 Antigravity 推向了重复任务运行时，而不只是一次性演示。

@dabit3 展示（22 次点赞、2 条回复、738 次浏览、16 次收藏）了 ACP：一个统一总览面板，只需一个选择器就能调度 Codex、Claude、OpenCode、Devin、Gemini 和大约 40 个其他智能体。这是个强烈的构建者信号，因为它暗示真正可能赢下来的产品类别，也许是位于智能体之上的路由界面，而不是又一个新的智能体品牌。

@thdxr 向（67 次点赞、23 条回复、11,685 次浏览、3 次收藏）小窗口环境下的 OpenCode 用户征求截图，以便确认空间利用是否糟糕。回复很具体：即便在更大的屏幕上，复杂问题也会让垂直空间不够阅读；用户希望问题面板能更容易最小化，侧边栏也能更容易隐藏。

@petergyang 展示（35 次点赞、15 条回复、3,144 次浏览、14 次收藏）了一套 9 步 Shortcuts 配方，用来把 Codex 放到 iPhone 主屏幕上，因为官方还没有提供一键进入路径。截图让这种权宜方案看起来真实可信，而不只是口头抱怨。

展示需要 9 步权宜方案才能把 Codex 一键图标加到主屏幕的 iPhone Shortcuts 配方

讨论要点： 当人们问“最好的智能体”时，他们往往真正指的是接入层本身：工作界面是否顺手、路由面板是否好用、移动入口是否顺畅，以及测试框架行为是否可靠。

与前日对比： 6 月 8 日已经把 Antigravity 当作接入层。6 月 9 日则把 Antigravity、Codex 的移动端快捷方式技巧、OpenCode 的布局抱怨，以及 ACP 的路由路线放进同一场讨论里，让这种碎片化更加明显。

2. 令人困扰的问题¶

一旦智能体工作开始按量计费，账单就变得不可预测¶

严重程度：高。@DavidOndrej1 认为（37 次点赞、8 条回复、3,062 次浏览、16 次收藏），GitHub Copilot 从 6 月 1 日起切换到 AI Credits 后，智能体式使用更像一次账单冲击，而不是简单订阅。他随后那条帖子（8 次点赞、2 条回复、1,241 次浏览、3 次收藏）把产品变化概括得很清楚：订阅现在买的是每月 credit 池，而 agent mode、chat、多步骤运行和工具调用一旦超出池子就会被计费。附图通过对比“premium requests counted per request”和“AI Credits based on model usage”，让这次模型转变变得可见。GitHub 自己的 Claude Fable 5 更新日志也强化了这一点：Fable 5 按 Usage Based Billing 下的提供商目录价计费。这值得投入，因为用户已经开始靠寻找补贴、免费资格或替代路由来应对，而不是信任默认账单。

GitHub Copilot AI Credits 图片，展示从按请求计数的 premium requests 转向按模型使用量计费的 AI Credits

接入仍然恰恰在“日常使用”最该顺手的地方出问题¶

严重程度：中高。@petergyang 为了（35 次点赞、15 条回复、3,144 次浏览、14 次收藏）把 Codex 从 iPhone 主屏幕启动，竟需要 9 个 Shortcuts 步骤，而回复立刻追问：一个人们每天都在用的东西，为什么还需要这么多仪式感。@Azure 宣布（271 次点赞、12 条回复、13,509 次浏览、34 次收藏）Fable 5 已在 Foundry 和 Copilot 可用，但最显眼的回复却抱怨 Claude 模型在 Azure 里仍显示 quota unavailable。@thdxr 收集（67 次点赞、23 条回复、11,685 次浏览、3 次收藏）了 OpenCode 的布局抱怨：用户希望有更多纵向空间，以及更少的侧边栏摩擦。这值得投入，因为痛点发生在入口和日常操作层，而不是基准测试层。

信任与策略设置如今已成为产品体验的一部分¶

严重程度：中。GitHub 的 Fable 5 公告（381 次点赞、43 条回复、49,496 次浏览、56 次收藏）让策略本身成了发布日新闻，因为配套更新日志写明，Fable 5 因 Anthropic 安全分类器需要最多 30 天的提示词/输出保留，而 Copilot 中其他 Claude 模型仍维持零数据保留。另一种信任问题出现在 @code_kartik 的帖子中（5 次点赞、386 次浏览、8 次收藏）：它的卖点是 memory 锚定在文件与行号引用上，并会针对当前分支重新检查。这值得投入，因为人们评估长时程智能体时，关注的不只是它们能生成多少代码，还包括自己能否解释、验证并治理它们。

3. 人们期望的功能¶

运行前成本预测与预算感知路由¶

最强的需求并不只是“更便宜的模型”，而是在智能体运行前就知道这次会花多少钱、credit 池里还剩多少余量，以及任务何时应该被路由到更便宜的模型或另一个界面。@DavidOndrej1 让账单波动变得很明确，而 GitHub 自己的 Fable 5 更新日志也从官方角度确认了按提供商定价的 Usage Based Billing。这是现实需求，而不是情绪宣泄。机会：直接。

一等公民级的跨设备入口¶

@petergyang 之所以要亲自把 Codex 变成 iPhone 一键快捷方式，是因为官方路径缺失。与此同时，GitHub 的 Copilot App 发布文章则描述了云端和本地沙箱，意在让会话可以随处继续。这个需求非常直白：如果这些工具正变成全天候工作界面，它们就需要同样优秀的桌面端、终端和移动端入口。机会：直接。

面向多智能体的统一控制界面¶

@dabit3 把 ACP 展示成跨多智能体的单一选择器，@petergyang 直接问 Google 对标 Codex 或 Claude Code 的产品是什么，而 GitHub 对 Copilot App 的定位本身也是一种控制中心论述。这里的请求是运营层面的：需要一个地方来跨智能体路由、检查和比较工作，同时不丢失上下文。机会：竞争型。

面向长时间运行智能体的可验证记忆与安全控制¶

当天最可信的信任叙事，都高度依赖机制：一边是 GitHub 对 Fable 5 数据保留策略的披露，另一边是 Copilot memory 绑定到文件行号引用的事实。开发者似乎愿意采用长时程智能体，但他们希望安全和记忆行为是可审计的，而不是像魔法一样。机会：直接。

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
Claude Fable 5	前沿模型	(+/-)	在长时程编程上有强势的公开基准测试叙事，Copilot 覆盖面广，且 GitHub 声称它在内部工作流中可减少工具调用和 token 消耗	发布当日立刻引发数据保留策略和提供商定价问题；真实世界增益在回复里仍有争议
GitHub Copilot App	智能体原生桌面端	(+)	My Work 仪表盘、git worktree 隔离、Agent Merge、画布和沙箱执行，让多智能体工作变得可检查	仍处于技术预览阶段，最强证据主要来自发布材料和早期产品演示，而不是长期使用报告
GitHub Copilot / Copilot CLI	编程助手 / 智能体运行时	(+/-)	横跨 IDE、CLI、app、Web 和移动端，覆盖面广；memory 与 review 功能正变得更明确	AI Credits 和按量计费让重度智能体使用的开销更难预测
Google Antigravity	智能体工作空间 / 运行时	(+/-)	正在扩展到 Search、NotebookLM、SDK、CLI 和信息智能体工作流	用户仍在质疑，它是否足够直观、足够完整，能否算 Google 真正的 Claude Code / Codex 对标产品
OpenAI Codex	编程智能体	(+/-)	日常使用需求强，且在编程工作中有清晰品牌认知	移动端接入仍需笨拙的权宜方案；人们也不断把它和其他界面搭配使用
OpenCode	开源智能体 UI	(+/-)	迭代活跃，用户也愿意提供具体界面反馈	小窗口布局问题和侧边栏摩擦说明产品在 UX 上仍需继续打磨
ACP	多智能体 router	(+)	用一个选择器连接多个智能体后端，可降低不同工具品牌间的切换成本	当天的公开证据仍以产品演示为主，而非深入技术文档
Azure AI Foundry	模型平台	(+/-)	能与 Copilot 一起快速承接新的前沿模型	回复里立刻出现了 quota 可用性抱怨

整体评价偏务实。人们对更强的工作界面和更强的模型持正面态度，但评估它们时始终带着计费、策略、接入和编排的镜头。最常见的权宜方案是叠工具：把 Copilot App 当控制中心，在大家已经习惯并信任的地方继续用 Codex，在 Google 提供捆绑路径的地方用 Antigravity，在重视单一选择器的地方用 ACP，在需要开放性和持续迭代时用 OpenCode。竞争正在从原始模型本身，转移到路由、工作可见性和信任控制之上。

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
GitHub Copilot App	GitHub	面向会话、画布、审查、自动化和合并的智能体原生桌面控制中心	否则，多智能体开发工作流会分散在不同窗口、仓库和聊天线程中	My Work 视图、git worktree、Agent Merge、画布、本地/云端沙箱、与 CLI/云端智能体共享运行时	测试版	功能页, 发布文章, 推文
ACP	@dabit3	面向 Codex、Claude、OpenCode、Devin、Gemini 以及数十个其他智能体的统一总览面板	开发者不想每切换一次智能体后端就换一次 UI	统一选择器、多智能体桌面界面、Devin Desktop 演示路径	测试版	帖子
Search information agents with Antigravity	@Google	在 Search 和 NotebookLM 体验中构建小应用、追踪器和监控更新	持续研究和重复任务仍需要太多独立工具与手动查看	Search、Antigravity、Gemini 3.5 Flash、NotebookLM cloud computer、100+ software skills	测试版	帖子, Ars 报道
html-video	@GithubProjects	本地优先的工作室，可根据纯文本指令把 HTML、CSS 和数据转成 MP4	demo 和成品制作往往仍需要单独的视频渲染服务商或手工视频流程	本地优先渲染器、14 个智能体后端、21 个模板、可选 AI 配乐、Apache-2.0	已发布	帖子

Copilot App 之所以重要，是因为 GitHub 自己的描述终于与重度用户谈论智能体工作的方式对上了：有多个隔离会话同时在跑，有一个地方可以集中检查，并且通过审查与合并走完明确交接。Burke Holland 的画布 demo 让这件事更具体，因为它展示的是一个查看 worktree 分叉状态的实时界面，而不是又一次泛泛的“AI 能构建应用”的说法。

html-video 值得注意，则是出于另一种原因：它把媒体输出视为编程智能体可以在本地根据 HTML 和数据直接产出的东西。附图强调了这个产品的形状——21 个模板、14 个后端、不需要 API key——因此它的独特点并不是抽象的“AI 视频”，而是“留在智能体工具链内部的制品生成”。

重复出现的 builder 模式已经很清楚：人们不只是在推出新的助手。他们还在围绕用户已经偏好的智能体，构建控制界面、重复任务运行时和制品层。

html-video 截图，展示一个本地优先的 HTML 转视频工作流，带有 21 个模板、14 个智能体后端且无需 API key

6. 新动态与亮点¶

GitHub 让 Copilot memory 的机制变得可读¶

@code_kartik 概括（5 次点赞、386 次浏览、8 次收藏），Copilot memory 是一组带有文件行号引用的事实，会在复用前针对当前分支重新验证。配套的架构图让这不再只是口号，因为它展示了一条读取时验证路径，并给出了生产环境下 pull request 合并率从 83% 提升到 90% 的结果。

Fable 5 的数据保留策略成了发布故事的一部分¶

GitHub 的发布帖子（381 次点赞、43 条回复、49,496 次浏览、56 次收藏）和配套更新日志把策略差异说得很明确：Fable 5 因安全分类器需要最多保留 30 天数据，而 Copilot 中其他 Claude 模型仍维持零数据保留。这让治理本身也变成了用户在第一天就必须评估的产品差异点。

7. 机会在哪里¶

[+++] 支出感知的智能体路由 —— 来自 AI Credits 调整、Fable 5 按提供商定价计费，以及订阅比较讨论串的证据都指向同一个缺口：开发者在点击“run”前，需要运行前成本估算、预算上限和自动路由能力。

[++] 跨设备智能体工作空间 —— Copilot App 的发布描绘了一个持久的桌面控制中心，但 Codex 仍需要 9 步 iPhone 快捷方式技巧，才能像日常移动工具一样顺手。这里仍有空间做出真正一致的桌面端—终端—移动端体验。

[++] 可验证的长时程智能体 —— Fable 5 的数据保留披露，以及 Copilot 带引用校验的 memory 架构图，都说明信任功能正在成为一等公民级的产品要求。团队希望看到明确的数据保留策略、证据轨迹和分支感知的记忆验证。

[+] 位于模型之上的路由层 —— ACP 的多智能体选择器，以及那条持续出现的“Google 的对标产品到底是什么？”讨论，都表明市场正在增长，目标是用一套工作流把多个智能体标准化到同一个控制界面后面。

8. 要点总结¶

模型发布如今会和原始基准测试一样，立刻接受策略与计费审视。 Fable 5 的编程性能幻灯片吸引了注意力，但 GitHub 的数据保留与按量计费条款同样迅速塑造了反馈。（基准测试讨论串, GitHub 更新日志）
GitHub 试图掌控围绕智能体工作的控制平面，而不只是模型选择器。 Copilot App 的发布、画布演示和 memory 架构说明，都指向可检查的多智能体工作流，而不是轻量聊天辅助。（Copilot App 发布文章, 画布 demo, memory 讨论串）
接入层依然足够碎片化，以至于人们开始围着它构建新东西。 ACP 的统一选择器、Antigravity 在 Search 和 NotebookLM 中的扩张，以及 Codex 的主屏幕权宜方案，都说明大家需要比任何单一模型更干净的路由与入口。（ACP 帖子, Google 帖子, Codex 快捷方式讨论串）
builder 的精力正转向控制界面和制品层。 这一天最像“已发货”的工作，并不是另一个聊天机器人，而是多智能体桌面控制中心、重复性信息智能体，以及本地 HTML 转视频管线。（GitHub Copilot App, Google/NotebookLM 报道, html-video 帖子）