跳转至

Twitter AI 编程 - 2026-06-09

1. 人们在讨论什么

1.1 Claude Fable 5 把 AI 编程讨论重新拉回前沿模型经济性 🡕

6 月 9 日的 AI 编程讨论,从工作流文件和控制平面猛地切回了一个发布日问题:Claude Fable 5 到底会如何改变长时程编程,以及随之而来的策略与计费取舍是什么?3 条高信号内容共同支撑了这一主题。

@kimmonismus 认为(771 次点赞、46 条回复、104,549 次浏览、179 次收藏),Fable 5 对软件工程来说是一次阶跃式升级,并附上了基准测试幻灯片,让这一判断不只是修辞。最有用的一页并排比较了智能体式编程和知识工作得分:Claude Fable 5 在 SWE-Bench Pro 上为 80.3%,在 FrontierCode(Diamond)上为 29.3%;Claude Opus 4.8 分别为 69.2% 和 13.4%;GPT-5.5 则为 58.6% 和 5.7%。一条回复立即收窄了热度:有从业者说,小规模使用时还没感觉到显著提升,作者则回应说,真正的测试还要等到当晚才能做,所以即便是这条看多的讨论串,也把代码库规模的验证视为还没收尾的工作。

对比 Claude Fable 5、Claude Opus 4.8、GPT-5.5 和 Gemini 3.1 Pro 在 SWE-Bench Pro、FrontierCode 及其他基准测试上的成绩表

@github 宣布(381 次点赞、43 条回复、49,496 次浏览、56 次收藏),Claude Fable 5 正在 GitHub Copilot 中逐步上线,用于长时程自主编程和知识工作任务。配套的 GitHub 更新日志补上了推文本身只略微提到的现实约束:上线是渐进式的,这个模型会在 VS Code、Copilot CLI、Copilot app、github.com、移动端、Xcode 和 JetBrains 中提供;它按 Usage Based Billing 采用提供商目录价计费;并且它是 Copilot 中唯一一个因 Anthropic 安全分类器而需要最多保留 30 天数据的 Claude 模型。

@Azure 表示(271 次点赞、12 条回复、13,509 次浏览、34 次收藏),同一模型也在当天进入了 Microsoft Foundry 和 GitHub Copilot。最值得注意的回复不是庆祝,而是运营层面的抱怨:有用户回复说 Azure 里仍显示 quota unavailable,这让发布公告立刻变成了接入投诉。

讨论要点: 真正有意思的分歧并不是“Fable 5 好”对“Fable 5 不好”,而是“基准测试上的跃升有多少能在真实代码库工作中保留下来?”以及“数据保留和按量计费会怎样影响信任与成本?”这些保留意见在第一波回复里就出现了。

与前日对比: 6 月 8 日由可复用技能、例行流程和控制平面主导。到了 6 月 9 日,注意力转向了单一模型发布,以及开发者可以在什么位置、面对什么策略和价格界面去使用它。

1.2 GitHub Copilot App 开始更像控制中心,而不是附属工具 🡕

另一个强势讨论簇,围绕的是 GitHub 自己的智能体界面。Copilot App 越来越少被描述成“另一个聊天入口”,而更像是并行会话、画布和持久记忆让智能体输出变得可检查的工作环境。4 条高信号内容共同支撑了这一主题。

@kdaigle 表示(30 次点赞、7 条回复、6,038 次浏览、6 次收藏),她每天早上都会用 GitHub Copilot App 处理“跑自动化,以及处理那些支撑工作的杂务”,晚上再写项目代码。配套的 GitHub Copilot App 发布文章解释了为什么这很关键:应用提供了统一的 My Work 视图,可查看活跃会话、issue、pull request 和后台自动化;每个会话都运行在独立的 git worktree 中;Agent Merge 负责让 pull request 经过审查、检查并最终合并;云端和本地沙箱则让同一系统可以检查、测试和迭代,而不只是给出代码建议。

@burkeholland 展示(37 次点赞、1 条回复、1,906 次浏览、12 次收藏)了这款应用中的新画布功能,它会生成一个实时界面,展示项目 worktree 以及它们与 main 的偏离程度。这让“画布”不再像发布文案里那样抽象,而成了一个用于检查智能体管理下仓库状态的具体视图。

@code_kartik 解释(5 次点赞、386 次浏览、8 次收藏),GitHub Copilot 的 memory 是一个绑定到精确文件与行号引用的事实存储,会在当前分支上重新读取,并在代码变更时重写。附图让这一机制变得可检查:store_memory 会把结构化对象写入 Memory API/DB,读取时的检查会在当前分支上验证引用,而给出的生产结果案例则是 pull request 合并率从 83% 提升到 90%。

GitHub Copilot memory 架构图,展示记忆如何与文件行号引用一起存储,并在复用前针对当前分支重新验证

@_Evan_Boyle 发帖(86 次点赞、8 条回复、5,391 次浏览、36 次收藏),称自己正在招聘产品和 AI 工程师来打造 GitHub Copilot App,并要求候选人带着证明来。这是一个有价值的 builder 信号,因为它说明 GitHub 正在围绕这个界面持续配置团队,而不是把它当成一次性预览。

讨论要点: 6 月 9 日关于 Copilot App 最强的证据,是可检查性:能看见的 worktree、带引用的 memory,以及暴露实时状态的画布。信息流奖励的是机制,而不是口号。

与前日对比: 6 月 8 日把 Antigravity 当作工作空间故事。6 月 9 日则用类似“控制中心”的语言描述 GitHub Copilot App,但在 worktree、memory 和智能体审查方面给出了更明确的证据。

1.3 Antigravity、Codex、OpenCode 和路由面板之间的接入仍然碎片化 🡒

即便 Fable 5 和 Copilot App 主导了当天讨论,市场在接入层看起来依然碎片化。人们仍在追问 Google 那个对标 Codex 或 Claude Code 的产品到底是什么,仍在手工拼一键移动端入口,也仍在尝试统一路由面板来避免频繁切换工具。5 条保留内容共同支撑了这一主题。

@petergyang 发问(84 次点赞、31 条回复、11,004 次浏览、9 次收藏),Google 对标 Codex 和 Claude Code 的到底是什么,Antigravity 是否应该属于 Gemini。最有价值的回复并不是夸某个模型,而是说 Antigravity 已经是 Google 最接近的东西了,但它更像一次 IDE 下注;相比之下,Claude Code 仍靠测试框架获胜——它如何规划、如何串联工具,以及如何从失败命令中恢复。

@Google 表示(70 次点赞、2 条回复、5,838 次浏览、8 次收藏),Search 可以借助带有 Gemini 3.5 Flash 的 Antigravity 来构建自定义生成式 UI 和交互式可视化;同一讨论串中的一条回复还说,Search 也能创建监控主题并发送详细更新的信息智能体。另据 Ars Technica 报道,NotebookLM 现在拥有自己的云电脑,内嵌 Antigravity,并带有 100 多项软件技能,这进一步把 Antigravity 推向了重复任务运行时,而不只是一次性演示。

@dabit3 展示(22 次点赞、2 条回复、738 次浏览、16 次收藏)了 ACP:一个统一总览面板,只需一个选择器就能调度 Codex、Claude、OpenCode、Devin、Gemini 和大约 40 个其他智能体。这是个强烈的构建者信号,因为它暗示真正可能赢下来的产品类别,也许是位于智能体之上的路由界面,而不是又一个新的智能体品牌。

@thdxr (67 次点赞、23 条回复、11,685 次浏览、3 次收藏)小窗口环境下的 OpenCode 用户征求截图,以便确认空间利用是否糟糕。回复很具体:即便在更大的屏幕上,复杂问题也会让垂直空间不够阅读;用户希望问题面板能更容易最小化,侧边栏也能更容易隐藏。

@petergyang 展示(35 次点赞、15 条回复、3,144 次浏览、14 次收藏)了一套 9 步 Shortcuts 配方,用来把 Codex 放到 iPhone 主屏幕上,因为官方还没有提供一键进入路径。截图让这种权宜方案看起来真实可信,而不只是口头抱怨。

展示需要 9 步权宜方案才能把 Codex 一键图标加到主屏幕的 iPhone Shortcuts 配方

讨论要点: 当人们问“最好的智能体”时,他们往往真正指的是接入层本身:工作界面是否顺手、路由面板是否好用、移动入口是否顺畅,以及测试框架行为是否可靠。

与前日对比: 6 月 8 日已经把 Antigravity 当作接入层。6 月 9 日则把 Antigravity、Codex 的移动端快捷方式技巧、OpenCode 的布局抱怨,以及 ACP 的路由路线放进同一场讨论里,让这种碎片化更加明显。


2. 令人困扰的问题

一旦智能体工作开始按量计费,账单就变得不可预测

严重程度:高。@DavidOndrej1 认为(37 次点赞、8 条回复、3,062 次浏览、16 次收藏),GitHub Copilot 从 6 月 1 日起切换到 AI Credits 后,智能体式使用更像一次账单冲击,而不是简单订阅。他随后那条帖子(8 次点赞、2 条回复、1,241 次浏览、3 次收藏)把产品变化概括得很清楚:订阅现在买的是每月 credit 池,而 agent mode、chat、多步骤运行和工具调用一旦超出池子就会被计费。附图通过对比“premium requests counted per request”和“AI Credits based on model usage”,让这次模型转变变得可见。GitHub 自己的 Claude Fable 5 更新日志也强化了这一点:Fable 5 按 Usage Based Billing 下的提供商目录价计费。这值得投入,因为用户已经开始靠寻找补贴、免费资格或替代路由来应对,而不是信任默认账单。

GitHub Copilot AI Credits 图片,展示从按请求计数的 premium requests 转向按模型使用量计费的 AI Credits

接入仍然恰恰在“日常使用”最该顺手的地方出问题

严重程度:中高。@petergyang 为了(35 次点赞、15 条回复、3,144 次浏览、14 次收藏)把 Codex 从 iPhone 主屏幕启动,竟需要 9 个 Shortcuts 步骤,而回复立刻追问:一个人们每天都在用的东西,为什么还需要这么多仪式感。@Azure 宣布(271 次点赞、12 条回复、13,509 次浏览、34 次收藏)Fable 5 已在 Foundry 和 Copilot 可用,但最显眼的回复却抱怨 Claude 模型在 Azure 里仍显示 quota unavailable。@thdxr 收集(67 次点赞、23 条回复、11,685 次浏览、3 次收藏)了 OpenCode 的布局抱怨:用户希望有更多纵向空间,以及更少的侧边栏摩擦。这值得投入,因为痛点发生在入口和日常操作层,而不是基准测试层。

信任与策略设置如今已成为产品体验的一部分

严重程度:中。GitHub 的 Fable 5 公告(381 次点赞、43 条回复、49,496 次浏览、56 次收藏)让策略本身成了发布日新闻,因为配套更新日志写明,Fable 5 因 Anthropic 安全分类器需要最多 30 天的提示词/输出保留,而 Copilot 中其他 Claude 模型仍维持零数据保留。另一种信任问题出现在 @code_kartik帖子中(5 次点赞、386 次浏览、8 次收藏):它的卖点是 memory 锚定在文件与行号引用上,并会针对当前分支重新检查。这值得投入,因为人们评估长时程智能体时,关注的不只是它们能生成多少代码,还包括自己能否解释、验证并治理它们。


3. 人们期望的功能

运行前成本预测与预算感知路由

最强的需求并不只是“更便宜的模型”,而是在智能体运行前就知道这次会花多少钱、credit 池里还剩多少余量,以及任务何时应该被路由到更便宜的模型或另一个界面。@DavidOndrej1 让账单波动变得很明确,而 GitHub 自己的 Fable 5 更新日志也从官方角度确认了按提供商定价的 Usage Based Billing。这是现实需求,而不是情绪宣泄。机会:直接。

一等公民级的跨设备入口

@petergyang 之所以要亲自把 Codex 变成 iPhone 一键快捷方式,是因为官方路径缺失。与此同时,GitHub 的 Copilot App 发布文章则描述了云端和本地沙箱,意在让会话可以随处继续。这个需求非常直白:如果这些工具正变成全天候工作界面,它们就需要同样优秀的桌面端、终端和移动端入口。机会:直接。

面向多智能体的统一控制界面

@dabit3 把 ACP 展示成跨多智能体的单一选择器,@petergyang 直接问 Google 对标 Codex 或 Claude Code 的产品是什么,而 GitHub 对 Copilot App 的定位本身也是一种控制中心论述。这里的请求是运营层面的:需要一个地方来跨智能体路由、检查和比较工作,同时不丢失上下文。机会:竞争型。

面向长时间运行智能体的可验证记忆与安全控制

当天最可信的信任叙事,都高度依赖机制:一边是 GitHub 对 Fable 5 数据保留策略的披露,另一边是 Copilot memory 绑定到文件行号引用的事实。开发者似乎愿意采用长时程智能体,但他们希望安全和记忆行为是可审计的,而不是像魔法一样。机会:直接。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
Claude Fable 5 前沿模型 (+/-) 在长时程编程上有强势的公开基准测试叙事,Copilot 覆盖面广,且 GitHub 声称它在内部工作流中可减少工具调用和 token 消耗 发布当日立刻引发数据保留策略和提供商定价问题;真实世界增益在回复里仍有争议
GitHub Copilot App 智能体原生桌面端 (+) My Work 仪表盘、git worktree 隔离、Agent Merge、画布和沙箱执行,让多智能体工作变得可检查 仍处于技术预览阶段,最强证据主要来自发布材料和早期产品演示,而不是长期使用报告
GitHub Copilot / Copilot CLI 编程助手 / 智能体运行时 (+/-) 横跨 IDE、CLI、app、Web 和移动端,覆盖面广;memory 与 review 功能正变得更明确 AI Credits 和按量计费让重度智能体使用的开销更难预测
Google Antigravity 智能体工作空间 / 运行时 (+/-) 正在扩展到 Search、NotebookLM、SDK、CLI 和信息智能体工作流 用户仍在质疑,它是否足够直观、足够完整,能否算 Google 真正的 Claude Code / Codex 对标产品
OpenAI Codex 编程智能体 (+/-) 日常使用需求强,且在编程工作中有清晰品牌认知 移动端接入仍需笨拙的权宜方案;人们也不断把它和其他界面搭配使用
OpenCode 开源智能体 UI (+/-) 迭代活跃,用户也愿意提供具体界面反馈 小窗口布局问题和侧边栏摩擦说明产品在 UX 上仍需继续打磨
ACP 多智能体 router (+) 用一个选择器连接多个智能体后端,可降低不同工具品牌间的切换成本 当天的公开证据仍以产品演示为主,而非深入技术文档
Azure AI Foundry 模型平台 (+/-) 能与 Copilot 一起快速承接新的前沿模型 回复里立刻出现了 quota 可用性抱怨

整体评价偏务实。人们对更强的工作界面和更强的模型持正面态度,但评估它们时始终带着计费、策略、接入和编排的镜头。最常见的权宜方案是叠工具:把 Copilot App 当控制中心,在大家已经习惯并信任的地方继续用 Codex,在 Google 提供捆绑路径的地方用 Antigravity,在重视单一选择器的地方用 ACP,在需要开放性和持续迭代时用 OpenCode。竞争正在从原始模型本身,转移到路由、工作可见性和信任控制之上。


5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
GitHub Copilot App GitHub 面向会话、画布、审查、自动化和合并的智能体原生桌面控制中心 否则,多智能体开发工作流会分散在不同窗口、仓库和聊天线程中 My Work 视图、git worktree、Agent Merge、画布、本地/云端沙箱、与 CLI/云端智能体共享运行时 测试版 功能页, 发布文章, 推文
ACP @dabit3 面向 Codex、Claude、OpenCode、Devin、Gemini 以及数十个其他智能体的统一总览面板 开发者不想每切换一次智能体后端就换一次 UI 统一选择器、多智能体桌面界面、Devin Desktop 演示路径 测试版 帖子
Search information agents with Antigravity @Google 在 Search 和 NotebookLM 体验中构建小应用、追踪器和监控更新 持续研究和重复任务仍需要太多独立工具与手动查看 Search、Antigravity、Gemini 3.5 Flash、NotebookLM cloud computer、100+ software skills 测试版 帖子, Ars 报道
html-video @GithubProjects 本地优先的工作室,可根据纯文本指令把 HTML、CSS 和数据转成 MP4 demo 和成品制作往往仍需要单独的视频渲染服务商或手工视频流程 本地优先渲染器、14 个智能体后端、21 个模板、可选 AI 配乐、Apache-2.0 已发布 帖子

Copilot App 之所以重要,是因为 GitHub 自己的描述终于与重度用户谈论智能体工作的方式对上了:有多个隔离会话同时在跑,有一个地方可以集中检查,并且通过审查与合并走完明确交接。Burke Holland 的画布 demo 让这件事更具体,因为它展示的是一个查看 worktree 分叉状态的实时界面,而不是又一次泛泛的“AI 能构建应用”的说法。

html-video 值得注意,则是出于另一种原因:它把媒体输出视为编程智能体可以在本地根据 HTML 和数据直接产出的东西。附图强调了这个产品的形状——21 个模板、14 个后端、不需要 API key——因此它的独特点并不是抽象的“AI 视频”,而是“留在智能体工具链内部的制品生成”。

重复出现的 builder 模式已经很清楚:人们不只是在推出新的助手。他们还在围绕用户已经偏好的智能体,构建控制界面、重复任务运行时和制品层。

html-video 截图,展示一个本地优先的 HTML 转视频工作流,带有 21 个模板、14 个智能体后端且无需 API key


6. 新动态与亮点

GitHub 让 Copilot memory 的机制变得可读

@code_kartik 概括(5 次点赞、386 次浏览、8 次收藏),Copilot memory 是一组带有文件行号引用的事实,会在复用前针对当前分支重新验证。配套的架构图让这不再只是口号,因为它展示了一条读取时验证路径,并给出了生产环境下 pull request 合并率从 83% 提升到 90% 的结果。

Fable 5 的数据保留策略成了发布故事的一部分

GitHub 的发布帖子(381 次点赞、43 条回复、49,496 次浏览、56 次收藏)和配套更新日志把策略差异说得很明确:Fable 5 因安全分类器需要最多保留 30 天数据,而 Copilot 中其他 Claude 模型仍维持零数据保留。这让治理本身也变成了用户在第一天就必须评估的产品差异点。


7. 机会在哪里

[+++] 支出感知的智能体路由 —— 来自 AI Credits 调整、Fable 5 按提供商定价计费,以及订阅比较讨论串的证据都指向同一个缺口:开发者在点击“run”前,需要运行前成本估算、预算上限和自动路由能力。

[++] 跨设备智能体工作空间 —— Copilot App 的发布描绘了一个持久的桌面控制中心,但 Codex 仍需要 9 步 iPhone 快捷方式技巧,才能像日常移动工具一样顺手。这里仍有空间做出真正一致的桌面端—终端—移动端体验。

[++] 可验证的长时程智能体 —— Fable 5 的数据保留披露,以及 Copilot 带引用校验的 memory 架构图,都说明信任功能正在成为一等公民级的产品要求。团队希望看到明确的数据保留策略、证据轨迹和分支感知的记忆验证。

[+] 位于模型之上的路由层 —— ACP 的多智能体选择器,以及那条持续出现的“Google 的对标产品到底是什么?”讨论,都表明市场正在增长,目标是用一套工作流把多个智能体标准化到同一个控制界面后面。


8. 要点总结

  1. 模型发布如今会和原始基准测试一样,立刻接受策略与计费审视。 Fable 5 的编程性能幻灯片吸引了注意力,但 GitHub 的数据保留与按量计费条款同样迅速塑造了反馈。(基准测试讨论串, GitHub 更新日志
  2. GitHub 试图掌控围绕智能体工作的控制平面,而不只是模型选择器。 Copilot App 的发布、画布演示和 memory 架构说明,都指向可检查的多智能体工作流,而不是轻量聊天辅助。(Copilot App 发布文章, 画布 demo, memory 讨论串
  3. 接入层依然足够碎片化,以至于人们开始围着它构建新东西。 ACP 的统一选择器、Antigravity 在 Search 和 NotebookLM 中的扩张,以及 Codex 的主屏幕权宜方案,都说明大家需要比任何单一模型更干净的路由与入口。(ACP 帖子, Google 帖子, Codex 快捷方式讨论串
  4. builder 的精力正转向控制界面和制品层。 这一天最像“已发货”的工作,并不是另一个聊天机器人,而是多智能体桌面控制中心、重复性信息智能体,以及本地 HTML 转视频管线。(GitHub Copilot App, Google/NotebookLM 报道, html-video 帖子