跳转至

Twitter AI 编程 - 2026-05-15

1. 人们在讨论什么

1.1 Antigravity 仍有强烈的文化存在感,但运营信任很弱 🡕

5 月 15 日,Antigravity 仍是讨论最多的 AI 编程产品之一,但围绕它的讨论被相互矛盾的证据主导:截图显示它仍有实时的多模型选择器,Google 也围绕它安排了一场 I/O 会议;与此同时,用户又把最近缺乏可见更新,当成产品可能在衰退的信号。3 个高信号条目支撑了这一主题,而回复也不再停留在“感觉”层面,而是落到了额度、模型适配度和沟通方式这些具体抱怨上。

@jahirsheikh8 发问 Google 是否准备关闭 Antigravity(296 次点赞、90 条回复、165,073 次浏览、28 次收藏)。这张配图很关键,因为它显示产品界面里仍然有 Gemini 3.1 Pro(High/Low)、Gemini 3 Flash、Claude Sonnet 4.6、Claude Opus 4.6 和 GPT-OSS 120B,而不是一个已经停用或被废弃的界面。

Antigravity 模型选择器,展示 Gemini 3.1 Pro 和 Flash、Claude Sonnet 4.6、Claude Opus 4.6,以及 GPT-OSS 120B 的实时菜单

@HarshithLucky3 发帖把同样的担忧说得更尖锐:可见的更新日志仍停留在 2026 年 4 月 16 日的 1.23.2 版本,而且只列出了 MCP 加载和工作区专属设置的修复项(227 次点赞、17 条回复、12,410 次浏览、14 次收藏)。在同一条推文里,他还明确要求 Google AI Studio 团队发布一个专用的桌面和移动应用,“像 Codex 那样”,把一种模糊的不满直接变成了具体的产品请求。

Antigravity 更新日志,显示 2026 年 4 月 16 日的 1.23.2 版本,内容只有 MCP 加载和工作区设置的修复项

@FlutterDev 宣传了一场 Google I/O 会议,其落地页写着“凭感觉编程是 2026 年开发者的一项重要技能”,并承诺会展示 Google 团队如何使用像 Google Antigravity 这样的智能体工具(38 次点赞、1 条回复、1,604 次浏览、9 次收藏)。这让当天最核心的 Antigravity 问题,不再是“这个产品还在不在”,而是“Google 有没有足够清楚地传达它的路线图”。

讨论要点: 关闭传闻讨论串的回复,提供了最有操作性的证据。一位回应者说,警报是从 Google“把额度砍了”并把用户推向 Gemini 3.1 Pro 时开始的;另一位则说 Gemini 3.1 “还行”,但对重度编程来说还不够强,自己可能会“彻底转向本地跑 Qwen”。

与前日对比: 5 月 14 日的主要矛盾,还只是野心十足的演示与陈旧更新日志之间的反差。到 5 月 15 日,这个矛盾已经进一步固化:人们拿来当证据的,依旧是那个陈旧的更新日志截图;但与此同时,Google 自己又在为 I/O 上的 Antigravity 会议做宣传。

1.2 GitHub 对 AI 编程的回应变得更结构化,也更昂贵 🡕

围绕 GitHub 的讨论,已经不再只是简单比较“谁的模型最好”,而是转向工作流结构、内部整合,以及计费暴露。4 个条目支撑了这个主题:一则被广泛转发的报道称 Microsoft 正在把内部开发者迁向 Copilot CLI,几张截图展示了 token 计费在现实中可能长什么样,GitHub 自己推出了 spec 驱动工作流仓库,还有一位用户指出 Copilot App 在 Windows 和 macOS 上的质量差异非常明显。

@Cointelegraph 报道称,Microsoft 正在取消大多数内部 Claude Code 许可证,并把数千名开发者转向 GitHub Copilot CLI,消息来源是 The Verge(137 次点赞、40 条回复、16,070 次浏览、12 次收藏)。回复让这个说法变得更复杂:有用户说 Claude 在许多 .NET 场景里仍然更好用;也有人指出 GitHub Copilot 本身也能用 Claude,于是问题更像是运行框架和平台偏好,而不是单纯换了模型。

@edzitron 认为,Copilot 将在 6 月 1 日转向按 token 计费,这件事把许多 AI 产品平时藏起来的经济账直接摆到了台面上(52 次点赞、2 条回复、3,758 次浏览、5 次收藏)。配图才是关键证据:其中一张解释说,大多数 AI 订阅并不会按实际 token 消耗向终端用户收费;另一张则列出了 Copilot 的月度 token 总额示例,从 23.81 美元一直到 5,851.77 美元,而这些用户每月实际支付的订阅费大约只有 10 到 54 美元。

Ed Zitron 讨论串截图,展示 Copilot 计划转向按 token 计费,以及示例月度 token 消耗从几十美元到数千美元不等

@techNmak 提到了 GitHub 的 Spec Kit(4 次点赞、2 条回复、209 次浏览、8 次收藏),其链接仓库把它描述为一个用于“Spec-Driven Development”的开源工具包:规格可以通过 /speckit.specify/speckit.plan/speckit.tasks/speckit.implement 之类的命令变成可执行流程。README 截图之所以重要,是因为它显示 GitHub 正在打包一种对开放式、凭感觉写提示词方法的明确替代方案。

Spec Kit README 标题图,描述这是一个用可执行规格取代临时 vibe coding 的开源工具包

@ibuildthecloud 表示,Copilot app 在 Windows 上看起来明显不如某个 macOS 网红演示里的效果(15 次点赞、5 条回复、1,367 次浏览、2 次收藏),而一条回复补充说,Copilot 最近的发布其实不错,但新的费率可能会让用户变得极度敏感于 token 成本。这条帖子的体量不大,但恰好浓缩了当天更大的张力:GitHub 一边在扩展工作流层面的产品面,一边又让用户更直观地感受到平台质量和成本透明度。

讨论要点: 围绕 Microsoft 内部迁移和 Copilot app 的回复,不断回到同一点:光有模型访问还不够。用户在乎的是模型外层的运行框架、成本是否清晰可见,以及自己真正使用的平台上,体验是不是足够好。

与前日对比: 5 月 14 日大家还主要在问 GitHub 能不能恢复这个品类的可信度。到 5 月 15 日,讨论已经变得更运营化:内部迁移传闻、具体的 token 消耗截图,以及 GitHub 自己背书的 spec 驱动工作流仓库。

1.3 编程智能体正在变成远程遥控系统,但控制面仍然粗糙 🡕

第三个主题,是“远程监督”模式的快速扩散:人们开始用手机操控编程智能体,把编程产品往 ChatGPT 里收拢,并把计算机使用能力扩展到多个智能体栈上。3 个条目支撑了这个主题,而最有价值的讨论,则集中在这些新界面到底靠不靠谱、能不能真正进入日常工作。

@mark_k 宣布 Codex Mobile 允许用户在手机上查看正在进行的工作、审阅 diff、批准命令、切换模型,并在真实开发机器继续运行会话的同时远程操控 Codex(45 次点赞、8 条回复、1,430 次浏览、1 次收藏)。截图展示的是一个具体控制面,而不是泛泛的发布卡片。

Codex mobile 界面,展示 ChatGPT app 中的项目列表和已连接开发机器

@haider1 在同一发布下回复说,这个版本看起来像是仓促上线:聊天加载缓慢、提示词提交会报 SwiftcanCellationError,app 有时还会把配对电脑显示成离线(13 次点赞、3 条回复、931 次浏览)。回复里给出的不是辩护,而是一个权宜方案:在 tmux 里跑 Codex CLI,再用 iPhone 上的 Moshi 通过 SSH 连过去,这样更稳定,因为它不用做配对,也更能扛住网络切换。

@mark_k 还报道称,OpenAI 已围绕“让 ChatGPT 和 Codex 更紧密整合”做了内部重组,由 Greg Brockman 统一负责所有产品,而 Codex 负责人 Thibault Sottiaux 则转去核心产品和平台。与此同时,@orca_build 表示,其 Computer Use 功能现在已经支持 macOS、Windows 和 Linux,可用于 Pi、Codex、OpenCode、Claude Code 等多个栈(12 次点赞、1 条回复、756 次浏览、2 次收藏),说明控制面正在超出单一厂商生态向外扩散。

讨论要点: 围绕移动端的帖子,对“这个想法”整体是正面的,对“这个产品打磨度”则是负面的。用户喜欢在离开电脑时还能审阅 diff、批准命令,但当天最有用的回应,依旧是一个基于 SSH 的权宜方案,而不是对原生预览版的称赞。

与前日对比: 5 月 14 日讲的是移动端和插件端的分发。到 5 月 15 日,讨论已经从“这东西存在”转向“这东西确实有用,但你得这样才能让它真正跑起来”。


2. 令人困扰的问题

Antigravity 的路线图不透明到足以自我催生谣言循环

当天最强的挫败感,是人们根本无法判断 Antigravity 是否还在被积极开发。@jahirsheikh8 发问 Google 是否正在关闭它(296 次点赞、90 条回复、165,073 次浏览、28 次收藏),而 @HarshithLucky3 随后贴出 changelog 截图,显示最新可见更新仍然停在 2026 年 4 月 16 日(227 次点赞、17 条回复、12,410 次浏览、14 次收藏)。回复让痛点更具体:有人说额度被砍,用户被推向 Gemini 3.1 Pro;还有人说 Gemini 3.1 对重度编程的调校还不够,考虑转向本地 Qwen。严重程度:高。值得为此构建:是,因为这里既有对产品能力的需求,也有对路线图信任的需求。

按使用量计费的 AI 编程经济性,越来越难以忽视

GitHub 的计费变化是最清晰的例子。@edzitron 发帖说 Copilot 将在 6 月 1 日转向按 token 计费(52 次点赞、2 条回复、3,758 次浏览、5 次收藏),而配图里给出的样例 token 消耗,最高可达每月 5,851.77 美元,而用户月费大约只有 39 美元。类似的成本敏感性,也出现在一个更小但同样具体的 Claude Code 例子里:@dsiroker 展示了 Opus 4.7 fast mode 的定价:每 Mtok 输入 30 美元、输出 150 美元(1 次点赞、2 条回复、251 次浏览、3 次收藏);而第一条回复立刻把话题推向运营风险:如果 5 个队友智能体同时运行,怎么避免它们改到同一批文件?严重程度:高。值得为此构建:是,尤其是预算控制、可观测性以及更安全的并行执行。

从手机远程操控编程工作很有用,但预览版质量仍然不稳

Codex Mobile 的发布同时吸引了需求和问题报告。@mark_k 描述了一套手机工作流:查看正在进行的工作、审阅 diff、批准命令和切换模型(45 次点赞、8 条回复、1,430 次浏览、1 次收藏),还有一条回复说这“是真的有用,不只是演示功能”。但 @haider1 报告,预览版并不稳定:聊天很慢、会出现 SwiftcanCellationError,还会间歇性提示“computer is offline”(13 次点赞、3 条回复、931 次浏览)。讨论串里最好的权宜方案,不是另一个应用功能,而是在 tmux 里跑 Codex CLI,再从 iPhone 用 SSH 连上去。严重程度:中高。值得为此构建:是。

智能体体验质量仍然因平台而异

另一个更小但很说明问题的抱怨,来自 @ibuildthecloud。他表示,Copilot app 在 Windows 上看起来远不如 macOS demo(15 次点赞、5 条回复、1,367 次浏览、2 次收藏)。同一帖子的回复还说,Copilot 最近的发布其实不错,但新的定价会让用户对 token 成本更敏感。这组抱怨之所以重要,是因为它把两种摩擦放在了一起:界面不一致,以及对成本的高度感知。严重程度:中。值得为此构建:是,如果某个产品能在不掩盖成本取舍的情况下,提供一致的跨平台体验。


3. 人们期望的功能

一个专门的 Google AI Studio 桌面与移动 app

这个需求是被直接说出来的。@HarshithLucky3 要求 Google AI Studio 发布一个专门的桌面和移动应用,“像 Codex 那样”(227 次点赞、17 条回复、12,410 次浏览、14 次收藏),并把这个请求直接与对 Antigravity 可见更新节奏的不满联系在一起。它不是一个宏大愿景,而是一个现实需要:用户并不是想要一个新类别,只是想要一个更清晰、更可靠、由 Google 自己维护的编程工作界面。机会:直接。

面向编程智能体的可靠手机监督能力

Codex mobile 的帖子说明,人们确实想在离开桌面时管理编程会话,但也说明今天的实现还不够可靠。@mark_k 移动端审阅与批准描述成立刻有用的能力(45 次点赞、8 条回复、1,430 次浏览、1 次收藏),而 @haider1 记录了预览版中的提示词失败和离线配对问题(13 次点赞、3 条回复、931 次浏览)。那条推荐用 iPhone 上的 tmux + SSH 的回复也表明:如果原生产品做不到可靠,人们会自己把能力拼出来。机会:直接。

面向重度智能体使用的清晰成本控制

GitHub 的计费截图和 Claude Code fast mode 的定价例子,指向的是同一个务实愿望:用户希望长时间运行的智能体工作流,不要等账单出来之后才知道成本。@edzitron 展示了 Copilot 从几百美元到几千美元不等的 token 总额样例(52 次点赞、2 条回复、3,758 次浏览、5 次收藏),而 @tom_doerr 链接了一个可视化 Claude Code 会话、时间线和成本的本地仪表盘(6 次点赞、599 次浏览、11 次收藏)。这个需求既现实又紧迫,而独立开发者已经开始给出部分答案,甚至比平台方更早把控制面做出来。机会:直接。

更好的多智能体并行协调能力

@dsiroker 展示了 Claude Code fast mode 同时运行“5 个队友智能体”的画面(1 次点赞、2 条回复、251 次浏览、3 次收藏),而第一条回复立刻追问了那个最关键的系统问题:如果它们改到同一批文件会怎样?会自动分支吗?还是最终还得手工合并?这不是营销辞令,而是一个真实的工作流需求;而在样本里,也没有强证据表明当前工具已经把它优雅解决掉。机会:正在形成。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
Google Antigravity 智能体优先 IDE (+/-) 有实时多模型选择器;重要到足以拥有一场专门的 Google I/O 会议;在对比帖中被当作免费或低摩擦替代方案 可见更新节奏不清晰;回复抱怨额度下降,且 Gemini 3.1 对重度编程偏弱
GitHub Copilot CLI CLI 编程助手 (+/-) Microsoft 内部迁移的讨论给了它一手平台可信度;至少有一位用户说它解决了 Claude Code 没搞定的 bug 按 token 计费正在成为产品讨论中心;回复指出,光有模型访问并不能决定工作流偏好
GitHub Copilot App 智能体工作空间 (+/-) 技术预览定位围绕“一个 app 里覆盖完整开发生命周期”展开 一位测试者说 Windows 体验比 macOS 差很多,回复也把采用意愿和费率敏感度绑定在一起
Spec Kit 规格驱动工作流工具包 (+) 通过斜杠命令、任务生成和 issue 集成,把 spec 变成可执行工作流,覆盖 30+ 智能体集成 今天的样本里没有强烈抱怨,但这套工作流明确是在反击临时、随性的提示词方式,而不是它的无缝替代品
Codex Mobile 移动端编程智能体伴侣 (+/-) 用户可以在手机上查看 diff、批准命令、切换模型,并监督正在运行的会话 预览版反馈提到聊天缓慢、SwiftcanCellationError,以及配对机器离线
Claude Code CLI 编程智能体 (+/-) 仍被视作强力的编程基线;支持 fast mode 和多智能体 teammate 工作流 fast mode 带来高昂 token 定价,回复也质疑并行智能体如何避免文件冲突
Orca Computer Use 计算机使用层 (+) 把桌面 app 控制扩展到 macOS、Windows、Linux,以及包括 Pi、Codex、OpenCode、Claude Code 在内的多种智能体栈 今天的样本里没有明显用户抱怨;证据仍以发布信息为主,而不是实战报告
goal MCP / 工作流控制 (+) 为智能体会话加入持久目标、自动续跑、轮次预算和完成审计 完全自动续跑只支持 Claude;Cursor 和 OpenCode 只能依赖 MCP 工具,没有基于 hook 的续跑
clibib 引文工具 / 智能体技能 (+) 可从 DOI、PMID、arXiv、URL、ISBN 或标题搜索获取 BibTeX,并适配多种智能体 README 明确提醒,基于标题的搜索不如 DOI 或 URL 输入可靠
Claude Code Karma 本地可观测性仪表盘 (+) 基于 FastAPI、SQLite 和 SvelteKit 的本地优先仪表盘,可查看会话、时间线、成本、工具、智能体和分析 README 提醒,Claude Code 只会保留约 30 天的本地会话数据,更久的历史会消失

整体满意度是按工作流层面分裂的,而不是由某个绝对赢家统一主导。Antigravity 仍然吸引注意,是因为它的产品野心很大,但用户对它的信任很弱;GitHub 工具获得关注,是因为它们更结构化、也有一手平台整合优势,但定价越来越难被忽视;OpenAI 把移动端 / ChatGPT 融合推进到编程场景,则把监督能力从桌面延伸了出去,但用户也同步报告了 bug。当天最清晰的权宜方案是:用本地 Qwen 逃离托管额度限制,用 iPhone 上的 tmux + SSH 取代 Codex mobile 预览版,以及借助 goal 和 Claude Code Karma 这类第三方控制面工具,补上基础工具尚未提供的可见性和持久性。


5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
Spec Kit GitHub 面向规格驱动开发的开源工具包,提供可执行规范和斜杠命令工作流 用一条从需求到实现的结构化路径,替代随性的凭感觉提示词 specify-cli、斜杠命令、GitHub Issues 集成、30+ 智能体集成 已发布 推文, 仓库
Claude Code Karma Jayant Devkar 面向 Claude Code 会话、时间线、成本、工具、智能体和分析的本地优先仪表盘 让开发者在不把数据发给第三方的情况下,看清智能体使用与花费 FastAPI、SQLite、SvelteKit 已发布 推文, 仓库
goal @secemp9 独立的 MCP 与斜杠命令系统,把 Codex 风格的持久目标移植到其他智能体 让长时间运行的智能体任务依然能靠预算、状态和完成检查持续推进 MCP server、Claude hooks、通过 uvx 接入 Cursor / OpenCode 已发布 推文, 仓库
clibib @deliprao 用于从 DOI、PMID、arXiv、URL、ISBN 或标题搜索抓取 BibTeX 的 Python CLI 和智能体技能 去掉研究型编程或写作工作流中的引文查找摩擦 Python CLI、智能体技能、基于 CrossRef/Zotero 的查询 已发布 推文, 仓库
Orca Computer Use @orca_build 面向控制桌面 app 和模拟器的跨平台计算机使用功能 让开发者可以跨多个智能体栈自动化 UI 测试和真实 app 工作流 面向 Pi、Codex、OpenCode、Claude Code 等的 macOS / Windows / Linux 计算机使用层 已发布 推文

Spec Kit 是最有分量的构建信号,因为它来自 GitHub,而且明确把“结构化”定位成解决不可预测的凭感觉编程的答案。Claude Code Karma、goal 和 clibib 则共同指向第二层模式:构建者不再只是在做编程智能体本身,他们也在围绕成本、持久性和研究工具构建外围控制面。Orca 则把这种模式进一步延伸到执行层:它把“computer use”变成一种跨智能体能力,而不是某家厂商独有的功能。反复触发这些项目的,不是缺模型,而是缺围绕模型的工作流脚手架。


6. 新动态与亮点

GitHub 把反“凭感觉编程”情绪做成了官方工作流仓库

@techNmak 的 Spec Kit 帖子以及其链接的仓库之所以重要,是因为 GitHub 不是又拿出一个模型或 UI 公告来为 Copilot 辩护,而是发布了一套开源工作流:规格应当变成可执行对象,并通过用于 constitution、spec 创建、规划、任务拆解和实现的命令落地。这是一个明显的转向:从“把提示词写得更好”,转向“让工作在智能体运行前就被形式化”。

Copilot 计费争论从理论走向截图

@edzitron 发帖贴出了 Copilot 即将转向按 token 计费的截图,以及月度 token 总额示例(52 次点赞、2 条回复、3,758 次浏览、5 次收藏)。值得注意的不只是计费变化本身,而是这些截图把原本隐藏的消耗变得足够直观,以至于它们本身就成了讨论素材。

OpenAI 正在把编程工作流更紧地并入 ChatGPT

最强的公开证据,是 @mark_k 对 Codex Mobile 的描述——它把手机变成一个编程控制面——以及 @mark_k 对 OpenAI 内部重组的描述——ChatGPT 与 Codex 被拉得更近。两者合起来指向一个产品方向:编程正在成为更大 ChatGPT 界面中的一种模式,而不是一个完全独立、只存在于桌面的工作流。


7. 机会在哪里

[+++] 面向成本、状态和完成度的智能体控制面 —— 证据横跨 Copilot 的 token 计费截图、Claude Code fast mode 定价、Claude Code Karma 的本地分析仪表盘,以及 goal 的持久目标系统。最大的机会不是再做一个基础模型,而是做能让长时间运行的智能体工作变得可见、可预算、可恢复、可审计的软件。

[++] 可靠的跨界面监督能力 —— Codex Mobile、用户对 Google 桌面 / 移动编程 app 的请求,以及 Orca 的跨平台 computer use,都指向同一个需求:开发者想在笔记本、手机和桌面 app 之间发起、监控并批准编程工作,而且不能丢状态。机会中等,因为需求已经很明确,但今天的实现仍然明显停留在预览版水准。

[+] 多智能体协调与合并安全 —— 那条“5 个队友智能体”的 Claude Code 帖子,以及随之而来的文件冲突提问,说明围绕分支隔离、冲突规避和多智能体收尾协作,存在一个更小但真实的缺口。这个信号还在形成中,不算主导叙事,但它和智能体工作流真正如何扩张高度相关。


8. 要点总结

  1. Antigravity 的问题已经不只是产品能力,而是产品信任。 用户在同一天既分享了实时模型选择器和 Google I/O 会议页,也把一个月前的 changelog 截图当成产品被忽视的证据。(来源, 来源, 来源)
  2. GitHub 的 AI 编程叙事正在同时变得更流程化,也更成本可见。 信息流把 Microsoft 向 Copilot CLI 的内部迁移传闻、Copilot token 消耗截图,以及 GitHub 背书的 spec 驱动开发仓库放到了一起。(来源, 来源, 来源)
  3. 远程控制正在成为一等编程工作流,但可靠性还赶不上需求。 Codex Mobile 让手机审阅 diff 和批准命令变得具体可感,但讨论串里最务实的回应仍然是 tmux + SSH 方案,因为预览版本身不稳定。(来源, 来源)
  4. 这一天的构建者精力,主要投向的是智能体基础设施,而不只是新智能体。 Spec Kit、goal、clibib、Claude Code Karma 和 Orca,分别围绕结构、持久性、引文、可见性和执行层,补全现有智能体工作流。(来源, 来源, 来源, 来源, 来源)