Twitter AI 编程 - 2026-05-15¶

1. 人们在讨论什么¶

1.1 Antigravity 仍有强烈的文化存在感，但运营信任很弱 🡕¶

5 月 15 日，Antigravity 仍是讨论最多的 AI 编程产品之一，但围绕它的讨论被相互矛盾的证据主导：截图显示它仍有实时的多模型选择器，Google 也围绕它安排了一场 I/O 会议；与此同时，用户又把最近缺乏可见更新，当成产品可能在衰退的信号。3 个高信号条目支撑了这一主题，而回复也不再停留在“感觉”层面，而是落到了额度、模型适配度和沟通方式这些具体抱怨上。

@jahirsheikh8 发问 Google 是否准备关闭 Antigravity（296 次点赞、90 条回复、165,073 次浏览、28 次收藏）。这张配图很关键，因为它显示产品界面里仍然有 Gemini 3.1 Pro（High/Low）、Gemini 3 Flash、Claude Sonnet 4.6、Claude Opus 4.6 和 GPT-OSS 120B，而不是一个已经停用或被废弃的界面。

Antigravity 模型选择器，展示 Gemini 3.1 Pro 和 Flash、Claude Sonnet 4.6、Claude Opus 4.6，以及 GPT-OSS 120B 的实时菜单

@HarshithLucky3 发帖把同样的担忧说得更尖锐：可见的更新日志仍停留在 2026 年 4 月 16 日的 1.23.2 版本，而且只列出了 MCP 加载和工作区专属设置的修复项（227 次点赞、17 条回复、12,410 次浏览、14 次收藏）。在同一条推文里，他还明确要求 Google AI Studio 团队发布一个专用的桌面和移动应用，“像 Codex 那样”，把一种模糊的不满直接变成了具体的产品请求。

Antigravity 更新日志，显示 2026 年 4 月 16 日的 1.23.2 版本，内容只有 MCP 加载和工作区设置的修复项

@FlutterDev 宣传了一场 Google I/O 会议，其落地页写着“凭感觉编程是 2026 年开发者的一项重要技能”，并承诺会展示 Google 团队如何使用像 Google Antigravity 这样的智能体工具（38 次点赞、1 条回复、1,604 次浏览、9 次收藏）。这让当天最核心的 Antigravity 问题，不再是“这个产品还在不在”，而是“Google 有没有足够清楚地传达它的路线图”。

讨论要点： 关闭传闻讨论串的回复，提供了最有操作性的证据。一位回应者说，警报是从 Google“把额度砍了”并把用户推向 Gemini 3.1 Pro 时开始的；另一位则说 Gemini 3.1 “还行”，但对重度编程来说还不够强，自己可能会“彻底转向本地跑 Qwen”。

与前日对比： 5 月 14 日的主要矛盾，还只是野心十足的演示与陈旧更新日志之间的反差。到 5 月 15 日，这个矛盾已经进一步固化：人们拿来当证据的，依旧是那个陈旧的更新日志截图；但与此同时，Google 自己又在为 I/O 上的 Antigravity 会议做宣传。

1.2 GitHub 对 AI 编程的回应变得更结构化，也更昂贵 🡕¶

围绕 GitHub 的讨论，已经不再只是简单比较“谁的模型最好”，而是转向工作流结构、内部整合，以及计费暴露。4 个条目支撑了这个主题：一则被广泛转发的报道称 Microsoft 正在把内部开发者迁向 Copilot CLI，几张截图展示了 token 计费在现实中可能长什么样，GitHub 自己推出了 spec 驱动工作流仓库，还有一位用户指出 Copilot App 在 Windows 和 macOS 上的质量差异非常明显。

@Cointelegraph 报道称，Microsoft 正在取消大多数内部 Claude Code 许可证，并把数千名开发者转向 GitHub Copilot CLI，消息来源是 The Verge（137 次点赞、40 条回复、16,070 次浏览、12 次收藏）。回复让这个说法变得更复杂：有用户说 Claude 在许多 .NET 场景里仍然更好用；也有人指出 GitHub Copilot 本身也能用 Claude，于是问题更像是运行框架和平台偏好，而不是单纯换了模型。

@edzitron 认为，Copilot 将在 6 月 1 日转向按 token 计费，这件事把许多 AI 产品平时藏起来的经济账直接摆到了台面上（52 次点赞、2 条回复、3,758 次浏览、5 次收藏）。配图才是关键证据：其中一张解释说，大多数 AI 订阅并不会按实际 token 消耗向终端用户收费；另一张则列出了 Copilot 的月度 token 总额示例，从 23.81 美元一直到 5,851.77 美元，而这些用户每月实际支付的订阅费大约只有 10 到 54 美元。

Ed Zitron 讨论串截图，展示 Copilot 计划转向按 token 计费，以及示例月度 token 消耗从几十美元到数千美元不等

@techNmak 提到了 GitHub 的 Spec Kit（4 次点赞、2 条回复、209 次浏览、8 次收藏），其链接仓库把它描述为一个用于“Spec-Driven Development”的开源工具包：规格可以通过 /speckit.specify、/speckit.plan、/speckit.tasks 和 /speckit.implement 之类的命令变成可执行流程。README 截图之所以重要，是因为它显示 GitHub 正在打包一种对开放式、凭感觉写提示词方法的明确替代方案。

Spec Kit README 标题图，描述这是一个用可执行规格取代临时 vibe coding 的开源工具包

@ibuildthecloud 表示，Copilot app 在 Windows 上看起来明显不如某个 macOS 网红演示里的效果（15 次点赞、5 条回复、1,367 次浏览、2 次收藏），而一条回复补充说，Copilot 最近的发布其实不错，但新的费率可能会让用户变得极度敏感于 token 成本。这条帖子的体量不大，但恰好浓缩了当天更大的张力：GitHub 一边在扩展工作流层面的产品面，一边又让用户更直观地感受到平台质量和成本透明度。

讨论要点： 围绕 Microsoft 内部迁移和 Copilot app 的回复，不断回到同一点：光有模型访问还不够。用户在乎的是模型外层的运行框架、成本是否清晰可见，以及自己真正使用的平台上，体验是不是足够好。

与前日对比： 5 月 14 日大家还主要在问 GitHub 能不能恢复这个品类的可信度。到 5 月 15 日，讨论已经变得更运营化：内部迁移传闻、具体的 token 消耗截图，以及 GitHub 自己背书的 spec 驱动工作流仓库。

1.3 编程智能体正在变成远程遥控系统，但控制面仍然粗糙 🡕¶

第三个主题，是“远程监督”模式的快速扩散：人们开始用手机操控编程智能体，把编程产品往 ChatGPT 里收拢，并把计算机使用能力扩展到多个智能体栈上。3 个条目支撑了这个主题，而最有价值的讨论，则集中在这些新界面到底靠不靠谱、能不能真正进入日常工作。

@mark_k 宣布 Codex Mobile 允许用户在手机上查看正在进行的工作、审阅 diff、批准命令、切换模型，并在真实开发机器继续运行会话的同时远程操控 Codex（45 次点赞、8 条回复、1,430 次浏览、1 次收藏）。截图展示的是一个具体控制面，而不是泛泛的发布卡片。

Codex mobile 界面，展示 ChatGPT app 中的项目列表和已连接开发机器

@haider1 在同一发布下回复说，这个版本看起来像是仓促上线：聊天加载缓慢、提示词提交会报 SwiftcanCellationError，app 有时还会把配对电脑显示成离线（13 次点赞、3 条回复、931 次浏览）。回复里给出的不是辩护，而是一个权宜方案：在 tmux 里跑 Codex CLI，再用 iPhone 上的 Moshi 通过 SSH 连过去，这样更稳定，因为它不用做配对，也更能扛住网络切换。

@mark_k 还报道称，OpenAI 已围绕“让 ChatGPT 和 Codex 更紧密整合”做了内部重组，由 Greg Brockman 统一负责所有产品，而 Codex 负责人 Thibault Sottiaux 则转去核心产品和平台。与此同时，@orca_build 表示，其 Computer Use 功能现在已经支持 macOS、Windows 和 Linux，可用于 Pi、Codex、OpenCode、Claude Code 等多个栈（12 次点赞、1 条回复、756 次浏览、2 次收藏），说明控制面正在超出单一厂商生态向外扩散。

讨论要点： 围绕移动端的帖子，对“这个想法”整体是正面的，对“这个产品打磨度”则是负面的。用户喜欢在离开电脑时还能审阅 diff、批准命令，但当天最有用的回应，依旧是一个基于 SSH 的权宜方案，而不是对原生预览版的称赞。

与前日对比： 5 月 14 日讲的是移动端和插件端的分发。到 5 月 15 日，讨论已经从“这东西存在”转向“这东西确实有用，但你得这样才能让它真正跑起来”。

2. 令人困扰的问题¶

Antigravity 的路线图不透明到足以自我催生谣言循环¶

当天最强的挫败感，是人们根本无法判断 Antigravity 是否还在被积极开发。@jahirsheikh8 发问 Google 是否正在关闭它（296 次点赞、90 条回复、165,073 次浏览、28 次收藏），而 @HarshithLucky3 随后贴出 changelog 截图，显示最新可见更新仍然停在 2026 年 4 月 16 日（227 次点赞、17 条回复、12,410 次浏览、14 次收藏）。回复让痛点更具体：有人说额度被砍，用户被推向 Gemini 3.1 Pro；还有人说 Gemini 3.1 对重度编程的调校还不够，考虑转向本地 Qwen。严重程度：高。值得为此构建：是，因为这里既有对产品能力的需求，也有对路线图信任的需求。

按使用量计费的 AI 编程经济性，越来越难以忽视¶

GitHub 的计费变化是最清晰的例子。@edzitron 发帖说 Copilot 将在 6 月 1 日转向按 token 计费（52 次点赞、2 条回复、3,758 次浏览、5 次收藏），而配图里给出的样例 token 消耗，最高可达每月 5,851.77 美元，而用户月费大约只有 39 美元。类似的成本敏感性，也出现在一个更小但同样具体的 Claude Code 例子里：@dsiroker 展示了 Opus 4.7 fast mode 的定价：每 Mtok 输入 30 美元、输出 150 美元（1 次点赞、2 条回复、251 次浏览、3 次收藏）；而第一条回复立刻把话题推向运营风险：如果 5 个队友智能体同时运行，怎么避免它们改到同一批文件？严重程度：高。值得为此构建：是，尤其是预算控制、可观测性以及更安全的并行执行。

从手机远程操控编程工作很有用，但预览版质量仍然不稳¶

Codex Mobile 的发布同时吸引了需求和问题报告。@mark_k 描述了一套手机工作流：查看正在进行的工作、审阅 diff、批准命令和切换模型（45 次点赞、8 条回复、1,430 次浏览、1 次收藏），还有一条回复说这“是真的有用，不只是演示功能”。但 @haider1 报告，预览版并不稳定：聊天很慢、会出现 SwiftcanCellationError，还会间歇性提示“computer is offline”（13 次点赞、3 条回复、931 次浏览）。讨论串里最好的权宜方案，不是另一个应用功能，而是在 tmux 里跑 Codex CLI，再从 iPhone 用 SSH 连上去。严重程度：中高。值得为此构建：是。

智能体体验质量仍然因平台而异¶

另一个更小但很说明问题的抱怨，来自 @ibuildthecloud。他表示，Copilot app 在 Windows 上看起来远不如 macOS demo（15 次点赞、5 条回复、1,367 次浏览、2 次收藏）。同一帖子的回复还说，Copilot 最近的发布其实不错，但新的定价会让用户对 token 成本更敏感。这组抱怨之所以重要，是因为它把两种摩擦放在了一起：界面不一致，以及对成本的高度感知。严重程度：中。值得为此构建：是，如果某个产品能在不掩盖成本取舍的情况下，提供一致的跨平台体验。

3. 人们期望的功能¶

一个专门的 Google AI Studio 桌面与移动 app¶

这个需求是被直接说出来的。@HarshithLucky3 要求 Google AI Studio 发布一个专门的桌面和移动应用，“像 Codex 那样”（227 次点赞、17 条回复、12,410 次浏览、14 次收藏），并把这个请求直接与对 Antigravity 可见更新节奏的不满联系在一起。它不是一个宏大愿景，而是一个现实需要：用户并不是想要一个新类别，只是想要一个更清晰、更可靠、由 Google 自己维护的编程工作界面。机会：直接。

面向编程智能体的可靠手机监督能力¶

Codex mobile 的帖子说明，人们确实想在离开桌面时管理编程会话，但也说明今天的实现还不够可靠。@mark_k 把移动端审阅与批准描述成立刻有用的能力（45 次点赞、8 条回复、1,430 次浏览、1 次收藏），而 @haider1 记录了预览版中的提示词失败和离线配对问题（13 次点赞、3 条回复、931 次浏览）。那条推荐用 iPhone 上的 tmux + SSH 的回复也表明：如果原生产品做不到可靠，人们会自己把能力拼出来。机会：直接。

面向重度智能体使用的清晰成本控制¶

GitHub 的计费截图和 Claude Code fast mode 的定价例子，指向的是同一个务实愿望：用户希望长时间运行的智能体工作流，不要等账单出来之后才知道成本。@edzitron 展示了 Copilot 从几百美元到几千美元不等的 token 总额样例（52 次点赞、2 条回复、3,758 次浏览、5 次收藏），而 @tom_doerr 链接了一个可视化 Claude Code 会话、时间线和成本的本地仪表盘（6 次点赞、599 次浏览、11 次收藏）。这个需求既现实又紧迫，而独立开发者已经开始给出部分答案，甚至比平台方更早把控制面做出来。机会：直接。

更好的多智能体并行协调能力¶

@dsiroker 展示了 Claude Code fast mode 同时运行“5 个队友智能体”的画面（1 次点赞、2 条回复、251 次浏览、3 次收藏），而第一条回复立刻追问了那个最关键的系统问题：如果它们改到同一批文件会怎样？会自动分支吗？还是最终还得手工合并？这不是营销辞令，而是一个真实的工作流需求；而在样本里，也没有强证据表明当前工具已经把它优雅解决掉。机会：正在形成。

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
Google Antigravity	智能体优先 IDE	(+/-)	有实时多模型选择器；重要到足以拥有一场专门的 Google I/O 会议；在对比帖中被当作免费或低摩擦替代方案	可见更新节奏不清晰；回复抱怨额度下降，且 Gemini 3.1 对重度编程偏弱
GitHub Copilot CLI	CLI 编程助手	(+/-)	Microsoft 内部迁移的讨论给了它一手平台可信度；至少有一位用户说它解决了 Claude Code 没搞定的 bug	按 token 计费正在成为产品讨论中心；回复指出，光有模型访问并不能决定工作流偏好
GitHub Copilot App	智能体工作空间	(+/-)	技术预览定位围绕“一个 app 里覆盖完整开发生命周期”展开	一位测试者说 Windows 体验比 macOS 差很多，回复也把采用意愿和费率敏感度绑定在一起
Spec Kit	规格驱动工作流工具包	(+)	通过斜杠命令、任务生成和 issue 集成，把 spec 变成可执行工作流，覆盖 30+ 智能体集成	今天的样本里没有强烈抱怨，但这套工作流明确是在反击临时、随性的提示词方式，而不是它的无缝替代品
Codex Mobile	移动端编程智能体伴侣	(+/-)	用户可以在手机上查看 diff、批准命令、切换模型，并监督正在运行的会话	预览版反馈提到聊天缓慢、`SwiftcanCellationError`，以及配对机器离线
Claude Code	CLI 编程智能体	(+/-)	仍被视作强力的编程基线；支持 fast mode 和多智能体 teammate 工作流	fast mode 带来高昂 token 定价，回复也质疑并行智能体如何避免文件冲突
Orca Computer Use	计算机使用层	(+)	把桌面 app 控制扩展到 macOS、Windows、Linux，以及包括 Pi、Codex、OpenCode、Claude Code 在内的多种智能体栈	今天的样本里没有明显用户抱怨；证据仍以发布信息为主，而不是实战报告
goal	MCP / 工作流控制	(+)	为智能体会话加入持久目标、自动续跑、轮次预算和完成审计	完全自动续跑只支持 Claude；Cursor 和 OpenCode 只能依赖 MCP 工具，没有基于 hook 的续跑
clibib	引文工具 / 智能体技能	(+)	可从 DOI、PMID、arXiv、URL、ISBN 或标题搜索获取 BibTeX，并适配多种智能体	README 明确提醒，基于标题的搜索不如 DOI 或 URL 输入可靠
Claude Code Karma	本地可观测性仪表盘	(+)	基于 FastAPI、SQLite 和 SvelteKit 的本地优先仪表盘，可查看会话、时间线、成本、工具、智能体和分析	README 提醒，Claude Code 只会保留约 30 天的本地会话数据，更久的历史会消失

整体满意度是按工作流层面分裂的，而不是由某个绝对赢家统一主导。Antigravity 仍然吸引注意，是因为它的产品野心很大，但用户对它的信任很弱；GitHub 工具获得关注，是因为它们更结构化、也有一手平台整合优势，但定价越来越难被忽视；OpenAI 把移动端 / ChatGPT 融合推进到编程场景，则把监督能力从桌面延伸了出去，但用户也同步报告了 bug。当天最清晰的权宜方案是：用本地 Qwen 逃离托管额度限制，用 iPhone 上的 tmux + SSH 取代 Codex mobile 预览版，以及借助 goal 和 Claude Code Karma 这类第三方控制面工具，补上基础工具尚未提供的可见性和持久性。

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
Spec Kit	GitHub	面向规格驱动开发的开源工具包，提供可执行规范和斜杠命令工作流	用一条从需求到实现的结构化路径，替代随性的凭感觉提示词	`specify-cli`、斜杠命令、GitHub Issues 集成、30+ 智能体集成	已发布	推文, 仓库
Claude Code Karma	Jayant Devkar	面向 Claude Code 会话、时间线、成本、工具、智能体和分析的本地优先仪表盘	让开发者在不把数据发给第三方的情况下，看清智能体使用与花费	FastAPI、SQLite、SvelteKit	已发布	推文, 仓库
goal	@secemp9	独立的 MCP 与斜杠命令系统，把 Codex 风格的持久目标移植到其他智能体	让长时间运行的智能体任务依然能靠预算、状态和完成检查持续推进	MCP server、Claude hooks、通过 `uvx` 接入 Cursor / OpenCode	已发布	推文, 仓库
clibib	@deliprao	用于从 DOI、PMID、arXiv、URL、ISBN 或标题搜索抓取 BibTeX 的 Python CLI 和智能体技能	去掉研究型编程或写作工作流中的引文查找摩擦	Python CLI、智能体技能、基于 CrossRef/Zotero 的查询	已发布	推文, 仓库
Orca Computer Use	@orca_build	面向控制桌面 app 和模拟器的跨平台计算机使用功能	让开发者可以跨多个智能体栈自动化 UI 测试和真实 app 工作流	面向 Pi、Codex、OpenCode、Claude Code 等的 macOS / Windows / Linux 计算机使用层	已发布	推文

Spec Kit 是最有分量的构建信号，因为它来自 GitHub，而且明确把“结构化”定位成解决不可预测的凭感觉编程的答案。Claude Code Karma、goal 和 clibib 则共同指向第二层模式：构建者不再只是在做编程智能体本身，他们也在围绕成本、持久性和研究工具构建外围控制面。Orca 则把这种模式进一步延伸到执行层：它把“computer use”变成一种跨智能体能力，而不是某家厂商独有的功能。反复触发这些项目的，不是缺模型，而是缺围绕模型的工作流脚手架。

6. 新动态与亮点¶

GitHub 把反“凭感觉编程”情绪做成了官方工作流仓库¶

@techNmak 的 Spec Kit 帖子以及其链接的仓库之所以重要，是因为 GitHub 不是又拿出一个模型或 UI 公告来为 Copilot 辩护，而是发布了一套开源工作流：规格应当变成可执行对象，并通过用于 constitution、spec 创建、规划、任务拆解和实现的命令落地。这是一个明显的转向：从“把提示词写得更好”，转向“让工作在智能体运行前就被形式化”。

Copilot 计费争论从理论走向截图¶

@edzitron 发帖贴出了 Copilot 即将转向按 token 计费的截图，以及月度 token 总额示例（52 次点赞、2 条回复、3,758 次浏览、5 次收藏）。值得注意的不只是计费变化本身，而是这些截图把原本隐藏的消耗变得足够直观，以至于它们本身就成了讨论素材。

OpenAI 正在把编程工作流更紧地并入 ChatGPT¶

最强的公开证据，是 @mark_k 对 Codex Mobile 的描述——它把手机变成一个编程控制面——以及 @mark_k 对 OpenAI 内部重组的描述——ChatGPT 与 Codex 被拉得更近。两者合起来指向一个产品方向：编程正在成为更大 ChatGPT 界面中的一种模式，而不是一个完全独立、只存在于桌面的工作流。

7. 机会在哪里¶

[+++] 面向成本、状态和完成度的智能体控制面 —— 证据横跨 Copilot 的 token 计费截图、Claude Code fast mode 定价、Claude Code Karma 的本地分析仪表盘，以及 goal 的持久目标系统。最大的机会不是再做一个基础模型，而是做能让长时间运行的智能体工作变得可见、可预算、可恢复、可审计的软件。

[++] 可靠的跨界面监督能力 —— Codex Mobile、用户对 Google 桌面 / 移动编程 app 的请求，以及 Orca 的跨平台 computer use，都指向同一个需求：开发者想在笔记本、手机和桌面 app 之间发起、监控并批准编程工作，而且不能丢状态。机会中等，因为需求已经很明确，但今天的实现仍然明显停留在预览版水准。

[+] 多智能体协调与合并安全 —— 那条“5 个队友智能体”的 Claude Code 帖子，以及随之而来的文件冲突提问，说明围绕分支隔离、冲突规避和多智能体收尾协作，存在一个更小但真实的缺口。这个信号还在形成中，不算主导叙事，但它和智能体工作流真正如何扩张高度相关。

8. 要点总结¶

Antigravity 的问题已经不只是产品能力，而是产品信任。 用户在同一天既分享了实时模型选择器和 Google I/O 会议页，也把一个月前的 changelog 截图当成产品被忽视的证据。(来源, 来源, 来源)
GitHub 的 AI 编程叙事正在同时变得更流程化，也更成本可见。 信息流把 Microsoft 向 Copilot CLI 的内部迁移传闻、Copilot token 消耗截图，以及 GitHub 背书的 spec 驱动开发仓库放到了一起。(来源, 来源, 来源)
远程控制正在成为一等编程工作流，但可靠性还赶不上需求。 Codex Mobile 让手机审阅 diff 和批准命令变得具体可感，但讨论串里最务实的回应仍然是 tmux + SSH 方案，因为预览版本身不稳定。(来源, 来源)
这一天的构建者精力，主要投向的是智能体基础设施，而不只是新智能体。 Spec Kit、goal、clibib、Claude Code Karma 和 Orca，分别围绕结构、持久性、引文、可见性和执行层，补全现有智能体工作流。(来源, 来源, 来源, 来源, 来源)