Twitter AI Coding - 2026-05-23¶
1. 人们在讨论什么¶
1.1 编程智能体正变成可移植的运行框架,而不是封闭产品 🡕¶
5 月 23 日最清晰的变化是,人们谈论编程智能体时,已经把它们视为包裹模型访问的可互换外壳,而不是某一家厂商的终点。最强证据来自 OpenAI 自己的 Codex 负责人,他承认已有相当一部分生产流量跑在别的运行框架上;与此同时,围绕 OpenCode 的推广和围绕 Codex 工作流的帖子,讨论重点都放在路由、会话和设备控制,而不是模型本身的新鲜感。
@thsottiaux 表示(302 次点赞、56 条回复、6,265 次浏览、33 次收藏),Codex 生产流量里,大约 5% 已经跑在 Pi 上,另外 5% 跑在 OpenCode 上;他还补充说,一个 ChatGPT 账号可以被用于“一个正在繁荣增长的其他工具集合”。这不是用户间的猜测式对比,而是 OpenAI 的产品负责人公开把替代运行框架描述成同一账号的真实去处。
@VaibhavSisinty 认为(35 次点赞、8 条回复、1,563 次浏览、33 次收藏),OpenCode 基本上就是一个免费、开源版的 Claude Code 风格工作流:原生终端、能读代码库、能改文件、能跑命令,还能接 Claude、GPT、Gemini、DeepSeek、Qwen、Ollama,以及现有的 ChatGPT Plus、Claude Pro 或 GitHub Copilot 订阅。公开的 opencode 仓库 把它描述成一个终端式编程助手,支持多提供商、会话管理、工具执行、持久存储和 LSP 集成。
@airkatakana 说(28 次点赞、3 条回复、1,240 次浏览、6 次收藏),“顺便说一句,Codex app 能做到这个,但 CLI 不能。” 配图显示,这个 app 可以对远程实验服务器建立持久 SSH 连接,在收到 OTP 之前一直保持在线 shell,之后再复用这条活连接去执行后续步骤。

@hqmank 提到(11 次点赞、2 条回复、1,662 次浏览、4 次收藏),他那条介绍 /goal 工作流的帖子得到了 Tibo 的点赞;他引用的示例把 Codex App 的 /goal 模式描述成一种“会跨多轮持续工作,直到做完为止”的方式。这里的重点不只是对某个功能的粉丝向追捧,而是长时运行的工作和可复用工作流,已经成了人们比较编程智能体时的标准之一。
讨论要点: Tibo 帖子下的回复,并没有问到底哪个基础模型赢了。他们问的是:为什么还要留在单一运行框架里?如果 Pi 和 OpenCode 已经能在别处暴露 GPT 访问,那 Codex 还剩下什么独特价值?
与前日对比: 5 月 22 日聚焦的是共享服务器、聊天桥接,以及围绕既有智能体的 BYOK shim。5 月 23 日又往前走了一步:OpenAI 负责人公开承认 Codex 存在站外流量,而用户也开始比较 app 专属能力,比如持久 SSH 会话和 /goal 式自治。
1.2 套餐档位、额度和捆绑算账正在左右编程工具选择 🡕¶
第二大主题是,订阅经济学和额度可见性已经不再是背景细节。多条帖子把真正的产品问题表述成“我花 $20 到底买到了什么?”以及“进度条重置前,我究竟还能做多少活?”,而不是“抽象地看,哪个模型最好?”
@adahstwt 提问(49 次点赞、58 条回复、1,678 次浏览),如果一个人只负担得起一个订阅,那该买 Claude、Codex、Cursor、Antigravity,还是 GitHub Copilot?这个提法很好地概括了当天的情况:人们在按预算主动做取舍,而不是假定所有编程产品都能叠加使用、没有代价。
@vikaskansalHQ 表示(69 次点赞、9 条回复、8,146 次浏览),Google 更高档的 Ultra 套餐给到 20x 的 AI 用量,而较低档位只给 5x,覆盖 Gemini app 和 Antigravity;而 Google AI plans 页面 也单独确认,付费 Google AI 套餐会把 Antigravity、AI Studio 及相关开发工具中的扩展额度,明确当成套餐卖点。
@Presidentlin 写道(16 次点赞、1,745 次浏览、3 次收藏),在一次“还算像样的 sprint”之后,Antigravity 依然需要 7 天追踪、缓存 token 可见性,以及百分比,而不是现在这根模糊进度条。他还补充说,自己已经把 Antigravity 2.0 和 CLI 都删了,因为 2.0 不支持 WSL,尽管 IDE 还留着。


@Asteri_eth 认为(22 次点赞、13 条回复、179 次浏览),Google AI Pro 之所以显得异常划算,是因为它现在把 Gemini Pro、NotebookLM Pro、Antigravity 访问权,以及 YouTube Premium Lite 打包在了一起。配图也非常明确地展示了 Premium Lite 这个权益:

讨论要点: 回复区关心的是可比性和透明度,而不是基准测试神话。用户想知道哪个订阅最容易被耗尽,“Pro” 到底是不是意味着每天真能用的额度,以及为什么关键用量信息仍然被模糊进度条和刷新倒计时遮住。
与前日对比: 5 月 22 日已经有人抱怨 Codex 和 Antigravity 会快速烧掉额度。5 月 23 日则进一步出现了更明确的套餐截图、捆绑价值比较,以及对缓存 token 可见性和 7 天追踪的直接产品请求。
技能、MCP 服务器和索引上下文正在成为真正的产品表面 🡕¶
另一组强信号,把技能和上下文工具当成了已经在交付的软件,而不是提示词圈里的传说。当天证据横跨一项第一方 Copilot CLI 技能、一张几乎被智能体基础设施占满的 GitHub 仓库排行榜、一场围绕 MCP 定制定规则的公开挑战赛,以及一本明确在教授跨客户端技能支持的书章。
@msdev 宣布(77 次点赞、4 条回复、4,940 次浏览、40 次收藏)了 MicrosoftBuild CLI,这是一项 GitHub Copilot CLI 技能,把 Build 会话目录带进终端,能根据本地依赖推荐会话,也能把开发者从这些会话中学到的内容脚手架生成成可工作的代码。公开的 microsoft/Build-CLI 仓库 写道,这项技能会读取 package.json、requirements.txt、.csproj 和 go.mod 之类的文件,把它们映射到 Microsoft 产品,再查询实时的 Build 2026 目录,并通过 Copilot CLI 从这些会话里脚手架生成项目。
@sharbel 发帖(10 次点赞、3 条回复、215 次浏览、4 次收藏),贴出一张增长最快仓库榜单,而排名靠前的几乎全是智能体基础设施:colbymchenry/codegraph 增加了 +14.1K stars,Imbad0202/academic-research-skills 增加了 +11.6K,rohitg00/agentmemory 增加了 +6.9K。

公开的 colbymchenry/codegraph 仓库 把自己描述成一个预索引的代码知识图谱,能自动配置 Claude Code、Cursor、Codex CLI、OpenCode 和 Hermes Agent。它公开的基准测试表宣称,在 7 个开源代码库上,中位成本节省 35%、token 节省 59%、时间节省 49%、工具调用节省 70%。
@kurlyk27 总结(8 次点赞、6 条回复、61 次浏览)了 SentientAGI 的 Challenge 0:这是一场编程智能体竞赛,Codex、OpenHands、Goose 或 OpenCode 可以通过一个 YAML 文件外加技能文件与 MCP 服务器做定制,然后在一个完全离线、无网络访问的容器里,针对 Treasury 文档问题接受评估。最有意思的不是排行榜,而是 MCP 工具链和额外 skill 上下文被当成了一等竞赛原语。
@nerdai 发帖(3 次点赞、476 次浏览、4 次收藏)称,Manning 一本关于多智能体系统的新书章节,正在把智能体技能作为一种开放标准来讲授,而这个标准如今已经被 Claude Code、Cursor、Gemini CLI、VS Code、GitHub Copilot、Codex 等产品使用。与此同时,公开的 academic-research-skills 仓库 把自己描述成一套可安装的 Claude Code 科研工作流技能,并通过插件市场分发。
讨论要点: 重心已经从“我该怎么提示它?”转向“我该安装、索引、打包或接进运行框架的是什么模块?” 就连公开挑战赛的赛制,也默认技能和 MCP 子进程才是扩展编程智能体的常规方式。
与前日对比: 5 月 22 日让技能通过目录和工作流仪表盘变得可见。5 月 23 日则把范围拓展到了第一方 CLI 技能、排行榜赢家、通过市场分发的技能包,以及明确奖励上下文与工具打包能力的挑战赛规则。
Vibe coding 正在同时变成一种产品哲学和原型习惯 🡒¶
最后一个反复出现的主题,与其说关乎某个具体厂商,不如说关乎人们如何为 AI 辅助创造辩护,或者如何实践它。证据分成两路:一边是对 vibe coding 的理念性辩护,另一边是借助智能体工具做出的具体个人原型。
@dhh 认为(83 次点赞、6 条回复、3,651 次浏览),对 vibe coding 退避三舍,和开源的理想并不相容:如果开源的核心是让更多人有能力改变软件,那么 AI 辅助编程就应该被视为“把大门打开”,而不是再竖起新的门槛。
@ivanfioravanti 展示(12 次点赞、3 条回复、993 次浏览、5 次收藏)了一个用 OpenCode 和 ds4-agent --power 50 搭出来的《Wipeout》风格赛车原型。这条讨论串之所以变得异常具体,是因为他直接贴出了分阶段提示词:从 CDN 加载 Three.js、单文件 index.html、固定时间步物理、空气刹车、Catmull-Rom 赛道、圈数校验,以及追逐镜头。他还特别提到,Grok 4.3 在同样的要求上失败了,这让这条推文更像一次轻量比较测试,而不只是纯粹 hype。
@om_patel5 分享(6 次点赞、2 条回复、426 次浏览)了一款名为《Under Training》的浏览器游戏,玩家会像大语言模型一样经历原始数据摄入、训练、推理和评估。这个概念被形容成“ADHD 版游戏”,但更有实质内容的回复追问的是:这套设计有没有把上下文窗口滑脱和变异后的工具调用也表现出来?这说明哪怕是更轻松的 vibe-coded 项目,也已经在按它是否诚实呈现智能体失效模式来被评判。
讨论要点: 支持者并不是在说复审已经不重要了。他们的意思是,AI 辅助创作扩大了“谁能构建”的边界;而回复区则不断把讨论拉回验证、信任,以及这些产物在真实约束下是否站得住。
与前日对比: 5 月 22 日的构建故事,主要还是围绕既有智能体的封装层、桥接和团队控制平面。5 月 23 日则多了更多个人实验、更多对 vibe coding 本身的文化辩护,以及更多用智能体快速做出可玩或可发布工件的案例。
2. 令人困扰的问题¶
额度算账与定价仍然模糊到足以扭曲购买决策¶
严重程度:高。让人挫败的,不只是编程工具要花钱,而是用户依然不知道自己到底买到了什么。@SouthernValue95 写道(76 次点赞、11 条回复、7,370 次浏览、77 次收藏),一位 GitHub Copilot 客户听到的报价是涨价 10x,大约到每月 $300,他还把这件事当成一个粗糙但具体的 AI TAM 模型输入。@adahstwt 提问了“只能订一个该选谁”的问题;@Presidentlin 抱怨,Antigravity 依然不显示缓存 token、百分比,或一个像样的 7 天视图;@vikaskansalHQ 则补充,Google 更高价位的套餐给的是 20x AI 用量,而更低档位只有 5x。现在的应对模式,是手工比价和去社交平台做民意调查,而不是依赖第一方的清晰说明。值得做,因为用户往往在还没开始评估输出质量之前,就已经被这类信息不透明影响了产品选择。
产品行为仍在 app、CLI 和模式边界之间继续分裂¶
严重程度:中高。多条帖子描述的问题,不是模型能力变弱,而是功能碎片化。@airkatakana 说,Codex app 能做 CLI 做不到的事,而那张持久 SSH 截图就是证据。@Presidentlin 说,Antigravity 2.0 仍然不支持 WSL,最后把他逼回了 IDE。@anumness 写道(24 次点赞、6 条回复、1,055 次浏览),Claude 在 Chat、Cowork 和 Code 之间的分裂,甚至让人很难再把它视为一个连贯的聊天应用。现在的绕行办法,是在脑中为不同模式各自保留一套心智模型——一个负责聊天、一个负责写代码、一个 shell 负责长任务——但用户真正厌倦的,恰恰就是这种碎片化。
环境输入和语音优先工作流,在混乱真实世界里依然会翻车¶
严重程度:中。@katienotopoulos 报道(6 次点赞、4 条回复、1,291 次浏览),Wispr Flow 会误录背景音,并把它转写进 Business Insider 的 CMS、Slack 以及其他工作界面,其中甚至包括一次私下争吵和电视对白。她后来又引用 CEO 的话,把它称作语音转录版《Final Destination》。这类挫败感和额度算账完全不同:即使模型本身没问题,免手操作的编程工具也可能制造社交和隐私层面的失败。当前的应对机制只是把热键按得更小心一些,这显然不是长久方案。
3. 人们期望的功能¶
一个能解释所有编程工具限制的中立用量仪表盘¶
最强的未满足需求,是一块同时管理额度和重置逻辑的控制平面。@Presidentlin 想在 Antigravity 里看到缓存 token、百分比和 7 天追踪。@adahstwt 把订阅选择变成公开提问,正是因为市场仍然没有把这些取舍清楚地呈现出来。@SouthernValue95 和 @vikaskansalHQ 则提供了为什么这件事重要的定价和套餐证据。机会:直接。
能跨 shell 或设备存活的长时工作¶
时间线反复暗示,用户想要的是持久工作闭环,而不是再多一个聊天框。@hqmank 突出了 Codex App 的 /goal 工作流,因为它能让任务跨多轮持续推进;@airkatakana 则用那张图说明,app 之所以有价值,是因为它能握住一条持久 SSH 会话。@thsottiaux 也确认,替代性的 Codex 运行框架已经吸走了真实流量。缺失的产品,是一种能跟着用户穿越 app、CLI 和第三方 shell 的可移植工作状态,而不是被锁死在单一界面里。机会:直接且竞争激烈。
能跨客户端工作的、可信又可复用的技能与上下文包¶
支撑这个需求的证据异常广泛。@msdev 发布了可安装的 Copilot 技能 Build CLI;@nerdai 把技能描述成一种跨客户端标准;@kurlyk27 则介绍了一场公开挑战赛,在那里 skills 文件和 MCP servers 已经成了扩展编程智能体的常规方式。用户已经明确想要这类东西。现在真正缺的,是一种能跨厂商打包、审计和分发这些模块的可信方式。机会:直接。
一个会累积、而不是反复重置的编程“第二大脑”¶
@cyrilXBT 把(11 次点赞、1 条回复、125 次浏览)Claude Code 加 Obsidian 描述成“一个真的了解你的 AI”——知道你的目标、上下文和历史,而不是每一轮都要重新交底的聊天机器人。这不是诗意表达,而是务实需求。它很好地概括了为什么周边这么多工具都在强调记忆、索引上下文和可复用工作流。机会:竞争激烈。
4. 使用中的工具与方法¶
| 工具 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| OpenAI Codex | 编程智能体 | (+/-) | 讨论存在感很强、具备 /goal 工作流、app 能保持远程会话,比较讨论里,人们仍把它当作参照点 |
用户抱怨 app / CLI 差异,仍被描述为早期产品,而且身处嘈杂的定价争论之中 |
| OpenCode | 开源编程智能体 | (+) | 自带模型路由(BYOM)、可复用现有付费订阅、原生终端工作流、社区关注快速上升 | 现有证据仍多半把它放在 Codex 或 Claude Code 的对照框架里,而不是成熟既有者 |
| Google Antigravity | 智能体 IDE / 运行时 | (+/-) | 能和 NotebookLM 配合、Google 套餐覆盖广、部分用户说在真实工作里跟得上 | 额度不透明、跟踪体验弱、WSL 和 CLI 都被吐槽 |
| GitHub Copilot | 编程助手 / 运行框架 | (+/-) | 企业存在感强、插件生态丰富、Build CLI 让它拥有项目感知的大会搜索能力 | 涨价冲击不断,还有人调侃某些“AI 转型”其实只是买个订阅 |
| Claude Code | 编程智能体 | (+/-) | 大家把它当成严肃的工作流界面,也把它用作重基础设施配置和持久记忆实验的参照 | 贵到足以主导“只能选一个订阅”这类权衡,而且与 Claude 其他产品模式衔接得有些尴尬 |
| CodeGraph | 上下文 / 索引工具 | (+) | 预索引知识图谱,公开仓库基准测试声称成本降低 35%、token 减少 59% | 需要额外做索引和配置,而且每个项目都还需要真实世界验证 |
| NotebookLM | 研究 / 上下文工具 | (+) | 从研究到报告的工作流顺手,是 Antigravity 配置里的有用输入层,也被打包进 Google AI 套餐 | 当天证据主要来自配置展示和套餐营销,而不是中立的生产使用报告 |
| MicrosoftBuild CLI | Copilot CLI 技能 | (+) | 读取依赖文件、查找匹配的 Build 会话、能从会话里脚手架生成代码,并可与 Learn MCP 集成 | 强依赖活动周期和网络,因此更像是补充,而不是替代通用编程工具 |
整体模式并不是所有人都迁移到同一个赢家,而是有选择地叠加使用。用户会在 Codex、OpenCode、Claude Code、Antigravity 和 Copilot 之间来回路由工作,依据的是额度、界面形态,以及他们对上下文的控制程度。像 CodeGraph 这样的开源基础设施工具正在获得牵引力,因为它们能减少 token 浪费,却不强迫用户换模型;而付费套件之间的竞争,则越来越围绕捆绑价值和用量可见性,而不只是模型品牌本身。
5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 阶段 | 链接 |
|---|---|---|---|---|---|---|
| MicrosoftBuild CLI | @msdev | 把 Build session 目录带进 Copilot CLI,根据本地依赖推荐 session,并能从 session 中脚手架生成代码 | 大会学习内容和终端里的真实项目彼此脱节 | GitHub Copilot CLI 技能、Build 目录 API、Microsoft Learn MCP、Node.js | 已发布 | 仓库, 推文 |
| CodeGraph | colbymchenry | 预先把代码库索引成知识图谱,让编程智能体查询,而不是反复扫描文件 | 代码库探索时 token、工具调用和重复读文件太多 | CLI 安装器、预索引图谱、面向 Claude Code、Cursor、Codex CLI、OpenCode、Hermes Agent 的智能体集成 | 已发布 | 仓库, 推文 |
| Bidsstack updates built with Antigravity | @Presidentlin | 为一个在线产品加上招标页面、中标邮件提醒、pipeline board 和日历改进 | 招标跟踪用户需要在更低套餐价格下获得更多工作流价值 | Antigravity 辅助开发、带看板和日历界面的 web 应用 | 已发布 | 推文 |
| Wipeout-style prototype | @ivanfioravanti | 用详细的智能体提示词按阶段构建一个浏览器赛车原型 | 测试当前编程智能体能否在明确约束下交付一个不算简单、可玩的原型 | Three.js、OpenCode、ds4-agent、单文件 HTML 原型 | Alpha | 推文 |
最重要的项目信号,不是人们在新建全新的编程智能体品类,而是他们在既有智能体外围构建狭而有用的层。Build CLI 把大会材料变成了带项目感知的终端上下文;CodeGraph 则把仓库变成一个可复用图谱,让智能体不必在每次运行时都重复支付探索成本。
更小的构建例子,也在指向同一个方向。Bidsstack 用 Antigravity 做的是具体产品迭代,而不是 demo 表演;而那个 Wipeout 原型则说明,只要任务约束足够清楚,个人开发者已经很乐于用智能体工具去做复杂的分阶段构建。
6. 新动态与亮点¶
离线、工具增强型智能体评估正在变得更具体¶
@kurlyk27 描述 了 SentientAGI 的 Arena Challenge 0:这是一项离线评估,智能体必须在没有互联网的情况下,面对 697 份 Treasury Bulletin 文档中的数值问题,只使用一个 YAML 配置文件,以及可选的 MCP servers 或 skills bundle。这件事重要,是因为它把编程智能体扩展件当成了受限条件下可度量的基础设施,而不再只是社区约定俗成的玩法。
技能正在变成一个独立的教育与分发品类¶
@nerdai 用 Manning 的书章来教授 Agent Skills,把它当成一种可互操作的标准;与此同时,增长最快仓库榜单又同时把 academic-research-skills、agentmemory 和 codegraph 顶了上去。这里的新信号,不只是人们在构建技能,而是教学材料、市场分发和排行榜动量已经开始互相强化。
7. 机会在哪里¶
[+++] 跨工具的用量与计费可见性 - 订阅投票、套餐档位截图、一条“Copilot 每席大约涨到 $300”的引述,以及对缓存 token 与 7 天追踪的明确请求,都在指向同一个缺口:用户仍然看不清,也比不明白,自己真实的编程智能体预算。
[++] 可移植的 /goal 模式与远程工作状态 - Codex App 持久 SSH 的例子、关于 /goal 工作流的帖子,以及 Tibo 对 Pi 和 OpenCode 流量的承认,都说明人们需要一种不会被困在单一 shell 里的持久工作状态。
[++] 安全的技能与上下文分发 - Build CLI、CodeGraph、academic-research-skills,以及 Sentient 挑战赛,都依赖可安装模块、索引上下文或 MCP 子进程。缺的那一层,是跨客户端的信任、可审计性,以及可移植打包方式。
[+] 会随时间积累的个人编程记忆 - Claude Code 加 Obsidian 这种“第二大脑”模式,显示出一个正在浮现的愿望:人们想要一个记得目标、上下文和既往决策的 AI 编程伙伴,而不是每一轮都从零开始。
8. 要点总结¶
- 运行框架正在变成产品本身。 OpenAI 的 Codex 负责人公开说,已有相当一部分生产流量跑在 Pi 和 OpenCode 上;与此同时,用户比较的也不再只是模型质量,而是 SSH 持久性和 /goal 模式。(source)
- 额度体验如今和原始能力一样影响采用。 关于“只能选一个订阅”的讨论、Antigravity 的额度截图,以及不同套餐档位的比较,都说明用量和重置可见性已经成了核心产品要求。(source)
- 技能和索引上下文已经从建议变成软件。 Build CLI、CodeGraph、市场技能包,以及 Sentient Arena,都把技能、MCP servers 和索引当成了可安装基础设施。(source)
- vibe coding 正在产出真实原型,而不只是玩笑。 《Wipeout》风格构建、Bidsstack 的迭代,以及可在浏览器里玩的《Under Training》,都说明人们已经在用智能体快速交付或测试具体工件。(source)