Twitter AI Coding - 2026-05-23¶

1. 人们在讨论什么¶

1.1 编程智能体正变成可移植的运行框架，而不是封闭产品 🡕¶

5 月 23 日最清晰的变化是，人们谈论编程智能体时，已经把它们视为包裹模型访问的可互换外壳，而不是某一家厂商的终点。最强证据来自 OpenAI 自己的 Codex 负责人，他承认已有相当一部分生产流量跑在别的运行框架上；与此同时，围绕 OpenCode 的推广和围绕 Codex 工作流的帖子，讨论重点都放在路由、会话和设备控制，而不是模型本身的新鲜感。

@thsottiaux 表示（302 次点赞、56 条回复、6,265 次浏览、33 次收藏），Codex 生产流量里，大约 5% 已经跑在 Pi 上，另外 5% 跑在 OpenCode 上；他还补充说，一个 ChatGPT 账号可以被用于“一个正在繁荣增长的其他工具集合”。这不是用户间的猜测式对比，而是 OpenAI 的产品负责人公开把替代运行框架描述成同一账号的真实去处。

@VaibhavSisinty 认为（35 次点赞、8 条回复、1,563 次浏览、33 次收藏），OpenCode 基本上就是一个免费、开源版的 Claude Code 风格工作流：原生终端、能读代码库、能改文件、能跑命令，还能接 Claude、GPT、Gemini、DeepSeek、Qwen、Ollama，以及现有的 ChatGPT Plus、Claude Pro 或 GitHub Copilot 订阅。公开的 opencode 仓库把它描述成一个终端式编程助手，支持多提供商、会话管理、工具执行、持久存储和 LSP 集成。

@airkatakana 说（28 次点赞、3 条回复、1,240 次浏览、6 次收藏），“顺便说一句，Codex app 能做到这个，但 CLI 不能。” 配图显示，这个 app 可以对远程实验服务器建立持久 SSH 连接，在收到 OTP 之前一直保持在线 shell，之后再复用这条活连接去执行后续步骤。

Codex App 截图，展示对远程服务器发起持久 SSH 连接请求，并在等待 OTP 时保持在线 shell

@hqmank 提到（11 次点赞、2 条回复、1,662 次浏览、4 次收藏），他那条介绍 /goal 工作流的帖子得到了 Tibo 的点赞；他引用的示例把 Codex App 的 /goal 模式描述成一种“会跨多轮持续工作，直到做完为止”的方式。这里的重点不只是对某个功能的粉丝向追捧，而是长时运行的工作和可复用工作流，已经成了人们比较编程智能体时的标准之一。

讨论要点： Tibo 帖子下的回复，并没有问到底哪个基础模型赢了。他们问的是：为什么还要留在单一运行框架里？如果 Pi 和 OpenCode 已经能在别处暴露 GPT 访问，那 Codex 还剩下什么独特价值？

与前日对比： 5 月 22 日聚焦的是共享服务器、聊天桥接，以及围绕既有智能体的 BYOK shim。5 月 23 日又往前走了一步：OpenAI 负责人公开承认 Codex 存在站外流量，而用户也开始比较 app 专属能力，比如持久 SSH 会话和 /goal 式自治。

1.2 套餐档位、额度和捆绑算账正在左右编程工具选择 🡕¶

第二大主题是，订阅经济学和额度可见性已经不再是背景细节。多条帖子把真正的产品问题表述成“我花 $20 到底买到了什么？”以及“进度条重置前，我究竟还能做多少活？”，而不是“抽象地看，哪个模型最好？”

@adahstwt 提问（49 次点赞、58 条回复、1,678 次浏览），如果一个人只负担得起一个订阅，那该买 Claude、Codex、Cursor、Antigravity，还是 GitHub Copilot？这个提法很好地概括了当天的情况：人们在按预算主动做取舍，而不是假定所有编程产品都能叠加使用、没有代价。

@vikaskansalHQ 表示（69 次点赞、9 条回复、8,146 次浏览），Google 更高档的 Ultra 套餐给到 20x 的 AI 用量，而较低档位只给 5x，覆盖 Gemini app 和 Antigravity；而 Google AI plans 页面也单独确认，付费 Google AI 套餐会把 Antigravity、AI Studio 及相关开发工具中的扩展额度，明确当成套餐卖点。

@Presidentlin 写道（16 次点赞、1,745 次浏览、3 次收藏），在一次“还算像样的 sprint”之后，Antigravity 依然需要 7 天追踪、缓存 token 可见性，以及百分比，而不是现在这根模糊进度条。他还补充说，自己已经把 Antigravity 2.0 和 CLI 都删了，因为 2.0 不支持 WSL，尽管 IDE 还留着。

Antigravity 用量限制界面，展示当前使用量、每周上限，以及一个承诺比 AI Pro 多 20x 用量的升级提示

Antigravity 模型额度界面，列出按模型分别计算、每 5 小时刷新一次的额度限制

@Asteri_eth 认为（22 次点赞、13 条回复、179 次浏览），Google AI Pro 之所以显得异常划算，是因为它现在把 Gemini Pro、NotebookLM Pro、Antigravity 访问权，以及 YouTube Premium Lite 打包在了一起。配图也非常明确地展示了 Premium Lite 这个权益：

Google AI Pro 宣传截图，写明付费 AI Pro 会员可获得 YouTube Premium Lite

讨论要点： 回复区关心的是可比性和透明度，而不是基准测试神话。用户想知道哪个订阅最容易被耗尽，“Pro” 到底是不是意味着每天真能用的额度，以及为什么关键用量信息仍然被模糊进度条和刷新倒计时遮住。

与前日对比： 5 月 22 日已经有人抱怨 Codex 和 Antigravity 会快速烧掉额度。5 月 23 日则进一步出现了更明确的套餐截图、捆绑价值比较，以及对缓存 token 可见性和 7 天追踪的直接产品请求。

技能、MCP 服务器和索引上下文正在成为真正的产品表面 🡕¶

另一组强信号，把技能和上下文工具当成了已经在交付的软件，而不是提示词圈里的传说。当天证据横跨一项第一方 Copilot CLI 技能、一张几乎被智能体基础设施占满的 GitHub 仓库排行榜、一场围绕 MCP 定制定规则的公开挑战赛，以及一本明确在教授跨客户端技能支持的书章。

@msdev 宣布（77 次点赞、4 条回复、4,940 次浏览、40 次收藏）了 MicrosoftBuild CLI，这是一项 GitHub Copilot CLI 技能，把 Build 会话目录带进终端，能根据本地依赖推荐会话，也能把开发者从这些会话中学到的内容脚手架生成成可工作的代码。公开的 microsoft/Build-CLI 仓库写道，这项技能会读取 package.json、requirements.txt、.csproj 和 go.mod 之类的文件，把它们映射到 Microsoft 产品，再查询实时的 Build 2026 目录，并通过 Copilot CLI 从这些会话里脚手架生成项目。

@sharbel 发帖（10 次点赞、3 条回复、215 次浏览、4 次收藏），贴出一张增长最快仓库榜单，而排名靠前的几乎全是智能体基础设施：colbymchenry/codegraph 增加了 +14.1K stars，Imbad0202/academic-research-skills 增加了 +11.6K，rohitg00/agentmemory 增加了 +6.9K。

本周 GitHub 增长最快仓库排行榜，codegraph、academic-research-skills 和 agentmemory 都排在前列

公开的 colbymchenry/codegraph 仓库把自己描述成一个预索引的代码知识图谱，能自动配置 Claude Code、Cursor、Codex CLI、OpenCode 和 Hermes Agent。它公开的基准测试表宣称，在 7 个开源代码库上，中位成本节省 35%、token 节省 59%、时间节省 49%、工具调用节省 70%。

@kurlyk27 总结（8 次点赞、6 条回复、61 次浏览）了 SentientAGI 的 Challenge 0：这是一场编程智能体竞赛，Codex、OpenHands、Goose 或 OpenCode 可以通过一个 YAML 文件外加技能文件与 MCP 服务器做定制，然后在一个完全离线、无网络访问的容器里，针对 Treasury 文档问题接受评估。最有意思的不是排行榜，而是 MCP 工具链和额外 skill 上下文被当成了一等竞赛原语。

@nerdai 发帖（3 次点赞、476 次浏览、4 次收藏）称，Manning 一本关于多智能体系统的新书章节，正在把智能体技能作为一种开放标准来讲授，而这个标准如今已经被 Claude Code、Cursor、Gemini CLI、VS Code、GitHub Copilot、Codex 等产品使用。与此同时，公开的 academic-research-skills 仓库把自己描述成一套可安装的 Claude Code 科研工作流技能，并通过插件市场分发。

讨论要点： 重心已经从“我该怎么提示它？”转向“我该安装、索引、打包或接进运行框架的是什么模块？” 就连公开挑战赛的赛制，也默认技能和 MCP 子进程才是扩展编程智能体的常规方式。

与前日对比： 5 月 22 日让技能通过目录和工作流仪表盘变得可见。5 月 23 日则把范围拓展到了第一方 CLI 技能、排行榜赢家、通过市场分发的技能包，以及明确奖励上下文与工具打包能力的挑战赛规则。

Vibe coding 正在同时变成一种产品哲学和原型习惯 🡒¶

最后一个反复出现的主题，与其说关乎某个具体厂商，不如说关乎人们如何为 AI 辅助创造辩护，或者如何实践它。证据分成两路：一边是对 vibe coding 的理念性辩护，另一边是借助智能体工具做出的具体个人原型。

@dhh 认为（83 次点赞、6 条回复、3,651 次浏览），对 vibe coding 退避三舍，和开源的理想并不相容：如果开源的核心是让更多人有能力改变软件，那么 AI 辅助编程就应该被视为“把大门打开”，而不是再竖起新的门槛。

@ivanfioravanti 展示（12 次点赞、3 条回复、993 次浏览、5 次收藏）了一个用 OpenCode 和 ds4-agent --power 50 搭出来的《Wipeout》风格赛车原型。这条讨论串之所以变得异常具体，是因为他直接贴出了分阶段提示词：从 CDN 加载 Three.js、单文件 index.html、固定时间步物理、空气刹车、Catmull-Rom 赛道、圈数校验，以及追逐镜头。他还特别提到，Grok 4.3 在同样的要求上失败了，这让这条推文更像一次轻量比较测试，而不只是纯粹 hype。

@om_patel5 分享（6 次点赞、2 条回复、426 次浏览）了一款名为《Under Training》的浏览器游戏，玩家会像大语言模型一样经历原始数据摄入、训练、推理和评估。这个概念被形容成“ADHD 版游戏”，但更有实质内容的回复追问的是：这套设计有没有把上下文窗口滑脱和变异后的工具调用也表现出来？这说明哪怕是更轻松的 vibe-coded 项目，也已经在按它是否诚实呈现智能体失效模式来被评判。

讨论要点： 支持者并不是在说复审已经不重要了。他们的意思是，AI 辅助创作扩大了“谁能构建”的边界；而回复区则不断把讨论拉回验证、信任，以及这些产物在真实约束下是否站得住。

与前日对比： 5 月 22 日的构建故事，主要还是围绕既有智能体的封装层、桥接和团队控制平面。5 月 23 日则多了更多个人实验、更多对 vibe coding 本身的文化辩护，以及更多用智能体快速做出可玩或可发布工件的案例。

2. 令人困扰的问题¶

额度算账与定价仍然模糊到足以扭曲购买决策¶

严重程度：高。让人挫败的，不只是编程工具要花钱，而是用户依然不知道自己到底买到了什么。@SouthernValue95 写道（76 次点赞、11 条回复、7,370 次浏览、77 次收藏），一位 GitHub Copilot 客户听到的报价是涨价 10x，大约到每月 $300，他还把这件事当成一个粗糙但具体的 AI TAM 模型输入。@adahstwt 提问了“只能订一个该选谁”的问题；@Presidentlin 抱怨，Antigravity 依然不显示缓存 token、百分比，或一个像样的 7 天视图；@vikaskansalHQ 则补充，Google 更高价位的套餐给的是 20x AI 用量，而更低档位只有 5x。现在的应对模式，是手工比价和去社交平台做民意调查，而不是依赖第一方的清晰说明。值得做，因为用户往往在还没开始评估输出质量之前，就已经被这类信息不透明影响了产品选择。

产品行为仍在 app、CLI 和模式边界之间继续分裂¶

严重程度：中高。多条帖子描述的问题，不是模型能力变弱，而是功能碎片化。@airkatakana 说，Codex app 能做 CLI 做不到的事，而那张持久 SSH 截图就是证据。@Presidentlin 说，Antigravity 2.0 仍然不支持 WSL，最后把他逼回了 IDE。@anumness 写道（24 次点赞、6 条回复、1,055 次浏览），Claude 在 Chat、Cowork 和 Code 之间的分裂，甚至让人很难再把它视为一个连贯的聊天应用。现在的绕行办法，是在脑中为不同模式各自保留一套心智模型——一个负责聊天、一个负责写代码、一个 shell 负责长任务——但用户真正厌倦的，恰恰就是这种碎片化。

环境输入和语音优先工作流，在混乱真实世界里依然会翻车¶

严重程度：中。@katienotopoulos 报道（6 次点赞、4 条回复、1,291 次浏览），Wispr Flow 会误录背景音，并把它转写进 Business Insider 的 CMS、Slack 以及其他工作界面，其中甚至包括一次私下争吵和电视对白。她后来又引用 CEO 的话，把它称作语音转录版《Final Destination》。这类挫败感和额度算账完全不同：即使模型本身没问题，免手操作的编程工具也可能制造社交和隐私层面的失败。当前的应对机制只是把热键按得更小心一些，这显然不是长久方案。

3. 人们期望的功能¶

一个能解释所有编程工具限制的中立用量仪表盘¶

最强的未满足需求，是一块同时管理额度和重置逻辑的控制平面。@Presidentlin 想在 Antigravity 里看到缓存 token、百分比和 7 天追踪。@adahstwt 把订阅选择变成公开提问，正是因为市场仍然没有把这些取舍清楚地呈现出来。@SouthernValue95 和 @vikaskansalHQ 则提供了为什么这件事重要的定价和套餐证据。机会：直接。

能跨 shell 或设备存活的长时工作¶

时间线反复暗示，用户想要的是持久工作闭环，而不是再多一个聊天框。@hqmank 突出了 Codex App 的 /goal 工作流，因为它能让任务跨多轮持续推进；@airkatakana 则用那张图说明，app 之所以有价值，是因为它能握住一条持久 SSH 会话。@thsottiaux 也确认，替代性的 Codex 运行框架已经吸走了真实流量。缺失的产品，是一种能跟着用户穿越 app、CLI 和第三方 shell 的可移植工作状态，而不是被锁死在单一界面里。机会：直接且竞争激烈。

能跨客户端工作的、可信又可复用的技能与上下文包¶

支撑这个需求的证据异常广泛。@msdev 发布了可安装的 Copilot 技能 Build CLI；@nerdai 把技能描述成一种跨客户端标准；@kurlyk27 则介绍了一场公开挑战赛，在那里 skills 文件和 MCP servers 已经成了扩展编程智能体的常规方式。用户已经明确想要这类东西。现在真正缺的，是一种能跨厂商打包、审计和分发这些模块的可信方式。机会：直接。

一个会累积、而不是反复重置的编程“第二大脑”¶

@cyrilXBT 把（11 次点赞、1 条回复、125 次浏览）Claude Code 加 Obsidian 描述成“一个真的了解你的 AI”——知道你的目标、上下文和历史，而不是每一轮都要重新交底的聊天机器人。这不是诗意表达，而是务实需求。它很好地概括了为什么周边这么多工具都在强调记忆、索引上下文和可复用工作流。机会：竞争激烈。

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
OpenAI Codex	编程智能体	(+/-)	讨论存在感很强、具备 `/goal` 工作流、app 能保持远程会话，比较讨论里，人们仍把它当作参照点	用户抱怨 app / CLI 差异，仍被描述为早期产品，而且身处嘈杂的定价争论之中
OpenCode	开源编程智能体	(+)	自带模型路由（BYOM）、可复用现有付费订阅、原生终端工作流、社区关注快速上升	现有证据仍多半把它放在 Codex 或 Claude Code 的对照框架里，而不是成熟既有者
Google Antigravity	智能体 IDE / 运行时	(+/-)	能和 NotebookLM 配合、Google 套餐覆盖广、部分用户说在真实工作里跟得上	额度不透明、跟踪体验弱、WSL 和 CLI 都被吐槽
GitHub Copilot	编程助手 / 运行框架	(+/-)	企业存在感强、插件生态丰富、Build CLI 让它拥有项目感知的大会搜索能力	涨价冲击不断，还有人调侃某些“AI 转型”其实只是买个订阅
Claude Code	编程智能体	(+/-)	大家把它当成严肃的工作流界面，也把它用作重基础设施配置和持久记忆实验的参照	贵到足以主导“只能选一个订阅”这类权衡，而且与 Claude 其他产品模式衔接得有些尴尬
CodeGraph	上下文 / 索引工具	(+)	预索引知识图谱，公开仓库基准测试声称成本降低 35%、token 减少 59%	需要额外做索引和配置，而且每个项目都还需要真实世界验证
NotebookLM	研究 / 上下文工具	(+)	从研究到报告的工作流顺手，是 Antigravity 配置里的有用输入层，也被打包进 Google AI 套餐	当天证据主要来自配置展示和套餐营销，而不是中立的生产使用报告
MicrosoftBuild CLI	Copilot CLI 技能	(+)	读取依赖文件、查找匹配的 Build 会话、能从会话里脚手架生成代码，并可与 Learn MCP 集成	强依赖活动周期和网络，因此更像是补充，而不是替代通用编程工具

整体模式并不是所有人都迁移到同一个赢家，而是有选择地叠加使用。用户会在 Codex、OpenCode、Claude Code、Antigravity 和 Copilot 之间来回路由工作，依据的是额度、界面形态，以及他们对上下文的控制程度。像 CodeGraph 这样的开源基础设施工具正在获得牵引力，因为它们能减少 token 浪费，却不强迫用户换模型；而付费套件之间的竞争，则越来越围绕捆绑价值和用量可见性，而不只是模型品牌本身。

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
MicrosoftBuild CLI	@msdev	把 Build session 目录带进 Copilot CLI，根据本地依赖推荐 session，并能从 session 中脚手架生成代码	大会学习内容和终端里的真实项目彼此脱节	GitHub Copilot CLI 技能、Build 目录 API、Microsoft Learn MCP、Node.js	已发布	仓库, 推文
CodeGraph	colbymchenry	预先把代码库索引成知识图谱，让编程智能体查询，而不是反复扫描文件	代码库探索时 token、工具调用和重复读文件太多	CLI 安装器、预索引图谱、面向 Claude Code、Cursor、Codex CLI、OpenCode、Hermes Agent 的智能体集成	已发布	仓库, 推文
Bidsstack updates built with Antigravity	@Presidentlin	为一个在线产品加上招标页面、中标邮件提醒、pipeline board 和日历改进	招标跟踪用户需要在更低套餐价格下获得更多工作流价值	Antigravity 辅助开发、带看板和日历界面的 web 应用	已发布	推文
Wipeout-style prototype	@ivanfioravanti	用详细的智能体提示词按阶段构建一个浏览器赛车原型	测试当前编程智能体能否在明确约束下交付一个不算简单、可玩的原型	Three.js、OpenCode、ds4-agent、单文件 HTML 原型	Alpha	推文

最重要的项目信号，不是人们在新建全新的编程智能体品类，而是他们在既有智能体外围构建狭而有用的层。Build CLI 把大会材料变成了带项目感知的终端上下文；CodeGraph 则把仓库变成一个可复用图谱，让智能体不必在每次运行时都重复支付探索成本。

更小的构建例子，也在指向同一个方向。Bidsstack 用 Antigravity 做的是具体产品迭代，而不是 demo 表演；而那个 Wipeout 原型则说明，只要任务约束足够清楚，个人开发者已经很乐于用智能体工具去做复杂的分阶段构建。

6. 新动态与亮点¶

离线、工具增强型智能体评估正在变得更具体¶

@kurlyk27 描述了 SentientAGI 的 Arena Challenge 0：这是一项离线评估，智能体必须在没有互联网的情况下，面对 697 份 Treasury Bulletin 文档中的数值问题，只使用一个 YAML 配置文件，以及可选的 MCP servers 或 skills bundle。这件事重要，是因为它把编程智能体扩展件当成了受限条件下可度量的基础设施，而不再只是社区约定俗成的玩法。

技能正在变成一个独立的教育与分发品类¶

@nerdai 用 Manning 的书章来教授 Agent Skills，把它当成一种可互操作的标准；与此同时，增长最快仓库榜单又同时把 academic-research-skills、agentmemory 和 codegraph 顶了上去。这里的新信号，不只是人们在构建技能，而是教学材料、市场分发和排行榜动量已经开始互相强化。

7. 机会在哪里¶

[+++] 跨工具的用量与计费可见性 - 订阅投票、套餐档位截图、一条“Copilot 每席大约涨到 $300”的引述，以及对缓存 token 与 7 天追踪的明确请求，都在指向同一个缺口：用户仍然看不清，也比不明白，自己真实的编程智能体预算。

[++] 可移植的 /goal 模式与远程工作状态 - Codex App 持久 SSH 的例子、关于 /goal 工作流的帖子，以及 Tibo 对 Pi 和 OpenCode 流量的承认，都说明人们需要一种不会被困在单一 shell 里的持久工作状态。

[++] 安全的技能与上下文分发 - Build CLI、CodeGraph、academic-research-skills，以及 Sentient 挑战赛，都依赖可安装模块、索引上下文或 MCP 子进程。缺的那一层，是跨客户端的信任、可审计性，以及可移植打包方式。

[+] 会随时间积累的个人编程记忆 - Claude Code 加 Obsidian 这种“第二大脑”模式，显示出一个正在浮现的愿望：人们想要一个记得目标、上下文和既往决策的 AI 编程伙伴，而不是每一轮都从零开始。

8. 要点总结¶

运行框架正在变成产品本身。 OpenAI 的 Codex 负责人公开说，已有相当一部分生产流量跑在 Pi 和 OpenCode 上；与此同时，用户比较的也不再只是模型质量，而是 SSH 持久性和 /goal 模式。(source)
额度体验如今和原始能力一样影响采用。 关于“只能选一个订阅”的讨论、Antigravity 的额度截图，以及不同套餐档位的比较，都说明用量和重置可见性已经成了核心产品要求。(source)
技能和索引上下文已经从建议变成软件。 Build CLI、CodeGraph、市场技能包，以及 Sentient Arena，都把技能、MCP servers 和索引当成了可安装基础设施。(source)
vibe coding 正在产出真实原型，而不只是玩笑。 《Wipeout》风格构建、Bidsstack 的迭代，以及可在浏览器里玩的《Under Training》，都说明人们已经在用智能体快速交付或测试具体工件。(source)