跳转至

Twitter AI 编程 - 2026-05-10

1. 人们在讨论什么

1.1 Codex 正在扩展进 ChatGPT 移动端和 Chrome 🡕

最清晰的方向性信号,不是新模型发布,而是一组新界面。多条帖子都在传播同一套 Codex 移动端界面,另一条帖子则展示了 Codex 作为 ChatGPT 应用里的一级入口;与此同时,还有单独一条讨论串贴出了 Codex 在公开 Chrome Web Store 上的页面。相比 5 月 9 日,讨论已经从笼统的浏览器控制兴趣,转向了具体的移动端与浏览器界面证据。

@testingcatalog 认为,OpenAI 正在把 Codex 和 ChatGPT 做更深的整合;而他第二张图,是整个讨论串里最有力的物证:一个“设置 Codex mobile”弹窗,承诺手机可以访问会话线程和项目,还会在桌面任务结束时发出通知。这个帖子之所以重要,是因为它把模糊的猜测落成了一个具体的工作流界面。

Codex mobile 设置弹窗,展示了手机访问会话线程、项目以及任务结束通知

@ziwenxu_ 发出 了一张 ChatGPT 应用截图,其中 Codex 和“项目”“图片”并列在导航里。这让移动端叙事比单张预告图更具体;而讨论串也补上了有用的不确定性:@JustinGorya 回复 说,这可能仍然只是现有的 Codex 云端流程,而不是一次全新发布;ziwenxu 则说,他是在 Pro 套餐里看到的,而且觉得它可能还和 GitHub 仓库有关。

ChatGPT 移动端导航截图,显示 Codex 已成为一级入口

@TimHaldorsson 贴出 了官方的 Codex Chrome extension listing;其公开描述写着,Codex 可以在已登录网站、仪表盘、表单和多标签测试流程里工作,并会在敏感操作、历史记录访问和文件传输前先询问。bonsaixbt 则给出了 用户侧的核心论点:如果手机能负责监控、通知和审批,而电脑继续工作,那么智能体就不再被绑死在一台笔记本会话里。

讨论要点: 乐观的回复大多把跨设备控制视作必然趋势。@gao035 ,这是不是意味着以后可以在手机上写代码、让桌面端去干重活;而 ziwenxu 那条讨论串里最强的怀疑意见,则认为这些界面可能只是较早的云端功能,而不是刚刚上线的新版本。

与前日对比: 5 月 9 日已经有不少关于 Codex 浏览器控制的讨论,但 5 月 10 日补上了公开的移动端界面截图和一条有文档可查的 Chrome 界面。

1.2 终端智能体正被打包成技能、MCP 栈和新手工作流 🡕

围绕 Claude Code 和 Copilot CLI 的讨论,重点落在外围操作层,而不是原始生成质量。最有用的帖子,是生态地图、打包好的浏览器附加件,以及对“面向智能体的 CLI 应该如何诊断并从失败中恢复”给出的明确设计模式。

@cyrilXBT 发了一张《Claude Resource Bible》图片,汇总了 Claude Code、Claude Cowork、Claude Design 和 MCP 技能共 52 项资源。这张图之所以重要,是因为它把产品看成由文档、技能、多路复用器和框架组成的一整栈,而不是一个孤立的编程助手。

资源地图,列出了 Claude Code 文档、MCP 服务器、技能、多路复用器和智能体框架

@doodlestein 认为,面向 AI 的 CLI 工具需要一个真正的自诊断模式;他引用的讨论串把这种模式定义得非常窄:结构化诊断、安全的自动修复、修改前先备份,以及字节级回滚。相比泛泛的提示词建议,这是一条更具体的信号,因为它描述的是智能体工作流可以依赖的一份恢复契约。

@tom_doerr 分享Playwright Skill for Claude Code;其 README 说,这个技能会即时编写并执行定制 Playwright 自动化,而且默认展示一个可见浏览器。他还 分享Drawbridge;其 README 描述的是一个 Chrome 扩展,能把浏览器里的评论和矩形标注转成 Claude Code 或 Cursor 的任务。与此同时,@github 宣传 了一套 Copilot CLI beginner series,讲安装、登录、文件夹权限、如何提问,以及如何用 /delegate 调用云端智能体。

@Axel_bitblaze69 描述 了一套由 Perplexity、Playwright、Firecrawl、Glif 和 Chrome MCP 组成的五 MCP“完整自动化栈”。最能说明问题的回复不是吹捧,而是治理:@JamesClawn 回复 说,搜索、抓取、浏览器控制和媒体生成应该分别管理权限,因为一份 MCP 权限白名单对这么多能力来说太粗糙了。

讨论要点: 反对意见聚焦的是操作员安全,而不是这些工具能不能用。从自诊断模式、浏览器技能到权限范围,讨论已经从提示词技巧转向系统卫生。

与前日对比: 5 月 9 日更像在把 Claude Code 当成一套带记忆和例程的个人 OS。5 月 10 日则把重心推向了分发层:打包好的技能、策展过的 MCP 栈,以及官方的新手入门材料。

1.3 封装层、本地引擎和快速切换订阅,正成为用户绕开限制的办法 🡒

市场行为仍然是多栖的。人们还在比较 Claude、Codex、Copilot 和 Cursor,但更有意思的帖子来自封装层、本地运行时和直接改订阅的动作——它们把模型供应商当成可互换部件,而不是必须站队的阵营。

@0xSero 表示,KittyLitter 让他再也不用随身带笔记本:这个应用支持 Codex、Claude Code、OpenCode、Pi,以及很快上线的 Droid;配图显示的是一台手机在驱动一个连接到家里机器的智能体会话。@mercury__agent 宣布,Mercury v1.1.7 现在可以在同一个工作流里接入 GitHub Copilot 和 OpenAI Codex;@davideciffa 则说,Lucebox 现在能在 Qwen3.6-27B 上本地运行 Codex、Hermes 和 OpenClaw,并支持 OpenAI 兼容的工具调用。这些动作体现的是编排选择,而不是阵营忠诚。

@ashen_one 写道,他把每月 $200 的 Claude Code 订阅降级,转而购买了 $200 的 Codex 套餐,因为一个 /goal 就在大约两小时里把他的 iOS 应用本地化到了 23 种语言。后续回复和这句炫耀本身一样重要:当 @shipwithjay 到 QA 风险时,ashen_one 表示,初步结果看起来没问题,但阿拉伯语仍然需要更完整的测试。

多语言 iOS app 界面截图,用来展示 Codex 一次跑完 23 种语言本地化

成本侧也传出了同样的信号。@TheGeorgePu Copilot、Cursor 和 Claude 形容成一种新的经常性税负;@MrPunyapal 贴出 了一张 GitHub Copilot 限流界面,显示还要等 2 小时 32 分钟;@vatsal_sanghvi 说,即便是 $200 的 Codex 套餐,他也快碰到每周上限了;@alishohadaee 则认为,按量计费正在把人们推向本地 AI 独立。@drop_grl 又补上 了一条竞争信号:Codex 现在可以从其他智能体里导入设置、聊天会话、技能和插件。

讨论要点: 即便是较轻量的讨论串,也呈现出分裂而不是共识。@zavxai 大家每天都在用哪个 AI 编程工具,回复分散在 Claude、Cursor、Copilot、Gemini 以及“不用 AI”之间;还有一条回复说,这个列表已经过时了,因为它漏掉了 Codex。

与前日对比: 5 月 9 日已经出现了订阅套利。到了 5 月 10 日,这种行为被进一步运营化:手机封装层、设置导入、本地运行时,以及明确的额度上限截图,统统都出现了。


2. 令人困扰的问题

硬性上限与持续性的 AI 租金 -- 高

成本挫败感同时表现为预算抱怨和工作流中断。@TheGeorgePu Copilot、Cursor 和 Claude 是一种新的经常性税负;@MrPunyapal 展示 了一张 GitHub Copilot 限流界面,写着还要等 2 小时 32 分钟;@vatsal_sanghvi 则说,即便是在 $200 档的 Codex 里,他也快撞上每周上限了。@alishohadaee Copilot 的按量计费解读成一个证据:被补贴的 token 从来都不是稳态。

GitHub Copilot 限流界面截图,显示在额度重置前还要等待 2 小时 32 分钟

之所以说严重程度高,是因为用户不只是抱怨这些工具贵;他们是在说,额度上限已经开始反过来塑造工具选择和工作计划。当前的应对方式,是同时保留多个订阅、在某家限制更紧时切换供应商,或者寻找本地替代方案。值得构建:高。

CLI 与扩展栈仍需要更好的自诊断和权限控制 -- 高

@doodlestein 把抱怨说得很明确:面向智能体的 CLI 需要一种自诊断模式,能够识别损坏状态、安全修复,并在修复出错时撤销改动。@Axel_bitblaze69 随后又展示 了这个问题的另一面:他把搜索、抓取、浏览器控制和媒体生成都绑进一个 MCP 栈里,结果 @JamesClawn 立刻指出,一份 allowlist 根本不足以管理这么大的权限面。

当前的权宜方案,是在基础智能体之上再叠更多工具。Playwright Skill 给 Claude 带来了自定义浏览器自动化;Drawbridge 则额外提供了一座浏览器到任务的桥,因为那层视觉上下文仍然不是原生能力。这个痛点之所以严重,是因为每多一个插件或 MCP,往往能解决一个问题,同时也会新增一组配置和权限失效模式。值得构建:高。

设备与上下文可移植性仍然别扭 -- 中

最强的移动端和迁移帖子,本质上都在抱怨“断裂感”。@testingcatalog@bonsaixbt 都把手机端 Codex 控制视作一个理所当然却仍缺失的层;@0xSero 则因为 KittyLitter 让他不再需要笔记本、GPT 应用或 Discord 而感到兴奋;@drop_grl 则说,Codex 现在已经能导入设置、聊天、技能和插件。

这个挫败感的严重程度在中到高之间,因为工作流碎片其实已经都存在了,只是它们在手机、浏览器、终端和不同供应商之间还没有真正连起来。当前的应对方式,是依赖封装层、非官方迁移路径,或者为同一份智能体工作同时维持多套重叠界面。值得构建:中到高。


3. 人们期望的功能

面向智能体 CLI 的真正自诊断模式

@doodlestein 说得很明确:现在的 CLI 工具应该提供一种自诊断模式,知道常见故障状态、在修改前先备份、安全地修复,并支持撤销。这是现实需求,而不是愿景口号:随着越来越多人把 MCP、浏览器插件和本地状态接进自己的智能体栈,一个可信、统一的恢复界面就越来越有价值。部分答案已经存在于自定义技能和更好的聊天界面里,但今天的证据仍然更像零散绕行,而不是内建标准。机会:直接。

用手机优先控制长时运行的编程任务

那些被泄露或被曝光出来的 Codex 移动端界面之所以有说服力,是因为它们描述的是一个非常具体的愿望。@testingcatalog 展示的弹窗承诺手机可访问会话线程和项目,并能接收任务结束通知;@bonsaixbt 把这种愿望具体化成了“在口袋设备上监控和审批”;@0xSero 则已经在用 KittyLitter 来避免随身带笔记本。这是现实需求,而且已经出现一些部分答案,但公开证据仍然碎片化地散落在有限上线范围、截图和第三方封装层之间。机会:直接。

在高级套餐触顶后仍能继续运行的兜底方案

人们要的不是抽象意义上的省钱,而是工作流在套餐触顶时不要停下来。@MrPunyapal 说 GitHub Copilot 会在会话额度耗尽后直接把他锁在外面;@vatsal_sanghvi 说就连 $200 档的 Codex 也可能撞上每周天花板;@alishohadaee 则把按量计费视为推动本地算力的信号。这个需求现实而紧迫:用户想在不丢掉熟悉智能体工作流的前提下,优雅降级到更便宜、本地或免费的选项。机会:直接。

迁移友好多提供商智能体配置

最能说明可移植性的信号,不是某个基准测试,而是一项迁移功能。@drop_grl 说,Codex 已经能从其他智能体里导入设置、聊天会话、技能和插件;与此同时,@mercury__agent@davideciffa 展示的 wrapper,也已经站在单一提供商之上。这是现实需求,因为用户显然正在公开切换、多栖和比较工具。虽然已经有部分答案,但默认工作流仍然过于绑定单一厂商。机会:竞争型。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
OpenAI Codex / ChatGPT mobile 编程智能体与移动端界面 (+/-) 自主运行能力强、会话线程 / 项目有明显的手机入口、应用本地化有具体胜例 移动端上线范围仍不清晰,有些证据更像旧的云端流程,重度用户仍报告每周额度上限
Codex Chrome extension 浏览器智能体 (+/-) 可在已登录网站、标签组、仪表盘、表单和测试流程里工作;敏感操作前会先询问 仅限 Chrome,而且广泛的浏览器 / 数据访问扩大了信任面
Claude Code 终端智能体 (+) 拥有丰富的技能、MCP、资源地图和浏览器附加件生态 用户正在把它和 Codex 直接比较,并要求更好的诊断与恢复
GitHub Copilot CLI 终端智能体 (+/-) 新手友好、支持仓库感知聊天、/delegate 和原生终端工作流 会话额度可能打断工作,并把用户推向其他智能体
Playwright Skill for Claude Code Claude 技能 (+) 按需提供 Playwright 自动化,默认展示可见浏览器,并以插件形式打包 需要单独配置和浏览器依赖
Drawbridge 浏览器到代码桥接层 (+) 能把浏览器中的视觉评论转成结构化的 Claude Code 或 Cursor 任务,并支持不同处理模式 需要 Chrome 扩展权限、本地文件权限,以及额外的工作流层
KittyLitter 移动端封装层 (+) 用一个手机界面承载 Codex、Claude Code、OpenCode、Pi 和本地模型 公开讨论里对远程连接细节讲得仍然很少
Mercury Agent 编排层 (+) 一条工作流就能连接 Copilot 和 Codex 两个生态 今天的证据主要还是一次版本发布,而不是更多用户报告
Lucebox 本地推理引擎 (+) 可在本地运行 Codex、Hermes 和 OpenClaw,并支持 OpenAI 兼容的工具调用 公开证据仍局限于一条发布式 demo 说法
MCP 栈(Perplexity、Playwright、Firecrawl、Chrome、Glif) 扩展层 (+/-) 增加实时搜索、抓取、浏览器控制、页面检查和媒体生成能力 权限边界和能力重叠范围仍未解决

在这张表下面,最清晰的模式就是“组合”。人们会把一个主智能体和移动封装层、编排层、浏览器技能或 MCP 套装拼在一起,而不是把赌注押在单一界面上。0xSero@mercury__agent@davideciffa 都在描述同一件事:保留工作流本身,同时把底下的提供商换来换去。

常见的权宜方案也很清楚:当某个套餐限制更紧时就切订阅,为基础智能体看不到的任务叠浏览器工具,并在额度开始咬人时转向本地或 OpenAI 兼容运行时。竞争压力如今和界面扩张一样重要:Codex 靠移动端、浏览器和迁移功能获得势头,Claude Code 靠 skills 和 MCP 生态保持强势,而 Copilot CLI 则通过新手教育扩大入口,同时继续承受关于额度的抱怨。


5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
KittyLitter @0xSero 面向 Codex、Claude Code、OpenCode、Pi 和本地模型智能体的移动应用 让人们可以在手机上继续智能体工作流,而不是随身带一台笔记本 移动应用、远程家用机器访问、多智能体封装层 Beta post
Playwright Skill for Claude Code lackeyjb 会编写并运行定制 Playwright 自动化的 Claude 技能与插件 让 Claude 能按需复用浏览器测试与自动化能力 JavaScript、Node.js、Playwright、Claude skill / plugin 已发布 repo, post
Drawbridge breschio 把浏览器标注转成 Claude Code 或 Cursor 任务的 Chrome 扩展 为 UI 编辑加入视觉上下文和带依赖意识的任务处理 JavaScript、Chrome 扩展、Markdown / JSON 任务桥 已发布 repo, post
Mercury Agent v1.1.7 @mercury__agent 在 Mercury 里连接 Copilot 和 Codex 在多个付费生态之间保留同一套工作流 Mercury、GitHub Copilot、OpenAI Codex 已发布 post
Lucebox @davideciffa 在 Qwen3.6-27B 上运行 Codex、Hermes 和 OpenClaw 的本地 speculative inference engine 把多智能体工具调用工作流带进本地运行时 Qwen3.6-27B、speculative inference、OpenAI 兼容工具调用 Alpha post

最清晰的构建者模式,是把基础模型之上的基础设施做厚。KittyLitter、Mercury 和 Lucebox 都在把用户工作流从单一提供商那里拆出来:一个把界面移到手机上,一个统一多个付费生态,另一个则把整层执行都推到了本地。这一点之所以重要,是因为围绕额度和切换的帖子,已经解释了为什么这种胶水层有价值。

KittyLitter 移动端界面,展示了一次在手机上运行、并连接到家里机器的智能体会话

第二个模式,则是浏览器到代码的反馈闭环。Playwright Skill for Claude Code 的 README 说,Claude 能按需编写并执行定制 Playwright 自动化;而 Drawbridge 则把评论和浏览器里的自由矩形标注,转成 Claude Code 或 Cursor 的结构化任务。它们做的是同一件事:把更丰富的前端上下文接到智能体上,而不是逼它从文本里硬推理一切。

Drawbridge README 截图,展示一个把视觉标注发送到 Claude Code 和 Cursor 任务文件的浏览器扩展

Playwright Skill README 截图,描述了面向 Claude Code 的通用浏览器自动化能力

ashen_one 的本地化讨论串,也提供了一种有价值的构建模式,尽管它不是一个新的独立产品。重点不在那个 app 本身,而在于:一个 /goal 就把一个真实的 iOS backlog 项推进到了 23 种语言,而剩下的讨论立刻转向了 QA 和布局是否会崩,而不是再争论智能体究竟能不能做这项工作。这已经是不同于玩具 demo 的成熟度信号。


6. 新动态与亮点

迁移 UX 正在变成竞争功能

@drop_grl 表示,OpenAI 现在把 Codex 的卖点之一描述为:可以从其他智能体导入设置、聊天会话、技能和插件。这一点之所以重要,是因为它把“切换本身”也变成了产品的一部分。同一天里,@mercury__agent 也发布了一个把 Copilot 和 Codex 接进同一工作流的版本,指向同一个方向:供应商和编排层正在竞争的,是用户还需要重新配置多少东西。

自诊断模式正在变成智能体原生的产品要求

@doodlestein 并不是在要一个含糊的排障命令。他描述的是一种能够检测故障状态、先做备份、安全修复并撤销改动的自诊断模式——这正是自主编程智能体可以依赖的契约。在一个充满 MCP 套装、浏览器插件和跨设备界面的时间线上,这个要求看起来是及时的,而不是理论上的。


7. 机会在哪里

[+++] 带安全审批闭环的跨设备编程控制 -- 重复出现的 Codex 移动端截图、Chrome 扩展页面,以及 KittyLitter 的手机 wrapper,都指向同一个缺口:人们希望长时运行的编程任务能在离开笔记本后继续推进,但他们仍然需要通知、审批和有边界的控制。来自 @testingcatalog@ziwenxu_@bonsaixbt@TimHaldorsson@0xSero 的证据,让它成为近期最强的机会。

[+++] 感知额度上限的编排与本地兜底 -- Mercury、Lucebox、KittyLitter、那条“经常性税负”讨论串,以及围绕 Copilot / Codex 上限的抱怨,都在描述同一个缺失层:当某个提供商变得太贵、太慢或暂时触顶时,工作流如何继续运行。来自 @mercury__agent@davideciffa@TheGeorgePu@MrPunyapal@vatsal_sanghvi@alishohadaee 的证据,把这个痛点说得很具体。

[++] 智能体诊断与具备权限感知的恢复界面 -- 自诊断模式那条讨论,以及围绕 MCP 权限的反对意见,都说明能力更强的智能体栈需要更好的故障处理和更细的权限边界。来自 @doodlestein@Axel_bitblaze69@JamesClawn 的证据表明,市场确实有空间容纳把安全修复、审计轨迹和更细粒度权限合在一起的产品。

[++] 浏览器到代码的反馈与测试闭环 -- Drawbridge、Playwright Skill,以及面向 Chrome 的 Codex,都在重复同一类工作流:真正的价值不只是代码生成,而是把可视状态和实时浏览器上下文重新接回智能体。来自 @tom_doerr@tom_doerr@TimHaldorsson 的证据表明,这已经不只是一次性 demo 类别了。


8. 要点总结

  1. 最强的产品信号,是界面扩张,而不是新模型。 Codex 的移动端截图和公开 Chrome 扩展页面,比任何基准测试或提示词讨论串都更重要,因为它们展示了智能体工作流下一步会往哪里走 (testingcatalog, TimHaldorsson)。
  2. AI 编程讨论正在从提示词转向操作系统。 最强的 Claude Code 和 Copilot CLI 帖子,谈的是技能、策展栈、新手入门和恢复模式,而不是原始文本生成质量 (cyrilXBT, doodlestein, github)。
  3. 用户已经在供应商修复限制之前,先自己绕过去。 移动 wrapper、编排层和本地运行时,与“经常性税负”抱怨和硬额度截图出现在同一天,说明用户早就在自救 (0xSero, mercury__agent, MrPunyapal)。
  4. 切换订阅正在变成一种正常的优化路径。 ashen_one 的讨论串展示了一个用户如何从 Claude Code 切到 Codex,因为一个 /goal 就消化掉了一项真实的本地化 backlog;而 drop_grl 那条帖子则说明,就连迁移工具本身也已经成为产品战争的一部分 (ashen_one, drop_grl)。
  5. 最实质性的构建活动,集中在胶水层。 Playwright Skill、Drawbridge、KittyLitter、Mercury 和 Lucebox 都位于基础模型之上或周围,让工作流变得更可用、更可迁移或更可观测 (tom_doerr, tom_doerr, davideciffa)。