跳转至

Twitter AI 编程 - 2026-05-11

1. 人们在讨论什么

1.1 Copilot 正被塑造成一个多模型终端工作台,而不只是编程附加功能 🡕

围绕 GitHub Copilot 的讨论连续第二天保持强势,但重心已经不再只是简单入门。当天的内容同时包括官方对 Copilot CLI 新手系列的推动、围绕 Copilot 内部高级模型的公开比较,以及面向智能体式开发的多语种活动宣传,这让它看起来更像一个宽广的操作表层,而不只是单一助手。

@github 宣传 了 GitHub Copilot CLI 新手系列;配套博客写到,这套工作流现在从 npm install、/login、文件夹权限、仓库感知提示词,以及通过 /delegate 调用 Copilot cloud agent 开始。讨论串里最有分量的回复来自 @BrandGrowthOS,他表示,聊天模式已经比把报错复制到另一个助手里更快,因为它能就地理解代码库。

@0xAbhiii 发帖称,GitHub 已将 Claude Opus 4.7 加入 Copilot;他附的截图显示了 GitHub changelog 页面,而推文本身强调的是对大型代码库的理解、多文件重构,以及编码前先做规划。

展示 Claude Opus 4.7 已在 Copilot 中正式可用的 GitHub changelog 截图

@burkeholland 表示,尽管价格不低,GPT 5.5 现在已经成了他在 Copilot 里做设计工作的首选模型;他附上的 Paperwalls for Mac 截图,也让这个说法不再只是泛泛的基准测试吹嘘,而有了具体物证。

Paperwalls for Mac 界面截图,作为 Burke Holland 在 Copilot 中用 GPT 5.5 做设计工作的例子

@code 宣布,GitHub Copilot Dev Days Online 将于 5 月 25-27 日举行,提供巴西葡萄牙语、西班牙语、英语和简体中文场次;这让同样的教育推动,从一次性的教程延伸成了公开活动系列。

讨论要点: 围绕 GitHub 教程的回复,关心的已经不再是自动补全,而是工作流是否契合。用户在问,哪些命令会最先变成每天都要用的习惯;而最有分量的称赞,则把仓库感知的终端聊天视为它区别于把报错粘贴到另一个模型里的关键。

与前日对比: 5 月 10 日,Copilot 最强的信号还是新手系列本身的上线。到了 5 月 11 日,同一条入门讨论串依然居于前列,但又叠加了明确的模型选择讨论和活动安排,因此 Copilot 的覆盖面看起来更广,也更偏向实际操作层。

1.2 Codex 的速度正在变成人们争论的头号卖点 🡕

围绕 Codex 的讨论,从浏览器和移动端扩展收缩到了延迟本身。最有力的证据,是一个泄露出来的速度档位;而回复几乎立刻把循环耗时当成独立的产品能力来谈,而不是底层工程细节。

@testingcatalog 报道称,一个已删除的 Codex GitHub 仓库条目曾短暂提到 Ultrafast 模式,而第一张截图就是最关键的物证:其中显示了一个 ultrafast 档位,描述是“面向延迟敏感工作的最快响应”。这一点之所以重要,是因为它比泛泛而谈的“更快的 Codex”猜测具体得多。

已删除的 Codex 仓库 diff,显示了一个面向延迟敏感工作的 ultrafast 速度档位

@mark_k 用户侧的核心论点说得更直白:如今编程智能体的瓶颈,已经不是原始智能水平,而是等循环跑完的时间。他在回复里也把这种取舍说得更尖锐,而不是简单抹平:一条回复说“循环耗时就是 UX”,另一条则追问,更快是不是也意味着更笨。

讨论要点: 回复并没有把速度当成毫无代价的好事。有人认为,用户对加载转圈的感受,比基准测试里的细小差值更强;但也有人反驳说,审查时间和回答质量依然比单纯更快的返回更重要。

与前日对比: 5 月 10 日,Codex 的关注点还集中在移动端和浏览器表层。到了 5 月 11 日,讨论已经沿着技术栈往下走,从“我能在哪里运行它?”变成了“这个循环到底能快到什么程度?”

1.3 记忆、执行层和策略控制正在分化成独立产品 🡕

第三组帖子,则把编程工具外围的智能体栈本身当成一个市场。值得注意的例子,不是又一个新模型发布,而是面向持久记忆、自然语言动作执行,以及智能体被允许做什么的安全护栏系统。

@origin_trail 表示,DKG v10 现在已经为 Hermes、OpenClaw、Claude、Cursor、Codex、Windsurf、Copilot Chat 和 Cline 提供多智能体记忆。关联的公开仓库把 DKG V10 描述成一个三层、可验证的记忆系统:知识先停留在私有草稿里,再流向团队可见的共享层,最后沉淀为经密码学锚定的永久记录——这比泛泛地说“给智能体加记忆”要强得多。

@petergyang 分享 了一套围绕明确指令文件、上下文文件和记忆文件搭建的 Claude Code“personal OS”配置;他随后又在回复里补充说,每个聊天都应该写下一行记忆,而夜间的“做梦”任务则负责把这些笔记压缩进长期记忆。

Claude Code personal OS 文件夹结构,展示 claude.md、user.md、tools.md、API 文档和记忆文件

@lcx 贴出 了一条 MCP 流程:用户用自然语言询问余额或订单,助手选择合适的 MCP 工具,再由 LCX 通过交易所基础设施执行。这个配图之所以重要,是因为它说明围绕 MCP 的讨论,正在从开发者如何搭环境,转向真正涉及资金流转的操作。

LCX 工作流图,展示 AI 助手如何利用 MCP 把自然语言交易请求转成交易所动作

@AISecHub 声称,Cisco DefenseClaw 现在支持 Claude Code、Codex、Cursor、Windsurf、Gemini CLI、Copilot、Hermes、OpenClaw 和 Zeptoclaw;截图则写明,它可以检查提示词、补全和工具调用,并按连接器执行阻止、批准或审计。

DefenseClaw 界面,描述了对提示词、补全和工具调用的检查,以及阻止、批准和审计控制

讨论要点: 这一组讨论的回复,重点落在验证和治理上。DKG 发布帖下的一条回复直接问,执行验证是否也在覆盖范围内;而 DefenseClaw 的材料,则把价值锚定在策略执行和可审计性上,而不是更多自主性。

与前日对比: 5 月 10 日的重点还是打包好的技能、新手工作流和 MCP 栈。5 月 11 日,讨论进一步转向持久记忆、安全执行,以及叠在智能体之上的治理层。


2. 令人困扰的问题

成本、缓存和额度拖累 -- 高

最明确的现实痛点,依然是经济账。@MaxNiederman 分享 的支出图表显示,他最近一次 Claude Code 使用里,61.6% 的成本来自缓存费用,而缓存读取和缓存写入占掉了账单其余的大头。@xoofx 表示,一个售价 100 美元、附带 2,500 credits 的 ChatGPT business Codex 订阅,对某位开发者来说连一天都撑不到;@ihtesham2005 则借着同样的痛点,宣传 9router 可以压缩工具输出,并在付费订阅耗尽后自动切到更便宜或免费的模型。

Claude Code 支出图表,显示缓存成本占一位用户近期 Opus 4.7 账单的大头

@Hey_Aivetra 又补上 了同一抱怨的更零售化版本:一张“付费应用 vs 免费替代品”的对照图,横跨 Copilot、Cursor Pro、Postman Pro、Datadog 等工具。连回复都没有把差距说得过头:有人说这些替代品“已经足够接近,可以先试试水”,也有人说付费 AI 工具依然更好。

大家的应对方式很一致:上路由器、比较替代品,并在额度真正撞线之前先准备好兜底选项。值得构建:高。

强大的智能体仍然需要信任与验证层 -- 高

执行层的能力在变强,但当天的证据表明,用户并不想要没有护栏的裸执行。@lcx 展示 了 MCP 被用来查余额和下单,但图里真正执行动作的,是受监管的交易所,而不是把助手本身当成可信终点。@origin_trail DKG 定位成带溯源的共享记忆,而一条回复立刻追问,执行验证是否也在计划之内。

@AISecHub 这类治理抱怨说得更直白:他们把 DefenseClaw 直接包装成一层可检查提示词、补全和工具调用、同时阻止危险行为、秘密外泄和不安全工具使用的系统。之所以把这个痛点定为高,是因为每条帖子都在暗示同一件事:基础智能体已经能动手,但团队仍需要另一套系统,来决定什么该被允许、如何验证,以及何时需要回滚。值得构建:高。

AI 生成代码的质量正在变成团队问题,而不只是个人烦恼 -- 中

最尖锐的从业者反弹来自 @FilippoTarpini,他 写道,那些从没真正学过底层手艺的“搞 vibe 编程的人”产出的东西,往往不可复用、难以理解,而且膨胀得远超代码库能承受的程度。@nateliason 了一张截图,显示 Claude 错把他的“OpenClaw + Wiki + Granola”工作流解释成了某种对 Claude Code 的俚语称呼;这个例子更小,但它很具体地暴露了这类栈内部的工具混淆。

在一些更偏宣传性的讨论串下面,回复也指向同一方向。在 xBubble 的发布帖下,有人 认为,即便是“vibe 编程”工作流,人们仍然需要对编程有基本理解。这个痛点定为中,是因为这些帖子并不是在反对 AI 编程本身;它们反对的是那种理解不足、最后把清理工作留给其他所有人的产出。值得构建:中到高。


3. 人们期望的功能

付费额度耗尽时,仍能保持同一工作流的无缝兜底方案

这种需求更多是从各种绕行方案里显露出来,而不是直接的明确请求,但意图已经很清楚。@ihtesham2005 把 9router 描述成一种方案:在不改变外围编程工具的前提下,压缩工具输出,并在 Claude 订阅耗尽后自动切到更便宜或免费的提供商;@Hey_Aivetra 则从购买者视角,用一张付费与免费替代品对照图表达了同样的压力。@xoofx 给出了紧迫感:在真实使用下,就连 100 美元的 Codex business 套餐也可能一天内见底。

这不是愿景型需求,而是现实需求。路由器和替代栈已经给出了一些部分答案,但公开证据仍然显示,用户还在亲手拼这些兜底机制。机会:直接。

可查询、持久且可验证的跨智能体共享记忆

@origin_trail 明确表示,现有智能体会先建立上下文,然后又把它丢掉;DKG V10 仓库则把这条抱怨落实成了具体设计:私有草稿记忆、共享团队记忆,以及带溯源的永久锚定记录。@petergyang 又在更本地的层面指向同一个缺口:他要求准备 claude.mduser.mdtools.md 和一个记忆文件夹,再配上夜间“做梦”压缩任务。@RLanceMartin 随后又补了一张图,把记忆、增强、验证和周期性更新都放进同一系统里。

这个需求既现实,也已经在市场里被真正激活:人们希望上下文能够存活下来、可被检查,并能在不同会话和智能体之间复用。虽然已经有一些部分答案,但今天的证据里还看不到哪一种已经成为默认主流。机会:直接。

面向 AI 生成改动的审查优先协作

@bearlyai 在这里很有代表性,因为 OpenADE 最先推的并不是“更自主的代码生成”,而是建立在 Claude Code 和 Codex 之上的协作、评论、更快的 diff,以及 Plan → Revise → Execute 工作流。这与 @FilippoTarpini 的观点正好对上:真正的失败模式,是代码虽然很快落地,却既不贴合代码库,也不利于协作。

这既是现实需求,也是情绪需求:团队想要 AI 带来的杠杆,但又不想失去代码的可读性、可审查性,或共同所有权。OpenADE 和 DefenseClaw 这样的治理层已经给出部分答案,但整体讨论看上去仍像一个很早期的市场。机会:竞争型。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
GitHub Copilot CLI / Copilot 终端与 IDE 智能体 (+) 官方入门流程、仓库感知聊天、/delegate、Copilot 内部不断扩展的模型选择、公开教育推广 高级模型价格高,而且访问权限或账号状态问题仍会挡住一部分用户
OpenAI Codex 编程智能体 (+/-) 自主性强、可能有面向延迟敏感工作的 ultrafast 档位、市场心智强 速度带来质量和定价疑问,而且额度消耗依然明显
Claude Code 终端智能体 (+/-) 适合记忆循环、文件型例程和个人 OS 工作流 缓存成本高,而且可维护性担忧仍在
OriginTrail DKG V10 记忆层 (+) 带溯源、可查询、可验证的多智能体共享记忆 仍是测试网上的发布候选版,治理和生产成熟度仍待验证
Model Context Protocol 集成协议 (+) 让助手能通过工具适配器调用外部系统;LCX 展示了真实的余额 / 下单流程 高信任动作仍需要安全执行后端和策略控制
9router 路由网关 (+) 压缩工具输出、暴露本地 端点,并能在付费、便宜和免费提供商之间自动兜底 又多了一层要配置的系统,而且依赖提供商兼容性
DefenseClaw 治理与安全 (+) 提示词 / 工具调用检查、阻止 / 批准 / 审计控制、可观测性、连接器覆盖面 团队还得再调一层策略,才能真正用起来
OpenADE 智能体式开发环境 (+) Plan → Revise → Execute 流程、可评论的 diff、离线模式、worktrees、Claude/Codex 运行框架 仍处早期,Windows 标为实验性,而且仍依赖外部模型接入
通过 OpenCode + 自定义技能使用本地模型 本地编程方法 (+/-) 搭配更紧凑的工具结构和技能后,能让更小的本地模型也更实用 需要调 token / 上下文,而且仍落后于托管前沿模型

在表格之外,最明显的模式是分层。人们并没有把智能体当成完整产品,而是在主智能体外再叠一层记忆、路由、治理,或审查优先的界面。成本压力是其中一个原因,但信任同样如此:同一条时间线一边在庆祝更快的循环,一边又不断往外加溯源、策略和规划层。

迁移行为也同样清晰可见。Copilot 被当成“终端表层 + 模型菜单”来讨论,Codex 被按循环速度来评判,Claude Code 被包进记忆例程里,而像 9router 这样的路由器之所以存在,正是因为用户预期自己会在提供商之间来回移动,而不是长期忠于某一家。竞争动态已经不再是“哪个模型会赢?”,而是“当价格、延迟或信任发生变化时,哪一套栈还能继续工作?”


5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
9router @ihtesham2005 / decolua 压缩工具输出,并在付费、便宜和免费提供商之间路由编程工具的本地 AI 路由器 避免 token 被迅速烧掉,也避免订阅或额度耗尽时工作流直接停摆 JavaScript、本地 OpenAI 兼容 端点、RTK token 压缩、多提供商路由 已发布 仓库, 帖子
OriginTrail DKG V10 @origin_trail 共享、可验证的多智能体记忆层与节点栈 让上下文不至于在会话和智能体之间蒸发 TypeScript monorepo、DKG 节点、CLI、仪表盘、知识资产 Beta 仓库, 帖子
OpenADE @bearlyai 把规划、审查、评论和执行放进同一界面 的免费开源智能体式开发环境 让 AI 生成的改动在执行前更容易协作和修订 TypeScript、Claude Code、Codex、worktrees、离线优先应用 Beta 仓库, 帖子
DefenseClaw @AISecHub / Cisco AI Defense 检查多种编程智能体提示词、补全和工具调用的治理层 减少危险动作、秘密外泄和审计轨迹缺失 Go、策略引擎、基于连接器的智能体控制 Beta 仓库, 帖子

9router 是当天最清晰的构建模式,因为它正面回应了最常被重复的抱怨:当定价档位或额度池见底时,工作流不应该跟着停下。它的公开 README 声称,借助工具输出压缩可以节省 20-40% 的 token,并把这个路由器定位成一个稳定的本地 端点,让外围编程工具保持不变。

OriginTrail DKG 和 OpenADE 指向了第二种模式:人们正在给智能体外围加结构,而不是继续把赌注押在原始提示词上。DKG 想把跨智能体记忆做得更持久、更可验证;OpenADE 则试图把规划、评论和修订在执行前就提升为一等能力。DefenseClaw 又在安全侧延续了同一种冲动,把提示词和工具调用治理做成了独立的产品类别。


6. 新动态与亮点

Copilot 现在被当成一个模型组合来评估,而不再只是单一助手

有用的新信号,不只是 GitHub 还在继续宣传 Copilot CLI,而是用户立刻开始讨论:自己到底想在 Copilot 里用哪一个模型。@0xAbhiii 指向了适合大代码库工作的 Copilot 内部 Opus 4.7;@burkeholland 则说,尽管价格更高,GPT 5.5 已经成了他在 Copilot 里处理设计导向输出时最喜欢的模型。再加上 @github@code 的推动,如今关于 Copilot 的叙事更像是“分发 + 模型选择”,而不只是“GitHub 有个助手”。

智能体治理已经足够可见,可以被直接拿来营销

第二个值得注意的变化是,治理已经不再藏在企业策略文档里。@AISecHub 公开把 DefenseClaw 宣传成一层可用于阻止、批准和审计智能体行为的系统,而 @origin_trail 卖的也不只是方便性,而是带溯源和可验证性的记忆。这让安全与可审计性看起来像 AI 编程栈里的顶层产品能力。


7. 机会在哪里

[+++] 保留开发者现有工具表层的成本感知路由 — 最强的痛点和最强的构建者信号,指向的是同一个缺口。高占比的缓存账单、一天烧完的额度、付费与免费对照图,以及 9router 的快速采用,都在说明用户想要的是不改变工作方式的平滑兜底。

[++] 带溯源与验证的跨智能体共享记忆 — DKG V10、个人 OS 记忆文件夹和“做梦”工作流,都指向同一个缺失的默认项:上下文应该在会话结束后继续存在、可被查询,也仍然可审查。

[++] 面向 AI 生成改动的审查与治理层 — OpenADE 和 DefenseClaw 从不同侧面切入同一问题,但它们回应的是同一个市场信号:团队希望在智能体产出变成生产代码之前,就围绕它建立规划、评论、策略和审计轨迹。

[+] 借助结构化技能与更严的工具使用,把更小的本地模型变得可用 — 围绕 OpenCode + Qwen3.5 9B 的讨论说明,更好的运行框架和更紧凑的技能组织,足以让较弱的本地模型也能支撑真实工作,尤其是在高级模型成本压力仍高的时候。


8. 要点总结

  1. Copilot 的公开叙事,已经从“试试 CLI”扩展到“在里面挑对模型和工作流”。 GitHub 继续把新手系列维持在时间线顶部,而用户则又带出了 Opus 4.7、GPT 5.5,以及一场围绕智能体式开发的公开 Dev Days 活动。 (来源)
  2. Codex 的速度成了当天争议最大的产品杠杆。 ultrafast 泄露之所以重要,是因为它给了人们一个可以具体争论的对象,而回复也立刻分成两派:一边说“循环耗时就是 UX”,另一边说“更快可能只是答案更差”。 (来源)
  3. 记忆和治理正在分化成栈里的独立层。 OriginTrail、个人 OS 工作流和 DefenseClaw 都假设:基础智能体本身并不够;接下来真正重要的,是持久记忆、溯源,以及围绕执行的策略。 (来源)
  4. 经济压力仍然强到足以催生出一个独立产品类别。 以缓存为主的重账单、很快烧完的额度,以及免费替代品对照图,都让路由器和兜底系统更像核心基础设施,而不是可有可无的优化项。 (来源)
  5. 对低理解度 vibe coding 的反弹,如今已经摆到了台面上。 最尖锐的怀疑声音并不是反 AI,而是反对那种难以复用、难以审查、也难以维护的草率产出,尤其是在真实团队里。 (来源)