Twitter AI Agent - 2026-05-27¶
1. 人们在讨论什么¶
1.1 技能开始成为编辑器原生资产,并拥有自己的训练与执行闭环 🡕¶
5 月 27 日最清晰的变化是,技能不再主要被当作市场里的库存来讨论,而是开始作为编码环境中的一等产品能力出现。至少有 4 条强信号支撑了这一点:一条讲如何训练技能,一条讲把技能作为编辑器功能发布,一条讲把它们隔离到子智能体里,还有一条讲如何在大得多的基准面上评估它们。
@daniel_mac8 展示 了他如何用 /goal 模式,把最新的运行框架工程论文直接拉进 Codex,而不只是先收藏再说。示例聚焦 SkillOpt 和 SkillOpt 仓库:它们把 SKILL.md 风格的指令视作可训练的外部状态,用受限文本编辑和留出验证去优化,并报告在 Codex 测试框架中让 GPT-5.5 提升 +24.8 分、在 Claude Code 中提升 +19.1 分(352 次点赞、16 条回复、25,274 次浏览、432 次收藏)。

@zeddotdev 宣布(203 次点赞、7 条回复、6,296 次浏览),Zed 1.4.2 现在支持把技能作为其智能体的可复用指令。真正更重要的是后续讨论串:Zed 表示,技能可以全局存在,也可以按项目存在;可以被发现,也可以仅显式调用;同时它们取代了旧的 Rules Library。公开的 Zed 技能文档 进一步确认,这个单元就是一个具名文件夹,包含 SKILL.md、可选参考资料、脚本以及注册表导入。
@code 又加上(28 次点赞、3 条回复、4,248 次浏览、10 次收藏)了这一思路之上的另一层运行时:调用很多工具或需要大量研究的技能,现在可以在专门的子智能体里运行,让主聊天上下文保持干净。这只是一个小更新,但它实质上改变了技能在实践中能做什么:不只是注入指令,而是接管高噪声执行。
@smoothasfkk 认为(21 次点赞、10 条回复、113 次浏览),EvoSkill 与 Harbor 的集成把评估面从一个基准扩展到 190+,同时带来容器化任务和验证器奖励。尽管互动量较低,它仍与 SkillOpt 指向同一方向:技能越来越不是靠直觉调,而是围绕显式验证闭环来调优。
讨论要点: 周围帖子奖励的是具体的控制面,而不是模糊的“自我改进智能体”说法。人们要的是受限编辑、对技能文件的明确可见性,以及对重工具技能的运行时隔离。
与前日对比: 5 月 26 日的重点还是技能市场和可安装技能包。5 月 27 日则把讨论往更深处推进到编辑器原生执行、可训练技能文件,以及有基准支撑的技能进化。
1.2 运行框架工程逐渐收敛为沙箱、遥测和记忆治理 🡕¶
第二个强主题不再把运行框架工程当作一个词汇,而是把它视为控制、安全和可运维性如今真正落地的地方。有 5 个不同信号支撑这种看法:系统扩展研究、一份精心整理的运行框架资料库、沙箱化执行、面向 SIEM 的遥测,以及一个把记忆重新定义为新鲜度问题的回复串。
@dair_ai 认为(72 次点赞、12 条回复、4,506 次浏览、77 次收藏),“系统扩展”才是智能体化 AI 的下一个瓶颈,而不只是模型扩展。链接的论文 《From Model Scaling to System Scaling: Scaling the Harness in Agentic AI》 把上下文治理、可信记忆和动态技能路由列为核心瓶颈,也就是说,运行框架本身成了主要工程界面。

@_vmlops 分享 了 awesome-harness-engineering 清单(38 次点赞、2 条回复、2,889 次浏览、50 次收藏),把这一栈划分为上下文交付、工具、技能与 MCP、权限、记忆、验证、可观测性、调试以及人在环控制。这份列表之所以重要,是因为它把一个模糊的流行概念变成了明确的系统地图。
@pamelafox 指出(4 次点赞、185 次浏览),沙箱正在成为编程智能体的默认配置之一。她举的例子把 VS Code 预览版的 agent sandboxing 与 NVIDIA OpenShell 和 Docker 的沙箱工具联系在一起,而公开文档把论点说得很具体:OS 级的文件和网络限制,正取代尽力而为的提示词审查,成为主要控制面。
@jqdsouza 表示(6 次点赞、4 条回复、92 次浏览),Agent Beacon 现在会把遥测数据送进 Microsoft Sentinel,并捕获 VS Code Copilot Chat 内的活动。这条帖子体量不大,但它补上了一个真实的企业需求信号:安全团队希望智能体活动能落进他们已经在运营的监控系统里。
@hwchase17 转推 了一个记忆与持续学习项目(114 次点赞、6 条回复、19,563 次浏览、151 次收藏),但最有证据价值的是回复区。@r_rajan4ever 说,难点在于决定哪些内容该放进权重、记忆数据库还是实时上下文;@TomGiant1 则说,悄悄陈旧并持续衰减的记忆,比完全没有记忆更糟。
讨论要点: 回复不断回到同一个限制:存储很容易,治理才难。人们把沙箱、审批疲劳、过期记忆和 SIEM 可见性,都看成运行框架失效,而不是模型失效。
与前日对比: 5 月 26 日已经出现治理和策略信号,但 5 月 27 日把视角从工具调用控制,扩展到了运行时隔离、可观测性和记忆新鲜度。
1.3 构建者把智能体工作包装成组织形态、操作平台和专业操作者 🡒¶
第三个讨论簇聚焦于让智能体更像一种操作平台,而不是单一聊天框的产品。支撑条目从智能体组织架构,到后台桌面控制,再到面向语音和安全工作的垂直操作者。
@Sumanth_077 把 Alook 描述为一个自托管协作平台:编程智能体在其中拥有角色、汇报关系、邮箱地址、日程和共享记忆。公开 README 进一步扩展了这项主张,加入了看板、日历、本地优先执行和可追踪决策,这让它更像一层“AI 公司”操作层,而不是又一个助手外壳(11 次点赞、4 条回复、724 次浏览、10 次收藏)。
@trycua 发布 了 Cua Driver 的 Windows 支持(15 次点赞、7 条回复、729 次浏览、8 次收藏),让 Claude Code、Codex 或自定义智能体能通过 CLI 或 MCP 驱动真实 Windows 应用,同时桌面仍保持可用。讨论串补充了实际切入点:WPF 应用的 QA 闭环、没有 API 的遗留桌面软件自动化,以及 @sureshkanbu 在回复中所说的——焦点被抢走,才是当下多智能体工作流里的真正阻塞点。

@HowToAI_ 重点介绍 了 Dograh(26 次点赞、1 条回复、1,149 次浏览、26 次收藏),这是一个拖拽式语音智能体构建器,其定位是 Vapi 和 Retell 的开源、自托管替代方案。Dograh 的 README 用基于 Docker 的自托管、自带模型和电话服务提供商、内置 QA/测试节点等能力,为这套反锁定主张提供了支撑。
@VivekIntel 分享 了 PentestAgent(18 次点赞、605 次浏览、15 次收藏),其公开 README 描述了 assist、agent 和 crew 模式、Docker 与 Kali 执行路径、MCP server 支持,以及对 nmap、sqlmap 和 metasploit 等工具的直接使用。这很好体现了当天更广泛的模式:把智能体打包成拥有自身运行时、工具和工作流语义的领域操作员。
讨论要点: 最有价值的回复讨论的是操作摩擦,而不是模型质量。尤其是 Cua 线程,重点都放在不抢焦点的自动化,以及仍承载真实业务流程的旧 Windows 软件上。
与前日对比: 5 月 26 日更偏向头像和生成式画布等界面层。5 月 27 日则转向更长寿的操作平台:组织架构、后台桌面控制和专业操作者。
2. 令人困扰的问题¶
审批提示和仅靠提示词的护栏仍然显得太弱¶
严重程度:高。@pamelafox 提到(4 次点赞、185 次浏览),沙箱正在成为编程智能体中的一个明确趋势,并指向了 VS Code 沙箱化以及 OpenShell 和 Docker 的这些选项。公开的 VS Code 沙箱文档 把原因说得很清楚:审批疲劳、命令解析限制、提示词注入,以及对外部服务的非预期操作,都会穿透仅靠提示词审批的模型,这也是为什么 OS 级文件和网络边界很重要。NVIDIA OpenShell 则从运行时角度发出同样抱怨:每个沙箱默认只给最小出站权限,必须通过声明式 YAML 策略才能再放开更多。

@jqdsouza 补充(6 次点赞、4 条回复、92 次浏览),安全和平台团队仍在要求更多关于 Copilot Chat 和智能体活动的可见性,这也是 Agent Beacon 把遥测送进 Microsoft Sentinel 的原因。人们当前的应对方式,是在智能体外围叠加沙箱、策略引擎和 SIEM 遥测,而不是只信提示词。值得构建:是。
记忆容易存储,却难以维持可信¶
严重程度:高。@hwchase17 转推 了一个开源记忆与持续学习智能体(114 次点赞、6 条回复、19,563 次浏览、151 次收藏),但最有实质内容的反应马上就开始质疑记忆层。@r_rajan4ever 说,难点在于把该进权重、记忆数据库和实时上下文的内容路由清楚;@TomGiant1 则警告,一旦文件路径、API 或配置发生漂移,而智能体还继续依据陈旧状态行动,记忆就会悄悄变得危险。当前的绕行方式,是重新验证、收紧提升规则,并缩短对已存记忆的信任周期。值得构建:是。
上下文与 token 消耗仍在浪费真金白银¶
严重程度:中。@Shruti_0810 报告(18 次点赞、6 条回复、1,141 次浏览),一个 Claude Code 工作流在切换到 InsForge skills 加基于 CLI 的上下文工程后,从 10.4M tokens 降到 3.7M,从 $9.21 降到 $2.81,错误从 10 个降到 0。回复区并没有把这当成小修小补:@TuracTheThinker 说,更大的上下文窗口不如直接展示哪些行或来源塑造了答案;多条回复也把这类节省视为改变构建者“负担得起什么尝试”的因素。人们的应对方式,是投资上下文工程和后端操作界面,而不只是购买更大的窗口。值得构建:是。
3. 人们期望的功能¶
可度量、可调优、可跨运行时迁移的技能系统¶
最强的产品愿望并不是“更多提示词”,而是一整套技能生命周期。@daniel_mac8 展示 了一种把 SkillOpt 这类研究直接移植到 Codex 的工作流(352 次点赞、16 条回复、25,274 次浏览、432 次收藏);@zeddotdev 发布 了编辑器原生技能(203 次点赞、7 条回复、6,296 次浏览);@code 又补上 专门运行重型技能的子智能体(28 次点赞、3 条回复、4,248 次浏览、10 次收藏)。这个需求非常务实:构建者想要的是创建一次、验证、改进,然后能在不同环境中复用的技能。机会:直接。
默认安全、内置审计与遥测的运行时¶
人们显然在要求一种默认就安全、而且事后能告诉运营方发生了什么的智能体运行时。@pamelafox 提到(4 次点赞、185 次浏览)沙箱趋势,VS Code 文档 也明确写着,在注入和疲劳面前,审批流程会失效;OpenShell 则暴露了文件、进程、网络和推理控制;@jqdsouza 表示(6 次点赞、4 条回复、92 次浏览),企业正在要求把 Copilot Chat 遥测接入 Sentinel。这是个已有部分答案出现的现实需求,因此机会既直接又具竞争性。
更像团队而不是聊天框的多智能体工作区¶
Alook 和 Cua 两条讨论串指向了一个具体愿望:智能体能在后台继续工作、彼此协作,并操作人们已经在用的软件。@Sumanth_077 把 Alook 描述成一个邮件原生的编程智能体组织架构(11 次点赞、4 条回复、724 次浏览、10 次收藏),而 @trycua 发布 了面向需要驱动真实桌面软件的智能体的后台 Windows 电脑操作(15 次点赞、7 条回复、729 次浏览、8 次收藏)。这个需求是务实的,而不是愿景式的:保留上下文、保留角色,不要把所有工作流都重新塞回一个前台聊天面板。机会:直接且具竞争性。
面向编程智能体、更便宜且更可追溯的上下文工程¶
InsForge 这条讨论串让一个更窄但更具体的请求变得可见:怎样把后端状态和检索上下文喂给编程智能体,同时又不为浪费买单。@Shruti_0810 声称(18 次点赞、6 条回复、1,141 次浏览)可以大幅降低 token 消耗和错误数,而 InsForge 仓库 也说明了这类想法为何有吸引力:它通过 MCP 和 CLI 暴露认证、数据库、存储、计算和部署等界面,全都以智能体能检查和操作的方式呈现。这个需求仍处早期,而且赛道拥挤,但它已经足够具体。机会:具竞争性。
4. 使用中的工具与方法¶
| 工具 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| SkillOpt | 技能优化 | (+) | 受限文本编辑、留出验证、跨测试框架迁移、无推理时开销 | 更适合目标可验证的场景;开放式工作仍需要更强评估器 |
| Zed skills | 编辑器技能系统 | (+) | 全局与项目本地范围、可发现或仅显式模式、SKILL.md 打包 |
新功能面;编辑器特定 |
@code 中的专用技能子智能体 |
编程智能体运行时 | (+/-) | 让重工具或重研究技能脱离主上下文窗口 | 公开细节仍主要停留在功能讨论串 |
| VS Code agent sandboxing | 智能体沙箱 | (+/-) | OS 级文件/网络隔离、检查点审查、沙箱内自动批准 | 预览功能;目前主要聚焦终端命令 |
| OpenShell | 沙箱运行时 | (+/-) | 声明式 YAML 策略、默认最小出站权限、热重载策略、支持多种 agent CLI | 仍处 Alpha,且明确还只是 “single-player mode” |
| Alook | 多智能体编排 | (+) | 组织架构、邮件原生协作、日历、共享记忆、本地优先执行 | 公开体量较小,生态还早期 |
| Cua Driver / Cua | 电脑操作运行时 | (+) | 通过 CLI/MCP 在后台操作电脑、轨迹可回放、支持遗留桌面应用 | Windows 支持刚上线,公开仓库覆盖的平台也不止一种工作流 |
| Dograh | 语音智能体平台 | (+) | 拖拽构建器、自托管、BYO 提供商、内置测试/QA 节点 | 语音垂直场景;仍是另一套要运维的栈 |
| InsForge | 智能体后端平台 | (+/-) | 通过 MCP/CLI 暴露认证、DB、存储、计算、部署和模型网关界面 | 当前节省证据仍主要是轶事和讨论串驱动 |
| PentestAgent | 安全操作员 | (+/-) | assist/agent/crew 模式、Docker/Kali 执行、MCP server 模式、可直接用标准安全工具 | 高敏感领域且明显存在滥用风险;需要授权目标 |
| EvoSkill + Harbor | 评估与技能进化 | (+) | 容器化任务、验证器奖励,以及更大的技能进化基准面 | 今天讨论串里的可见采用度低于编辑器技能工具 |
整体满意度偏向那些用可见系统结构替代隐式提示词纪律的工具。@zeddotdev 发布 了文件支撑的技能系统(203 次点赞、7 条回复、6,296 次浏览);@daniel_mac8 展示 了如何从研究中调这些文件(352 次点赞、16 条回复、25,274 次浏览、432 次收藏);@pamelafox 则指向 沙箱是必要运行时层,而不是可选谨慎项(4 次点赞、185 次浏览)。
当天反复出现的绕行模式也很一致:从提示工程转向上下文工程或运行框架工程,从审批提示转向运行时隔离,并从一个单体助手转向显式角色或子智能体。迁移压力还以更小的方式显现:Zed 从 Rules Library 迁向 skills,Cua 把浏览器式自动化推进到后台桌面控制,而 InsForge 则把后端上下文描述成 MCP 和 CLI 界面,而不是隐藏的基础设施。
5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 阶段 | 链接 |
|---|---|---|---|---|---|---|
| Zed skills | Zed | 为 Zed 编辑器智能体增加可复用技能包 | 用文件支撑、可配置的指令替代脆弱的提示词片段和旧规则界面 | Zed editor、SKILL.md、本地/项目技能、registry imports |
已发布 | 文档, 帖子 |
| Alook | Alook team | 以角色驱动、邮件原生的“公司”形态运行编程智能体,并共享记忆 | 让多智能体协作变成持久且可追踪,而不是手动在聊天里路由 | Next.js、Cloudflare Workers、Bun、SQLite/文件、Claude Code/Codex/OpenCode | Beta | 仓库, 网站, 帖子 |
| Cua Driver for Windows | Cua | 让智能体通过 CLI 或 MCP 在后台控制原生 Windows 应用 | 解锁遗留桌面工作流和 UI QA,同时不抢走焦点 | Cua Driver、CLI/MCP、桌面自动化、可回放轨迹 | 已发布 | 仓库, 帖子 |
| Dograh | Dograh | 自托管拖拽式语音智能体构建器 | 避免生产语音机器人被按分钟计费的 SaaS 锁定 | Python、Docker、电话服务、BYO LLM/TTS/STT、工作流构建器 | 已发布 | 仓库, 网站, 帖子 |
| InsForge | InsForge | 向编程智能体暴露认证、DB、存储、计算和部署能力的后端平台 | 给智能体直接的后端上下文与操作能力,而不是逼用户手工粘合 | MCP server、CLI、Postgres、存储、edge functions、模型网关 | Beta | 仓库, 网站, 帖子 |
| PentestAgent | GH05TCREW | 具备 assist、agent 和 crew 模式的自动化渗透测试智能体 | 把安全工作流打包成带隔离和报告能力的领域操作员 | Python、LiteLLM、TUI、Docker/Kali、MCP、浏览器/终端工具 | Beta | 仓库, 帖子 |
| EvoSkill + Harbor integration | Sentient | 在容器化基准和验证器奖励上进化智能体技能 | 让技能改进能在更多真实任务上被度量 | Python、Harbor、容器化基准、验证器奖励 | Alpha | 仓库, 帖子 |
Alook 和 Cua 展现了最强的重复构建模式:智能体正被包上一层明确的操作平台,而不是被当成单一对话端点。@Sumanth_077 描述 了持久角色、邮件路由和共享记忆(11 次点赞、4 条回复、724 次浏览、10 次收藏),而 @trycua 发布 了针对那些原本没有 API 的 Windows 应用的后台桌面控制(15 次点赞、7 条回复、729 次浏览、8 次收藏)。两者的触发点其实相同:这类工作并不能被干净地塞进一个前台聊天框里。
Dograh、InsForge、PentestAgent 和 EvoSkill 则指向另一种主要模式:构建者在解决具体运维瓶颈,而不是泛泛打“AI 智能体”标签。语音智能体团队想要自托管和 QA 闭环,编程智能体团队想要后端上下文和更低 token 消耗,安全团队想要领域原生操作员,技能研究者则想要有基准支撑的技能进化,而不是手工调参。
6. 新动态与亮点¶
稳定版编辑器开始把技能当作原生产品对象¶
@zeddotdev 在稳定版编辑器里发布 了技能功能(203 次点赞、7 条回复、6,296 次浏览),@code 又加上 了专门运行技能的子智能体(28 次点赞、3 条回复、4,248 次浏览、10 次收藏)。再加上 @daniel_mac8 把 SkillOpt 真正落地进 Codex(352 次点赞、16 条回复、25,274 次浏览、432 次收藏),信号已经很明确:技能正在从社区约定俗成,变成被正式支持的产品架构。
沙箱化成了应对智能体自主风险的文档化答案¶
值得注意的变化,不只是人们开始提沙箱,而是公开文档现在已经解释了为什么需要它。@pamelafox 指出 这一趋势(4 次点赞、185 次浏览),VS Code 沙箱文档 明确提到审批疲劳和提示词注入,而 OpenShell 则用默认最小出站权限和可重载策略,给出了同一思路的运行时版本。
面向 Windows 的后台电脑操作看起来更务实,而不是更炫技¶
@trycua 发布 了 Cua Driver 的 Windows 支持(15 次点赞、7 条回复、729 次浏览、8 次收藏),并在讨论串里强调的是 WPF QA 和遗留业务软件,而不是演示效果。这很重要,因为它把电脑操作智能体重新定义成服务真实企业桌面工作流的工具,而不是只会在浏览器里炫技的新奇玩意。
7. 机会在哪里¶
[+++] 安全的运行框架控制平面 —— 最强的多源缺口出现在运行时边界。@pamelafox 提到 了沙箱,VS Code 文档 解释了为什么提示词审批会失败,OpenShell 把策略暴露成代码,而 @jqdsouza 则展示了对 SIEM 级遥测的需求。这个机会很强,因为痛点既是运维性的,也是安全敏感且反复出现的。
[+++] 可移植的技能生命周期工具 —— SkillOpt、Zed skills、@code 子智能体和 EvoSkill 都指向同一个需求:跨环境创建、验证、调优、路由和复用技能。这个机会很强,因为数据表明每一层都有需求,从研究到编辑器 UX,再到基准基础设施。
[++] 面向团队和遗留软件的智能体操作系统 —— Alook 和 Cua 展示了同一个问题的两面:智能体需要角色、记忆,以及访问企业已经在运行的软件。机会中等,因为已经出现可信的早期参与者,但这些工作流黏性强,覆盖面也大。
[+] 面向编程智能体的上下文成本与可追溯层 —— InsForge 这条讨论串只有一个数据点,但很有用,因为它把上下文工程直接和更低开销、更少失效联系在一起。它看起来还处于新兴阶段,尚未被完全证明,但成本压力已经真实到足以产生意义。
8. 要点总结¶
- 技能正变成一层可管理的软件层,而不只是提示习惯。 最强的证据来自 SkillOpt 以验证为门槛的调优闭环、Zed 在稳定版中发布技能,以及
@code为重型技能加入专用子智能体。(daniel_mac8, Zed, code) - 信任如今是在运行框架里赢得或失去的。 系统扩展论文把上下文治理、可信记忆和动态技能路由点名为瓶颈,而沙箱工具和遥测帖子则用产品形式表达了同样的担忧。(dair_ai, pamelafox, jqdsouza)
- 记忆仍未被解决,因为新鲜度比存储本身更重要。 记忆线程里最有价值的回复都在说,真正难的是路由、失效处理,以及当世界变化时重新验证。(hwchase17 讨论串, r_rajan4ever 回复, TomGiant1 回复)
- 构建者正在把智能体打包成拥有角色和运行时的操作平台。 Alook 把智能体做成邮件加组织架构工作流,Cua Driver 则把 Windows 应用变成智能体可用的实际执行界面。(Alook, Cua Driver)
- 成本与控制开始和模型质量同样重要。 InsForge 线程量化了更低 token 开销和更少错误,而 Dograh 和 OpenShell 的材料也都把开放性与可控基础设施当作一等卖点。(InsForge 讨论串, Dograh, OpenShell)