跳转至

Twitter AI Agent - 2026-06-07

1. 人们在讨论什么

1.1 运行框架工程开始被打包成课程体系和默认优化闭环 🡕

6 月 7 日 Twitter 上最强的信号是,运行框架工程正从建议型讨论串走向可复用的教育内容和操作配方。三条留存条目支撑了这一主题。

@sairahul1 分享(635 次点赞、19 条回复、93,576 次浏览、1,388 次收藏)了 《Learn Harness Engineering》,称其为“互联网上学习运行框架工程最好的网站”。附带截图之所以重要,是因为它展示了这套包装方式:讲座、动手项目和资源库,以及关于为什么强能力智能体会失败、为什么长时任务会失去连续性、以及为什么可观测性必须放进运行框架内部的课程。

《Learn Harness Engineering》截图,展示包含讲座、项目和资源库的课程

@sairahul1 认为(216 次点赞、30 条回复、56,786 次浏览、381 次收藏),2026 年将是工程师不再手写那些调用 Claude 的循环、而开始构建驱动这些循环的运行框架的一年。回复补上了更直接的操作者视角:有人说,一旦代码生成变得便宜,品味就成了整份工作的全部;也有人打趣说,这笔账算下来仍像是在买房和给 Claude Code 付费之间做选择。

@Vtrivedy10 列出(162 次点赞、9 条回复、17,742 次浏览、254 次收藏)了一套五步智能体改进配方:合理的基础运行框架、贴近生产环境的评估任务、轨迹挖掘、SFT 或蒸馏,然后再上 RL 并回头再做一轮运行框架迭代。回复把实际结论说得比主帖更尖锐:糟糕的评估会把便宜模型变成昂贵的调试闭环,而且团队已经在要求先有回归式评估集,才愿意相信智能体做出的改动。

讨论要点: 对话的重点不是“把提示词写得更好”,而是“把智能体工作变成一个由评估、轨迹和可复用操作者知识驱动的优化闭环”。

与前日对比: 6 月 6 日围绕可复制路线图、SOUL.md 文件和架构图展开。6 月 7 日则新增了公开课程和具体的改进配方。

1.2 人们开始用边界、审查步骤和控制平面来定义信任 🡕

第二个讨论簇把信任看成操作系统层问题,而不是模型质量问题。四条留存条目支撑了这一主题。

@shannholmberg (42 次点赞、8 条回复、2,922 次浏览、50 次收藏)垂直智能体定义为一种操作者角色,需要九样东西:上下文、数据、标准、工具、边界、委派、评估、人工审查和记忆。这张图之所以有信息量,是因为它把模糊的“智能体公司”叙事压缩成一张具体清单;回复则说,多数团队往往要等到智能体碰了不该碰的东西,才会意识到审批链是最容易被省掉的一环。

图示列出每个垂直智能体都需要的九样东西:上下文、数据、标准、工具、边界、委派、评估、人工审查和记忆

@myttle_web3 认为(31 次点赞、5 条回复、16 次收藏),对编码智能体的信任,只有在它读完项目规则、打开应用、点过一遍流程,并给出可审查 diff 之后才会开始。回复则把风险说得更尖锐:一旦智能体自动把最开始那一小时的上下文压缩掉,diff 就可能和它背后的推理脱节。

@sudoingX 表示(68 次点赞、6 条回复、2,118 次浏览、56 次收藏),编排完全可以很简单:每个 tmux 窗格放一个智能体,再配一个负责委派的主智能体,权限做成沙箱隔离,也不需要付费仪表盘。最有力的一条回复给出了上限:6 个智能体也许还在人能管的范围内,再往上,问题就会变成执行链路、预算、权限、隔离、回放,以及此刻究竟该把哪几件事升级给人。

@dashboardlim 警告(18 次点赞、4 条回复、11 次收藏),Anthropic 的 《Zero Trust for AI agents》 框架把提示词注入、工具投毒、身份与权限滥用、记忆投毒以及供应链攻击都视为智能体部署中的常规组成部分,而不是边界情况。Anthropic 的公开博客也支撑了这一框架,并明确要求以密码学为根基的身份、任务级权限、记忆保护,以及以失陷为前提的架构。

讨论要点: 有用的共识不是“换更安全的模型”,而是“先定义智能体能碰什么、怎样证明它做了什么、什么时候由人审查,以及一旦上下文或工具出问题该如何把它控制住”。

与前日对比: 6 月 6 日强调运行时、桌面界面和持久执行。6 月 7 日则再往下一层,转向权限、审批链和零信任思路。

1.3 技能、插件和调试工具继续让智能体层走向细分 🡕

第三个讨论簇谈的不是另一个通用框架,而是更窄的操作者产品。五条留存条目支撑了这一主题。

@tom_doerr 分享(48 次点赞、3 条回复、2,679 次浏览、51 次收藏)了 ASM,其仓库把它描述为 AI 编程智能体的通用技能管理器。仓库的定位是,为 Claude Code、Codex、Cursor、Windsurf 等客户端统一提供安装、搜索、审计和整理技能的一站式入口,这等于把技能碎片化本身变成了一个独立产品类别。

@iam_elias1 介绍(75 次点赞、31 条回复、6,552 次浏览、29 次收藏)了 SynthTeam:这是一个把公开 Slack 历史蒸馏成本地角色画像文档,并提供 ask-colleague 和 ask-team 技能的插件。README 把边界写得很明确:这些角色画像存放在 ~/.synthteam/ 下,始终保留在本地,而且只是模拟,不代表签字背书——这正是实践者一直在追问的那类限制说明。

@kwindla 宣布(27 次点赞、5 条回复、1,349 次浏览、15 次收藏)发布 Whisker v2.0.0,这是一款 Pipecat 调试器,能展示工作进程、任务、消息总线、帧路径和已保存会话。回复立刻指出了下一个缺口:帧级追踪很有用,但语音团队还想看到仅靠帧本身显示不出来的静默空档延迟和打断因果关系。

@trythreews 发布(219 次点赞、37 条回复、8,007 次浏览)了 three.ws,这是一款浏览器原生的 3D 智能体产品,把实时化身与钱包、技能、记忆、MCP/A2A 连接,以及按次聊天收取 USDC 绑在一起。@orbserv 推出(33 次点赞、15 条回复、1,904 次浏览)了基于 Solana 的智能体市场 OrbMarket 测试版;回复则强调,它支持无需 API 密钥的发现体验和与 x402 绑定的微支付。

讨论要点: 构建者仍在从整条栈里切出某一个操作者任务:技能清点、异步反馈、轨迹可见性、具身界面,或商业化。信息流对“一体化巨型智能体平台”的兴趣减弱了,反而更关注那些能拿掉某个具体协同负担的窄界面。

与前日对比: 6 月 6 日更多是在讨论店铺界面和桌面界面。6 月 7 日则把技能管理和调试单独做成了产品。


2. 令人困扰的问题

薄弱评估和糟糕路由会把便宜智能体变成昂贵的调试闭环

严重性:高。@Vtrivedy10 表示(162 次点赞、9 条回复、17,742 次浏览、254 次收藏),默认配方必须从贴近生产环境的评估、轨迹挖掘和后续蒸馏开始,而有条回复说,糟糕的评估会把每个便宜模型都变成昂贵的调试闭环。@bindureddy 声称(72 次点赞、15 条回复、470,187 次浏览),Lite Agent Swarms 可以让大型闭环便宜 10 倍——做法是让 Opus 4.8 和 GPT-5.5 负责规划,让 DeepSeek Flash 和 Gemma 执行;但回复立刻点出了脆弱环节:任务拆解要干净、状态交接要稳、质量漂移不能悄悄发生。团队目前的应对方式,是手动把重模型路由到规划层,只让轻模型处理边界明确的子任务。这个方向值得做,因为节省是真金白银可见的,但控制逻辑仍然靠手工细调。

智能体还没被有效约束,就先被信任了

严重性:高。@dashboardlim 概括(18 次点赞、4 条回复、11 次收藏)了 Anthropic 的零信任警告:提示词注入、工具投毒、记忆投毒和身份滥用,如今都已是智能体的常规威胁;Anthropic 的 公开框架 也明确建议采用任务级权限、记忆保护和以失陷为前提的设计。@myttle_web3 认为(31 次点赞、5 条回复、16 次收藏),即便一个编码智能体只会写文件,也依然危险;@shannholmberg 梳理(42 次点赞、8 条回复、2,922 次浏览、50 次收藏)时,把边界、评估、人工审查和记忆,与工具和上下文一起放进了同一张清单。当前的权宜方案包括浏览器检查、可审查 diff、白名单和人工审批门。这个方向值得做,因为操作者显然已经从“智能体能不能做”转向“我怎么证明它做了什么,并把它控制在边界里”。

人的 RAM 仍是多智能体编排的天花板

严重性:中。@sudoingX 提出(68 次点赞、6 条回复、2,118 次浏览、56 次收藏),tmux 和沙箱权限就足以让 6 个智能体跑起来而不用另买仪表盘,但最有力的一条回复说,一旦数量再往上走,问题就会变成执行链路、预算、权限、隔离、回放和分诊。当前的权宜方案是把规模控制在小范围内,让每个窗格相互隔离,再让一个主智能体在少数几个工作智能体之间做委派。这个方向值得做,因为信息流显示,人们确实能从简单配置起步,但在真正需要控制平面之前,规模上不去太远。


3. 人们期望的功能

一套默认可用的智能体操作系统,用来管理权限、执行链路和记忆

人们反复描述的,是这样一层运行层:它能记住状态、按任务收紧权限,并让人检查执行链路和回放决策。@sudoingX 表示(68 次点赞、6 条回复、2,118 次浏览、56 次收藏),tmux 在人还能跟得上各个窗格时很好用,但一旦跟不上就不够用了;@shannholmberg (42 次点赞、8 条回复、2,922 次浏览、50 次收藏)边界、人工审查和记忆定义成一等需求。Anthropic 的 《Zero Trust for AI agents》 也从企业侧指向同一个缺口:任务级权限和记忆保护。机会:直接。

面向大规模智能体工作负载的防回归优化闭环

这种需求既现实又紧急。@Vtrivedy10 列出(162 次点赞、9 条回复、17,742 次浏览、254 次收藏)了一套运行框架—评估—轨迹—蒸馏闭环,但回复立刻追问回归该怎么测,并警告说薄弱评估会抹掉任何节省。@bindureddy (72 次点赞、15 条回复、470,187 次浏览)低成本的规划-执行多智能体群描述为一次成本突破,而回复则把真实需求说得更清楚:要有一套不会悄悄拉低质量的路由和状态交接配方。机会:直接。

能看见延迟空档、交接和失败链条的可观测性

@kwindla 宣布(27 次点赞、5 条回复、1,349 次浏览、15 次收藏)了 Whisker,把它作为一套专门面向 Pipecat 的工作进程、任务、帧和消息总线追踪界面推出。但回复已经在追问帧日志仍看不到的东西,尤其是打断处理、静默空档延迟,以及跨工作进程的因果链。今天已有一些局部答案,但信息流仍认为,面向实时智能体的全栈可观测性还远未成型。机会:竞争激烈。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
运行框架工程 + 评估闭环 方法 (+) 给团队一条可复用路径,从基础运行框架一路走到评估、轨迹、蒸馏,再到后续 RL 需要贴近生产环境的评估集和持续的轨迹审查;糟糕评估会掩盖回归
Lite Agent Swarms 路由模式 (+/-) 用高价模型做规划、用便宜模型做执行,承诺让长闭环更快也更便宜 节省取决于任务拆解干净、状态交接稳定,以及路由可靠
tmux 多窗格编排 运行时方法 (+/-) 便宜、简单、无需仪表盘,少量相互隔离的智能体时还能用 很快就会撞上人工监督上限;没有内建的执行链路、预算或回放
Codex 浏览器测试与 diff 闭环 编码工作流 (+) 会读仓库、像用户一样检查应用,并产出可审查 diff 一旦上下文自动压缩,或智能体只会写文件却不验证,信任就会下降
《Zero Trust for AI agents》 安全框架 (+) 清楚点名提示词注入、工具投毒、记忆滥用,以及任务级权限控制 仍是框架,不是开箱即用的控制平面;审批疲劳和工具缺口依然存在
ASM 技能管理器 (+) 把多种编码智能体里的技能安装、搜索、审计和整理集中到一起 仍是早期项目;回复里也出现了对集成层归属和锁定效应的担忧
SynthTeam 插件 (+/-) 从蒸馏后的同事画像里给出本地、异步的反向意见 看不到私信、会议和最新上下文;输出是模拟,不是签字背书
Whisker 可观测性 / 调试 (+) 能展示 Pipecat 应用里的工作进程、任务、总线流量、帧和已保存会话 帧级可见性仍然看不到部分延迟和打断问题

整体满意度光谱很务实。人们愿意把高价规划模型和便宜执行模型混着用,在 tmux 撑不住之前先继续用着,并根据可审计性而不是实验室站队来选 Codex 或 Claude Code。常见权宜方案包括可审查 diff、浏览器检查、任务级沙箱,以及手动把重模型和轻模型分流。竞争态势正从“谁是最好的通用智能体”转向更窄的层——技能管理器、调试器、安全框架和控制平面——它们的价值在于让底层模型足够安全或足够便宜,从而真能用起来。


5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
ASM luongnv89 AI 编程智能体的通用技能管理器 避免团队在 Claude Code、Codex、Cursor、Windsurf 等客户端之间手动来回管理技能 TypeScript、CLI/TUI、跨智能体技能注册表 已上线 仓库, 推文
SynthTeam Nick Winder 把 Slack 历史蒸馏成本地角色画像,并暴露 ask-colleague / ask-team 技能的插件 让团队在打扰真实同事前,先异步压测想法并预判可能的反对意见 Claude/Codex 插件、本地角色画像文档、多智能体蒸馏、Slack 导入 已上线 仓库, 推文
Whisker pipecat-ai Pipecat 语音与多模态智能体的底层调试器 让复杂语音栈里的工作进程流水线、任务、帧和总线流量可见 Python、Node.js UI、Pipecat、WebSocket 追踪 已上线 仓库, 推文
three.ws @trythreews 带实时化身、钱包和按次聊天付费的浏览器原生 3D AI 智能体平台 给智能体提供具身界面,以及支付和可二次组合的分发能力 WebXR、LiveKit、ElevenLabs、Base/Solana USDC、MCP/A2A 已上线 站点, 推文
OrbMarket @orbserv 让自主智能体发现服务并把能力货币化的市场 处理服务发现和智能体间交易,而不是一次性集成 Solana、x402、USDC 微支付 Beta 推文

ASM 和 SynthTeam 共享同一种构建模式:它们不是承诺一个万能智能体,而是把某一件协同杂务明确做成产品。ASM 把跨客户端的技能集中起来,SynthTeam 则造出一层私有的会前反馈层,并明确写清角色画像文档能代表什么、不能代表什么。

Whisker 是当天最清晰的可观测性构建。仓库展示了会话保存和加载,以及跨工作进程追踪,而回复也精确说明了为什么这个品类还会继续增长:语音团队想看到的是空档和打断,不只是事件。

three.ws 和 OrbMarket 把商业界面继续向外推。一者给智能体配上身体、钱包、按次聊天付费和市场里的二次分发;另一者则把智能体当成能发现并购买服务的市场参与者。两者放在一起看,说明智能体商业化正从抽象叙事走向已发布界面,哪怕实际使用仍很早期。


6. 新动态与亮点

零信任智能体安全开始成为一套明确的公开部署框架

@dashboardlim 概括(18 次点赞、4 条回复、11 次收藏)了 Anthropic 的警告:智能体会滥用合法权限、污染记忆,也会被提示词注入或工具投毒欺骗。Anthropic 的 公开框架 也确认了同样的威胁模型,并写明了任务级权限、记忆保护,以及按 AI 速度运行的防御运营。之所以重要,是因为当天的安全讨论已经越过了泛泛的沙箱隔离,进入了有名称的企业架构层。

跨客户端技能管理开始从琐务变成基础设施

@tom_doerr 分享(48 次点赞、3 条回复、2,679 次浏览、51 次收藏)了 ASM,把它描述为一层覆盖 Claude Code、Codex、Cursor、Windsurf 等工具的专用技能层。仓库的定位很关键:安装、搜索、审计和整理,如今都被当作真实的产品界面来做,这说明技能生态已经大到需要库存管理了。

语音智能体追踪开始独立成一个产品层

@kwindla 宣布(27 次点赞、5 条回复、1,349 次浏览、15 次收藏)Whisker v2.0.0 已成为一款专门面向 Pipecat 的调试器,而不再是埋在角落里的开发者小工具。这次发布之所以值得注意,是因为它把工作进程、帧和总线流量都当成了一等界面概念,而回复也立刻定义了下一条前沿——延迟空档和打断因果关系。


7. 机会在哪里

[+++] 具备执行链路、审批、记忆和任务预算的智能体控制平面 —— @shannholmberg (42 次点赞、8 条回复、2,922 次浏览、50 次收藏)边界、评估、人工审查和记忆放进了同一张清单;@sudoingX 表示(68 次点赞、6 条回复、2,118 次浏览、56 次收藏),一旦智能体数量超出人脑 RAM,tmux 就不够用了。Anthropic 的 《Zero Trust for AI agents》 也从企业侧推动同一方向。这个机会很强,因为痛点同时出现在小型 tmux 配置和企业安全指南里。

[++] 长时程智能体工作的验证与路由层 —— @Vtrivedy10 表示(162 次点赞、9 条回复、17,742 次浏览、254 次收藏),评估和轨迹已是默认配方;@bindureddy 声称(72 次点赞、15 条回复、470,187 次浏览),更便宜的规划-执行闭环只有在路由和状态交接保持干净时才成立。这个机会中等偏强,因为 ROI 已经清晰,但当前方案看起来仍像手工拼装。

[++] 可移植的技能管理与分发 —— @tom_doerr 分享(48 次点赞、3 条回复、2,679 次浏览、51 次收藏)了 ASM,@iam_elias1 介绍(75 次点赞、31 条回复、6,552 次浏览、29 次收藏)了 SynthTeam,而 @orbserv 推出(33 次点赞、15 条回复、1,904 次浏览)了 OrbMarket。这个机会中等,因为产品已经在发,但标准和信任信号仍然碎片化。

[+] 面向语音和多智能体运行时内部的可观测性 —— @kwindla 宣布(27 次点赞、5 条回复、1,349 次浏览、15 次收藏)Whisker 是一层面向 Pipecat 的帧级和任务级追踪层,而回复显示,下一个尚未解决的层是延迟、打断和因果回放。这个机会仍在萌芽,但已经很真实。


8. 要点总结

  1. 运行框架工程现在正被打包成教育内容和优化闭环。 @sairahul1 分享(635 次点赞、19 条回复、93,576 次浏览、1,388 次收藏)了一门公开课程,而 @Vtrivedy10 列出(162 次点赞、9 条回复、17,742 次浏览、254 次收藏)了围绕它的一套运行框架、评估与轨迹配方。
  2. 信任正在变成工作流属性,而不是品牌属性。 @shannholmberg (42 次点赞、8 条回复、2,922 次浏览、50 次收藏)边界、人工审查和记忆定义成一等设计输入,而 @myttle_web3 认为(31 次点赞、5 条回复、16 次收藏),可审计性始于浏览器检查和可审查 diff。
  3. 便宜的多智能体系统,只有路由做好时才真的便宜。 @Vtrivedy10 表示(162 次点赞、9 条回复、17,742 次浏览、254 次收藏),糟糕的评估会抹掉节省;@bindureddy 声称(72 次点赞、15 条回复、470,187 次浏览),大型闭环只有在拆解保持干净时,才会因为规划-执行路由而显著变便宜。
  4. 技能层正在裂变成专门产品。 @tom_doerr 分享(48 次点赞、3 条回复、2,679 次浏览、51 次收藏)了 ASM,@iam_elias1 介绍(75 次点赞、31 条回复、6,552 次浏览、29 次收藏)了 SynthTeam,而 @orbserv 推出(33 次点赞、15 条回复、1,904 次浏览)了 OrbMarket,把它们做成了彼此独立的界面。
  5. 可观测性正在成为智能体平台的竞争优势。 @kwindla 宣布(27 次点赞、5 条回复、1,349 次浏览、15 次收藏)Whisker 是一款专门的追踪产品,而回复也立刻把延迟空档和打断链条当成了下一批产品需求。