Twitter AI Agent - 2026-06-09¶
1. 人们在讨论什么¶
1.1 运行框架工程从口号变成了用来补上失败缺口的基础设施 🡕¶
6 月 9 日最强的主题,是运行框架工程变得更具体了:讨论从泛泛的“要闭环,不要提示词”,转向了具体的验证器设计、打断处理,以及可自我改进的运行框架。4 条留存条目支撑了这一主题,而且都把运行框架当成主要的可靠性界面,而不是模型外面那层薄薄的包装。
@akshay_pachaar 认为(207 次点赞、39 条回复、19,751 次浏览、263 次收藏),无人值守闭环并没有消除调试,只是把调试转移到了没人看着的运行里,所以只有在检查器值得信任时,闭环才真正有用。附图把这一点说得很具体:它对比了一套靠人工读轨迹的工作流,以及一套能把失败变成根因分析、提出 diff、重新运行并锁定回归测试的自闭合循环。

@HowToAI_ 把(210 次点赞、20 条回复、10,123 次浏览、211 次收藏)伊利诺伊大学、Meta 和 Stanford 的新综述概括为《Code as Agent Harness》,并认为代码正逐渐成为智能体系统的记忆、环境和边界,而不再只是它们的最终输出。论文仓库 Code as Agent Harness 说明,这个领域正在围绕运行框架接口、运行框架机制,以及运行框架扩展来组织,这与当天从提示词措辞转向可执行、可验证脚手架的变化完全一致。

@omarsar0 分享(76 次点赞、10 条回复、4,033 次浏览、107 次收藏)了新论文 Self-Harness,这篇工作把提示词、工具和控制流都视为可学习工件,而不是需要人工维护的脚手架。图中的预印本页面写得很清楚:这个闭环由弱点挖掘、运行框架提案和提案验证组成,并报告在三个基础模型家族上都提升了留出集通过率。
@threepointone 发出(49 次点赞、4 条回复、2,905 次浏览、37 次收藏)了一张“运行框架可靠性工程”状态机图,把 RetryTurn、ParkForHuman、PreserveResult、RepairTranscript 和 ReattachChild 等中断结果都标了出来。这张图之所以重要,是因为它把可靠性工作翻译成了明确的运行时状态转移,而不是模糊建议。

讨论要点: 最有价值的反驳是:如果没有闭环之外的机制察觉并补上失败,闭环仍会悄无声息地失败。Akshay 那条讨论串下的回复强调,调试从未消失;系统只是把调试发生的位置变得更复杂了。
与前日对比: 6 月 8 日让“闭环工程”成了主流速记。6 月 9 日则进一步把它具体化,把验证器、可自我改进的运行框架和中断状态设计推到了中心。
1.2 Claude Fable 5 让模型质量变成了关于路由和编排的争论 🡕¶
第二个主要讨论簇是 Anthropic 发布 Claude Fable 5,但真正有意思的部分并不只是对基准测试的追捧。3 条留存条目支撑了这一主题,而且合在一起,把这次发布变成了一场运营层讨论:什么时候该用前沿智能、什么时候该委派、又该由谁来路由这些工作。
@kimmonismus 总结(628 次点赞、35 条回复、63,043 次浏览、132 次收藏)称,Fable 5 在软件工程、知识工作、视觉和科学研究方面都达到了最先进水平;附带的基准测试表则给出了发布日的头条数字:Claude Mythos 5 / Fable 5 在 SWE-Bench Pro 上是 80.3%,在 FrontierCode Diamond 上是 29.3%,在 Terminal-Bench 2.1 上是 88.0%。另一张附图比较了不同 effort level 下的成本与准确率,让这种取舍本身也成了讨论焦点。

@JJEnglert 评测(161 次点赞、17 条回复、28,936 次浏览、226 次收藏)时采用了非工程师操作者视角——他在真实工作里大约花掉了 10 亿 token。他的讨论串说,Fable 发现了 Claude 4.8 和 GPT-5.5 都漏掉的严重 bug;但同一篇评测也把控制问题说得很直白:他希望有一个自动路由器,能在简单任务上自动降档,只有在任务值得付出成本时才升级到 Fable。
@ClaudeDevs 展示(107 次点赞、1 条回复、33,449 次浏览、27 次收藏)了这次发布如何立刻被打包进一种 manager-worker 模式:一个运行在 Claude Fable 5 上的协调智能体,把代码审查和测试编写委派给更小的智能体。截图之所以重要,是因为它把“底下用小模型”变成了具体代码,而不是一句模糊策略。

讨论要点: 两类讨论串下最重要的细节都来自回复:一些从业者预计,最大的收益主要会出现在更长的任务和更大的代码库上;即便是非常看多的用户,也仍然在描述手工路由,而不是相信某一个模型能包打天下。
与前日对比: 6 月 8 日已经把模型选择定义成路由问题。6 月 9 日则补上了 benchmark 截图、操作者经济账和协调器代码片段,让这个论点在发布日就直接进入实践。
1.3 工作流界面、技能和交付运行框架继续被打包成产品 🡕¶
第三个主题是封装。5 条留存条目支撑了这一点,而且它们都在把焦点从独立聊天壳子移开,转向更持久的工作界面:桌面运行时、可复用工作流模板、可移植技能,以及交付运行框架。
@karrisaarinen 写道(121 次点赞、15 条回复、8,585 次浏览、71 次收藏),他想要一款智能体工作流工具:能描述工作项、分配任务、审查代码 diff、多人协作、收集客户上下文、定义共享技能和 MCP server,并且可以从 Slack 运行。这条帖子给出了当天最明确的一份第一人称产品需求清单,目标直指智能体控制平面。
@ollama 宣布(213 次点赞、14 条回复、9,331 次浏览、99 次收藏),Hermes Desktop 现在只需一条命令就能通过 Ollama 运行。Hermes 文档和 Hermes Agent 仓库 描述的是同一种封装动作:桌面安装器、20 多个消息界面、定时自动化、MCP 支持、隔离的子智能体,以及内置学习闭环。

@tonbistudio 分享(39 次点赞、2 条回复、3,006 次浏览、49 次收藏)了一套开源的 Hermes multi-agent workflow 模板,其 README 给出了固定结构:接单、去重、评分、并行研究、路由、一个人工闸门,以及交付。@Coo_Lxing 介绍(16 次点赞、853 次浏览、15 次收藏)了 Loom,把它定义为一种交付运行框架,覆盖规划、验证、修复、预览和交接,并且能在打断和压缩之后存活下来。
@twostraws 分享(98 次点赞、4 条回复、3,095 次浏览、20 次收藏),Xcode 展示了他的一个智能体技能,而 Swift Testing Agent Skill 仓库 也直接写明了它能安装到 Xcode、Claude Code、Codex、Cursor 和 Gemini。@LangChain 又补了一层(15 次点赞、2 条回复、1,780 次浏览、12 次收藏),推出了 interpreter skills:一种技能可以随附一个 TypeScript 模块,由运行时导入并执行。

讨论要点: 大家的共同诉求不是“给我一个更聪明的聊天框”,而是“给我一个计划、技能、工具、上下文、验证和交接都能持续存在的地方”。
与前日对比: 6 月 8 日已经出现了 Slack、Xcode 和部署栈中的技能。6 月 9 日则把这种封装进一步扩展到桌面运行时、可执行技能、可复用分诊模板,以及交付运行框架。
2. 令人困扰的问题¶
无人值守闭环中的静默失败¶
严重程度:高。@akshay_pachaar 认为(207 次点赞、39 条回复、19,751 次浏览、263 次收藏),无人值守闭环只有在检查器可信时才有帮助,否则人还是得回头手工读轨迹。@threepointone 发出(49 次点赞、4 条回复、2,905 次浏览、37 次收藏)的一张状态机图里满是中断分支,说明有多少失败处理都发生在顺利路径之外。Loom README 也把同样的故障点直接写了出来:做到一半、目标漂移、自检偏差、token 浪费,以及交接缺口。当前的应对方式,是构建修复闭环、人工挂起状态和回归锁定。这值得构建,因为信息流把静默失败当成基础设施债,而不是用户犯错。
长时运行的智能体工作仍然缺少持久控制平面¶
严重程度:高。@karrisaarinen 写道(121 次点赞、15 条回复、8,585 次浏览、71 次收藏),他想要一款工作流工具,能覆盖计划、任务分配、diff 审查、多人协作、共享技能、共享 MCP server,以及 Slack 原生运行。Hermes multi-agent workflow 模板和 Loom 都补上了这类缺口的一部分——例如单个人工闸门路由、持久任务状态和交付证据——但它们都更像是等待用户改造的结构,而不是开箱即用的控制平面。现有权宜方案是模板、Kanban 板和自定义运行框架。这个需求看起来很强,因为抱怨集中在连续性、可检查性和共享上下文,而不是模型本身的智能不够。
手工路由仍然是前沿模型性能的隐性税¶
严重程度:高。@JJEnglert 评测(161 次点赞、17 条回复、28,936 次浏览、226 次收藏)时认为 Claude Fable 5 值得为困难工作付费,但也明确要求一个自动路由器,把前沿推理留给真正值得的任务。@ClaudeDevs 展示(107 次点赞、1 条回复、33,449 次浏览、27 次收藏)了一个权宜方案:把子任务委派给更小的智能体;而回复 @kimmonismus 那条总结(628 次点赞、35 条回复、63,043 次浏览、132 次收藏)Fable 5 的讨论串时,也有人说这些收益可能会在更大的代码库和更长的运行里最明显。当前的权宜方案,是在前沿规划者和便宜执行者之间手工搭接中继链路。这使它值得构建,因为价值已经看得见,但路由逻辑仍主要存在于操作者判断里。
MCP 与企业工具暴露范围默认仍然过宽¶
严重程度:中。@saketsaurabh 发布(98 次点赞、10 条回复、3,357 次浏览、14 次收藏)了 MCP Studio,并认为“一应用一个 MCP server”的方式会带来太多工具、太多 token,以及太多治理问题。他在讨论串里写道,真实的企业任务会横跨 Salesforce、Snowflake、NetSuite、ServiceNow、Workday 和内部系统,因此把每个应用都镜像进同一堆工具,会让生产使用承受很大压力。当前权宜方案是手工裁剪工具,或为任务单独配置。这值得构建,因为抱怨点是作用域控制和治理,而不是功能不全。
3. 人们期望的功能¶
一层共享工作流,用来承载计划、diff、上下文和团队协作¶
这是 6 月 9 日最明确、最直接的需求。@karrisaarinen 写道(121 次点赞、15 条回复、8,585 次浏览、71 次收藏),他想要一个工具,能描述工作项、给智能体分配任务、审查 diff、多人协作、收集客户上下文、定义共享技能和 MCP server,并从 Slack 运行。Hermes multi-agent workflow 和 Loom 仓库如今都给出了一部分答案,但两者都仍然默认用户会按自己的流程去改造这些结构。机会:直接。
在前沿规划者和便宜 worker 之间自动路由¶
这种需求既紧迫又高度运营化。@JJEnglert 评测(161 次点赞、17 条回复、28,936 次浏览、226 次收藏)Fable 5 时持正面看法,但仍要求一个自动路由器:在简单工作上自动降档,只有当任务值得前沿成本时才升级。@ClaudeDevs 展示(107 次点赞、1 条回复、33,449 次浏览、27 次收藏)了这种手工版本已经在发生——通过协调器加 subagent 的编排;而 @kimmonismus 总结(628 次点赞、35 条回复、63,043 次浏览、132 次收藏)的 benchmark 提升,也让这个路由决策在经济上变得更有意义。机会:直接。
能扛住打断、压缩和交接的交付运行框架¶
这种需求更务实,而不是理想化愿望。@Coo_Lxing 介绍(16 次点赞、853 次浏览、15 次收藏)Loom 时,把它定义为覆盖规划、验证、修复、预览和交接的交付运行框架;仓库说明它的目标,是保留项目上下文、测试结果、修复说明、预览证据和交付报告,让下一次会话或下一个智能体可以不用重启就接着做。@akshay_pachaar 认为(207 次点赞、39 条回复、19,751 次浏览、263 次收藏),补上失败的逻辑必须被明确构建出来;而 @threepointone 发出(49 次点赞、4 条回复、2,905 次浏览、37 次收藏)的状态图,则从中断状态视角呈现了同一个问题。机会:直接。
携带可执行行为而不只是说明文字的可移植技能¶
这种需求带有竞争属性,但也是真实存在的。@twostraws 分享(98 次点赞、4 条回复、3,095 次浏览、20 次收藏)了一种可安装在 Xcode 和其他编码智能体上的技能;Swift Testing Agent Skill 仓库 也直接记录了这些跨界面的安装路径。@LangChain 又补了一层(15 次点赞、2 条回复、1,780 次浏览、12 次收藏),推出 interpreter skills:SKILL.md 可以和一个 TypeScript 模块一起发布,由 interpreter 导入并运行。两者底下的诉求都很明确:可复用技能包应该既可执行、又可移植,还可版本化。机会:竞争型。
4. 使用中的工具与方法¶
| 工具 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| 运行框架工程 / 自闭合循环 | 方法 | (+) | 能把轨迹转成根因分析、重跑和回归锁定 | 仍然依赖可信检查器和显式失败处理 |
| Code as Agent Harness | 研究 / 设计模式 | (+) | 把代码视为可执行的记忆、环境和验证基底 | 更像研究框架,而不是开箱即用产品 |
| Claude Fable 5 | 前沿 LLM | (+/-) | 在编码和长时程任务上有很强的 benchmark 表现,也能发现其他模型漏掉的问题 | token 成本仍然很高,而且路由仍靠手工 |
| Claude Managed Agents pattern | 多智能体编排 | (+) | 让一个前沿协调器把审查和测试编写委派给更小的智能体 | 仍需要操作者判断智能体拆分和任务路由 |
| Hermes Desktop + Ollama | 桌面运行时 | (+) | 本地友好的 GUI、subagent、技能、消息集成和 MCP 支持 | 相比单终端编码工作流,产品复杂度更高 |
| Hermes multi-agent workflow | 编排模板 | (+) | 为团队提供一条可复用的接单—研究—人工闸门流水线 | 只是模板;仍需要领域适配和运维搭建 |
| Loom | 交付运行框架 | (+) | 保留上下文、验证证据、修复说明、预览检查和交接状态 | 项目还早,小型一次性修改会觉得流程额外偏重 |
| LangChain interpreter skills | 技能封装 | (+) | 为技能增加可执行的 TypeScript 模块,从而复用行为 | 需要 interpreter 支持和刻意设计的暴露控制 |
| Swift Testing Agent Skill | 智能体技能 | (+) | 为 Xcode 和多种编码智能体打包了高信号的 Swift Testing 指引 | 领域较窄;价值取决于团队是否已经在用技能 |
| MCP Studio | 工具网关 / MCP | (+/-) | 围绕任务收窄工具范围,而不是把每个应用都镜像进一个 server | 仍需证明它在复杂企业技术栈中的治理和可用性 |
| Cantrip | 智能体运行时 | (+/-) | 明确边界、可回放 looms、子任务组合,以及 ACP 支持 | 新运行时概念可能很强,但也增加采用摩擦 |
整体满意度依旧务实。人们真正兴奋的,是那些让智能体更可检查、可恢复、可封装的方法和产品,而不只是“更自主”。最主要的迁移模式是:把前沿模型留给规划或审查,把有边界的工作压给更小的执行智能体或可复用工作流,再把长时程连续性搬进运行框架、技能或桌面运行时(@JJEnglert 评测(161 次点赞、17 条回复、28,936 次浏览、226 次收藏);@ClaudeDevs 展示(107 次点赞、1 条回复、33,449 次浏览、27 次收藏);Hermes 文档;Loom;Hermes multi-agent workflow)。竞争态势正在转向“谁能在模型外面做出最好的控制层”。
5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 阶段 | 链接 |
|---|---|---|---|---|---|---|
| Hermes multi-agent workflow | @tonbistudio | 可复用的自治分诊流水线,覆盖接单、去重、评分、并行研究、路由、一个人工闸门和交付 | 为团队提供一个具体的编排骨架,而不是从零发明工作流 | Python、YAML triage.yaml、Hermes Kanban |
已发布 | repo, tweet |
| Loom | @Coo_Lxing | 面向编码智能体的开源交付运行框架,带规划、验证、修复、预览和交接状态 | 让长时运行的交付工作在打断、压缩和交接后仍能保持对齐 | 与智能体无关的 CLI、动态工作流、持久化的 .loom/ 状态 |
Alpha | repo, tweet |
| Hermes Desktop | Nous Research | Hermes Agent 的桌面界面,支持本地或云模型、subagent、技能和消息集成 | 把一个可自我改进的智能体运行时封装进 GUI 和本地友好的安装流程 | 桌面应用、Hermes Agent 运行时、Ollama、MCP、subagent | 已发布 | docs, repo, tweet |
| Swift Testing Agent Skill | @twostraws | 用于在 Xcode 和编码智能体中编写和改进 Swift 测试的可移植技能 | 把领域专业知识封装成可安装技能,而不是每次重复讲一遍提示词 | Swift 技能包、Xcode plug-in、Claude Code/Codex/Cursor/Gemini 安装 | 已发布 | repo, tweet |
| Cantrip | deepfates | 以 circles、media、gates、wards、looms 和 child composition 为组织方式的 Elixir 智能体运行时 | 为智能体开发者提供明确边界、回放、持久状态和 ACP 访问 | Elixir、OTP processes、JSONL/Mnesia loom storage、ACP | Alpha | repo, tweet |
| MCP Studio | @saketsaurabh | 面向任务的 MCP 层,目标是为一项工作把跨系统的正确工具组织在一起 | 减少“一应用一个 server”式 MCP 配置带来的工具泛滥、token 开销和治理问题 | MCP、企业 SaaS 连接器、按任务路由工具 | Beta | tweet |
共同的构建模式并不是“一个智能体统治一切”,而是“把协同层外部化”。Hermes multi-agent workflow 和 Loom 都把智能体工作变成了一个带明确闸门的分阶段交付流程;而 Hermes Desktop 和 Cantrip,则把记忆、委派和运行时边界封装成了可复用界面。
Swift Testing Agent Skill 和 LangChain 的 interpreter-skills 方向,则指向另一种反复出现的模式:专业知识正被当作可移植模块来发布。这一点很重要,因为信息流持续奖励那些把行为做成可安装、可审查、可复用形式的项目,而不是每次运行都重新解释一遍。
MCP Studio 则从企业侧切入了同一趋势。它不是把每个系统里的所有工具都暴露出来,而是主张围绕每个任务组合出恰当的工具子集,这本质上也是一种工作流封装。
6. 新动态与亮点¶
“代码即运行框架”研究成了当天最清晰的概念锚点¶
@HowToAI_ 把(210 次点赞、20 条回复、10,123 次浏览、211 次收藏)伊利诺伊大学、Meta 和 Stanford 的综述概括为:从自然语言推理,转向把代码视为记忆、环境和边界。公开仓库 Code as Agent Harness 说明,这个领域如今正围绕运行框架接口、运行框架机制,以及运行框架扩展来组织。这之所以重要,是因为它给整条信息流里已经成形的更广泛运行框架讨论,提供了一个名字和一套结构。
发布日的 Fable benchmark 图片,让编码智能体竞赛更尖锐了¶
@kimmonismus 总结(628 次点赞、35 条回复、63,043 次浏览、132 次收藏)Claude Fable 5 时贴出了基准测试截图,用具体数字把模型讨论钉死:附表显示,它在 SWE-Bench Pro 上是 80.3%,在 FrontierCode Diamond 上是 29.3%,在 Terminal-Bench 2.1 上是 88.0%。这很重要,因为当天围绕模型的争论几乎立刻就不再抽象,而转成了关于工作负载、effort 设置和路由决策的讨论。
技能开始附带可执行代码,而不只是 Markdown 说明¶
@LangChain 新增(15 次点赞、2 条回复、1,780 次浏览、12 次收藏)了 interpreter skills,作为 agent skills 的一项新扩展。公开的 interpreter skills 说明 解释了这种变化:一个技能现在可以随附一个 TypeScript 模块,由 interpreter 导入并运行,且 subagent 和工具调用都受明确的运行时暴露控制约束。这之所以重要,是因为技能由此同时变成了说明界面和 API 界面。
7. 机会在哪里¶
[+++] 智能体交付控制平面 —— 最强的证据同时来自多个部分:@karrisaarinen 写道(121 次点赞、15 条回复、8,585 次浏览、71 次收藏),直接给出了一份工作流工具规格;@akshay_pachaar 认为(207 次点赞、39 条回复、19,751 次浏览、263 次收藏),闭环需要值得信任的失败补全逻辑;Loom 明确就是在为打断、验证、修复和交接构建;而 Hermes multi-agent workflow 则把“一道人工闸门”的流水线封装好了。这个缺口很强,因为零件已经齐了,但共享控制平面看起来仍然碎片化。
[++] 前沿模型路由和委派式 worker 编排 —— @JJEnglert 评测(161 次点赞、17 条回复、28,936 次浏览、226 次收藏)时认为 Fable 5 很有价值,但路由仍然太手工;@ClaudeDevs 展示(107 次点赞、1 条回复、33,449 次浏览、27 次收藏)了一种协调器加 subagent 模式;而 @kimmonismus 总结(628 次点赞、35 条回复、63,043 次浏览、132 次收藏)的 benchmark 提升,又足够大到值得严肃对待路由纪律。这个机会中等,因为经济账已经很明显,但策略仍主要装在人脑里。
[++] 可移植、可执行的技能和工作流工件 —— @twostraws 分享(98 次点赞、4 条回复、3,095 次浏览、20 次收藏)了一种可安装到多个智能体界面的技能;@LangChain 新增(15 次点赞、2 条回复、1,780 次浏览、12 次收藏)了可执行的 interpreter skills;@tonbistudio 分享(39 次点赞、2 条回复、3,006 次浏览、49 次收藏)了一套可复用的分诊模板。这个机会中等,因为封装模式已经很清楚,但标准和分发都还早期。
[+] 面向任务作用域的 MCP 与企业工具治理层 —— @saketsaurabh 发布(98 次点赞、10 条回复、3,357 次浏览、14 次收藏)MCP Studio 时指出,“一应用一个 MCP server”会带来太多工具、token 和治理问题。这个机会仍在萌芽,因为痛点很具体,但这个品类看起来还很新,也很依赖特定厂商。
8. 要点总结¶
- 今天关于运行框架的讨论更偏运营实践了。 @akshay_pachaar 认为(207 次点赞、39 条回复、19,751 次浏览、263 次收藏),只有检查器可信,闭环才有帮助;而 @threepointone 发出(49 次点赞、4 条回复、2,905 次浏览、37 次收藏)了一张处理中断的状态机图。(source)
- 这波转向背后的研究框架,现在更清楚了。 @HowToAI_ 把(210 次点赞、20 条回复、10,123 次浏览、211 次收藏)代码定义为运行框架;公开的 Code as Agent Harness 仓库则把这个想法整理成接口、机制和扩展性问题。(source)
- Fable 5 让路由纪律变得更重要,而不是更不重要。 @kimmonismus 总结(628 次点赞、35 条回复、63,043 次浏览、132 次收藏)了 benchmark 提升,但 @JJEnglert 评测(161 次点赞、17 条回复、28,936 次浏览、226 次收藏)同一次发布时,仍然要求有自动路由器。(source)
- 缺失中的产品,是一层持久的智能体工作流。 @karrisaarinen 写道(121 次点赞、15 条回复、8,585 次浏览、71 次收藏),给出了当天最明确的需求清单;而 Loom 和 Hermes multi-agent workflow 都在尝试补上这类缺口的一部分。(source)
- 技能正在变成可执行、可移植的资产。 @twostraws 分享(98 次点赞、4 条回复、3,095 次浏览、20 次收藏)了一次跨界面技能安装;而 @LangChain 新增(15 次点赞、2 条回复、1,780 次浏览、12 次收藏)了会把可运行代码与说明一起打包的 interpreter skills。(source)