跳转至

Twitter AI Agent - 2026-06-09

1. 人们在讨论什么

1.1 运行框架工程从口号变成了用来补上失败缺口的基础设施 🡕

6 月 9 日最强的主题,是运行框架工程变得更具体了:讨论从泛泛的“要闭环,不要提示词”,转向了具体的验证器设计、打断处理,以及可自我改进的运行框架。4 条留存条目支撑了这一主题,而且都把运行框架当成主要的可靠性界面,而不是模型外面那层薄薄的包装。

@akshay_pachaar 认为(207 次点赞、39 条回复、19,751 次浏览、263 次收藏),无人值守闭环并没有消除调试,只是把调试转移到了没人看着的运行里,所以只有在检查器值得信任时,闭环才真正有用。附图把这一点说得很具体:它对比了一套靠人工读轨迹的工作流,以及一套能把失败变成根因分析、提出 diff、重新运行并锁定回归测试的自闭合循环。

对比图:一边是人工读轨迹的调试闭环,另一边是会提出修复、重跑并锁定回归的自闭合循环

@HowToAI_ (210 次点赞、20 条回复、10,123 次浏览、211 次收藏)伊利诺伊大学、Meta 和 Stanford 的新综述概括为《Code as Agent Harness》,并认为代码正逐渐成为智能体系统的记忆、环境和边界,而不再只是它们的最终输出。论文仓库 Code as Agent Harness 说明,这个领域正在围绕运行框架接口、运行框架机制,以及运行框架扩展来组织,这与当天从提示词措辞转向可执行、可验证脚手架的变化完全一致。

《Code as Agent Harness》综述封面,来自 Illinois、Meta 和 Stanford,描述可执行、可验证、带状态的智能体系统

@omarsar0 分享(76 次点赞、10 条回复、4,033 次浏览、107 次收藏)了新论文 Self-Harness,这篇工作把提示词、工具和控制流都视为可学习工件,而不是需要人工维护的脚手架。图中的预印本页面写得很清楚:这个闭环由弱点挖掘、运行框架提案和提案验证组成,并报告在三个基础模型家族上都提升了留出集通过率。

@threepointone 发出(49 次点赞、4 条回复、2,905 次浏览、37 次收藏)了一张“运行框架可靠性工程”状态机图,把 RetryTurnParkForHumanPreserveResultRepairTranscriptReattachChild 等中断结果都标了出来。这张图之所以重要,是因为它把可靠性工作翻译成了明确的运行时状态转移,而不是模糊建议。

运行框架可靠性工程状态机图,展示中断处理、挂起等待人工、子任务重新挂接和继续执行路径

讨论要点: 最有价值的反驳是:如果没有闭环之外的机制察觉并补上失败,闭环仍会悄无声息地失败。Akshay 那条讨论串下的回复强调,调试从未消失;系统只是把调试发生的位置变得更复杂了。

与前日对比: 6 月 8 日让“闭环工程”成了主流速记。6 月 9 日则进一步把它具体化,把验证器、可自我改进的运行框架和中断状态设计推到了中心。

1.2 Claude Fable 5 让模型质量变成了关于路由和编排的争论 🡕

第二个主要讨论簇是 Anthropic 发布 Claude Fable 5,但真正有意思的部分并不只是对基准测试的追捧。3 条留存条目支撑了这一主题,而且合在一起,把这次发布变成了一场运营层讨论:什么时候该用前沿智能、什么时候该委派、又该由谁来路由这些工作。

@kimmonismus 总结(628 次点赞、35 条回复、63,043 次浏览、132 次收藏)称,Fable 5 在软件工程、知识工作、视觉和科学研究方面都达到了最先进水平;附带的基准测试表则给出了发布日的头条数字:Claude Mythos 5 / Fable 5 在 SWE-Bench Pro 上是 80.3%,在 FrontierCode Diamond 上是 29.3%,在 Terminal-Bench 2.1 上是 88.0%。另一张附图比较了不同 effort level 下的成本与准确率,让这种取舍本身也成了讨论焦点。

基准测试表:比较 Claude Mythos 5 或 Fable 5、Claude Opus 4.8、GPT-5.5 和 Gemini 3.1 Pro 在编码、知识工作、工具使用和网络安全任务上的表现

@JJEnglert 评测(161 次点赞、17 条回复、28,936 次浏览、226 次收藏)时采用了非工程师操作者视角——他在真实工作里大约花掉了 10 亿 token。他的讨论串说,Fable 发现了 Claude 4.8 和 GPT-5.5 都漏掉的严重 bug;但同一篇评测也把控制问题说得很直白:他希望有一个自动路由器,能在简单任务上自动降档,只有在任务值得付出成本时才升级到 Fable。

@ClaudeDevs 展示(107 次点赞、1 条回复、33,449 次浏览、27 次收藏)了这次发布如何立刻被打包进一种 manager-worker 模式:一个运行在 Claude Fable 5 上的协调智能体,把代码审查和测试编写委派给更小的智能体。截图之所以重要,是因为它把“底下用小模型”变成了具体代码,而不是一句模糊策略。

TypeScript 示例:一个协调智能体使用 Claude Fable 5,把审查和测试编写工作委派给更小的智能体

讨论要点: 两类讨论串下最重要的细节都来自回复:一些从业者预计,最大的收益主要会出现在更长的任务和更大的代码库上;即便是非常看多的用户,也仍然在描述手工路由,而不是相信某一个模型能包打天下。

与前日对比: 6 月 8 日已经把模型选择定义成路由问题。6 月 9 日则补上了 benchmark 截图、操作者经济账和协调器代码片段,让这个论点在发布日就直接进入实践。

1.3 工作流界面、技能和交付运行框架继续被打包成产品 🡕

第三个主题是封装。5 条留存条目支撑了这一点,而且它们都在把焦点从独立聊天壳子移开,转向更持久的工作界面:桌面运行时、可复用工作流模板、可移植技能,以及交付运行框架。

@karrisaarinen 写道(121 次点赞、15 条回复、8,585 次浏览、71 次收藏),他想要一款智能体工作流工具:能描述工作项、分配任务、审查代码 diff、多人协作、收集客户上下文、定义共享技能和 MCP server,并且可以从 Slack 运行。这条帖子给出了当天最明确的一份第一人称产品需求清单,目标直指智能体控制平面。

@ollama 宣布(213 次点赞、14 条回复、9,331 次浏览、99 次收藏),Hermes Desktop 现在只需一条命令就能通过 Ollama 运行。Hermes 文档Hermes Agent 仓库 描述的是同一种封装动作:桌面安装器、20 多个消息界面、定时自动化、MCP 支持、隔离的子智能体,以及内置学习闭环。

Hermes Agent 桌面界面,展示本地 GUI 界面中的技能、消息和工件

@tonbistudio 分享(39 次点赞、2 条回复、3,006 次浏览、49 次收藏)了一套开源的 Hermes multi-agent workflow 模板,其 README 给出了固定结构:接单、去重、评分、并行研究、路由、一个人工闸门,以及交付。@Coo_Lxing 介绍(16 次点赞、853 次浏览、15 次收藏)了 Loom,把它定义为一种交付运行框架,覆盖规划、验证、修复、预览和交接,并且能在打断和压缩之后存活下来。

@twostraws 分享(98 次点赞、4 条回复、3,095 次浏览、20 次收藏),Xcode 展示了他的一个智能体技能,而 Swift Testing Agent Skill 仓库 也直接写明了它能安装到 Xcode、Claude Code、Codex、Cursor 和 Gemini。@LangChain 又补了一层(15 次点赞、2 条回复、1,780 次浏览、12 次收藏),推出了 interpreter skills:一种技能可以随附一个 TypeScript 模块,由运行时导入并执行。

Xcode 插件安装器指向 Swift Testing Agent Skill 仓库,展示智能体技能已成为可安装工件

讨论要点: 大家的共同诉求不是“给我一个更聪明的聊天框”,而是“给我一个计划、技能、工具、上下文、验证和交接都能持续存在的地方”。

与前日对比: 6 月 8 日已经出现了 Slack、Xcode 和部署栈中的技能。6 月 9 日则把这种封装进一步扩展到桌面运行时、可执行技能、可复用分诊模板,以及交付运行框架。


2. 令人困扰的问题

无人值守闭环中的静默失败

严重程度:高。@akshay_pachaar 认为(207 次点赞、39 条回复、19,751 次浏览、263 次收藏),无人值守闭环只有在检查器可信时才有帮助,否则人还是得回头手工读轨迹。@threepointone 发出(49 次点赞、4 条回复、2,905 次浏览、37 次收藏)的一张状态机图里满是中断分支,说明有多少失败处理都发生在顺利路径之外。Loom README 也把同样的故障点直接写了出来:做到一半、目标漂移、自检偏差、token 浪费,以及交接缺口。当前的应对方式,是构建修复闭环、人工挂起状态和回归锁定。这值得构建,因为信息流把静默失败当成基础设施债,而不是用户犯错。

长时运行的智能体工作仍然缺少持久控制平面

严重程度:高。@karrisaarinen 写道(121 次点赞、15 条回复、8,585 次浏览、71 次收藏),他想要一款工作流工具,能覆盖计划、任务分配、diff 审查、多人协作、共享技能、共享 MCP server,以及 Slack 原生运行。Hermes multi-agent workflow 模板和 Loom 都补上了这类缺口的一部分——例如单个人工闸门路由、持久任务状态和交付证据——但它们都更像是等待用户改造的结构,而不是开箱即用的控制平面。现有权宜方案是模板、Kanban 板和自定义运行框架。这个需求看起来很强,因为抱怨集中在连续性、可检查性和共享上下文,而不是模型本身的智能不够。

手工路由仍然是前沿模型性能的隐性税

严重程度:高。@JJEnglert 评测(161 次点赞、17 条回复、28,936 次浏览、226 次收藏)时认为 Claude Fable 5 值得为困难工作付费,但也明确要求一个自动路由器,把前沿推理留给真正值得的任务。@ClaudeDevs 展示(107 次点赞、1 条回复、33,449 次浏览、27 次收藏)了一个权宜方案:把子任务委派给更小的智能体;而回复 @kimmonismus 那条总结(628 次点赞、35 条回复、63,043 次浏览、132 次收藏)Fable 5 的讨论串时,也有人说这些收益可能会在更大的代码库和更长的运行里最明显。当前的权宜方案,是在前沿规划者和便宜执行者之间手工搭接中继链路。这使它值得构建,因为价值已经看得见,但路由逻辑仍主要存在于操作者判断里。

MCP 与企业工具暴露范围默认仍然过宽

严重程度:中。@saketsaurabh 发布(98 次点赞、10 条回复、3,357 次浏览、14 次收藏)了 MCP Studio,并认为“一应用一个 MCP server”的方式会带来太多工具、太多 token,以及太多治理问题。他在讨论串里写道,真实的企业任务会横跨 Salesforce、Snowflake、NetSuite、ServiceNow、Workday 和内部系统,因此把每个应用都镜像进同一堆工具,会让生产使用承受很大压力。当前权宜方案是手工裁剪工具,或为任务单独配置。这值得构建,因为抱怨点是作用域控制和治理,而不是功能不全。


3. 人们期望的功能

一层共享工作流,用来承载计划、diff、上下文和团队协作

这是 6 月 9 日最明确、最直接的需求。@karrisaarinen 写道(121 次点赞、15 条回复、8,585 次浏览、71 次收藏),他想要一个工具,能描述工作项、给智能体分配任务、审查 diff、多人协作、收集客户上下文、定义共享技能和 MCP server,并从 Slack 运行。Hermes multi-agent workflowLoom 仓库如今都给出了一部分答案,但两者都仍然默认用户会按自己的流程去改造这些结构。机会:直接。

在前沿规划者和便宜 worker 之间自动路由

这种需求既紧迫又高度运营化。@JJEnglert 评测(161 次点赞、17 条回复、28,936 次浏览、226 次收藏)Fable 5 时持正面看法,但仍要求一个自动路由器:在简单工作上自动降档,只有当任务值得前沿成本时才升级。@ClaudeDevs 展示(107 次点赞、1 条回复、33,449 次浏览、27 次收藏)了这种手工版本已经在发生——通过协调器加 subagent 的编排;而 @kimmonismus 总结(628 次点赞、35 条回复、63,043 次浏览、132 次收藏)的 benchmark 提升,也让这个路由决策在经济上变得更有意义。机会:直接。

能扛住打断、压缩和交接的交付运行框架

这种需求更务实,而不是理想化愿望。@Coo_Lxing 介绍(16 次点赞、853 次浏览、15 次收藏)Loom 时,把它定义为覆盖规划、验证、修复、预览和交接的交付运行框架;仓库说明它的目标,是保留项目上下文、测试结果、修复说明、预览证据和交付报告,让下一次会话或下一个智能体可以不用重启就接着做。@akshay_pachaar 认为(207 次点赞、39 条回复、19,751 次浏览、263 次收藏),补上失败的逻辑必须被明确构建出来;而 @threepointone 发出(49 次点赞、4 条回复、2,905 次浏览、37 次收藏)的状态图,则从中断状态视角呈现了同一个问题。机会:直接。

携带可执行行为而不只是说明文字的可移植技能

这种需求带有竞争属性,但也是真实存在的。@twostraws 分享(98 次点赞、4 条回复、3,095 次浏览、20 次收藏)了一种可安装在 Xcode 和其他编码智能体上的技能;Swift Testing Agent Skill 仓库 也直接记录了这些跨界面的安装路径。@LangChain 又补了一层(15 次点赞、2 条回复、1,780 次浏览、12 次收藏),推出 interpreter skillsSKILL.md 可以和一个 TypeScript 模块一起发布,由 interpreter 导入并运行。两者底下的诉求都很明确:可复用技能包应该既可执行、又可移植,还可版本化。机会:竞争型。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
运行框架工程 / 自闭合循环 方法 (+) 能把轨迹转成根因分析、重跑和回归锁定 仍然依赖可信检查器和显式失败处理
Code as Agent Harness 研究 / 设计模式 (+) 把代码视为可执行的记忆、环境和验证基底 更像研究框架,而不是开箱即用产品
Claude Fable 5 前沿 LLM (+/-) 在编码和长时程任务上有很强的 benchmark 表现,也能发现其他模型漏掉的问题 token 成本仍然很高,而且路由仍靠手工
Claude Managed Agents pattern 多智能体编排 (+) 让一个前沿协调器把审查和测试编写委派给更小的智能体 仍需要操作者判断智能体拆分和任务路由
Hermes Desktop + Ollama 桌面运行时 (+) 本地友好的 GUI、subagent、技能、消息集成和 MCP 支持 相比单终端编码工作流,产品复杂度更高
Hermes multi-agent workflow 编排模板 (+) 为团队提供一条可复用的接单—研究—人工闸门流水线 只是模板;仍需要领域适配和运维搭建
Loom 交付运行框架 (+) 保留上下文、验证证据、修复说明、预览检查和交接状态 项目还早,小型一次性修改会觉得流程额外偏重
LangChain interpreter skills 技能封装 (+) 为技能增加可执行的 TypeScript 模块,从而复用行为 需要 interpreter 支持和刻意设计的暴露控制
Swift Testing Agent Skill 智能体技能 (+) 为 Xcode 和多种编码智能体打包了高信号的 Swift Testing 指引 领域较窄;价值取决于团队是否已经在用技能
MCP Studio 工具网关 / MCP (+/-) 围绕任务收窄工具范围,而不是把每个应用都镜像进一个 server 仍需证明它在复杂企业技术栈中的治理和可用性
Cantrip 智能体运行时 (+/-) 明确边界、可回放 looms、子任务组合,以及 ACP 支持 新运行时概念可能很强,但也增加采用摩擦

整体满意度依旧务实。人们真正兴奋的,是那些让智能体更可检查、可恢复、可封装的方法和产品,而不只是“更自主”。最主要的迁移模式是:把前沿模型留给规划或审查,把有边界的工作压给更小的执行智能体或可复用工作流,再把长时程连续性搬进运行框架、技能或桌面运行时(@JJEnglert 评测(161 次点赞、17 条回复、28,936 次浏览、226 次收藏);@ClaudeDevs 展示(107 次点赞、1 条回复、33,449 次浏览、27 次收藏);Hermes 文档LoomHermes multi-agent workflow)。竞争态势正在转向“谁能在模型外面做出最好的控制层”。


5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
Hermes multi-agent workflow @tonbistudio 可复用的自治分诊流水线,覆盖接单、去重、评分、并行研究、路由、一个人工闸门和交付 为团队提供一个具体的编排骨架,而不是从零发明工作流 Python、YAML triage.yaml、Hermes Kanban 已发布 repo, tweet
Loom @Coo_Lxing 面向编码智能体的开源交付运行框架,带规划、验证、修复、预览和交接状态 让长时运行的交付工作在打断、压缩和交接后仍能保持对齐 与智能体无关的 CLI、动态工作流、持久化的 .loom/ 状态 Alpha repo, tweet
Hermes Desktop Nous Research Hermes Agent 的桌面界面,支持本地或云模型、subagent、技能和消息集成 把一个可自我改进的智能体运行时封装进 GUI 和本地友好的安装流程 桌面应用、Hermes Agent 运行时、Ollama、MCP、subagent 已发布 docs, repo, tweet
Swift Testing Agent Skill @twostraws 用于在 Xcode 和编码智能体中编写和改进 Swift 测试的可移植技能 把领域专业知识封装成可安装技能,而不是每次重复讲一遍提示词 Swift 技能包、Xcode plug-in、Claude Code/Codex/Cursor/Gemini 安装 已发布 repo, tweet
Cantrip deepfates 以 circles、media、gates、wards、looms 和 child composition 为组织方式的 Elixir 智能体运行时 为智能体开发者提供明确边界、回放、持久状态和 ACP 访问 Elixir、OTP processes、JSONL/Mnesia loom storage、ACP Alpha repo, tweet
MCP Studio @saketsaurabh 面向任务的 MCP 层,目标是为一项工作把跨系统的正确工具组织在一起 减少“一应用一个 server”式 MCP 配置带来的工具泛滥、token 开销和治理问题 MCP、企业 SaaS 连接器、按任务路由工具 Beta tweet

共同的构建模式并不是“一个智能体统治一切”,而是“把协同层外部化”。Hermes multi-agent workflow 和 Loom 都把智能体工作变成了一个带明确闸门的分阶段交付流程;而 Hermes Desktop 和 Cantrip,则把记忆、委派和运行时边界封装成了可复用界面。

Swift Testing Agent Skill 和 LangChain 的 interpreter-skills 方向,则指向另一种反复出现的模式:专业知识正被当作可移植模块来发布。这一点很重要,因为信息流持续奖励那些把行为做成可安装、可审查、可复用形式的项目,而不是每次运行都重新解释一遍。

MCP Studio 则从企业侧切入了同一趋势。它不是把每个系统里的所有工具都暴露出来,而是主张围绕每个任务组合出恰当的工具子集,这本质上也是一种工作流封装。


6. 新动态与亮点

“代码即运行框架”研究成了当天最清晰的概念锚点

@HowToAI_ (210 次点赞、20 条回复、10,123 次浏览、211 次收藏)伊利诺伊大学、Meta 和 Stanford 的综述概括为:从自然语言推理,转向把代码视为记忆、环境和边界。公开仓库 Code as Agent Harness 说明,这个领域如今正围绕运行框架接口、运行框架机制,以及运行框架扩展来组织。这之所以重要,是因为它给整条信息流里已经成形的更广泛运行框架讨论,提供了一个名字和一套结构。

发布日的 Fable benchmark 图片,让编码智能体竞赛更尖锐了

@kimmonismus 总结(628 次点赞、35 条回复、63,043 次浏览、132 次收藏)Claude Fable 5 时贴出了基准测试截图,用具体数字把模型讨论钉死:附表显示,它在 SWE-Bench Pro 上是 80.3%,在 FrontierCode Diamond 上是 29.3%,在 Terminal-Bench 2.1 上是 88.0%。这很重要,因为当天围绕模型的争论几乎立刻就不再抽象,而转成了关于工作负载、effort 设置和路由决策的讨论。

技能开始附带可执行代码,而不只是 Markdown 说明

@LangChain 新增(15 次点赞、2 条回复、1,780 次浏览、12 次收藏)了 interpreter skills,作为 agent skills 的一项新扩展。公开的 interpreter skills 说明 解释了这种变化:一个技能现在可以随附一个 TypeScript 模块,由 interpreter 导入并运行,且 subagent 和工具调用都受明确的运行时暴露控制约束。这之所以重要,是因为技能由此同时变成了说明界面和 API 界面。


7. 机会在哪里

[+++] 智能体交付控制平面 —— 最强的证据同时来自多个部分:@karrisaarinen 写道(121 次点赞、15 条回复、8,585 次浏览、71 次收藏),直接给出了一份工作流工具规格;@akshay_pachaar 认为(207 次点赞、39 条回复、19,751 次浏览、263 次收藏),闭环需要值得信任的失败补全逻辑;Loom 明确就是在为打断、验证、修复和交接构建;而 Hermes multi-agent workflow 则把“一道人工闸门”的流水线封装好了。这个缺口很强,因为零件已经齐了,但共享控制平面看起来仍然碎片化。

[++] 前沿模型路由和委派式 worker 编排 —— @JJEnglert 评测(161 次点赞、17 条回复、28,936 次浏览、226 次收藏)时认为 Fable 5 很有价值,但路由仍然太手工;@ClaudeDevs 展示(107 次点赞、1 条回复、33,449 次浏览、27 次收藏)了一种协调器加 subagent 模式;而 @kimmonismus 总结(628 次点赞、35 条回复、63,043 次浏览、132 次收藏)的 benchmark 提升,又足够大到值得严肃对待路由纪律。这个机会中等,因为经济账已经很明显,但策略仍主要装在人脑里。

[++] 可移植、可执行的技能和工作流工件 —— @twostraws 分享(98 次点赞、4 条回复、3,095 次浏览、20 次收藏)了一种可安装到多个智能体界面的技能;@LangChain 新增(15 次点赞、2 条回复、1,780 次浏览、12 次收藏)了可执行的 interpreter skills;@tonbistudio 分享(39 次点赞、2 条回复、3,006 次浏览、49 次收藏)了一套可复用的分诊模板。这个机会中等,因为封装模式已经很清楚,但标准和分发都还早期。

[+] 面向任务作用域的 MCP 与企业工具治理层 —— @saketsaurabh 发布(98 次点赞、10 条回复、3,357 次浏览、14 次收藏)MCP Studio 时指出,“一应用一个 MCP server”会带来太多工具、token 和治理问题。这个机会仍在萌芽,因为痛点很具体,但这个品类看起来还很新,也很依赖特定厂商。


8. 要点总结

  1. 今天关于运行框架的讨论更偏运营实践了。 @akshay_pachaar 认为(207 次点赞、39 条回复、19,751 次浏览、263 次收藏),只有检查器可信,闭环才有帮助;而 @threepointone 发出(49 次点赞、4 条回复、2,905 次浏览、37 次收藏)了一张处理中断的状态机图。(source)
  2. 这波转向背后的研究框架,现在更清楚了。 @HowToAI_ (210 次点赞、20 条回复、10,123 次浏览、211 次收藏)代码定义为运行框架;公开的 Code as Agent Harness 仓库则把这个想法整理成接口、机制和扩展性问题。(source)
  3. Fable 5 让路由纪律变得更重要,而不是更不重要。 @kimmonismus 总结(628 次点赞、35 条回复、63,043 次浏览、132 次收藏)了 benchmark 提升,但 @JJEnglert 评测(161 次点赞、17 条回复、28,936 次浏览、226 次收藏)同一次发布时,仍然要求有自动路由器。(source)
  4. 缺失中的产品,是一层持久的智能体工作流。 @karrisaarinen 写道(121 次点赞、15 条回复、8,585 次浏览、71 次收藏),给出了当天最明确的需求清单;而 LoomHermes multi-agent workflow 都在尝试补上这类缺口的一部分。(source)
  5. 技能正在变成可执行、可移植的资产。 @twostraws 分享(98 次点赞、4 条回复、3,095 次浏览、20 次收藏)了一次跨界面技能安装;而 @LangChain 新增(15 次点赞、2 条回复、1,780 次浏览、12 次收藏)了会把可运行代码与说明一起打包的 interpreter skills。(source)