Twitter AI Agent - 2026-06-04¶
1. 人们在讨论什么¶
1.1 运行框架工程不再只是信念,而开始体现为可测量的基准测试表现 🡕¶
6 月 4 日最大的变化是,“运行框架胜过模型”不再像一句口号,而开始以可测量的证据出现。多条高信号条目支撑了这一主题,包括 Microsoft 的技能优化论文、Harvey 的法律基准测试,以及一些互动量较低但诊断价值异常高的基准测试讨论串,它们把运行框架本身单独隔离出来观察。
@omarsar0 表示(241 次点赞、28 条回复、15,116 次浏览、376 次收藏),Microsoft 的 SkillOpt 论文在接入他自己的编排器,并把一个多模态论文图表提取技能从 0.73 提升到 0.93 后,看起来可信得多。公开的 SkillOpt 论文把机制说得很清楚:一个独立的优化模型会对单个技能文档提出有边界的修改建议,而这些改动只有在直接聊天、Codex 和 Claude Code 上的留出验证都得到提升时才会保留。

@SeanZCai 认为(291 次点赞、8 条回复、55,401 次浏览、283 次收藏),随着后训练成本下降,应用层公司正开始与前沿模型提供商解耦,而 Harvey 的法律基准测试正说明了这一点。公开的 Fireworks 文章给出了这条 Harvey 说法背后的具体数字:一个只在必要时调用 Opus 4.7 的 GLM 5.1 执行模型,以 368 美元拿到 18 个全通过任务;Opus 端到端方案以 954 美元拿到 14 个;一个经后训练的 Kimi K2.6 变体则以 84 美元拿到 15 个。
@sairahul1 写道(209 次点赞、22 条回复、52,378 次浏览、331 次收藏),AutoGen、CrewAI、通用智能体市场,以及横向的“什么智能体都能造”平台,都是这套栈里衰减最快的部分;而上下文工程、工具设计、评估纪律、MCP 和运行框架思维会持续复利。互动量更低但诊断价值更高的基准测试讨论串进一步支撑了这一点:@wenkafka 展示(3 次点赞、224 次浏览)了一张 Terminal-Bench 2.0 图表,同一模型在不同运行框架之间大约波动 20 分;@chengyongru 总结(4 次点赞、2 条回复、666 次浏览)则把 Harness-Bench 概括为这样的证据:如果只改变执行层,过关情况、过程得分和 token 使用量都会明显变化。

讨论要点: 回复不断把瓶颈说得更具体:评估纪律、轨迹捕获、从工具错误中恢复,以及能与真实验证器或文件系统保持一致的运行时状态,比再刷一次排行榜更重要。
与前日对比: 6 月 3 日把运行框架视为值得学习的那一层。6 月 4 日则补上了图表、垂直领域基准测试结果,以及一篇试图优化运行框架产物本身的论文。
1.2 智能体工作进一步靠近共享的团队工作空间 🡕¶
第二个讨论簇不再把智能体当成聊天窗口,而更像一个让团队上下文、后台工作和人工审查汇合的界面。多条高信号条目支撑了这一主题,从明确的愿望清单式帖子到已经上线的产品界面都有。
@gregisenberg 写道(188 次点赞、55 条回复、14,242 次浏览、129 次收藏),他希望 Slack 变得以智能体优先、适合语音、减少打断,能显示谁在做什么,还能让一个人的智能体与另一个人的智能体协作,而不必把双方的人类都拉进流程里。一条来自 Nebula 的竞争性回复声称,它已经覆盖了这份清单“50% 以上”,这让这种需求看起来不再只是愿景,而相当具体。
@cansar 表示(316 次点赞、48 条回复、36,686 次浏览、31 次收藏),在他加入 OpenAI 做 Codex 之前,Block 就已经构建了内部多运行框架 ADE 和基于 Slack 的云智能体;他还把 Codex 形容为行业里最好的智能体应用。他的核心主张是,提示词、标签页、工具、文件和交接正在开始收拢到一个更少打扰、更统一的工作界面里,而不是继续碎片化地散落在不同应用中。
@cognition 展示(91 次点赞、11 条回复、12,764 次浏览、22 次收藏)了 Harvey 的 Spectre 后台智能体整合进 Devin Desktop,这样组织上下文就能跟着走到工程师的笔记本上,并跨越他们偏好的智能体。最有用的回复并没有抽象地歌颂自动化,而是说真正的收益在于结束“配置考古”,让交接质量变成可检查的东西。
@thomasgauvin 宣布(55 次点赞、3 条回复、4,087 次浏览、36 次收藏)发布了新的 Cloudflare 智能体文档。公开的 Cloudflare Agents 文档也说明了这条帖子为什么重要:同一个平台现在覆盖聊天、Slack、电子邮件、语音和 webhooks,底层是持久化运行时,并带有本地 SQL 状态、调度、fibers、浏览器自动化、沙箱代码执行、MCP 工具、支付和可观测性。

@CodexReleases 宣布(70 次点赞、11,971 次浏览)发布 Codex CLI 0.137.0,包含 Multi-agent v2、按线程选择运行时、远程控制配对和企业配置包;而 @danshipper 推出(92 次点赞、11 条回复、11,525 次浏览、116 次收藏)了 Spiral 4.0,把它定位为一个写作搭档,智能体可以通过 MCP 和 CLI 使用。这个组合把“智能体工作空间”的讨论从编码界面扩展到了团队写作和品牌运营。
讨论要点: 回复把界面层面的兴奋点落实成了操作者要求:共享上下文、可追踪的交接、紧急程度路由,以及能带着足够凭据返回、因而值得信任的后台智能体。
与前日对比: 6 月 3 日强调的是 CLI、桌面、Slack 和语音之间的持久性。6 月 4 日则把这一点收紧成了明确的职场需求,以及已经上线的面向团队的控制界面。
1.3 技能和运行框架继续变成可安装的运营资产 🡕¶
围绕技能的讨论继续远离“把一个提示词存到某处”,转向仓库、看板、加载策略以及公开的操作者工具。七条留存条目支撑了这一主题。
@_avichawla 认为(39 次点赞、4 条回复、5,711 次浏览、71 次收藏),围绕 Claude 一类智能体产品的 UI 和产物层,如今实际上已经开源,而 CopilotKit 是最清晰的例子。公开的 CopilotKit README用一套具体栈支撑了这一点:智能体原生应用、生成式 UI、共享状态、人工介入暂停,以及被多个框架采用的 AG-UI 协议。
@openclaw 宣布(23 次点赞、1 条回复、3,259 次浏览、14 次收藏)Workboard 里的多智能体协作更完善了,而关联的公开 Workboard 文档展示了一条 CLI 加 Gateway 的流程:列出卡片、创建卡片、分派已就绪的工作,并通过共享 SQLite 状态跟踪 worker 运行,而不是靠松散的聊天协调。@wadefoster 表示(20 次点赞、914 次浏览、16 次收藏),Zapier 已经开源了自己的 GTM 智能体;公开的 GTM Cheat Codes 仓库也证实,这是一组面向营销、销售、营收运营、支持、内容和法务运营的技能包,带有审批门和安全回写规则。
互动量较低的构建者产物把这种打包转变说得更具体。@nummanali 分享(1 条回复、148 次浏览)了一个 16 智能体 Claude Code 运行的工作流遥测;@onepagecode 勾勒(1 次点赞、6 条回复、91 次浏览)出 Claude Code 是一个由工具、记忆、权限、子智能体和 hooks 构成的循环;@dani_avila7 则认为(9 次点赞、422 次浏览、9 次收藏),渐进式披露是杠杆最高的技能模式之一,因为引用资料和脚本只应在工作流真正走到那一步时才加载。

@goose_oss 发布(27 次点赞、2 条回复、1,519 次浏览)了 Goose v1.37.0,而公开的 Goose README和发布说明展示了这个运行时如何在公开环境下持续成熟:项目转入了 Linux Foundation 旗下的 Agentic AI Foundation,同时新增 /model、/goal、hooks、本地代码审查,以及更广泛的 ACP/MCP 支持。
讨论要点: 显著变化在于,人们现在关心的是技能如何加载、路由、版本化、评审和可视化,而不只是如何编写。
与前日对比: 6 月 3 日聚焦优化和技能市场。6 月 4 日则把这套逻辑推进到了公开仓库、操作者看板、业务工作流技能包,以及按成本感知的加载模式。
1.4 记忆、上下文压缩和安全委派变成了具体的失效域 🡕¶
第四个讨论簇不只是“智能体需要更好的记忆”。它点名了长时运行智能体的具体失败方式:上下文衰减、空白重启、隐藏的恶意内容,以及缺少验证的委派。五条留存条目支撑了这一主题。
@Aurimas_Gr 认为(30 次点赞、4 条回复、1,292 次浏览、26 次收藏),更大的上下文窗口无法解决长时运行智能体的漂移,因为在足够多的工具输出、重试和历史之后,注意力质量仍会下降。他附带的图比那句口号更有用,因为它比较了三种具体压缩选项:丢弃、总结或卸载上下文;而回复则说,真正的要求是检查点加版本化存储。

@iam_chonchol 写道(13 次点赞、2 条回复、2,296 次浏览),他构建的每个智能体前 20 分钟都显得很聪明,然后就会重置成一张白纸,逼得他重新解释项目、既有决定和用户上下文。一条把这种模式称作“太真实了”的回复,让这类记忆抱怨不再像小众工程问题,而更像一种共有的亲身体验。
@Nafees_Ai 提醒(10 次点赞、4 条回复、59 次浏览)关注《Agents of Chaos》论文;而 @rohanpaul_ai 总结(11 次点赞、3 条回复、499 次浏览、10 次收藏)了一套类似 DeepMind 风格的《AI Agent Traps》分类法:网站可以识别智能体,并向它们展示人类永远看不到的恶意内容,包括隐藏的 HTML 指令、隐写图像和被投毒的文档。在另一条帖子中,同一作者还分享(12 次点赞、798 次浏览、13 次收藏)了一个《Intelligent AI Delegation》框架,把委派视为一串连续选择:是否交出任务、如何指定任务,以及事后如何验证结果。

讨论要点: 回复不断回到检查点、版本化状态、可见的权限边界,以及交接后的验证。问题并不是抽象的“记忆”,而是谁能改状态、智能体看到了什么,以及操作者如何证明这次运行始终没偏离轨道。
与前日对比: 6 月 3 日让记忆层和事件驱动上下文变得可见。6 月 4 日则转向压缩策略、攻击分类,以及明确的委派政策。
2. 令人困扰的问题¶
基准测试讨论仍在掩盖执行层¶
严重性:高。@chengyongru 认为(4 次点赞、2 条回复、666 次浏览),如果任务和模型保持不变,仅仅更换运行框架,综合得分仍可能波动约 23.8 分;他还点出了几类让从业者看了格外熟悉的失败:36.4% 的契约或格式失败,以及 24.6% 的工具或恢复失败。@wenkafka 展示(3 次点赞、224 次浏览)了一张 Terminal-Bench 2.0 图表,同一模型在不同运行框架之间大约相差 20 分;而 @omarsar0 表示(241 次点赞、28 条回复、15,116 次浏览、376 次收藏),SkillOpt 终于让他的技能拥有了“像样的测试框架”。为应对这个问题,人们开始采用留出验证、把模型与运行时分开的基准测试讨论串,以及更明确的技能评估。这个方向值得去做,因为团队仍然缺少在不把模型选择和执行质量混为一谈的前提下比较运行时的标准方法。
团队上下文在交接边界上依然会断裂¶
严重性:高。@gregisenberg 列出(188 次点赞、55 条回复、14,242 次浏览、129 次收藏)了一整份缺失的工作空间行为清单:紧急程度感知、智能体到智能体的协作、深度工作保护、可见的责任归属,以及面向新人的共享上下文。在 @cognition 展示(91 次点赞、11 条回复、12,764 次浏览、22 次收藏)Devin Desktop 中的 Spectre 时,有条回复说,当组织记忆能顺畅流动时,代码审查就不再是“配置考古”,而会变成交接质量问题。@cansar 补充(316 次点赞、48 条回复、36,686 次浏览、31 次收藏),Block 早已在构建基于 Slack 的云智能体和多运行框架 ADE,这也凸显出团队为了得到一个可用的共享界面,至今仍要做多少定制集成工作。人们正在通过 Slack 智能体、桌面封装层,以及像 Cloudflare Agents 这样渠道丰富的运行时来应对,但底层痛点依然是上下文碎片化和交接薄弱。这个方向值得去做,因为数据集里出现的每一个新界面,本质上都像是在为同一个协作缺口打补丁。
长时运行的智能体仍然会跑偏¶
严重性:高。@Aurimas_Gr 表示(30 次点赞、4 条回复、1,292 次浏览、26 次收藏),即便上下文窗口更大,长时运行的智能体最终仍会耗尽有用上下文;回复也立刻要求的是检查点和版本化存储,而不是更多 token。@iam_chonchol 从用户侧描述(13 次点赞、2 条回复、2,296 次浏览)了同一种失效模式:智能体前 20 分钟很聪明,随后就重置成一张白纸,逼得操作者重新解释项目和先前决定。互动量较低的构建者帖子里,@onepagecode 把(1 次点赞、6 条回复、91 次浏览)自动压缩和语义搜索描述成 Claude Code 循环的结构性组成部分;@nummanali 则分享(1 条回复、148 次浏览)了一个 16 智能体、310 万 token 工作流的遥测数据,让这种协作问题的规模变得可见。为应对这一点,人们开始采用压缩策略、分阶段技能加载和显式记忆分类。这个方向值得去做,因为浪费会出现在每一次长运行里,而不只是边界情况。
自治智能体仍然太容易被误导或错误委派¶
严重性:高。@Nafees_Ai 提醒(10 次点赞、4 条回复、59 次浏览),《Agents of Chaos》论文把自治智能体放进了带有电子邮件、文件、记忆和 shell 访问权限的真实环境,然后用红队方式测试它。@rohanpaul_ai 总结(11 次点赞、3 条回复、499 次浏览、10 次收藏)了一套六部分的《AI Agent Traps》分类法:恶意网站可以把指令藏在 HTML 注释、白底白字文本、图片、PDF、元数据或被投毒的记忆中;有条回复说,一个隐藏的 HTML 注释就足以让原本对齐良好的运行时偏航。他另一条关于委派的帖子(12 次点赞、798 次浏览、13 次收藏)把相邻的挫败感说得更明确:团队至今还没有一套可靠政策,来决定何时委派、如何界定任务范围,以及事后如何验证交接。人们则收紧权限边界,并把验证闭环说得更明确。这个方向值得去做,因为这里的失效模式不是不方便,而是不可信的执行。
3. 人们期望的功能¶
一个理解紧急程度、责任归属和智能体间协作的智能体优先团队工作空间¶
最清晰、也最现实的诉求,是一个把智能体当原生协作者而不是挂件的工作空间。@gregisenberg 描述(188 次点赞、55 条回复、14,242 次浏览、129 次收藏)了这样一个地方:他的智能体可以“拍一拍别人的智能体肩膀”,系统知道“现在就要”和“什么时候都行”的区别,决策会成为一等对象,而不是聊天留下的副产物。@cansar 表示(316 次点赞、48 条回复、36,686 次浏览、31 次收藏),Codex 应用正在把提示词、工具、文件和交接收拢到一个界面里;与此同时,@cognition 展示(91 次点赞、11 条回复、12,764 次浏览、22 次收藏)了一个后台智能体,它的组织上下文可以跨智能体、跨设备流动。这是现实需求,不是情绪诉求:当前的权宜方案,是一整叠 Slack 机器人、桌面封装层和定制集成。机会:直接且竞争激烈。
带有显式压缩、检查点和恢复规则的持久记忆¶
人们要的并不是抽象意义上的“更多记忆”。他们想要的是:能撑过长时间运行、又不会变成垃圾的记忆。@Aurimas_Gr 主张(30 次点赞、4 条回复、1,292 次浏览、26 次收藏)应明确提供丢弃、总结和卸载这类压缩选择,而回复立即把要求推进到检查点和版本化检索。@iam_chonchol 描述(13 次点赞、2 条回复、2,296 次浏览)了缺少这一层的代价:每开一个新会话,都得重新解释一遍同一个项目和同一组决定。来自 @onepagecode 和 @nummanali 的低互动量构建者产物表明,操作者已经在用压缩、工作流遥测和多智能体轨迹围绕这个问题做设计。这一需求既紧迫又现实,因为今天的兜底方案仍然是手动重复提示或临时笔记。机会:直接。
可迁移、可渐进加载且可持续评审的技能和运行框架资产¶
围绕技能的讨论表达出的愿望,比“更好的提示词”要具体得多。构建者想要的是能在不同运行时之间流动、能暴露自身成本、并且在真正修改系统前保持可审查的资产。@wadefoster 分享(20 次点赞、914 次浏览、16 次收藏)了带审批门的 GTM 智能体技能和自动化;@openclaw 发布(23 次点赞、1 条回复、3,259 次浏览、14 次收藏)了一个以任务为后盾的多智能体协调界面;@_avichawla 则指出(39 次点赞、4 条回复、5,711 次浏览、71 次收藏),CopilotKit 是智能体原生应用和共享状态的开源基础设施。@dani_avila7 补充(9 次点赞、422 次浏览、9 次收藏),渐进式披露之所以重要,是因为技能引用资料和脚本应该只在需要时才加载。部分组件已经存在,但它们仍然碎片化地分布在仓库、CLI、仪表盘和特定运行时生态里。机会:直接且竞争激烈。
保持可检查的委派策略与对抗防御中间件¶
最强烈的治理诉求并不是“让智能体自治”。而是“让委派变得可理解”。@rohanpaul_ai 分享(12 次点赞、798 次浏览、13 次收藏)了一个公开框架,把委派视为一系列选择:是否交出工作、如何指定工作,以及如何检查结果。他另一条关于 AI Agent Traps 的帖子(11 次点赞、3 条回复、499 次浏览、10 次收藏),以及 @Nafees_Ai 点名(10 次点赞、4 条回复、59 次浏览)的《Agents of Chaos》,都说明了这一需求为何现实:网站、文件和真实环境都可能向智能体暴露人类看不到的恶意内容。现有答案大多还停留在论文、示意图或本地规则,而不是标准化控制层。机会:直接。
4. 使用中的工具与方法¶
| 工具 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| 运行框架工程 | 方法 | (+) | 把模型选择与工具、评估、状态和恢复拆开看 | 很难干净测量,因为很多运行时选择会一起变化 |
| SkillOpt | 技能优化 | (+) | 有边界的修改、留出验证和可迁移的技能产物 | 需要带评分的试运行和验证运行框架 |
| Harvey 混合运行框架 | 模型路由 / 后训练 | (+) | 通过稀疏顾问调用,以更低成本获得接近前沿模型的法律质量 | 证据仍然集中在单一垂直基准测试中 |
| Cloudflare Agents | 智能体运行时平台 | (+) | 持久状态、调度、工具、可观测性,以及多渠道触达 | 依赖平台特定的技术栈和工作流假设 |
| Codex CLI 0.137.0 | 编程智能体运行时 | (+) | Multi-agent v2、按线程选择运行时,以及远程控制配对 | 数据集里只有发布级细节,还没有长时运行的从业者反馈 |
| CopilotKit | 智能体 UI / SDK | (+) | 生成式 UI、共享状态、人工介入流程,以及 AG-UI 生态支持 | 应用构建者仍需自行补上工作流和策略层 |
| OpenClaw Workboard | 协调 / 编排看板 | (+) | 基于任务的分派、共享 worker 状态,以及可见的失败信息 | 比纯聊天工具多出更多操作者界面负担 |
| GTM Cheat Codes | 技能包 / 业务自动化 | (+) | 带审批门和安全回写的可审查 GTM 工作流 | 领域特定,且依赖 Zapier 连接的系统 |
| 技能中的渐进式披露 | 文档 / 加载方法 | (+) | 降低 token 负载,让长流程保持分阶段推进 | 需要作者仔细管理各阶段 |
| 上下文压缩 | 记忆管理方法 | (+/-) | 丢弃、总结和卸载策略让操作者能明确权衡 | 如果没有版本化检索,关键状态很容易丢失或过时 |
| AI Agent Traps / Agents of Chaos | 安全评估 | (+/-) | 让隐藏内容攻击和真实环境失效模式变得具体可见 | 目前大多还是诊断工具;团队仍需要生产级控制层 |
| Goose | 开源智能体运行时 | (+) | 同时提供桌面、CLI 和 API,支持 hooks、模型切换,以及广泛的 ACP/MCP 支持 | 快速扩张的功能面也在增加操作复杂度 |
| Spiral 4.0 | 智能体兼容写作工具 | (+/-) | 把风格一致的写作能力带进 MCP 和 CLI 工作流 | 数据集目前主要还是发布方说法,缺少独立操作者报告 |
整体评价更偏向那些把运行时行为外化成技能、轨迹、看板和可见状态的工具,而不是把一切藏进一个黑箱提示词里。当工具要么能把改进量化出来——如 SkillOpt 和 Harvey——要么能让操作者界面变得可理解——如 Cloudflare Agents、Workboard、CopilotKit 和 Goose——时,满意度最高。主导性的权宜方案则是渐进加载、人工审批门、混合路由和上下文压缩。迁移路径也很清楚:从提示词打包转向仓库驱动的技能包,从纯聊天用法转向多渠道工作界面,以及从只用前沿模型转向开放模型 worker 加选择性前沿顾问。
5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 阶段 | 链接 |
|---|---|---|---|---|---|---|
| SkillOpt | Microsoft Research / @omarsar0 | 用有边界的修改和留出验证优化智能体技能文档 | 一次性写出的技能很难可靠改进 | 优化模型、冻结目标智能体、验证循环 | Alpha | 论文, 推文 |
| Harvey 混合法律智能体 | Harvey / Fireworks / @SeanZCai | 把开放 worker 模型路由到前沿顾问,并对法律专用模型做后训练 | 只靠前沿模型的法律智能体,在重复性领域工作里成本过高 | GLM 5.1、Opus 4.7、Kimi K2.6、LAB 基准测试 | Beta | 博客, 推文 |
| Cloudflare Agents | Cloudflare / @thomasgauvin | 在聊天、Slack、电子邮件、语音和 webhooks 之间运行持久化智能体 | 团队想要一个同时具备状态、调度、工具和可观测性的统一运行时 | Agents SDK、Project Think、SQL 状态、fibers、浏览器、沙箱、MCP | 已上线 | 文档, 推文 |
| Spiral 4.0 | Every / @danshipper | 为人和智能体提供带风格引擎、支持 MCP/CLI 访问的写作搭档 | 团队希望在智能体工作流里保持品牌一致的写作 | 风格引擎、MCP、CLI | 已上线 | 推文 |
| Devin Desktop 中的 Spectre | Cognition / Harvey | 把 Harvey 的后台智能体和组织上下文带进 Devin Desktop | 当后台工作与主工作面隔离时,上下文和交接质量就会断裂 | Spectre、Devin Desktop、类似 ACP 的智能体互操作性 | Beta | 推文 |
| OpenClaw Workboard | OpenClaw | 为多智能体 worker 执行增加基于任务的看板运行和分派 | 对长时运行的多智能体工作而言,聊天线程不是好的协作界面 | CLI、Gateway、SQLite 状态、worker 认领、分派循环 | 已上线 | 文档, 推文 |
| GTM Cheat Codes | Zapier / @wadefoster | 发布带审批门的 GTM 智能体技能和预构建自动化 | 业务团队想要有源码支撑的自动化,而不是盲目的智能体 | Zapier SDK、MCP、技能包、自动化、审批门 | 已上线 | 仓库, 推文 |
| CopilotKit | CopilotKit / @_avichawla | 面向智能体原生应用的 SDK,提供生成式 UI 和共享状态 | 智能体 UI 和共享工作流很难从零构建 | AG-UI Protocol、React、共享状态、工具渲染、HITL | 已上线 | 仓库, 推文 |
| Goose v1.37.0 | Agentic AI Foundation / @goose_oss | 一个开源的桌面、CLI 和 API 智能体运行时,工作流控制能力持续扩展 | 开发者想要一个能跨模型、跨界面的可迁移开放运行时 | Rust、ACP、MCP、hooks、多提供商支持 | 已上线 | 仓库, 发布说明, 推文 |
SkillOpt、OpenClaw Workboard、GTM Cheat Codes 和 CopilotKit 指向了同一种构建模式:技能和运行框架正在变成受管理的产物,周围配套着评估、分派、UI 和审批界面。@dani_avila7 展示(9 次点赞、422 次浏览、9 次收藏)表明,连文档现在也正通过渐进式披露被当作分阶段的运行时基础设施;与此同时,@nummanali 分享(1 条回复、148 次浏览)了一个 16 智能体工作流的遥测数据,让这套基础设施变得可见。
Cloudflare Agents、Devin Desktop 中的 Spectre、Spiral 4.0 和 Goose 则展示了第二种反复出现的模式:操作者界面本身正在变成产品范围的一部分。一类团队在追求跨渠道、跨界面的广度;另一类在把专用后台智能体拉进桌面;还有一类在把智能体工作流延伸到写作和品牌运营。多个团队正分别围绕同一个痛点构建:上下文应该能随工作流动,而界面应该让长时运行的工作保持可检查。
Harvey 的混合法律智能体是数据集中最强的垂直案例,因为它把这两种模式结合到了一起:围绕开放 worker 的调优运行框架,加上选择性调用的前沿顾问,并且全部绑定在一个公开了成本数字的领域基准测试上。因此,路由、后训练和评估闭环本身正在成为产品差异化因素,而不再只是藏在模型选择背后的工程细节。
6. 新动态与亮点¶
LEAP 给出了当天最清晰的“结构胜过模型”结果¶
@DanKornas 认为(9 次点赞、1 条回复、512 次浏览、8 次收藏),Google 的 LEAP 论文之所以重要,是因为直接使用 Gemini-3.1-Pro 的基线在 12 个 Putnam 2025 形式化问题里 0 题解出,而套上一层 LEAP 后则 12 题全解。这一点之所以重要,是因为它把当天“运行框架优先”的逻辑,从编码或智能体基准测试扩展到了形式推理中的计划—拆解—验证—复用闭环。
Slack 开始明确补贴智能体优先的职场应用¶
@0x_beni_ 重点提到(89 次点赞、9 条回复、5,988 次浏览、111 次收藏),Slack 推出了奖金 42,000 美元的 Slack Agent Builder Challenge,奖项包括 Dreamforce 差旅、Slack Marketplace 分发和新闻通讯曝光;而被引用的 @devpost 公告也确认,这场活动围绕的是 Slack 内部的工作流自动化、实时洞察和互联系统。这一点之所以重要,是因为职场智能体界面已经从创始人愿望清单,转向了获得赞助的生态建设。
Goose 加入基金会,让开源智能体运行时看起来更具制度化基础¶
@goose_oss 发布(27 次点赞、2 条回复、1,519 次浏览)了 Goose v1.37.0,加入了 /model、/goal、hooks、本地代码审查和更广泛的 ACP 支持;而公开的 Goose README 现在也写明,该项目已转入 Linux Foundation 旗下的 Agentic AI Foundation。这一点之所以重要,是因为生态中的开放运行时一侧不再只是持续发功能,它也在积累治理结构和制度连续性。
7. 机会在哪里¶
[+++] 带压缩、检查点和验证的持久上下文管理 —— @Aurimas_Gr、@iam_chonchol、Spectre 集成 Devin 的讨论串,以及 Cloudflare 和 OpenClaw 的多渠道运行时,都指向同一层缺失的能力:状态必须能以紧凑、可检查、易恢复的形式撑过长时运行。
[+++] 智能体优先的团队工作空间 —— @gregisenberg、@cansar、@cognition、Cloudflare Agents 以及 Slack 的 《Agent Builder Challenge》 都说明,对一个能协调人、智能体、渠道、紧急程度和交接的统一界面,有着强烈需求。
[+++] 技能和运行框架生命周期工具 —— SkillOpt、GTM Cheat Codes、OpenClaw Workboard、CopilotKit、渐进式披露模式以及 Goose 都表明,团队现在需要的是围绕技能的评估、打包、加载、路由、审批和遥测,而不只是编写提示词。
[++] 委派与对抗防御中间件 —— 《AI Agent Traps》《Agents of Chaos》和《Intelligent AI Delegation》合在一起,定义了智能体与开放网页或文件系统之间一个清晰的产品切口:在自治运行接触真实环境前,操作者需要策略、检查和验证。
[++] 垂直领域混合运行框架 —— Harvey 的法律基准测试强有力地表明,在真实领域里,一个经过调优的开放模型 worker 加上选择性调用的前沿顾问,可以在经济性上胜过只用前沿模型。这为按成本、控制力和延迟取胜,而不是按模型名声取胜的领域特定智能体栈留下了空间。
[+] 衡量运行时而不只是模型的基准测试基础设施 —— Terminal-Bench、Harness-Bench 和 LEAP 都指向一个正在出现的需求:基准测试应当明确报告执行层,但这里的公开工具仍处在早期且相当碎片化的阶段。
8. 要点总结¶
- 运行框架效应现在已经在被基准测试,而不再只是口头断言。 @omarsar0 展示(241 次点赞、28 条回复、15,116 次浏览、376 次收藏),SkillOpt 可以在验证约束下改进真实的智能体技能,而 Harvey 公开的基准测试数字则把同一观点推进到了成本与质量图表层面。(来源)
- 界面之争正在转向智能体原生的团队工作空间。 @gregisenberg 描述(188 次点赞、55 条回复、14,242 次浏览、129 次收藏)了一个理解紧急程度、责任归属和智能体间协作的协作界面;与此同时,@cansar 则把(316 次点赞、48 条回复、36,686 次浏览、31 次收藏)Codex 描述成让分散工具和交接开始收敛的地方。(来源)
- 技能正在变成受管理的运营资产。 Zapier 的 GTM Cheat Codes、OpenClaw 的 Workboard 文档,以及 @dani_avila7 主张(9 次点赞、422 次浏览、9 次收藏)应采用渐进式披露,以控制成本、加载方式和上下文纪律。(来源)
- 长时运行智能体的可靠性,本质上仍主要是状态管理问题。 @Aurimas_Gr 主张(30 次点赞、4 条回复、1,292 次浏览、26 次收藏)应采用显式压缩策略,而 @iam_chonchol 则从操作者视角描述(13 次点赞、2 条回复、2,296 次浏览)了“空白重启”的问题。(来源)
- 没有对抗防御和验证闭环,委派就不可能被信任。 @rohanpaul_ai 总结(11 次点赞、3 条回复、499 次浏览、10 次收藏)了那些“人类看不到、智能体却看得到”的隐藏内容攻击;而他的委派框架,以及 @Nafees_Ai 点名(10 次点赞、4 条回复、59 次浏览)的《Agents of Chaos》,都说明了为什么策略和交接后的检查必须变成一等能力。(来源)
- 开源智能体运行时正在同时扩大其功能面和制度基础。 @goose_oss 发布(27 次点赞、2 条回复、1,519 次浏览)了 Goose v1.37.0,而它的公开仓库也已转入 Agentic AI Foundation;这比又一条一次性发布讨论串更能说明问题。(来源)