跳转至

Twitter AI Agent - 2026-06-03

1. 人们在讨论什么

1.1 运行框架工程仍是核心,但讨论开始给出更明确的行动建议 🡒

最强的一波讨论依然把模型视为更大系统中的一层。与 6 月 2 日不同的是,语气变了:构建者不再只是介绍“上下文-记忆-运行框架”这套词汇,而是用它来告诉人们该停止学什么、该转而研究什么,以及复杂性究竟应该放在哪里。五条留存条目支持了这一主题。

@DataChaz 认为(272 次点赞、25 条回复、36,443 次浏览、415 次收藏),真正可能持续复利的是上下文工程、工具设计、编排器-子智能体模式、评估纪律、MCP,以及“运行框架 > 模型”的思维方式。回复把门槛说得更具体:构建者表示,评估纪律才是那个不动声色的分水岭,而一个运行框架在栈里其他部分有意义之前,必须先具备崩溃恢复、会话恢复和审计轨迹。

@sairahul1 用更强硬的语气(155 次点赞、18 条回复、37,968 次浏览、254 次收藏)表达了同样的观点:他把 AutoGen、CrewAI、智能体市场、基准测试排行榜,以及横向的“什么智能体都能造”平台都列入“死亡名单”,同时反复强调,真正能穿越框架更迭留下来的,是上下文工程、工具设计、评估纪律、MCP 和运行框架思维。最有价值的一条回复说得更直接:脆弱的恰恰是那层泛化的“什么智能体都能造”平台,而判断力和评估会比它活得更久。

@_avichawla (34 次点赞、6 条回复、2,749 次浏览、37 次收藏)同样的想法重述为一个架构问题:模型故意保持轻薄,而运行框架把记忆、技能、协议,以及可观测性、审批循环和评估等中介层外置出去。一条回复把这个含义又推远了一步:仅有提示词日志还不够;团队需要能回放完整组合运行时,才能真正调试故障。

@joaomdmoura 总结(21 次点赞、1 条回复、2,611 次浏览)了这个观点的运营版:不存在简单的智能体系统,只有复杂性放在哪里的选择。他的建议是把编排保持简单,把复杂性推到工具、可观测性和测试里去,因为这些地方反复迭代的代价更低。

@adxtyahq 整理(152 次点赞、4 条回复、3,785 次浏览、268 次收藏)了一条学习路径,涵盖 RAG、智能体式 RAG、Anthropic 的 《Building Effective Agents》、LangGraph、MCP、记忆系统和评估,同时明确告诉读者跳过那些“10 分钟构建一个 AI 智能体”的视频。这份资源清单之所以重要,是因为它把当天反炒作的情绪变成了一套可执行的学习正典。

讨论要点: 回复更关心的不是模型选哪家,而是什么让运行框架可检查:评估、可回放的运行时状态、恢复能力和可追责记录。

与前日对比: 6 月 2 日确立了上下文、记忆和运行框架这套共同词汇;6 月 3 日则默认这套词汇已成共识,转而讨论设计规则、阅读清单,以及不要把过多复杂性塞进编排层的警告。

1.2 技能不再像静态提示词,而开始像可训练、可治理、可安装的资产 🡕

围绕技能的讨论已经越过“写一个可复用提示词”,转向三个更难的问题:技能能否基于证据被优化、能否在影响未来行为之前先经过审查,以及能否通过真实产品界面来分发。五条留存条目支持了这一主题。

@omarsar0 表示(130 次点赞、22 条回复、9,487 次浏览、223 次收藏),在把 Microsoft 的 SkillOpt 论文接入自己的编排器并看到更好结果之后,这项工作显得可信得多。附带的预告图和公开论文都把其新意说得很具体:把技能视为冻结智能体的外部状态,用一个单独的优化模型提出有边界的增/删/改编辑,并且只有在留出验证集表现提升时才接受这些变化。

SkillOpt 论文预告图,展示这项文本空间优化器的标题、摘要摘要、基准测试提升和代码链接;它用于训练可复用的智能体技能

@openclaw 介绍(60 次点赞、9 条回复、5,051 次浏览、37 次收藏)了 Skill Workshop,试图把重复劳动转成可审查的提案,而不是悄悄改写未来运行。链接的博客文章文档展示了一种“提案优先”的工作流:生成出的技能会一直以 PROPOSAL.md 草稿存在,直到有人手动调整、应用、拒绝或隔离它们。

@grabbou 展示(11 次点赞、1 条回复、1,181 次浏览、8 次收藏),Codex 现在可以直接从 GitHub 仓库添加外部技能市场,然后把 Callstack 的 React Native 技能加载进 UI。截图把分发界面讲得很清楚:一个弹窗从 callstackincubator/agent-skills 添加技能市场,另一个则显示产品内部可浏览、可直接运行的 React Native 评审和 QA 技能。

Codex 技能市场对话框,展示以 callstackincubator/agent-skills 作为 GitHub 仓库来源,并为 plugins/codex 指定稀疏路径

Codex 技能市场视图,展示由 Callstack 构建、可直接在聊天中试用的 React Native 技能

@VaibhavSisinty 重点介绍(28 次点赞、3 条回复、2,112 次浏览、38 次收藏)了 Everything Claude Code——一个可安装的栈,包含 38 个专业化智能体、156 个技能、72 个命令,以及带 1,282 项测试的安全扫描器。这张截图之所以重要,是因为它同时展示了可选择安装的命令,以及包内清晰的角色分工:规划器、安全审查员、TypeScript 审查员、代码审查员和调试器。

讨论要点: 分歧并不在于技能有没有帮助,而在于:在进入人工检查点前,应该允许多少自主学习,以及技能质量能否被度量而不是靠默认相信。

与前日对比: 6 月 2 日强调的是技能仓库、安装命令和递归式技能改进;6 月 3 日则加入了带基准测试的优化、提案门控、仓库驱动的技能市场,以及可选择安装的完整栈。

1.3 智能体运行时从单一终端窗口走向持久化的操作界面 🡕

第二个帖子群组把智能体看得更像工作界面,而不是聊天窗口:它们可以跨界面、跨机器、跨日程持续存在。四条留存条目支持了这一主题。

@akshay_pachaar 描述(58 次点赞、9 条回复、8,291 次浏览、77 次收藏)了 Hermes Desktop:它和 CLI 使用同一套核心智能体、会话、记忆和技能,但加入了流式工具调用可视化、并排预览、产物面板,以及远程网关模式,让重任务跑在 VPS 上、操作者仍留在本地。关键主张不是“现在有 GUI 了”,而是连续性:一个任务可以在终端里开始,在应用里结束,中间无需重置状态。

@codyplof 给出(38 次点赞、11 条回复、3,072 次浏览、44 次收藏)了当天最扎实的一份实操报告。他说 Hermes 在 Mac Mini 上的搭建成本是值得的,与 Claude 和 Codex 配合良好,作为 Slack 里的幕僚型助手很有用,并且正在被扩展成一个拥有仓库、工作区和分析权限的共享团队智能体。同一讨论串也暴露了一个真实的操作者约束:他因为 Anthropic API 对自己的使用场景来说太贵,而转向了 Codex 方案。

@Daniel_Farinax 展示(44 次点赞、5 条回复、1,509 次浏览、19 次收藏)了一个语音层,它在桌面上编排 Grok Build,并用记忆、日程和通知来处理“同时几十个智能体”。有条回复准确点出了它为何特别:语音正在开始充当路由器,而不只是输入方式。

@Tanaypawar27 发布(41 次点赞、13 条回复、7 次收藏)了一张 Claude Code roadmap,把整个栈压平成一条 12 步路径:从 CLI 和 projects,一路到 memory、skills、hooks、MCP、plugins、subagents、agent teams 和 routines。这张信息图之所以重要,是因为它把“从安装到自动驾驶模式”的路径打包成了一种标准化进阶路线,而不再只是圈内秘辛。

题为 The Claude Code Roadmap 的信息图,展示了一条从 CLI 安装和 projects 出发,经过 memory、skills、hooks、MCP、plugins、subagents、agent teams 和 routines 的 12 步路径

讨论要点: 回复聚焦在这些界面的操作边缘:远程网关怎么搭、子智能体并行工作时记忆文件如何做版本控制,以及语音是否应该成为主调度器。

与前日对比: 6 月 2 日通过 ACP 让桌面互操作性变得可见;6 月 3 日则更进一步,推进到持久会话、Slack 频道、VPS 控制、产物,以及语音驱动的编排。

1.4 上下文与记忆成为显式运行时原语,而不再是隐藏的提示词填塞 🡕

当人们在 6 月 2 日要求“更好的记忆”时,这个诉求还主要是抽象的。到了 6 月 3 日,帖子已经开始点名他们真正想要的原语:推送式上下文、固定的外部状态、响应式规则,以及分层记忆。四条留存条目支持了这一主题。

@tylbar 宣布(29 次点赞、9 条回复、5,848 次浏览、21 次收藏)Mastra 推出 Agent Signals,包含用于外部事件的通知信号、用于把最新外部状态重新锚定到上下文里的状态信号,以及基于智能体当前循环调整行为的响应式信号。这让“上下文工程”看起来更像一个上下文操作系统,而不是写提示词。

@josevalim 认为(13 次点赞、6 条回复、744 次浏览),MCP 需要一种让 server 能向 client 推送提示词上下文的方式。他给出的具体例子是 Figma 的选中状态:今天他还得手动做第二步操作,才能告诉智能体自己选中了什么。回复把问题扩展到了 CI 失败、异常页面和工具变更通知,同时坚持认为,被推送进来的状态必须保持可检查且有权限控制。

@OpenCovenant 声称(26 次点赞、11 条回复),身份、权限、记忆、审计和结算都应该位于每个框架和模型之下,作为机器上的共享服务。同一账号稍后的一条帖子(30 次点赞、15 条回复)记忆可视化为三层:工作记忆、情节记忆和长期记忆。

图示展示三层智能体记忆——工作记忆、情节记忆和长期记忆——并将每一层映射到不同的保留周期和决策范围

讨论要点: 讨论串层面的共识并不是“给我更多上下文”,而是“给我事件驱动的上下文、可见的状态,以及具有明确保留规则的记忆分层”。

与前日对比: 6 月 2 日把记忆当作一门纪律和一个反复出现的痛点;6 月 3 日则把它具体化为状态信号、推送式上下文,以及显式的工作记忆 / 情节记忆 / 长期记忆切分。


2. 令人困扰的问题

手动接上下文和陈旧状态,仍会打断本来已经很能干的智能体

严重程度:高。@josevalim 表示(13 次点赞、6 条回复、744 次浏览),MCP 仍然要让他多做一步操作,才能告诉智能体 Figma 里当前选中了什么。回复把现在的权宜方案说得很直白:还不存在的状态 hooks、工具变更通知,或者把截图重新贴回提示词。@tylbar 发布(29 次点赞、9 条回复、5,848 次浏览、21 次收藏)Agent Signals,正是因为团队需要让 CI 失败、传入邮件和不断变化的外部状态,在不手动重提示的情况下到达智能体。即便是在 @codyplof 描述(38 次点赞、11 条回复、3,072 次浏览、44 次收藏)一个能工作的 Hermes 配置时,最先被追问的问题之一也是:他如何避免长会话之间的上下文串味。人们正在用截图、固定状态、Slack 频道、Obsidian 笔记和侧车式记忆层来应对。这一问题值得构建,因为摩擦在智能体真正开始做有用工作之前就已经出现了。

当团队把过多智能力塞进编排层,复杂度就会失控

严重程度:高。@joaomdmoura 写道(21 次点赞、1 条回复、2,611 次浏览),复杂的多智能体编排层会拖慢团队,因为任何改动都会沿着路由和交接逻辑级联扩散。@_avichawla 认为(34 次点赞、6 条回复、2,749 次浏览、37 次收藏),正确的应对方式是把记忆、技能、协议、可观测性、审批循环和评估外置出来,而不是把一切都藏进一个不透明的大循环里;一条回复补充说,仅有提示词日志还不够,团队需要能回放完整的组合运行时。围绕 @DataChaz 主张(272 次点赞、25 条回复、36,443 次浏览、415 次收藏)“运行框架优先”思维的回复也指出,崩溃恢复、会话恢复和审计轨迹,才是耐用系统与教程级 demo 的分界线。应对模式非常一致:更简单的编排、更强的工具、更显式的计划,以及更多运行时凭据。这一问题值得构建,因为迭代速度正是在这里被拖死的。

静默学习与不安全执行,仍让团队对自主性保持警惕

严重程度:高。@openclaw 表示(60 次点赞、9 条回复、5,051 次浏览、37 次收藏),智能体应该从重复工作中学习,但不能靠悄悄改写未来运行来学习。链接的 Skill Workshop 流程之所以存在,是因为生成出的技能在变成实际行为之前,需要可审查的提案、对支持文件的扫描,以及明确的应用或拒绝动作。@Dagnum_PI (65 次点赞、5 条回复、1,244 次浏览)Gate AI 定位为夹在智能体与模型之间的一层:它会筛查每个请求、捕捉提示词注入,并锚定一条防篡改的审计轨迹。即便是在 @Tanaypawar27 发布(41 次点赞、13 条回复、7 次收藏)一条整体偏正面的 Claude Code roadmap 讨论串下,回复也立刻提出一个运营疑问:多个子智能体并行运行时,记忆文件该如何做版本控制?人们的应对方式是审批门、安全扫描器和人工审查循环。这一问题值得构建,因为真正的障碍是对执行的信任,而不是缺乏需求。

前沿模型成本仍是一项显性的“税”

严重程度:中高。@codyplof 表示(38 次点赞、11 条回复、3,072 次浏览、44 次收藏),他一开始使用 Anthropic API,但由于对自己的场景来说太贵,后来改用了 Codex 方案。@SeanZCai 放大了(155 次点赞、6 条回复、24,816 次浏览、137 次收藏)Harvey 的主张:在同样一个 100 任务切片上,以 GLM 5.1 为主工作模型、Opus 4.7 为顾问的混合法律智能体,在质量和成本上都优于 Opus;经过后训练的 Kimi 2.6 法律智能体,则以大约低 11 倍的成本打败了 Opus。@CommandCodeAI 宣传(93 次点赞、3 条回复、111,603 次浏览、59 次收藏)了一档每月 1 美元的入门方案,包含约 15K 次请求和积分,面向 DeepSeek V4 Pro、Qwen 3.7 Max 和 MiniMax M3——这本身就说明,定价压力已经变成了产品功能。

Command Code 的 Go 方案定价卡,展示每月 1 美元、包含积分、约 15K 次请求,以及面向 DeepSeek V4 Pro、Qwen 3.7 Max 和 MiniMax M3 的支出目标

人们的应对方式是混合路由、后训练、更便宜的开放模型,以及激进的模型方案打包。这一问题值得构建,因为经济性决定了智能体究竟只是实验,还是会成为默认工具。


3. 人们期望的功能

带用户可见权限的事件化上下文注入

最明确的诉求不是更大的上下文窗口,而是让正确的状态在变化时自动抵达。@josevalim (13 次点赞、6 条回复、744 次浏览)一个简单的 Figma 例子描述了当前缺口:选中某个对象后,他仍得执行第二个动作,才能告诉智能体发生了什么变化。@tylbar 给出(29 次点赞、9 条回复、5,848 次浏览、21 次收藏)了一个部分答案:通知、状态和响应式信号;而这两条讨论串下的回复都坚持一点——被推送的状态必须保持可检查且有权限控制。这是一个实际需求,而非愿景式诉求,因为当前的权宜方案就是截图、复制粘贴提示词和手动刷新的状态。机会:直接。

在不静默改变行为的前提下改进技能的受治理学习

@openclaw 认为(60 次点赞、9 条回复、5,051 次浏览、37 次收藏),智能体应该把重复工作转成可调整、可应用、可拒绝的提案,而不是直接转成线上行为。@omarsar0 指出(130 次点赞、22 条回复、9,487 次浏览、223 次收藏),SkillOpt 代表了同样直觉的更正式版本:用有边界的编辑和留出验证,而不是一次性的提示词重写,来优化技能。两者合在一起说明了人们真正想要的东西:技能学习应该是可度量、可回滚、且能跨智能体与运行框架导出的。今天已经有部分组件,但它们仍分散在不同产品和研究产物里。机会:直接且有竞争性。

能在 CLI、桌面、Slack 和语音之间保留会话的共享智能体工作区

@akshay_pachaar 表示(58 次点赞、9 条回复、8,291 次浏览、77 次收藏),Hermes Desktop 的关键不在于它是一个桌面应用,而在于同一套会话、记忆和技能能从 CLI 延续过来,而不是换个界面就重置。@codyplof 展示(38 次点赞、11 条回复、3,072 次浏览、44 次收藏)了这件事在实践中为何重要:他已经在 Slack、cron 和 Mac Mini 配置中使用 Hermes,并正在准备一个拥有完整组织上下文的共享团队智能体。@Daniel_Farinax 又补充了(44 次点赞、5 条回复、1,509 次浏览、19 次收藏)语音这另一层控制界面,用于调度和生成智能体。这一需求既紧迫又实际,因为团队已经明确希望拥有一个持久的工作界面,而不是彼此遗忘的独立聊天、bot 和桌面。机会:直接且有竞争性。

更便宜、更安全的领域智能体运行框架层

另一个明确诉求不是再来一个通用模型发布,而是一层能让垂直智能体足够便宜、也足够安全、从而值得长期保留的运行框架。@SeanZCai 转述(155 次点赞、6 条回复、24,816 次浏览、137 次收藏)了 Harvey 的结果:混合法律智能体和经后训练的开放模型,能够实质性地推进成本-质量前沿。@CommandCodeAI (93 次点赞、3 条回复、111,603 次浏览、59 次收藏)定价压力变成了清晰可见的产品卖点,而 @Dagnum_PI 则将(65 次点赞、5 条回复、1,244 次浏览)安全和可审计性定位为夹在智能体与模型之间的一层独立中间件。这个需求很实际,也已经有部分答案,但解决方案仍然分散在定价方案、路由技巧和早期访问的安全层之间。机会:直接且有竞争性。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
运行框架工程 方法 (+) 将记忆、技能、协议、评估和可观测性从基础模型中拆分出来 如果运行时无法回放,就很容易把过多逻辑埋进编排层
《Building Effective Agents》 参考资料 / 工作流 (+) 为工作流、智能体、工具和 MCP 提供了严肃的起点 只提供指导;团队仍需要自己的运行时、评估和策略层
SkillOpt 技能优化 (+) 有边界的编辑、留出验证,以及可在 Codex 和 Claude Code 之间迁移 仍处研究阶段;依赖带分数的 rollout 和验证配置
Skill Workshop 技能治理 (+) 提案优先的技能创建、修订/应用/拒绝流程,以及对支持文件的扫描 增加了人工审查摩擦,且当前主要聚焦工作区范围内的技能
Agent Signals 上下文 / 记忆原语 (+) 通知、状态和响应式信号让智能体能够看到变化中的外部状态 目前仍是 Alpha,且暂时只适用于 Mastra
Hermes Desktop 智能体运行时 / UI (+) 共享会话、产物、远程网关、语音,以及可视化的工具调用流程 搭建和远程模式问题在回复里一开始就会出现
Claude Code 工作流栈 工作流 / IDE (+/-) Projects、CLAUDE.md、memory、skills、commands、hooks、MCP、subagents 和 routines 组成了一套清晰的操作模型 记忆文件的版本控制与并发语义仍不清晰
Codex 外部技能市场 技能市场 (+) 导入以仓库为后端的技能,并在产品 UI 中暴露出来 生态特定,效果也取决于仓库目录本身的质量
混合式开放模型法律智能体 模型路由 / 后训练 (+) GLM/Kimi 加前沿顾问,在真实垂直场景里改善了成本-质量前沿 回复质疑真正的护城河究竟是微调还是工作流数据
Command Code Go 计划 定价 / 编程智能体服务 (+/-) 便宜的入门档位和多模型支出路由 宣传口径多于公开披露的技术细节
Gate AI 安全中间件 (+/-) 提示词注入筛查和防篡改审计轨迹 仍处早期访问阶段,公开实现细节较少
Covenant 智能体底座 / 记忆 (+/-) 共享身份、权限、记忆、审计、结算以及分层记忆 在这个数据集中,信号仍主要停留在图示层面

整体评价偏向那些把能力外置为技能、信号、记忆层和安全中间件,而不是把它们藏进一团提示词的工具。迁移模式很清晰:从纯前沿模型配置转向混合路由,从临时技能文件转向经过审查和优化的技能工件,从只在终端里使用转向桌面、Slack 和语音之间的共享界面。竞争格局也同样清楚:研究项目在推动可度量的技能改进,产品团队在打包操作界面和技能市场,而安全或上下文供应商则试图成为智能体与模型之间不可或缺的中间件。


5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
Skill Workshop OpenClaw 在重复经验变成线上行为之前,先把它转成可审查的技能提案 静默自我修改的技能风险高且难以审计 PROPOSAL.md / SKILL.md 工作流、Control UI、CLI、Gateway、支持文件扫描 已发布 博客文档
Agent Signals @tylbar / Mastra 为智能体增加通知、状态和响应式信号 外部状态、告警和行为指导仍然过于依赖手动传递 @mastra/core@1.39.0、Studio、Code、浏览器集成、Working Memory Alpha 推文(29 次点赞、9 条回复、5,848 次浏览)
Everything Claude Code affaan-m 可选择安装的 Claude Code 超级栈,包含 38 个智能体、156 个技能、72 个命令和 AgentShield 测试 一个通用编程智能体对于规划、审查、调试和安全来说过于粗糙 专业化智能体、技能包、命令、安全扫描器、选择性安装配置 已发布 仓库推文(28 次点赞、3 条回复、2,112 次浏览、38 次收藏)
面向 Codex 的 React Native 技能市场 Callstack 将以仓库为后端的移动开发技能导入 Codex,并在可浏览的 UI 中展示 通用编程智能体难以覆盖移动端评审、升级和 QA 这类领域工作流 callstackincubator/agent-skills、GitHub 技能市场导入、Codex UI 已发布 仓库推文(11 次点赞、1 条回复、1,181 次浏览、8 次收藏)
Hermes Desktop Hermes team 为 CLI 同款核心智能体、会话、记忆、技能和产物提供桌面界面 纯终端智能体会隐藏状态,且难以持续操作 共享智能体核心、远程网关、产物面板、cron、语音、文件拖放 Beta 推文(58 次点赞、9 条回复、8,291 次浏览、77 次收藏)
Grok Voice 桌面编排器 @Daniel_Farinax 可生成并管理大量桌面智能体的定制语音层 桌面多任务处理和编排仍然过于手工 定制 macOS 应用、400+ 工具、Grok Build、记忆、调度、通知 Alpha 推文(44 次点赞、5 条回复、1,509 次浏览、19 次收藏)
Gate AI @Dagnum_PI 位于编程智能体与模型端点之间的安全层 提示词注入和缺失审计日志仍阻碍智能体部署 请求筛查、提示词注入检测、防篡改审计轨迹 Beta 推文(65 次点赞、5 条回复、1,244 次浏览)
Command Code Go 计划 @CommandCodeAI 面向多模型编程智能体使用场景的低成本入门档位 前沿模型使用成本阻碍了更广泛的日常采用 DeepSeek V4 Pro、Qwen 3.7 Max、MiniMax M3、用量路由、工具调用修复 已发布 推文(93 次点赞、3 条回复、111,603 次浏览、59 次收藏)
Harvey hybrid legal agents Harvey + FireworksAI 将开放模型路由到前沿顾问,并对法律专用模型做后训练 纯前沿模型法律智能体对于重复性的专家工作流来说仍然太贵 GLM 5.1 工作模型、Opus 4.7 顾问、Kimi 2.6 SFT、Legal Agent Benchmark Beta 讨论推文(155 次点赞、6 条回复、24,816 次浏览、137 次收藏)
Covenant @OpenCovenant 用于身份、权限、记忆、审计、结算和分层记忆的本地底座 各种框架都在重复搭建相同的共享智能体服务 本地共享服务,加上工作记忆、情节记忆和长期记忆三层 Alpha 基础说明(26 次点赞、11 条回复)、记忆(30 次点赞、15 条回复)

SkillOpt、Skill Workshop、Callstack 的技能市场流程,以及 Everything Claude Code,都指向同一种构建模式:技能不再只是提示词,而是带有优化、审查、分发和选择性安装界面的全生命周期工件。关键差别在于各项目介入的时点不同:SkillOpt 介入训练时,Skill Workshop 介入审批时,Callstack 介入分发时,ECC 介入打包组合时。

截图展示 Everything Claude Code 作为一个可选择安装的打包套件,包含专业化智能体和按角色划分的审查员类型

Hermes Desktop 和 Grok Voice 的演示展示了第二种模式:操作界面本身正在变成产品范围。@codyplof 补充(38 次点赞、11 条回复、3,072 次浏览、44 次收藏)说,他已经在 Mac Mini、Slack 内部以及作为共享团队幕僚智能体的雏形来使用 Hermes,这说明界面问题已经不再是假设。

Harvey、Gate AI、Command Code 和 Covenant 则展示了下一阶段差异化的方向:路由、安全、定价和共享基础设施。@SeanZCai 转述(155 次点赞、6 条回复、24,816 次浏览、137 次收藏)了当天最清晰的垂直数据点——Harvey 更低成本的混合法律智能体结果;与此同时,Gate AI 和 Covenant 则把审计轨迹以及共享记忆/权限层本身做成了产品。


6. 新动态与亮点

SkillOpt 让技能讨论变得可衡量,而不再只是哲学争论

@omarsar0 带出了(130 次点赞、22 条回复、9,487 次浏览、223 次收藏)这个数据集中最清晰的硬数据产物之一:一篇论文和公开项目页面主张,技能可以通过有边界的文本编辑和留出验证来优化,然后在直接聊天、Codex 和 Claude Code 之间迁移。这之所以值得注意,是因为本数据集里大多数关于技能的讨论都还停留在打包和分发层面;SkillOpt 则加入了基准测试语言、失败驱动的迭代,以及明确的验证门。

Harvey 为混合智能体经济性提供了当天最强的垂直案例

@SeanZCai 重点强调(155 次点赞、6 条回复、24,816 次浏览、137 次收藏),Harvey 声称,以 GLM 5.1 为工作模型、Opus 4.7 为顾问的混合法律智能体,在质量和成本上都优于 Opus,而经过后训练的 Kimi 2.6 法律专用模型也在成本上表现更好。这一点之所以值得注意,是因为它把“运行框架比模型更重要”的命题,放进了一个领域基准测试里,而不是一般化的构建者讨论串。

Everything Claude Code 展示了完整智能体栈被产品化打包的速度有多快

@VaibhavSisinty 重点介绍(28 次点赞、3 条回复、2,112 次浏览、38 次收藏)了一个公开的 Claude Code 栈:它打包了 38 个智能体、156 个技能、72 个命令,以及带 1,282 项测试的安全扫描器,同时仍然建议用户按需选择安装。这之所以值得注意,是因为它把规划、审查、调试和安全专长打包进一个可安装界面,而不再让用户自己动手拼装整个栈。


7. 机会在哪里

[+++] 事件化上下文与持久记忆编排 —— Jose Valim 关于 MCP 推送上下文的请求、Mastra 的 Agent Signals、codyplof 关于上下文串味的讨论,以及 Covenant 的分层记忆框架,都指向同一个缺口:智能体仍缺少一种标准化、可检查的方式,在正确的时间接收正确的状态。

[+++] 技能生命周期工具链 —— SkillOpt、Skill Workshop、Callstack 的 Codex 技能市场流程,以及 Everything Claude Code 共同表明,技能现在需要的不只是创作,还需要优化、治理、打包和选择性安装路径。市场已经有了一些碎片化组件,但仍没有一个占主导地位的端到端生命周期层。

[+++] 面向编程智能体的安全与审计中间件 —— Gate AI、Skill Workshop 的审批流程,以及讨论串层面对审计轨迹、可回放运行时和提示词注入防御的反复需求,表明在智能体与模型端点之间存在一个清晰的产品切入点。

[++] 跨界面的操作员工作面 —— Hermes Desktop、基于 Slack 的共享智能体,以及语音驱动的桌面编排,都表明市场需要一个持久的工作界面,能够跨越终端、GUI、聊天、远程服务器和日程安排而不重置状态。

[++] 面向垂直智能体的混合路由与后训练 —— Harvey 的法律智能体结果、Command Code 的定价姿态,以及 codyplof 因成本而切换模型的经历,都表明,市场仍有空间通过路由、专门化和更紧密的评估循环,来打败纯前沿模型的经济性。


8. 要点总结

  1. 讨论仍在收敛到“运行框架”,而不是原始模型,才是更持久的层。 @DataChaz 认为(272 次点赞、25 条回复、36,443 次浏览、415 次收藏),真正会持续复利的是上下文工程、工具设计、评估、MCP 和运行框架思维,而回复立刻把这件事落到了恢复能力和审计轨迹等具体要求上。
  2. 技能正在变成带优化、审查和分发环节的受管理工件。 @omarsar0 带出了(130 次点赞、22 条回复、9,487 次浏览、223 次收藏)带基准测试的技能优化,而 @openclaw 则展示(60 次点赞、9 条回复、5,051 次浏览、37 次收藏),团队同样希望这些技能在上线前先经过提案和审批门。
  3. 智能体操作正在从单一终端扩展到共享、持久的界面。 @akshay_pachaar 描述(58 次点赞、9 条回复、8,291 次浏览、77 次收藏)了 CLI 和 VPS 执行之间共享状态的桌面界面,而 @codyplof 补充(38 次点赞、11 条回复、3,072 次浏览、44 次收藏),团队已经在 Slack 和共享 Mac Mini 配置中使用这种模式。
  4. 上下文工程正在变成运行时设计,而不只是提示词技巧。 @josevalim 主张(13 次点赞、6 条回复、744 次浏览)推送式提示词上下文,而 @tylbar 发布了(29 次点赞、9 条回复、5,848 次浏览、21 次收藏)状态、通知和响应式信号,给出了一条具体实现路径。
  5. 成本竞争正在转向路由、后训练和运行框架效率。 @SeanZCai 重点强调(155 次点赞、6 条回复、24,816 次浏览、137 次收藏)Harvey 的混合法律智能体结果,而 @CommandCodeAI 则把(93 次点赞、3 条回复、111,603 次浏览、59 次收藏)低价多模型使用档位当成核心产品功能来宣传。
  6. 安全与审批层正在围绕编程智能体成为一类一等产品。 @Dagnum_PI (65 次点赞、5 条回复、1,244 次浏览)Gate AI 定位为提示词注入防御与审计轨迹的中间件,这与讨论串层面对“先看到可追责凭据,再给自主系统更大权限”的广泛需求完全一致。