Twitter AI Agent - 2026-05-31¶

1. 人们在讨论什么¶

1.1 运行框架工程开始变成产品规格，而不只是概念 🡕¶

5 月 31 日关于 AI 智能体的核心讨论，落点在能力到底存在于哪里。帖子里反复出现的答案是“运行框架”：提示词、技能、文件系统、编排、记忆、钩子和验证层，全都包裹在模型之外。至少有 4 条保留条目支撑了这一主题。

@byanujpatel 分享（200 次点赞、11,057 次浏览、261 次收藏）了 LangChain 的公开运行框架工程文章。这条帖子把“智能体 = 模型 + 运行框架”作为定义，并把提示词、工具、文件系统、编排逻辑、钩子和沙箱隔离视为把模型智能转成有用工作的那层代码。

@pallavishekhar_ 梳理（79 次点赞、4 条回复、4,712 次浏览、114 次收藏）了一条从记忆和 ReAct 循环一路延伸到可观测性和运行框架工程的演进路径。最有价值的回复认为，运行框架工程并不是所有事情都做完之后才轮到的“第 16 步”，而是其他主题都被装在其中的那个盒子。

@RoundtableSpace 声称（150 次点赞、17 条回复、55,244 次浏览、41 次收藏），Claude Code 能自动识别复杂任务、编写编排逻辑，并拉起一组智能体。回复则把这场演示变成了一张清单：可见计划、隔离的工作流、验证、失败证据，以及成本可见性。

讨论要点： “运行框架工程”不再只是专家圈的标签，而开始像一份务实的采购与设计检查清单那样发挥作用。

与前日对比： 5 月 28 日让运行框架工程有了公开的共同参照。5 月 31 日则把它当成严肃智能体工作的默认架构词汇。

1.2 默认技能膨胀与上下文开销，成为主要的优化战场 🡕¶

当天最响亮的实务争论，不是智能体要不要技能，而是默认到底该启用多少技能，以及这些技能每一轮会占掉多少模型注意力。至少有 3 条保留条目支撑了这一主题。

@theo 抱怨（597 次点赞、107 条回复、68,779 次浏览、204 次收藏），Hermes Agent 出厂时默认启用了 100 多个技能，其中很多和他的工作无关。他后续澄清说，问题不只是菜单拥挤，还有一些技能已经在不该触发的时候触发了。

Hermes 技能选择界面，展示一长串默认启用的技能，涵盖 Apple Notes、图像生成、GitHub 审查和 Minecraft 托管等彼此无关的类别

@steipete 反驳（139 次点赞、23 条回复、18,939 次浏览），OpenClaw 应该保持模块化和精简：只加你真正需要的东西。最有信息量的回复指出，更短的工具列表不仅更快，也更准确，因为它减少了误选工具、决策噪音和权限风险。

@RoundtableSpace 表示（71 次点赞、14 条回复、46,561 次浏览、37 次收藏），换上一套不同的技能与 CLI 栈后，Claude Code 的 token 消耗从 1,040 万降到 370 万，错误数也从 10 次降到 0 次。回复马上要求更强的证据：同样的任务、同样的验收测试、同样的推理负载。

讨论要点： 当天的优化目标不是“让智能体更强”，而是“把默认能力面做得更小、更便宜，也更容易检查”。

与前日对比： 5 月 28 日仍把技能系统当成不断扩张的资产。5 月 31 日听起来更像在谈修剪、路由和范围控制。

1.3 构建者持续发布编排栈，但信任取决于可检查性 🡕¶

新项目还在不断出现，但只有把编排与可审阅性、追踪记录所有权或实时监督配在一起时，它们才显得有说服力。至少有 4 条保留条目支撑了这一主题。

@tom_doerr 分享（123 次点赞、5 条回复、6,101 次浏览、129 次收藏）了 EpicStaff，一个面向运营团队的自托管编排平台。公开的仓库介绍它是一个以 Django 为后端的可视化编辑器，提供 MCP/Python 集成，并通过 Redis/PostgreSQL 提供持久化上下文；回复则认为，自托管仍需要逐操作审批日志，以及足够好的事故复盘可见性。

@tom_doerr 还分享（20 次点赞、1,491 次浏览、25 次收藏）了 Spring AI Alibaba 的 DeepResearch 栈。公开的仓库描述了多智能体规划、在线搜索、Hybrid RAG、反思、HITL、安全沙箱隔离和报告生成。

DeepResearch 架构图，展示一个多智能体研究系统中的编排、推理、记忆、工具和输出层

@eliautobot 发布（9 次点赞、1,720 次浏览、15 次收藏）了一个面向 OpenClaw 的自托管“虚拟办公室”。公开的仓库把智能体活动变成一个复古像素风办公室，带有实时状态、活动日志和 API 用量视图，让人们不必只盯着日志，也能看见自己的智能体在做什么。

@ClementDelangue 请求（51 次点赞、10 条回复、4,817 次浏览）更多公开的编程与智能体追踪记录，以改进开放模型。被引用的 Simon Willison 对 Codex 失去转录导出功能的抱怨，再加上关于受监管生产数据的回复，让缺失的治理层变得非常清楚：即便追踪记录存在，运营者也不一定拥有或能够分享它们。

讨论要点： 光有自托管和多智能体编排还不够。真正缺失的一层是可检查性：审批日志、追踪记录导出、可视化监督，以及兼顾隐私的数据集。

与前日对比： 5 月 28 日强调了持久化智能体的共享状态与连续性。5 月 31 日则拿出了面向运营团队的具体产品和可视化监督方案，同时把追踪记录所有权暴露成尚未解决的瓶颈。

2. 令人困扰的问题¶

默认技能包会制造噪音、误选工具和权限风险¶

严重程度：高。@theo 展示（597 次点赞、107 条回复、68,779 次浏览、204 次收藏）了一套默认启用 100 多个技能的 Hermes 配置，并表示其中一些技能已经在不该触发的时候触发了。@steipete 回应（139 次点赞、23 条回复、18,939 次浏览）说，精简且按需启用的能力面更好用，而回复也解释了原因：预启用技能会让模型每一轮都要读更多上下文，从而增加决策噪音和权限风险。人们的应对方式，是手动关掉技能、选择更模块化的框架，或从零重建自己的工具面。这值得构建，因为痛点是即时的，而且能直接体现在错误率和运营者信任上。

关于 token 和错误节省的说法，需要比演示话术更强的证据¶

严重程度：中高。@RoundtableSpace 声称（71 次点赞、14 条回复、46,561 次浏览、37 次收藏），在调整上下文配置后，token 消耗减少了 3 倍、错误也同步下降，但最高赞回复追问的是：比较是否用了同样的任务和验收测试。另一条回复则说，自己在一次错误循环里就烧掉了 40 万 token。信息流并没有拒绝优化主张，而是在要求它们可复现。这值得构建，因为团队越来越把上下文工程当成预算管理，他们要的是经得起重跑的证据，而不只是截图。

有价值的智能体追踪记录很难导出，也难明确归属与共享¶

严重程度：高。@ClementDelangue 呼吁（51 次点赞、10 条回复、4,817 次浏览）提供更多公开追踪记录，但这条讨论串立刻撞上两道障碍：受监管的生产数据不能自由分享，而转录导出功能也可能在产品里毫无预警地消失。被引用的 Simon Willison 对 Codex 失去“Copy as Markdown”功能的抱怨，让所有权问题变得具体可感。人们的应对方式，是选择性地贡献数据、临时导出，或趁自己还掌控仓库时尽量分享能分享的内容。这值得构建，因为追踪数据同时是模型改进资产、审计工件，也可能成为平台锁定的抓手。

光靠自托管，并不能解决运营团队的信任问题¶

严重程度：中高。@tom_doerr 推广（123 次点赞、5 条回复、6,101 次浏览、129 次收藏）面向运营团队的自托管编排，但回复立刻追问：失败之后谁能检查残局，以及每一步操作能否被审阅。当前能看到的绕行方案，是人工审批、外部日志，或干脆选择证据链更清晰的简单系统。这值得构建，因为运营采购方在意的是出故障之后到底发生了什么，而不只是二进制文件运行在哪里。

3. 人们期望的功能¶

精简、按需启用的技能面¶

最强的产品诉求不是“给我更多技能”，而是“从小开始，只让我加上与工作匹配的东西”。Theo 对 Hermes 的抱怨和 Steipete 对 OpenClaw 的回复，把这种愿望说得很直白。机会：直接。用户已经在手动修剪能力面，来换取自己想要的行为。

可检查的编排¶

可见计划、隔离的工作流、失败证据、逐操作审批和成本报告，在 Dynamic Workflows 和 EpicStaff 的回复里反复出现。人们要的是会留下清晰纸面记录的智能体，而不只是看上去很厉害的输出。机会：直接。这是生产使用的实际要求。

兼顾隐私的追踪记录导出与数据集贡献¶

围绕追踪记录共享的讨论串说得很清楚：人们想贡献数据，但不想牺牲客户隐私或产品控制权。现有的 Hugging Face 追踪记录集合算是起点，但信息流并没有展示出一个被广泛采用、适用于受监管环境或厂商锁定环境的答案。机会：具竞争性。需求很明显，但解决空间里挤满了隐私、合规和平台问题。

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
Hermes Agent	智能体框架	(+/-)	预置能力多，还能生成技能	默认能力面过宽，用户报告会误触工具，而且菜单/上下文噪音过大
OpenClaw	智能体框架	(+)	模块化、精简，容易按具体工作定制	比“全部启用”式打包方案更需要主动配置
运行框架工程模式	方法	(+)	为提示词、技能、文件系统、编排、钩子和沙箱隔离提供统一语言	如果没有绑定到可观察的计划、日志和失败证据，仍可能停留在抽象层
EpicStaff	编排平台	(+/-)	自托管可视化编辑器、Django 后端、持久化上下文、MCP/Python 集成	自托管本身并不能回答逐操作审阅与审批需求
DeepResearch	研究智能体栈	(+)	多智能体规划、搜索、Hybrid RAG、反思、HITL、安全沙箱、报告生成	相比更高层的运行框架讨论，早期公开热度较低
My Virtual Office	可观测层	(+)	把不可见的智能体工作变成实时状态、活动和 API 用量视图	仍很早期且偏小众，目前讨论量较低

整体舆论更偏好那些能减少“智能体能做什么、实际上做了什么、花了多少钱”这三类模糊性的工具。迁移压力正在把人们从宽泛的默认技能包推向更精简、更可检查的配置。当前最大、也最未解决的缺口，不是再加一个框架功能，而是让运营者真正拥有证据链和追踪记录。

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
EpicStaff	EpicStaff	面向运营团队的 AI 流程自托管可视化平台	运营团队需要可审阅的智能体工作流，而不用把一切交给工程师或黑盒 SaaS	Django 后端、Python 逻辑、MCP 集成、Redis/PostgreSQL 持久化	Beta	仓库
DeepResearch	Spring AI Alibaba	负责规划、搜索、推理并生成报告的多智能体研究系统	复杂的研究/报告任务需要在一套栈里同时具备编排、检索、反思和沙箱分析	Java 17、Spring Boot 3.4、Spring AI、Hybrid RAG、Docker 沙箱、Tavily/Jina/Aliyun 搜索	Beta	仓库
My Virtual Office	eliautobot	以复古像素风浏览器工作区的形式，实时可视化 OpenClaw 智能体活动	当智能体工作只表现为日志和终端输出时，人很难监督它	自托管浏览器 UI、OpenClaw 集成、实时状态/活动/API 视图	Beta	仓库

EpicStaff 之所以突出，是因为它直接面向运营团队，而不只是 AI 工程师。最重要的反馈是：一旦智能体触碰运营，自托管只是入场券，采购方仍然想要逐操作审批，以及出事后可检查的工作流。

DeepResearch 之所以突出，是因为它把讨论中反复被分开提到的许多运行框架组件打包在一起：搜索、记忆、反思、安全执行和报告输出。那张架构图让整套栈的结构一目了然，这是纯文字难以做到的。

My Virtual Office 代表的是一个体量更小、但很能说明问题的模式：随着智能体扩散，一些构建者开始不用更多仪表盘和原始日志来解决可观测性，而是借助更符合人类直觉的隐喻。

6. 新动态与亮点¶

追踪记录导出成了治理议题，而不只是便利功能¶

@ClementDelangue 让（51 次点赞、10 条回复、4,817 次浏览）公开追踪记录共享变成一个模型质量问题，而被引用的 Simon Willison 对导出转录记录功能消失的抱怨，又把它变成了产品治理问题。这两者叠在一起，让追踪记录所有权看起来像是智能体工具链的下一个主战场之一。

可视化监督开始成为正经的智能体交互形态¶

@eliautobot 展示（9 次点赞、1,720 次浏览、15 次收藏）了给 OpenClaw 智能体准备的复古办公室，而公开仓库里的仪表盘功能让这个概念不只是个玩笑。底层传达的信息很严肃：人们希望检查智能体工作时，不必只能看一串终端日志。

7. 机会在哪里¶

[+++] 可检查的编排与追踪记录导出 —— RoundtableSpace 的 Dynamic Workflows 讨论串、EpicStaff 的反馈讨论串，以及 Clement Delangue 关于追踪记录共享的帖子都汇聚到同一个缺失层：运营者真正能拥有并审阅的计划、行动、失败和转录记录。

[++] 精简能力管理 —— Theo 对 Hermes 的抱怨和 Steipete 对 OpenClaw 的回应说明，人们需要任务范围内的技能包、更清晰的默认配置，以及更好地看清已加载了什么、又为何加载。

[+] 面向智能体团队的可视化监督 —— My Virtual Office 的发布推文表明，市场上有空间容纳这样一类产品：它们让智能体行为可以被实时看懂，而不默认用户愿意整天盯着原始日志。

8. 要点总结¶

运行框架工程已经成为严肃智能体工作的共同系统语言。 LangChain 的文章、Pallavi Shekhar 的示意图，以及 Dynamic Workflow 的讨论，都把提示词、工具、记忆、编排和钩子当成同一个设计面。 (source)
社区开始反感臃肿的默认技能面。 Theo 的 Hermes 截图和 Steipete 对 OpenClaw 的回应，把“更少的工具”变成了一条具体的可靠性论点，而不只是风格偏好。 (source)
只有能暴露工作如何被审阅的新智能体产品，才更容易显得可信。 EpicStaff、DeepResearch 和 My Virtual Office 之所以吸引注意，是因为它们都承诺了某种形式的可视化流程、清晰架构或实时监督。 (source)
追踪记录所有权正在变得和模型质量一样重要。 对公开追踪记录的需求立刻撞上隐私限制和消失的导出功能，这说明数据访问如今已经是核心产品与治理问题。 (source)