Twitter AI Agent - 2026-05-28¶

1. 人们在讨论什么¶

1.1 运行框架工程开始固化成一门具名的系统学科 🡕¶

5 月 28 日最清晰的变化是，运行框架工程不再像零散术语，而开始成为人们理解智能体系统如何真正构建的共同地图。至少有 4 条保留条目支撑了这一主题。

@_vmlops 分享（53 次点赞、2 条回复、3,907 次浏览、73 次收藏）了 awesome-harness-engineering 清单。公开的仓库把运行框架工程定义为智能体周围的脚手架——上下文交付、工具接口、规划工件、验证闭环、记忆系统和沙箱，并把这个领域组织成具体原语，而不是模型炒作。

awesome-harness-engineering 仓库截图，展示其对运行框架工程的定义，以及该仓库公开可见的热度信号

@koylanai 表示（33 次点赞、4 条回复、1,243 次浏览、35 次收藏），一篇新的综述论文回顾了 170+ 个开源项目，以及来自 OpenAI、Anthropic 和 LangChain 的生产经验。附图最有用的部分在于：它明确区分了提示工程、上下文工程和运行框架工程，并给出包含执行环境、工具接口、上下文管理、生命周期/编排、可观测性、验证和治理在内的七层分类。

《Agent Harness Engineering》综述中的图表，对比提示工程、上下文工程和运行框架工程，并展示包含编排、验证和治理在内的七层分类

@MrAhmadAwais 认为（43 次点赞、2 条回复、4,475 次浏览、8 次收藏），Claude Code 在开放模型上仍有重大的工具调用问题，而大部分修复点在运行框架，而不是模型本身。这与公开的 Outcome School 解释文章正好呼应：它把运行框架描述为包裹模型的控制层，负责管理工具、记忆、错误、评估和安全护栏。

讨论要点： 分歧最强的是 @ricklamers，他反驳（4 次点赞、1,154 次浏览、6 次收藏）说，更简单的系统有时比高度工程化的运行框架更能泛化。即便这类批评，也默认了当天的前提：争论的不是运行框架是否重要，而是多少才算够。

与前日对比： 5 月 27 日主要围绕沙箱、记忆新鲜度和遥测来框定运行框架工作。5 月 28 日则把它推进成更完整的学科：有整理过的资料总纲、有综述分类，也有运营者在修具体工具调用失败的例子。

1.2 持久化智能体需要共享状态、索引和跨模块连续性 🡕¶

第二个强主题是，一旦智能体跨越模块、仓库或应用边界，难点就会从模型能力转成共享状态。至少有 3 条保留条目支撑了这一主题。

@chamath 宣布（113 次点赞、20 条回复、64,346 次浏览、44 次收藏），8090 Software Factory 推出了可跨模块持久存在的统一智能体，多仓库索引将在下一步上线。公开的 8090 网站把 Software Factory 描述为围绕文档、监督和完整审计轨迹构建的 AI 原生 SDLC 控制平面，因此这套统一智能体的卖点更少是聊天机器人便利性，而更像在企业工作流里让上下文持续存在。

@BankQuote 描述（200 次点赞、22 条回复、5,312 次浏览、27 次收藏），KasGraph 是 Kaspa 为钱包、区块浏览器、DeFi 界面和 AI 智能体所需要的共享索引层。这条帖子异常详细：用 GraphQL SDL 定义 schema，用 TypeScript 事件处理器通过 AssemblyScript 编译成 WASM，把索引数据物化到 Postgres，做 proof-of-indexing 检查点，并通过 GraphQL、MCP、gRPC streaming 和 WebSocket subscriptions 提供访问。讨论串里的回复把需求说得更直白，@Kas_Ranks 表示，他们一直在等一个统一的索引器。

@GuappGet 把（25 次点赞、5 条回复、1,292 次浏览）Goblintown 定位为一款本地优先桌面应用，用于多智能体编排，设有独立的执行、批评、记忆、裁决和交付角色。这其实是同一模式的另一种外壳：一旦工作变成长时任务，团队要的是角色分工、可恢复执行，以及共享上下文界面，而不是一个没有区分的单一聊天回路。

讨论要点： 这里的回复大多在谈交接成本、协同和复用。具体诉求不是更聪明的孤立模型，而是一个在工作跨模块或跨智能体流动时，不会把状态、索引或路由逻辑一次次丢掉的持久界面。

与前日对比： 5 月 27 日强调的是智能体组织架构和后台桌面控制。5 月 28 日则把连续性层说得更明确：统一智能体、共享索引器和本地优先编排外壳。

1.3 技能被当作智能体可编写、可审计、可基准测试的可复用资产 🡕¶

技能也向前迈了一步，不再只是静态提示词文件，而是智能体可以生成、人类可以审阅的可复用操作资产。至少有 3 条保留条目支撑了这一主题。

@MervinPraison 报告（5 次点赞、2 条回复、349 次浏览、7 次收藏），一名 Hermes 智能体读取 CLI 帮助后，正确生成了自己的 SKILL.md、脚本和触发器。这很重要，因为它把技能视为机器生成的工作文档，而不是人工手写的提示词形式主义产物。

@bradmillscan 分享（8 次点赞、3 条回复、1,036 次浏览、6 次收藏）了一组 Hermes 能力包入门集，例如 Tidy、Methodical、Helpful 和 Thorough。链接的仓库把这些特质变成可检查的工件，用于工作区卫生、SOP 生成和发布，这比含糊的“最佳实践”建议更偏运营。

@koylanai 补充（33 次点赞、4 条回复、1,243 次浏览、35 次收藏），新综述还明确引用了《Agent Skills for Context Engineering》，进一步说明技能现在被当成生产运行框架的一部分，而不是模型周边的附属品。

讨论要点： 共同偏好很明确：人们想要看得见、可移植的技能文件，能审、能改、能跨运行时携带。这与把提示词当作隐藏的内部细节，已经有实质区别。

与前日对比： 5 月 27 日的重点是编辑器原生技能和技能优化研究。5 月 28 日则把这个方向推进到自生成技能、能力包，以及把技能视为核心运行框架原语的研究支撑。

1.4 “智能体经济”市场扩散得比硬证据更快 🡒¶

最具投机色彩的讨论簇围绕市场、变现和“智能体经济”。这个主题确实存在，但公开证据比运行框架和基础设施那类帖子薄得多。至少有 4 条保留条目支撑了它。

@swarms_corp 主推（39 次点赞、6 条回复、1,274 次浏览）一个自治市场，让微型智能体去发现、评估、部署并交易智能能力。@agentranking 描述（21 次点赞、4 条回复、348 次浏览）了一个市场：付费 API 调用、订阅、MCP 服务器和可供机器付费的工具，都能按声誉排序。

@nottellingyou73 声称（22 次点赞、6 条回复、6,692 次浏览、6 次收藏），自己拿到了一个与 Robinhood 关联的交易智能体市场的早期访问；与此同时，@trythreews 上线（7 次点赞、1 条回复、40 次浏览）了 three.ws 的 AWS Marketplace 列表。其网站称，开发者只需一个标签，就能在链上和任意网页中嵌入 3D AI 智能体。

讨论要点： 与运行框架和数据层讨论相比，这些市场类帖子更偏未来式语言，运营细节更少。这个概念显然吸引注意力，但就持久价值而言，目前最硬的证据仍在底层那些无聊的基础设施。

与前日对比： 5 月 27 日已经出现了专业操作器和工作空间。5 月 28 日则把这股能量包进“智能体经济”和变现叙事里，即便公开证明仍然很早期。

2. 令人困扰的问题¶

真实智能体栈里的工具调用可靠性仍然脆弱¶

严重程度：高。最实际的挫败感是，开放模型智能体往往先在运行框架层出错，用户甚至还没来得及评估模型本身。@MrAhmadAwais 说（43 次点赞、2 条回复、4,475 次浏览、8 次收藏），Claude Code 在开放模型上存在严重工具调用问题，而 @_vmlops 则把（53 次点赞、2 条回复、3,907 次浏览、73 次收藏）这些失效归为上下文、工具、记忆和验证周围的脚手架问题。就连 @ricklamers 的怀疑式回应，也只是说过度构建的运行框架会伤害泛化。今天的绕行方案还称不上信任，只是持续微调运行框架、能简则简，并把评估显式化。这值得构建，因为失败发生在用户还没法从智能体稳定拿到工作产出之前。

治理与权限边界仍然定义不足¶

严重程度：高。最强的安全类抱怨，不是对智能体的抽象恐惧，而是不知道多智能体系统一旦能碰真实工具和真实基础设施，会发生什么。@VivekIntel 展示（30 次点赞、2 条回复、1,427 次浏览、31 次收藏）了 PentestAgent 这个自主渗透测试框架，而最有用的回复立刻追问工具执行和权限边界如何受限。@anton_chuvakin 强调（8 次点赞、929 次浏览、9 次收藏）了论文《Agent Security is a Systems Problem》，而 @WisemanCap 提到（26 次点赞、2 条回复、4,013 次浏览），Snowflake 正在收购 Natoma 以做智能体治理。当前的应对模式，是在智能体外围叠加策略、审计和特权访问层，而不是让自治单独裸奔。

团队仍在重复重建同样的索引、记忆与协同层¶

严重程度：中高。KasGraph 和 Software Factory 的帖子暴露出一笔反复出现的基础设施税：几乎每个严肃的智能体工作流，都需要自己的索引器、连续性层或路由界面。@BankQuote 详细列出（200 次点赞、22 条回复、5,312 次浏览、27 次收藏）每个 Kaspa 应用最终都得回答的那些重复问题，而 @chamath 推销（113 次点赞、20 条回复、64,346 次浏览、44 次收藏）统一智能体时，卖点之一正是去掉模块交接。@GuappGet 又补上（25 次点赞、5 条回复、1,292 次浏览）一个本地优先的多智能体外壳，内置专门的记忆和审阅者角色。这种挫败感不花哨，但它具有结构性，而且一再重现。

市场叙事已经跑在信任与验证前面¶

严重程度：中。智能体市场类帖子确实吸引了注意力，但证据密度落后于运行框架和基础设施那一簇。@swarms_corp 谈（39 次点赞、6 条回复、1,274 次浏览）“智能体经济”，@agentranking 推广（21 次点赞、4 条回复、348 次浏览）按声誉排名、可变现的能力，而 @nottellingyou73 提供（22 次点赞、6 条回复、6,692 次浏览）交易智能体的早期访问。真正缺失的，是同等程度的公开细节：它们如何处理失败、如何治理，或者如何持续创造运营者价值。对任何想做商业层的人来说，这里都存在可信度缺口。

3. 人们期望的功能¶

可修复、可度量的可移植运行框架¶

信息流里最强的愿望不是新的前沿模型，而是能证明某次改动是否真的带来改善的运行框架。运行框架工程仓库、新综述，以及关于 Command Code 工具调用的抱怨，都指向同一个缺口。构建者想要在工具使用、上下文组装、验证和安全上看到可量化提升，而不是靠猜。机会：直接。

面向持久化智能体的共享数据与连续性层¶

KasGraph、Software Factory 和 Goblintown 都在暗示同一个未满足需求：为那些必须跨模块、跨仓库或跨产品持续运行的智能体，提供可复用的控制与数据平面。今天，很多团队仍在从零搭建自己的索引器、记忆层和协同外壳。机会：直接且具竞争性。

面向 MCP、工具和特权操作的默认安全治理¶

安全讨论的结论很一致：一旦智能体会触碰真实工具，团队要的是强边界，而不是只靠提示词的小心提醒。PentestAgent 引发的反应、Natoma 收购信号，以及那篇系统安全论文，都指向对身份、策略、审计和最小权限控制的需求，而且这些能力必须自然地适配智能体工作流。机会：直接。

智能体可生成、审阅和改进的技能系统¶

Hermes 和 skill-proficiency 帖子说明，团队想要的不是一文件夹静态提示词。他们要的是能从真实工作里生成、像代码一样检查、能够做基准测试，并能跨运行时携带的技能。这种需求更像务实工程，而不是愿景口号。机会：直接且具竞争性。

智能体市场的信任与声誉层¶

市场类帖子越来越多，但信任层明显建设不足。如果智能体能力真的要被买卖、订阅，或以机器对机器的方式调用，构建者就需要能经得住真实运营者审视的声誉、沙箱、策略和计费系统。机会：新兴。

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
awesome-harness-engineering	参考资料集	(+)	为构建者提供一张涵盖上下文、工具、记忆、验证和沙箱的统一地图	它更像资料总纲，不是可执行运行时
《Agent Harness Engineering: A Survey》	研究框架	(+)	把七层分类形式化，并梳理 170+ 个开源项目	更偏概念，不是即插即用方案
8090 Software Factory unified agent	智能体平台	(+/-)	持久化的跨模块智能体流、审计轨迹、文档和监督	公开技术细节仍明显少于产品表述
KasGraph	数据/索引层	(+)	通过 GraphQL、WASM、Postgres、MCP、gRPC 和 WebSocket 提供可复用状态访问	仍处早期，而且生态特定性较强
PentestAgent	安全操作器	(+/-)	assist/agent/crew 模式、Docker 或 Kali 隔离、报告生成、MCP 支持	领域敏感，因此权限和范围控制非常关键
Hermes proficiencies	技能包	(+/-)	把工作区纪律和 SOP 变成可移植的技能资产	目前证据仍停留在讨论串级别，而且还很早期
three.ws	智能体界面 / 变现	(+/-)	可嵌入的 3D 智能体、支持 MCP 和 A2A、可移植身份与计费挂钩	到目前为止，界面和变现方面的证据多于运营者价值方面的证据

整体情绪更偏好那些让控制面更明确的工具。资料集、分类法和基础设施层获得了最干净的正面反应，因为它们让智能体行为更容易推理。对于面向终端用户的市场，以及进攻性安全操作器，情绪就更复杂：上行空间很明显，但治理和信任要求也高得多。当天可见的迁移路径，是从以提示词为中心的思维，转向以脚手架为中心的思维：上下文、策略、编排、修复闭环和可复用技能。

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
KasGraph	@BankQuote	面向 Kaspa 应用和智能体的 Subgraph 风格索引层	否则每个应用都得自己重建 token、covenant、NFT、转账和证明索引	GraphQL SDL、TypeScript、AssemblyScript/WASM、Postgres、MCP、gRPC、WebSocket	Alpha	帖子
8090 Software Factory unified agent	8090	在 AI 原生 SDLC 平台内跨模块运行的持久化智能体	企业软件交付中的跨模块交接成本和上下文丢失	AI 原生 SDLC 控制平面、文档层、审计轨迹、多仓库索引路线图	Beta	网站, 帖子
PentestAgent	GH05TCREW	具备 assist、agent 和 crew 模式的自主渗透测试框架	可重复执行的侦察、利用和报告工作流仍然很耗人工	Python、LiteLLM 支持的模型、终端和浏览器工具、Docker 或 Kali、MCP	已发布	仓库
Goblintown	@GuappGet	面向单智能体和多智能体编排的本地优先桌面应用	复杂工作需要角色分工、可恢复执行、预算控制和审阅者闭环	本地优先桌面应用、多智能体角色、签名输出、预算控制	Alpha	帖子
three.ws	three.ws	让构建者用一个 tag 就能在链上和网页中嵌入具身 3D AI 智能体	智能体仍缺少可移植的前端身份和分发界面	Web components、GLB/gltf rendering、Solana、Metaplex Core、MCP、A2A	Beta	网站, 帖子

KasGraph 和 8090 Software Factory 从相反方向指向同一种构建模式。一个起点是区块链基础设施，一个起点是企业 SDLC，但两者的大部分精力都花在连续性上：共享状态、可复用索引，以及更少的交接。

PentestAgent 是当天最明确的操作器型构建。它的公开仓库已经写清了多种执行模式、Docker 和 Kali 隔离、MCP 支持以及内置报告功能，因此比那些叠加在“智能体经济”话术上的市场类推销更具体。

Goblintown 和 three.ws 则展示了构建者在界面层的尝试方向。Goblintown 把编排做成角色化桌面外壳，而 three.ws 把智能体变成可嵌入的前端界面，并带有可移植身份和变现挂钩。两者都很有意思，但今天的证据成熟度仍明显落后于底层控制平面工作。

6. 新动态与亮点¶

运行框架工程开始拥有自己的公开资料总纲¶

awesome-harness-engineering 仓库、新综述和配套解释文章组合在一起，让运行框架工程看起来更像一个稳定术语，而不是转瞬即逝的梗。这很重要，因为它给了构建者一套关于上下文、工具、验证和治理的共同词汇。(仓库)

统一智能体开始在公开产品叙事中取代按模块划分的智能体¶

8090 的统一智能体发布，是一次有意义的叙事转向。它承诺的不是“更多智能体”，而是一个能跨越模块边界持续存在，并在整个工作流里保留对话历史、技能和告警的单一持久化智能体。(来源)

自写技能从理论走向日常演示¶

Hermes 自动生成自己的 SKILL.md、脚本和触发器，是一条体量不大的帖子，却有很大的含义：技能现在被当作智能体做完任务后可以产出的工作成果，而不再只是静态的人写初始化。(来源)

7. 机会在哪里¶

[+++] 面向持久化工作的智能体控制与数据平面 — Software Factory、KasGraph 和 Goblintown 都指向同一个结构性需求：一旦智能体离开单任务循环，就需要持久上下文、共享索引、编排，以及更少的交接。

[+++] 智能体运行框架的治理与修复工具 — 工具调用失效、Natoma 收购信号、PentestAgent 引发的权限问题，以及那篇系统安全论文，都显示市场需要审计、策略、范围控制，以及可度量的运行框架修复能力。

[++] 技能生命周期平台 — 综述中的引用、Hermes 自生成技能，以及 Hermes proficiencies，都说明团队想要一种能在不同运行时里创建、做基准测试、审阅并迁移技能的方法。

[+] 智能体市场的信任与声誉基础设施 — Swarms、AgentRanking、交易智能体推介以及 three.ws，都显示商业层已经冒头，但持久信任与运营级控制的证明仍然很早。

8. 要点总结¶

运行框架工程是 5 月 28 日 AI 智能体讨论里的主导解释框架。 最明确的证据来自 awesome-harness-engineering 仓库和那篇新综述，它们都把这项工作定义为上下文、工具、验证、编排和治理，而不只是模型调优。(仓库)
持久化智能体越来越需要共享状态和索引，而不是更多模型新鲜感。 8090 的统一智能体和 KasGraph 的索引器卖的都是连续性，而不是原始模型 IQ。(来源)
技能正在变成可检查的操作资产。 Hermes 生成自己的技能文件，以及 Hermes proficiencies 仓库，都指向技能会像代码一样被审查、复用和改进。(来源)
市场叙事扩张的速度，快于公开可验证的运营者价值。 AgentRanking、Swarms 和交易智能体帖子让商业层变得可见，但最具体的技术证据仍然集中在底层基础设施。(来源)