Twitter AI 智能体 - 2026-05-11¶

1. 人们在讨论什么¶

1.1 测试框架工程正在固化为一套运营方法论 🡒¶

证据最密集的一组帖子都在说，智能体工作的难点如今已经转到模型外围的系统层：缓存、路由、evals、可观测性、搜索和上下文组装。和 5 月 10 日相比，措辞变化不大，但 5 月 11 日的帖子更偏运营落地，也少了些口号味。

@akshay_pachaar 发布了当天最强的一份清单，明确把测试框架工程放在提示工程之前，并把提示词缓存、语义缓存、KV-cache 管理、结构化输出兜底方案、evals、成本归因、安全护栏、可观测性、路由以及微调取舍列为核心技能集（帖子链接）。来自 @0xNeoArch 的一条回复又把这个点讲得更尖锐：补上了提示词注入防御、蒸馏，以及知道什么时候根本不该用 LLM。

@aiDotEngineer 进一步收紧了这套栈的范围，认为上下文工程“80% 都是智能体式搜索”，然后把大家引向一场研讨会，讨论 shell 工具、语义搜索、通用查询执行和技能各自会在什么地方失效（帖子链接）。@DataScienceDojo 则把同一心智模型画成了一条上下文管线：在模型调用前后，把提示词、记忆、向量搜索、网页搜索和审查者闭环合并在一起（帖子链接）。

展示将上下文输入、网页搜索、合并上下文、模型输出和审查者闭环作为智能体质量核心管线的示意图

@hasantoxr 则把这套说法落成了一个具体工具包，建议把 Harness、PostHog、GrowthBook、Chaos Mesh 和 Kubescape 当作值得研究的仓库（帖子链接）。这些关联仓库也强化了“系统层”这个视角：Harness 把自己定位为开源开发平台，覆盖代码托管、流水线、Gitspaces 和注册表；PostHog 打包了分析、会话回放、功能开关、实验和 LLM 分析；GrowthBook 则把功能开关、实验、分析和一个 MCP server 组合在一起。

讨论要点： 最有价值的回复，并不是反对测试框架这个框架，而是继续把它往外展开。真正的异议在于：搜索质量、注入防御、路由和成本控制这些经典工程问题，哪怕放进概率型运行时里，依旧占主导。

与前日对比： 5 月 10 日让测试框架工程成了一个共享标签。到了 5 月 11 日，这个标签更接近一份落地清单，以及一份仓库 / 工具采购清单。

1.2 智能体操作者想要更小的表面积、更窄的作用域和实时轨迹 🡕¶

第二个主题是，人们希望智能体在更小、也更容易读懂的环境里工作。共同诉求不是更强的原始自主性，而是更清晰的契约、更窄的工作集，以及能直接看到智能体此刻在做什么的证据。

@ctatedev 认为，若前端完全交给智能体来写，构建者与其上一个厚重框架，不如从 index.html、浏览器原语、Web Components，以及针对路由、渲染、状态变化和数据处理的严格约定出发（帖子链接）。回复里又补出了两个具体方向：@bytecrafter_1 说，更难的契约往往发生在智能体之间，而不是界面原语之间；@noname_oni 则提到 W3C 的《UI Specification Schema Community Group》，把它当作让 UI 结构机器可读的一条路径。相邻的 Arrow 框架页面也符合这种直觉：强调无需构建步骤、只有 3 个核心函数，而且文档小到智能体能直接装进上下文。

@pvncher 把范围问题讲得很具体：如果根目录里同时打开多个互不相关的项目和 worktree，编程智能体就会受伤，因为模型会把树里太多内容都当成有用信息（帖子链接）。他在回复里举了一个案例：某个环境里有 12 个可访问的 worktree，于是每个文件都出现了 13 份副本，既浪费 token，也拖慢搜索性能。

@zaimiri 提供了最清晰的可观测性例子：他称赞 Hermes Agent 能实时显示哪些技能和工具正在触发，因为他已经多次遇到 OpenClaw 看起来闲置了好几分钟，最后却无声失败（帖子链接）。

展示智能体工作时，技能、记忆、待办更新、文件读取和写入会被实时输出的运行时轨迹

@RhysSullivan 又把同一主题延伸到供应链控制：他写了一个提示词，要求编程智能体为包安装配置 3 天的最小发布时间年龄、豁免工作区作用域，并在写入配置前核对包管理器的精确设置（帖子链接）。

讨论要点： 回复一再把“对智能体友好”重新定义为“可调试”。用户想要的是协议、忽略规则边界和实时轨迹，好让他们能检查系统，而不是只能等一团输出。

与前日对比： 5 月 10 日强调的是更薄的前端和更好的脚手架。到了 5 月 11 日，又补上了工作集纪律、实时执行轨迹和软件包策略控制。

1.3 技能正在变成可移植资产，并拥有自己的生命周期 🡕¶

围绕技能的讨论也变得更具体了。构建者不再只谈市场，而是展示了技能如何被安装、同步、从经验中提取、版本化，并在不同智能体之间复用。

@brian_lovin 分享了 notion-skills，它把 Notion 数据库当作技能的应用商店，并把选定技能同步到 Claude、Codex 等本地智能体文件夹里（帖子链接）。公开的仓库说，它支持安装、同步、发布、信息流、反馈和审计流程，而且同一份技能可以通过符号链接接入多个智能体 CLI。Brian 在回复里还说，他的大多数技能都是由智能体编写的，而且 Claude Code 和 Notion 已经能通过 MCP 加 CLI 互通。

@tom_doerr 则重点提到了 AutoSkill，其仓库把自己描述为“由经验驱动的终身学习”：从真实交互、归档对话、文档和轨迹中提取可复用技能，再通过合并和版本更新持续演化它们（帖子链接）。README 还提到新加入的本地技能管理器，可用于分诊、相似技能搜索，以及丢弃、改进、合并和创建等决策。

展示查询改写、技能检索、技能提取、合并与管理决策构成闭环演化循环的 AutoSkill 示意图

讨论要点： 价值主张正从“找到更多技能”转向“让正确的技能保持最新”。最强证据集中在同步、反馈、版本化，以及从真实使用中提取技能，而不是简单的目录规模。

与前日对比： 5 月 10 日浮现的是市场和目录。到了 5 月 11 日，技能运营更像包管理和生命周期管理。

1.4 多智能体记忆和机器可支付轨道正在作为产品落地 🡕¶

最后一个强主题是产品化。几条帖子都越过了理论讨论，直接展示了面向持久化、协作或交易型智能体的具体界面、部署指标和支付轨道。

@owenbjennings 说，Mongoose 作为云端多智能体层已经接近就绪，在那里，“mongeese” 会共享来自网页、日历、Slack、邮件和文档的上下文，彼此辩论，并在 Goose OSS 之上让记忆持续累积（帖子链接）。附带的终端截图则把这点落到了实处：在一个操作界面里同时展示了 summon、build、skills、sentries 和 settings 命令。

展示一组智能体协调时可用 summon、build、skill、sentry 和 settings 命令的 Mongoose 终端界面

@vercel_dev 指向了 Superset，这是一款多智能体 IDE。关联的 Vercel 文章称，它可并行运行最多 12 个智能体，每周部署 1,000 到 1,400 次、每天大约 600 次预览部署，平均构建时间约 30 秒（帖子链接; 博客）。产品页则写明，每个智能体都运行在自己隔离的 git worktree 里，并且能与任何 CLI 智能体协作。

@circle 发布了 Circle Agent Stack，把它定位为面向智能体的金融基础设施，围绕 Agent Wallets、Agent Marketplace 和 Circle CLI 展开，让金融操作能在权限与安全护栏内重复执行（帖子链接）。Circle 的文档说，这套栈让智能体可以持有并转移 token、发现并支付 x402 服务，并在内置合规护栏内运行。与此同时，@graphprotocol 说 Subgraph Gateway 现已接受用于链上数据查询的 x402 支付，而 The Graph 的指南则写明，智能体可以在没有 API 密钥、账户或会话的情况下，通过 HTTP 用 USDC 付款（帖子链接）。

展示可供智能体访问的服务、端点数量和按次请求价格的 Circle marketplace 视图

讨论要点： 围绕 Circle 的回复，更关注编排层和 CLI，而不是钱包本身。这说明市场真正看中的切入口，是可重复、受策略约束的动作，而不只是由智能体持有余额。

与前日对比： 5 月 10 日更多是在原则层面讨论治理和身份。到了 5 月 11 日，公开文档、定价界面和已上线产品的运营指标都出现了。

2. 令人困扰的问题¶

测试框架复杂度仍在吞掉模型红利¶

最常见的挫败感是，更好的模型并不能替代更强的系统工程。@akshay_pachaar 列出了缓存、evals、路由、可观测性和兜底方案等必备技能，而 @aiDotEngineer 则把上下文工程进一步收缩为搜索和工具选择。@dair_ai 又补上了一个有研究支撑的失效模式：关联的 PwC 论文称，目标澄清在执行前 10% 之后就会失去大部分价值，输入澄清能更久保持有效，而到了后期再澄清，效果甚至可能比完全不问还差。严重程度：高。今天的权宜之计不是减少测试框架工作，而是做得更多。

范围过大的工作区和沉默的运行时仍在浪费时间¶

人们遇到的失效模式，很多依然和模型 IQ 无关。@pvncher 描述了智能体如何被塞满大量无关项目和重复 worktree 的根目录搞糊涂，并在回复里说，有一种配置会让模型看到每个文件的 13 份拷贝。@zaimiri 则抱怨，有些智能体会看起来闲置 6 分钟，最后才告诉你它其实什么也没做。严重程度：高。当前的应对方式，是收窄范围、添加忽略规则，并要求实时轨迹。

安全与策略控制仍然落后于自主性¶

随着智能体接手更多动作，操作者想要更明确、更强硬的默认设置。@RhysSullivan 把软件包最小发布时间年龄控制说成是对供应链攻击一项显而易见、早该补上的防护。@circle 则在金融动作里强调权限与安全护栏，而 Circle 的文档也把合规与支出控制当作产品的一部分来呈现。严重程度：高。当前的应对方式仍然是手动加固，再事后补一层策略。

3. 人们期望的功能¶

轻量、以智能体为先的界面与运行时约定¶

@ctatedev 想要的是浏览器原生的前端约定，让智能体能够稳定地路由和修改；回复里则要求更系统化的组件定义，并指向 W3C 的《UI Specification Schema Community Group》。这个需求很务实，不是空想：人们想要的，是比当下默认框架栈更小、更机器可读的表层。机会：直接。

会随时间复利的技能生命周期工具¶

技能讨论里最强的需求，不只是发现能力。@brian_lovin 想要共享的安装 / 同步 / 发布 / 反馈流程，而 AutoSkill 则把方向推向从真实交互中自动提取、合并并版本化演进技能。人们真正想要的，看起来是一套面向智能体能力的包管理器 + 变更日志 + 反馈闭环。机会：直接。

在不失去操作者信任的前提下保持有用的持久记忆¶

@owenbjennings 提出跨工作与沟通表层共享持久上下文，而 OpenHuman 则承诺本地 SQLite 支撑的记忆树、兼容 Obsidian 的 vault、118+ 集成，以及每 20 分钟一次的自动抓取循环。这个需求既务实，也带有情绪色彩：人们希望智能体记住足够多的内容以保持有用，但这种记忆又必须是他们能检查、能控制的形式。机会：直接。

面向智能体的轻凭证支付与服务发现¶

Circle Agent Stack 和 The Graph 的 x402 Subgraph Gateway 从两个方向描述了同一个缺失层：智能体需要一套标准方式来发现服务，并在不保存长期凭证的前提下按次付费。The Graph 的指南说得很明确：x402 访问不需要 API 密钥、账户或会话，这让它特别适合自主或短生命周期进程。机会：竞争型。

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
测试框架工程 / 上下文工程	方法	(+)	给构建者一套共同框架，用来讨论缓存、evals、路由、可观测性、安全护栏和成本归因	仍然足够宽泛，不同人说的其实可能是不同层
智能体式搜索	检索方法	(+)	把搜索和工具选择视为上下文组装的中心，而不是事后补丁	运行时一旦选错抽象层，工具选择就可能严重失效
浏览器原语 + Web Components + Arrow	前端方法	(+/-)	表面积更小、可不经构建、约定更简单，更适合智能体编写界面	把更多契约设计压力转回构建者；回复也认为协议边界依然更重要
限定根目录 / worktree 过滤	工作区方法	(+)	减少 token 浪费、重复文件混淆和编程智能体搜索变慢	工作横跨紧密耦合的 repo 时更难做
实时工具与技能轨迹	可观测性	(+)	让智能体在运行时就能被调试，而不是只能等超时之后才看结果	证据仍然局限于特定生态，而且还很早期
Notion Skills	技能分发	(+)	共享仓库、选择性安装、双向同步、发布、反馈，以及跨多个智能体的审计	早期工具，并且把 Notion 作为事实来源
AutoSkill	技能演化	(+)	从交互、文档和轨迹中提取可复用技能，再把它们合并并版本化	仍偏研究，也依赖对哪些内容真正可复用做出准确分诊
Circle Agent Stack	智能体金融基础设施	(+)	为可重复的资金流转加入钱包、市场发现、CLI 动作和安全护栏	相比通用开发者工具，它更依赖特定生态，而且仍处早期
The Graph x402 gateway	智能体 API 访问	(+)	可通过 HTTP 用 USDC 按查询付费，而且不需要 API 密钥、账户或会话	更适合兼容 x402 的生态，而不是通用服务访问
澄清时机框架	智能体评估方法	(+)	就何时提出澄清问题仍能帮助长时任务智能体给出具体指导	这是研究结果，不是现成可用的运行时功能

总结： 正面情绪主要集中在那些能让智能体更容易限定范围、检查和复用的工具上。最清晰的迁移路径，是从只靠提示词的思路，转向上下文组装、技能打包、运行时可见性和策略控制。竞争压力则分裂成两边：一边是开放的构建者工具链，另一边是托管式支付 / 治理层。

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
Notion Skills	@brian_lovin	把 Notion 当作共享技能仓库，并把选定技能同步到本地智能体文件夹	技能文件散落在不同机器、文件夹和协作者之间	Notion、Node.js、通过符号链接安装的 `SKILL.md`	Alpha	仓库, 帖子
AutoSkill	ECNU-ICALK	从交互、文档和轨迹中提取可复用技能，然后持续演化它们	好的智能体行为往往在一次性会话后就消失	`SKILL.md`、离线提取、本地技能管理器、版本化技能更新	Alpha	仓库, 帖子
Mongoose	@owenbjennings	具备共享上下文和记忆复利的云端多智能体编排	助手通常会丢失跨界面上下文和团队连续性	Goose OSS、共享上下文编排、持久记忆	Alpha	帖子
Superset	Superset	带隔离 worktree 和实时预览基础设施的多智能体 IDE	并行编程智能体会在分支和环境排队时被串行化	AI SDK、AI Gateway、Blob、Fluid Compute、git worktrees	已发布	官网, 博客, 帖子
Circle Agent Stack	Circle	为智能体提供钱包、市场发现和 CLI 驱动的金融操作	智能体需要机器可支付服务和受护栏约束的资金流转	Agent Wallets、Circle CLI、x402 服务、USDC	Beta	文档, 帖子
OpenHuman	tinyhumansai	本地优先的个人智能体，具备记忆树、Obsidian vault、集成和模型路由	大多数智能体启动时都是冷的，而且上下文长期分散在各个应用里	SQLite、Markdown/Obsidian、OAuth 集成、TokenJuice、可选 Ollama	Beta	仓库, 帖子
语音下单智能体	@EstebanSuarez	一套语音工作流，能构建购物车、发送订单、采集邮箱并发送收据	展示语音智能体可以执行结构化动作，而不只是聊天	v0、Grok Voice Think Fast 1.0、Resend、6 个自定义函数工具	Alpha	帖子

这些项目大致聚成三种反复出现的模式。一类在构建会复利的智能体基础设施：技能、记忆、编排和 worktree 隔离。另一类试图让智能体具备金融能力，包括钱包、按次计费和服务发现。第三类则用这些原语去展示更窄的应用工作流，比如语音下单；重点不在对话质量，而在把任务可靠执行完。

6. 新动态与亮点¶

递归委派正在成为训练目标¶

@gneubig 强调了新论文《Recursive Agent Optimization》，这篇论文训练智能体去生成并协调递归子智能体，而不是把委派仅仅当成手写的推理技巧（帖子链接; 论文）。摘要称，以这种方式训练出的递归智能体，可以扩展到单个上下文窗口之外的任务，并相较单智能体系统降低实际耗时。

澄清时机现在有了定量曲线¶

@dair_ai 把一篇关于长时任务智能体澄清时机的 PwC 论文带进了讨论（帖子链接; 论文）。论文报告称，他们测试了 84 个任务变体和 6,000+ 次运行，并得出结论：目标澄清在执行前 10% 之后就会失去大部分价值，输入澄清则能更久保持有效，而一旦过了中点，任何澄清都可能比完全不问更差。

软件包最小发布时间策略正在进入编程智能体操作手册¶

来自 @RhysSullivan 的那条关于最小发布时间年龄的帖子之所以显眼，是因为它把一个普遍的供应链担忧，变成了编程智能体的具体操作习惯。值得注意的不是那些玩笑式回复，而是人们越来越希望智能体替他们配置、验证并执行这些加固规则。

7. 机会在哪里¶

[+++] 智能体运行时控制平面 —— 最强证据横跨限定根目录、实时工具轨迹、供应链策略和金融护栏。构建者想要的不只是能行动的智能体，也同样想要可被监督、可被约束的智能体。

[+++] 技能生命周期基础设施 —— Notion Skills 和 AutoSkill 都指向同一个缺失层：安装、同步、审查、版本化，以及自动提取可复用能力。

[++] 具备操作者可见性的持久记忆系统 —— Mongoose 和 OpenHuman 表明，市场需要能快速热启动、还能跨工具记住上下文的智能体，但前提是用户能检查并引导这种记忆。

[++] 轻凭证的服务发现与支付 —— Circle Agent Stack 和 The Graph 的 x402 流程都指向一个不断增长的市场：不依赖长期密钥、按次付费的智能体基础设施。

[+] 以智能体为先的应用约定 —— 薄前端栈、UI 规范尝试和无需构建的框架都说明，一个新机会正在出现：专门为机器编写和审查设计应用表层。

8. 要点总结¶

智能体讨论的重心仍然是基础设施。 当天最高信号的帖子，讨论的是测试框架、搜索、轨迹、技能和控制界面，而不是原始模型对比。(source)
可理解性正在成为产品质量的一部分。 关于更薄前端、限定根目录、实时轨迹和软件包发布时间年龄控制的帖子，都指向同一标准：用户想看见，也想约束智能体在做什么。(source)
技能越来越不像提示词，更像软件工件。 在最强的技能条目里，安装、同步、发布、反馈、提取和版本化都已经成了核心能力。(source)
产品化的多智能体与支付轨道已不再是假设。 Superset、Mongoose、Circle Agent Stack 和 The Graph 给出的，都是具体界面或运营指标，而不只是类别口号。(source)