Twitter AI 智能体 - 2026-05-11¶
1. 人们在讨论什么¶
1.1 测试框架工程正在固化为一套运营方法论 🡒¶
证据最密集的一组帖子都在说,智能体工作的难点如今已经转到模型外围的系统层:缓存、路由、evals、可观测性、搜索和上下文组装。和 5 月 10 日相比,措辞变化不大,但 5 月 11 日的帖子更偏运营落地,也少了些口号味。
@akshay_pachaar 发布了当天最强的一份清单,明确把测试框架工程放在提示工程之前,并把提示词缓存、语义缓存、KV-cache 管理、结构化输出兜底方案、evals、成本归因、安全护栏、可观测性、路由以及微调取舍列为核心技能集(帖子链接)。来自 @0xNeoArch 的一条回复又把这个点讲得更尖锐:补上了提示词注入防御、蒸馏,以及知道什么时候根本不该用 LLM。
@aiDotEngineer 进一步收紧了这套栈的范围,认为上下文工程“80% 都是智能体式搜索”,然后把大家引向一场研讨会,讨论 shell 工具、语义搜索、通用查询执行和技能各自会在什么地方失效(帖子链接)。@DataScienceDojo 则把同一心智模型画成了一条上下文管线:在模型调用前后,把提示词、记忆、向量搜索、网页搜索和审查者闭环合并在一起(帖子链接)。

@hasantoxr 则把这套说法落成了一个具体工具包,建议把 Harness、PostHog、GrowthBook、Chaos Mesh 和 Kubescape 当作值得研究的仓库(帖子链接)。这些关联仓库也强化了“系统层”这个视角:Harness 把自己定位为开源开发平台,覆盖代码托管、流水线、Gitspaces 和注册表;PostHog 打包了分析、会话回放、功能开关、实验和 LLM 分析;GrowthBook 则把功能开关、实验、分析和一个 MCP server 组合在一起。
讨论要点: 最有价值的回复,并不是反对测试框架这个框架,而是继续把它往外展开。真正的异议在于:搜索质量、注入防御、路由和成本控制这些经典工程问题,哪怕放进概率型运行时里,依旧占主导。
与前日对比: 5 月 10 日让测试框架工程成了一个共享标签。到了 5 月 11 日,这个标签更接近一份落地清单,以及一份仓库 / 工具采购清单。
1.2 智能体操作者想要更小的表面积、更窄的作用域和实时轨迹 🡕¶
第二个主题是,人们希望智能体在更小、也更容易读懂的环境里工作。共同诉求不是更强的原始自主性,而是更清晰的契约、更窄的工作集,以及能直接看到智能体此刻在做什么的证据。
@ctatedev 认为,若前端完全交给智能体来写,构建者与其上一个厚重框架,不如从 index.html、浏览器原语、Web Components,以及针对路由、渲染、状态变化和数据处理的严格约定出发(帖子链接)。回复里又补出了两个具体方向:@bytecrafter_1 说,更难的契约往往发生在智能体之间,而不是 界面原语之间;@noname_oni 则提到 W3C 的 《UI Specification Schema Community Group》,把它当作让 UI 结构机器可读的一条路径。相邻的 Arrow 框架页面也符合这种直觉:强调无需构建步骤、只有 3 个核心函数,而且文档小到智能体能直接装进上下文。
@pvncher 把范围问题讲得很具体:如果根目录里同时打开多个互不相关的项目和 worktree,编程智能体就会受伤,因为模型会把树里太多内容都当成有用信息(帖子链接)。他在回复里举了一个案例:某个环境里有 12 个可访问的 worktree,于是每个文件都出现了 13 份副本,既浪费 token,也拖慢搜索性能。
@zaimiri 提供了最清晰的可观测性例子:他称赞 Hermes Agent 能实时显示哪些技能和工具正在触发,因为他已经多次遇到 OpenClaw 看起来闲置了好几分钟,最后却无声失败(帖子链接)。

@RhysSullivan 又把同一主题延伸到供应链控制:他写了一个提示词,要求编程智能体为包安装配置 3 天的最小发布时间年龄、豁免工作区作用域,并在写入配置前核对包管理器的精确设置(帖子链接)。
讨论要点: 回复一再把“对智能体友好”重新定义为“可调试”。用户想要的是协议、忽略规则边界和实时轨迹,好让他们能检查系统,而不是只能等一团输出。
与前日对比: 5 月 10 日强调的是更薄的前端和更好的脚手架。到了 5 月 11 日,又补上了工作集纪律、实时执行轨迹和软件包策略控制。
1.3 技能正在变成可移植资产,并拥有自己的生命周期 🡕¶
围绕技能的讨论也变得更具体了。构建者不再只谈市场,而是展示了技能如何被安装、同步、从经验中提取、版本化,并在不同智能体之间复用。
@brian_lovin 分享了 notion-skills,它把 Notion 数据库当作技能的应用商店,并把选定技能同步到 Claude、Codex 等本地智能体文件夹里(帖子链接)。公开的 仓库 说,它支持安装、同步、发布、信息流、反馈和审计流程,而且同一份技能可以通过符号链接接入多个智能体 CLI。Brian 在回复里还说,他的大多数技能都是由智能体编写的,而且 Claude Code 和 Notion 已经能通过 MCP 加 CLI 互通。
@tom_doerr 则重点提到了 AutoSkill,其仓库把自己描述为“由经验驱动的终身学习”:从真实交互、归档对话、文档和轨迹中提取可复用技能,再通过合并和版本更新持续演化它们(帖子链接)。README 还提到新加入的本地技能管理器,可用于分诊、相似技能搜索,以及丢弃、改进、合并和创建等决策。

讨论要点: 价值主张正从“找到更多技能”转向“让正确的技能保持最新”。最强证据集中在同步、反馈、版本化,以及从真实使用中提取技能,而不是简单的目录规模。
与前日对比: 5 月 10 日浮现的是市场和目录。到了 5 月 11 日,技能运营更像包管理和生命周期管理。
1.4 多智能体记忆和机器可支付轨道正在作为产品落地 🡕¶
最后一个强主题是产品化。几条帖子都越过了理论讨论,直接展示了面向持久化、协作或交易型智能体的具体界面、部署指标和支付轨道。
@owenbjennings 说,Mongoose 作为云端多智能体层已经接近就绪,在那里,“mongeese” 会共享来自网页、日历、Slack、邮件和文档的上下文,彼此辩论,并在 Goose OSS 之上让记忆持续累积(帖子链接)。附带的终端截图则把这点落到了实处:在一个操作界面里同时展示了 summon、build、skills、sentries 和 settings 命令。

@vercel_dev 指向了 Superset,这是一款多智能体 IDE。关联的 Vercel 文章称,它可并行运行最多 12 个智能体,每周部署 1,000 到 1,400 次、每天大约 600 次预览部署,平均构建时间约 30 秒(帖子链接; 博客)。产品页则写明,每个智能体都运行在自己隔离的 git worktree 里,并且能与任何 CLI 智能体协作。
@circle 发布了 Circle Agent Stack,把它定位为面向智能体的金融基础设施,围绕 Agent Wallets、Agent Marketplace 和 Circle CLI 展开,让金融操作能在权限与安全护栏内重复执行(帖子链接)。Circle 的 文档 说,这套栈让智能体可以持有并转移 token、发现并支付 x402 服务,并在内置合规护栏内运行。与此同时,@graphprotocol 说 Subgraph Gateway 现已接受用于链上数据查询的 x402 支付,而 The Graph 的 指南 则写明,智能体可以在没有 API 密钥、账户或会话的情况下,通过 HTTP 用 USDC 付款(帖子链接)。

讨论要点: 围绕 Circle 的回复,更关注编排层和 CLI,而不是钱包本身。这说明市场真正看中的切入口,是可重复、受策略约束的动作,而不只是由智能体持有余额。
与前日对比: 5 月 10 日更多是在原则层面讨论治理和身份。到了 5 月 11 日,公开文档、定价界面和已上线产品的运营指标都出现了。
2. 令人困扰的问题¶
测试框架复杂度仍在吞掉模型红利¶
最常见的挫败感是,更好的模型并不能替代更强的系统工程。@akshay_pachaar 列出了缓存、evals、路由、可观测性和兜底方案等必备技能,而 @aiDotEngineer 则把上下文工程进一步收缩为搜索和工具选择。@dair_ai 又补上了一个有研究支撑的失效模式:关联的 PwC 论文称,目标澄清在执行前 10% 之后就会失去大部分价值,输入澄清能更久保持有效,而到了后期再澄清,效果甚至可能比完全不问还差。严重程度:高。今天的权宜之计不是减少测试框架工作,而是做得更多。
范围过大的工作区和沉默的运行时仍在浪费时间¶
人们遇到的失效模式,很多依然和模型 IQ 无关。@pvncher 描述了智能体如何被塞满大量无关项目和重复 worktree 的根目录搞糊涂,并在回复里说,有一种配置会让模型看到每个文件的 13 份拷贝。@zaimiri 则抱怨,有些智能体会看起来闲置 6 分钟,最后才告诉你它其实什么也没做。严重程度:高。当前的应对方式,是收窄范围、添加忽略规则,并要求实时轨迹。
安全与策略控制仍然落后于自主性¶
随着智能体接手更多动作,操作者想要更明确、更强硬的默认设置。@RhysSullivan 把软件包最小发布时间年龄控制说成是对供应链攻击一项显而易见、早该补上的防护。@circle 则在金融动作里强调权限与安全护栏,而 Circle 的 文档 也把合规与支出控制当作产品的一部分来呈现。严重程度:高。当前的应对方式仍然是手动加固,再事后补一层策略。
3. 人们期望的功能¶
轻量、以智能体为先的界面与运行时约定¶
@ctatedev 想要的是浏览器原生的前端约定,让智能体能够稳定地路由和修改;回复里则要求更系统化的组件定义,并指向 W3C 的 《UI Specification Schema Community Group》。这个需求很务实,不是空想:人们想要的,是比当下默认框架栈更小、更机器可读的表层。机会:直接。
会随时间复利的技能生命周期工具¶
技能讨论里最强的需求,不只是发现能力。@brian_lovin 想要共享的安装 / 同步 / 发布 / 反馈流程,而 AutoSkill 则把方向推向从真实交互中自动提取、合并并版本化演进技能。人们真正想要的,看起来是一套面向智能体能力的包管理器 + 变更日志 + 反馈闭环。机会:直接。
在不失去操作者信任的前提下保持有用的持久记忆¶
@owenbjennings 提出跨工作与沟通表层共享持久上下文,而 OpenHuman 则承诺本地 SQLite 支撑的记忆树、兼容 Obsidian 的 vault、118+ 集成,以及每 20 分钟一次的自动抓取循环。这个需求既务实,也带有情绪色彩:人们希望智能体记住足够多的内容以保持有用,但这种记忆又必须是他们能检查、能控制的形式。机会:直接。
面向智能体的轻凭证支付与服务发现¶
Circle Agent Stack 和 The Graph 的 x402 Subgraph Gateway 从两个方向描述了同一个缺失层:智能体需要一套标准方式来发现服务,并在不保存长期凭证的前提下按次付费。The Graph 的指南说得很明确:x402 访问不需要 API 密钥、账户或会话,这让它特别适合自主或短生命周期进程。机会:竞争型。
4. 使用中的工具与方法¶
| 工具 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| 测试框架工程 / 上下文工程 | 方法 | (+) | 给构建者一套共同框架,用来讨论缓存、evals、路由、可观测性、安全护栏和成本归因 | 仍然足够宽泛,不同人说的其实可能是不同层 |
| 智能体式搜索 | 检索方法 | (+) | 把搜索和工具选择视为上下文组装的中心,而不是事后补丁 | 运行时一旦选错抽象层,工具选择就可能严重失效 |
| 浏览器原语 + Web Components + Arrow | 前端方法 | (+/-) | 表面积更小、可不经构建、约定更简单,更适合智能体编写界面 | 把更多契约设计压力转回构建者;回复也认为协议边界依然更重要 |
| 限定根目录 / worktree 过滤 | 工作区方法 | (+) | 减少 token 浪费、重复文件混淆和编程智能体搜索变慢 | 工作横跨紧密耦合的 repo 时更难做 |
| 实时工具与技能轨迹 | 可观测性 | (+) | 让智能体在运行时就能被调试,而不是只能等超时之后才看结果 | 证据仍然局限于特定生态,而且还很早期 |
| Notion Skills | 技能分发 | (+) | 共享仓库、选择性安装、双向同步、发布、反馈,以及跨多个智能体的审计 | 早期工具,并且把 Notion 作为事实来源 |
| AutoSkill | 技能演化 | (+) | 从交互、文档和轨迹中提取可复用技能,再把它们合并并版本化 | 仍偏研究,也依赖对哪些内容真正可复用做出准确分诊 |
| Circle Agent Stack | 智能体金融基础设施 | (+) | 为可重复的资金流转加入钱包、市场发现、CLI 动作和安全护栏 | 相比通用开发者工具,它更依赖特定生态,而且仍处早期 |
| The Graph x402 gateway | 智能体 API 访问 | (+) | 可通过 HTTP 用 USDC 按查询付费,而且不需要 API 密钥、账户或会话 | 更适合兼容 x402 的生态,而不是通用服务访问 |
| 澄清时机框架 | 智能体评估方法 | (+) | 就何时提出澄清问题仍能帮助长时任务智能体给出具体指导 | 这是研究结果,不是现成可用的运行时功能 |
总结: 正面情绪主要集中在那些能让智能体更容易限定范围、检查和复用的工具上。最清晰的迁移路径,是从只靠提示词的思路,转向上下文组装、技能打包、运行时可见性和策略控制。竞争压力则分裂成两边:一边是开放的构建者工具链,另一边是托管式支付 / 治理层。
5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 阶段 | 链接 |
|---|---|---|---|---|---|---|
| Notion Skills | @brian_lovin | 把 Notion 当作共享技能仓库,并把选定技能同步到本地智能体文件夹 | 技能文件散落在不同机器、文件夹和协作者之间 | Notion、Node.js、通过符号链接安装的 SKILL.md |
Alpha | 仓库, 帖子 |
| AutoSkill | ECNU-ICALK | 从交互、文档和轨迹中提取可复用技能,然后持续演化它们 | 好的智能体行为往往在一次性会话后就消失 | SKILL.md、离线提取、本地技能管理器、版本化技能更新 |
Alpha | 仓库, 帖子 |
| Mongoose | @owenbjennings | 具备共享上下文和记忆复利的云端多智能体编排 | 助手通常会丢失跨界面上下文和团队连续性 | Goose OSS、共享上下文编排、持久记忆 | Alpha | 帖子 |
| Superset | Superset | 带隔离 worktree 和实时预览基础设施的多智能体 IDE | 并行编程智能体会在分支和环境排队时被串行化 | AI SDK、AI Gateway、Blob、Fluid Compute、git worktrees | 已发布 | 官网, 博客, 帖子 |
| Circle Agent Stack | Circle | 为智能体提供钱包、市场发现和 CLI 驱动的金融操作 | 智能体需要机器可支付服务和受护栏约束的资金流转 | Agent Wallets、Circle CLI、x402 服务、USDC | Beta | 文档, 帖子 |
| OpenHuman | tinyhumansai | 本地优先的个人智能体,具备记忆树、Obsidian vault、集成和模型路由 | 大多数智能体启动时都是冷的,而且上下文长期分散在各个应用里 | SQLite、Markdown/Obsidian、OAuth 集成、TokenJuice、可选 Ollama | Beta | 仓库, 帖子 |
| 语音下单智能体 | @EstebanSuarez | 一套语音工作流,能构建购物车、发送订单、采集邮箱并发送收据 | 展示语音智能体可以执行结构化动作,而不只是聊天 | v0、Grok Voice Think Fast 1.0、Resend、6 个自定义函数工具 | Alpha | 帖子 |
这些项目大致聚成三种反复出现的模式。一类在构建会复利的智能体基础设施:技能、记忆、编排和 worktree 隔离。另一类试图让智能体具备金融能力,包括钱包、按次计费和服务发现。第三类则用这些原语去展示更窄的应用工作流,比如语音下单;重点不在对话质量,而在把任务可靠执行完。
6. 新动态与亮点¶
递归委派正在成为训练目标¶
@gneubig 强调了新论文《Recursive Agent Optimization》,这篇论文训练智能体去生成并协调递归子智能体,而不是把委派仅仅当成手写的推理技巧(帖子链接; 论文)。摘要称,以这种方式训练出的递归智能体,可以扩展到单个上下文窗口之外的任务,并相较单智能体系统降低实际耗时。
澄清时机现在有了定量曲线¶
@dair_ai 把一篇关于长时任务智能体澄清时机的 PwC 论文带进了讨论(帖子链接; 论文)。论文报告称,他们测试了 84 个任务变体和 6,000+ 次运行,并得出结论:目标澄清在执行前 10% 之后就会失去大部分价值,输入澄清则能更久保持有效,而一旦过了中点,任何澄清都可能比完全不问更差。
软件包最小发布时间策略正在进入编程智能体操作手册¶
来自 @RhysSullivan 的那条关于最小发布时间年龄的帖子之所以显眼,是因为它把一个普遍的供应链担忧,变成了编程智能体的具体操作习惯。值得注意的不是那些玩笑式回复,而是人们越来越希望智能体替他们配置、验证并执行这些加固规则。
7. 机会在哪里¶
[+++] 智能体运行时控制平面 —— 最强证据横跨限定根目录、实时工具轨迹、供应链策略和金融护栏。构建者想要的不只是能行动的智能体,也同样想要可被监督、可被约束的智能体。
[+++] 技能生命周期基础设施 —— Notion Skills 和 AutoSkill 都指向同一个缺失层:安装、同步、审查、版本化,以及自动提取可复用能力。
[++] 具备操作者可见性的持久记忆系统 —— Mongoose 和 OpenHuman 表明,市场需要能快速热启动、还能跨工具记住上下文的智能体,但前提是用户能检查并引导这种记忆。
[++] 轻凭证的服务发现与支付 —— Circle Agent Stack 和 The Graph 的 x402 流程都指向一个不断增长的市场:不依赖长期密钥、按次付费的智能体基础设施。
[+] 以智能体为先的应用约定 —— 薄前端栈、UI 规范尝试和无需构建的框架都说明,一个新机会正在出现:专门为机器编写和审查设计应用表层。
8. 要点总结¶
- 智能体讨论的重心仍然是基础设施。 当天最高信号的帖子,讨论的是测试框架、搜索、轨迹、技能和控制界面,而不是原始模型对比。(source)
- 可理解性正在成为产品质量的一部分。 关于更薄前端、限定根目录、实时轨迹和软件包发布时间年龄控制的帖子,都指向同一标准:用户想看见,也想约束智能体在做什么。(source)
- 技能越来越不像提示词,更像软件工件。 在最强的技能条目里,安装、同步、发布、反馈、提取和版本化都已经成了核心能力。(source)
- 产品化的多智能体与支付轨道已不再是假设。 Superset、Mongoose、Circle Agent Stack 和 The Graph 给出的,都是具体界面或运营指标,而不只是类别口号。(source)