Twitter AI 智能体 - 2026-05-14¶
1. 人们在讨论什么¶
1.1 常驻型智能体开始配套明确的权限控制界面 🡕¶
当天最大的变化,不是又多了一张抽象的编排架构图,而是开始出现具名智能体,明确写出它们能看到哪些数据、又可以执行哪些动作。Google 泄露出来的 Gemini Spark 入门引导、xAI 的 Grok Build Beta,以及 SAP/NVIDIA 的 OpenShell 运行时,都把智能体描述成需要长期运行的执行者:只有先把权限、浏览器状态和执行控制交代清楚,用户才会信任它们。
@testingcatalog 报道称(524 个点赞、26 条回复、34,072 次浏览),Gemini Spark BETA 主打一个面向收件箱和在线任务的 24/7 智能体。附带的引导文案称,它可以从 Connected Apps、技能、聊天记录、用户已登录的网站、Personal Intelligence 和位置信息中获取内容,同时会保存登录详情和远程代码执行状态等远程浏览器数据。TestingCatalog 配套的文章包含同样的文字,并指出 Google 警告说,由于它仍属实验产品,Spark 可能会在未征求同意的情况下与第三方共享信息,甚至直接下单购买。

@yunta_tsai 表示(362 个点赞、20 条回复、18,452 次浏览),Grok Build 已经能用于车队数据分诊、训练标签改进、修补安全漏洞,以及跨多个环境给出建议,同时引用了 xAI 对 Grok Build 的早期 Beta 描述:这是一个面向编程、应用构建和工作流自动化的智能体 CLI。更强的证据出现在回复里:他说这已经是自己的“主力干活工具”,而 xAI 团队成员也回复称,直接用户反馈正在加速产品改进。
@nvidia 宣布(468 个点赞、33 条回复、39,198 次浏览),SAP 正把 NVIDIA OpenShell 嵌入 SAP Business AI Platform,把专用智能体从开发阶段推进到可被信任的生产部署。NVIDIA 自己的发布文章称,OpenShell 增加了隔离执行环境、文件系统与网络策略执行,以及在智能体逻辑失效时的收容能力;SAP 的配套文章则把同一层视为支撑可审计性、企业 IAM 对齐,以及业务流程内可治理执行的基础。
讨论要点: 回复里关心的已经不太是模型质量本身,而是监督机制。Gemini Spark 引来了对发布范围以及 Google 是否值得托付后台动作的怀疑;而 SAP/OpenShell 那条讨论串则反复回到同一个问题:智能体到底能访问什么、批准什么,又能花掉什么钱。
与前日对比: 5 月 13 日已经开始强调 Notion 和 Cursor 上的编排界面。到了 5 月 14 日,这个转向变得更具体:消费级、编程类和企业级智能体都开始以常驻系统的形式出现,因此也都需要显式的控制层。
1.2 受管控制平面与可重放工作流正在取代临时会话 🡕¶
第二个讨论簇把话题从“智能体能协同”推向了“智能体需要可运营的控制界面”。最有力的例子不是模型发布,而是控制平面、扇出式运行时,以及能让智能体行为变得可观测、可重复执行的工作流产物。
@ashpreetbedi 认为(19 个点赞、4 条回复、2,039 次浏览),下一代界面会是一个受管的智能体工作区,里面有上下文、工具、权限、记忆、审查循环和领域专属技能,并链接到了 Agno。Agno 公开的 README 把自己描述为一个用于构建和管理智能体平台的控制平面,包含追踪、调度、RBAC、人类审批、上下文提供器和多种接口,这让这条推文不只是一个泛泛的工作区概念图。

@cline 分享了(27 个点赞、2 条回复、1,108 次浏览)一个 Cline SDK 多智能体示例,会并行拉起多个专长智能体,并把它们的输出实时流式传到浏览器。公开的示例 README写明,这个应用会用 Promise.all 并发运行 3 个智能体,通过 SSE 把各自的流发送出去,再把结果交给一个汇总智能体处理;这是一种非常具体的做法,而不是一句空泛的“多智能体”口号。
@kane_cli 介绍了(11 个点赞、1 条回复、140 次浏览)Test.md:它可以把一次跑通的浏览器流程保存下来,之后无论是在 CI 里重跑,还是交给另一个智能体继续执行,都不用从头重写。Kane 公开的 agents.md把它描述为一种基于 Markdown 的测试形式,支持可复用的导入、变量、重放、缓存以及与 Playwright 的互操作性,这就精准收窄了浏览器智能体最常见的一种失败模式:demo 跑得通,但很难稳定复现。
讨论要点: 围绕受管工作区的回复,重点放在集成能力,而不是新鲜感。Agno 那条讨论串里,最早的问题之一就是它能否兼容现有订阅,这说明团队想要的是一个能吸纳当前工具的控制平面,而不是推倒重来。
与前日对比: 5 月 13 日还主要把工作区和编排视为产品方向;5 月 14 日则补上了更具体的原语,比如 RBAC、调度器、SSE 扇出,以及可重放的 Markdown 测试。
1.3 市场正从技能发现转向付费服务发现 🡕¶
技能供给爆炸仍是主线,但叙事已经从“找一个技能”扩大到“找一个服务并为它付费”。最强的市场类帖子都在讲发现层,但后续讨论显示,信任和评估机制仍然远远落后于目录规模。
@cyrilXBT 声称(98 个点赞、15 条回复、3,677 次浏览),一个智能体技能市场已经上线,提供超过 100 万个可直接部署的技能和插件。公开的 Skills Marketplace 网站目前宣称收录了 1,319,403 条来自 GitHub 的 SKILL.md 条目,兼容 Claude Code 和 Codex 风格工具,FAQ 还提醒用户在安装前先检查代码;这既印证了推文对规模的描述,也说明仍有大量责任被留给用户自己承担。
@circle 推出了(107 个点赞、9 条回复、5,344 次浏览)Agent Marketplace,把它定位为持有资金的智能体发现、评估并集成付费服务的地方。Circle 的 Agent Stack 发布文章称,这套组合包含 Agent Wallets、Agent Marketplace、CLI、纳米支付和技能,让智能体可以持有 USDC、发现服务并以编程方式发起交易;而 agents.circle.com 则把它概括为面向付费 API 的“支付即认证”。

讨论要点: 两条市场类讨论几乎立刻撞上了同一层缺失能力。SkillsMP 的回复质疑,超大目录是不是只是一个更高级的提示词商店,却没有质量信号;Circle 的回复则追问,一旦智能体开始自主为服务付款,声誉、可靠性和可强制执行的合约要怎么解决。
与前日对比: 5 月 13 日的重点还在技能目录规模和第一方技能;5 月 14 日则把这套逻辑延伸到了市场层——智能体不只是要安装能力,还要找到服务并为之付费。
2. 令人困扰的问题¶
一旦智能体转到后台运行,权限边界仍然过于模糊¶
最清晰、严重程度最高的挫败感,不是“模型太弱”,而是“控制面还不完整”。@testingcatalog 报道称(524 个点赞、26 条回复、34,072 次浏览),Gemini Spark 可能会在未征求同意的情况下与第三方共享信息,甚至直接下单购买;链接的 TestingCatalog 文章也重复了 Google 自己的警告:这个产品仍处于实验阶段,需要有人监督。企业侧则从另一个方向描述了同一个问题:NVIDIA 的 OpenShell 文章和 SAP 的配套文章都在强调,一旦智能体能触碰业务记录系统,团队就需要收容机制、策略执行、IAM 对齐和审计轨迹。严重程度:高。信息流里可见的绕行方案,不是更好的提示词,而是更强的治理。
浏览器流程跑通一次,仍不等于团队以后还能重跑¶
@kane_cli 把这个失败模式说得很直接(11 个点赞、1 条回复、140 次浏览):浏览器流程可以成功一次,但在 Test.md 出现之前,下周重跑、放进 CI,或者交给另一个智能体执行,都意味着得重写一遍。Kane 公开的 agents.md用基于 Markdown 的重放、导入和缓存来回应这个问题,使得抱怨变得异常具体。严重程度:中等,但可直接落地。这个方向值得做,因为痛点范围窄、反复出现,而且很容易验证。
发现层来得比信任信号更快¶
这些市场类讨论在标题层面很热闹,但回复里明显存疑。@cyrilXBT 推广了(98 个点赞、15 条回复、3,677 次浏览)一个拥有超过 100 万个技能的市场,但最早的一条质疑回复之一就把它称作“一个更花哨的提示词商店”,因为看不到明确的质量信号。Skills Marketplace FAQ 本身也写着,用户应当在安装前先检查代码。同样地,@circle 推出了(107 个点赞、9 条回复、5,344 次浏览)Agent Marketplace,而它的回复也立刻开始追问:一旦智能体开始自动购买服务,声誉、可靠性和可强制执行的合约在哪里。对于生产采用来说,这一问题的严重程度很高。当前的绕行方案仍是人工审核和选择性精选。
3. 人们期望的功能¶
带信任评分的技能与服务发现¶
人们真正想要的,似乎不是更大的目录,而是一个能告诉他们什么是安全、仍在维护、而且可靠的市场。@cyrilXBT 把注意力带到了(98 个点赞、15 条回复、3,677 次浏览)一个拥有超过 100 万个技能的市场上,但回复很快转向质量担忧,而 Skills Marketplace FAQ 也明确要求用户在安装前先检查代码。同样的模式也出现在 @circle 的 Agent Marketplace 帖子(107 个点赞、9 条回复、5,344 次浏览)下面,回复都在追问付费服务的声誉、可靠性和合约执行。机会:直接且有竞争性。发现层已经存在,信任基础设施仍然很薄。
无需人工结账回路的智能体支付与认证通道¶
Circle 自己的材料说明,这个需求正在从概念走向现实,不再只是设想。@circle 把(107 个点赞、9 条回复、5,344 次浏览)Agent Marketplace 定位为持有资金的智能体发现和集成服务的地方;Agent Stack 博客文章则表示,智能体需要钱包、发现能力和 CLI 工具链,才能以编程方式发起交易;agents.circle.com 进一步把它概括为面向付费 API 的“支付即认证”。机会:直接。现在已经能看到这类基础设施的雏形,但这一类别仍足够早期,因此认证、结算和服务评估依然是开放设计空间。
可重放的智能体原生工作流产物¶
Kane 那条讨论把这个需求说得异常具体:真正的缺口不是泛泛的浏览器自动化,而是另一位智能体或一个 CI 任务也能稳定重跑的、可重复浏览器自动化。@kane_cli 把(11 个点赞、1 条回复、140 次浏览)Test.md 描述成连接“一次成功的浏览器会话”和“一个可持久保存的产物”之间缺失的桥梁,而公开的 agents.md则用 Markdown 步骤、导入、变量和重放补上了具体机制。机会:直接。这更像一个务实需求,而不是情绪化诉求;而今天的证据显示,现有工具链对此仍只覆盖了一部分。
4. 使用中的工具与方法¶
| 工具 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| LangGraph | 智能体框架 | (+/-) | 有状态图、路由、持久化,以及在面试准备讨论串里清晰呈现的显式工作流结构 | 连推广者自己都提到学习曲线陡峭、图管理复杂 |
| Gemini Spark | 消费级智能体 | (+/-) | 跨应用上下文、常驻任务处理、远程浏览器状态、面向技能的产品定位 | 仍属实验产品;Google 警告它可能会在未征求同意时共享信息或下单购买 |
| NVIDIA OpenShell | 安全运行时 | (+) | 隔离执行、文件系统/网络策略执行、收容、审计钩子、IAM 对齐 | 它本身是运行时安全层,不是完整的终端用户产品 |
| Grok Build | 编程智能体 CLI | (+) | 有真实用户报告称可用于数据分诊、标签改进、安全补丁和工作流自动化 | 仍处 Beta 早期;证据主要还是发布文案加少量用户报告 |
| Agno | 智能体平台/控制平面 | (+) | 追踪、调度、RBAC、人类审批、上下文提供器、多接口部署 | 当前的社交证明更多围绕 demo 工作区,而不是广泛的用户结果证据 |
| Cline SDK | 智能体运行时 | (+) | 并行专长智能体、SSE 流式传输、汇总智能体模式、可扩展的工具运行时 | 仍偏面向构建者;要自己补不少工程工作 |
| Skills Marketplace | 技能发现 | (+/-) | 大规模 GitHub 来源目录、多工具兼容、搜索/筛选界面 | 质量排序、维护可见性和安全安装信任仍未解决 |
| Circle Agent Stack / Agent Marketplace | 智能体支付/发现 | (+) | 钱包、市场、CLI、可编程的 USDC 结算、“支付即认证”的定位 | 声誉、评估和合约执行仍然定义不足 |
| Kane CLI Test.md | 智能体测试/浏览器自动化 | (+) | 可重放的 Markdown 测试、导入、变量、缓存、与 Playwright 的互操作性 | 仍然早期且范围较窄;公开定位主要集中在浏览器流程 |
总体情绪偏务实。信息流更在意能否落地,而不是新奇感:Gemini Spark 的权限边界、OpenShell 的安全运行时层、Agno 的控制平面界面、Cline SDK 的扇出式编排,以及 Kane 的可重放浏览器产物。当天清晰可见的迁移路径,是从单智能体聊天走向能够被观测、被重放、被治理、能付费、也能被安全约束的系统。最明显的竞争分界线,已经不再是“哪个模型最聪明”,而是“哪套栈足够值得信任,能真的放手让智能体行动”。
5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 阶段 | 链接 |
|---|---|---|---|---|---|---|
| Grok Build | @xai | 面向编程、应用构建和工作流自动化的智能体 CLI | 给开发者一个原生于终端的智能体,能处理比自动补全或聊天更广的工程任务 | 智能体 CLI、编程/构建自动化、终端工作流 | Beta | 发布推文 · 用户报告 |
| Agno | @AgnoAgi | 带追踪、调度、审批和多种接口的智能体平台与控制平面 | 团队需要一个受治理的地方来运行和管理智能体,而不是零散孤立的会话 | Python SDK、控制平面、RBAC、调度、人类审批 | 已发布 | GitHub · 推文 |
| Cline SDK multi-agent example | @cline | 并行运行 3 个专长智能体并综合结果的 Web 应用 | 向构建者展示如何用实时流式传输来组织多智能体扇出,而不是手写定制编排 | TypeScript、智能体运行时、SSE、Promise.all 扇出 |
已发布 | 示例 · 推文 |
| Test.md | @kane_cli | 用于记录和重放浏览器智能体工作流的基于 Markdown 的测试产物 | 团队需要在 CI 中,或交给另一个智能体时,重跑一次成功的浏览器流程,而不用重写 | Kane CLI、Markdown、重放、导入、缓存、Playwright 互操作性 | 已发布 | agents.md · 推文 |
| Circle Agent Stack / Agent Marketplace | @circle | 让智能体发现服务、持有 USDC,并以编程方式发起交易 | 智能体需要一层金融基础设施和发现界面来使用付费 API 与服务 | Agent Wallets、Agent Marketplace、CLI、USDC、纳米支付、技能 | 已发布 | 博客 · 网站 · 推文 |
| BRUT-V | @daumerval | 基于浏览器的创意编程环境,Hermes Agent 帮它构建了一个 RISC-V 汇编器和草图框架 | 展示智能体不只是能帮忙写提示词,也能构建开发者工具和创意系统 | RISC-V 汇编、JavaScript 汇编器、浏览器 VM、宏框架 | 已发布 | GitHub · 演示 · 推文 |
最强的构建模式不是新奇包装,而是基础设施。Grok Build、Agno、Cline SDK、Kane 和 Circle 都在试图补上执行、重放、支付或协同方面的运营缺口,而不只是再加一个聊天界面。
BRUT-V 之所以突出,是因为它属于恰好相反的一类项目:一个公开可见的产物,展示智能体如何帮忙做出真正的创意编程工具链。公开仓库称它提供浏览器编辑器、JavaScript 汇编器、最小化 RISC-V VM 和示例草图,而推文则声称 Hermes Agent 写了 6,200 行汇编,并把汇编器引导到与参考模拟器达到逐字节一致。

放眼整个部分,反复出现的触发点都是可靠性。构建者之所以把智能体打包进控制平面、可复现产物、支付通道和可检视的仓库,是因为临时拼凑的会话看起来已经不足以支撑严肃使用。
6. 新动态与亮点¶
Gemini Spark 让 Google 的后台智能体野心变得清晰可见¶
@testingcatalog 曝光了(524 个点赞、26 条回复、34,072 次浏览)迄今最清晰的 Gemini Spark 公开信息,而链接的文章则暗示,它可能会在 Google I/O 前后进入公开 Beta。它真正值得注意的地方,不只是又一个新的智能体名字,而是引导文案对 Connected Apps、已登录的网站、远程浏览器数据,以及“可能会在未确认的情况下购买或共享数据”这类风险的明确表述。
SAP 和 NVIDIA 把安全执行层做成一等企业产品能力¶
@nvidia 介绍了(468 个点赞、33 条回复、39,198 次浏览)OpenShell 在 SAP Business AI Platform 里的角色,而 NVIDIA 和 SAP 的两篇文章对运行时加固、策略执行、收容、IAM 对齐和可审计性都写得异常具体。正是这种具体程度,让它的重要性超过了一般的企业合作公告。
7. 机会在哪里¶
[+++] 面向可行动智能体的策略与审计层 —— 证据出现在多个部分。Gemini Spark 的引导文案已经警告了数据共享和购买行为,而 SAP/NVIDIA 也明确在 OpenShell 里构建收容、策略执行、IAM 对齐和审计轨迹。这个机会很强,因为同样的需求同时出现在消费级和企业级场景里。
[++] 带信任评分的技能与服务市场 —— SkillsMP 展示了供给,Circle 则展示了迈向付费服务发现的下一步,但两条讨论都立刻撞上了声誉、维护和合约执行的问题。这个机会处于中等强度,因为市场已经明显开始成形,但缺失的信任层仍然空着。
[++] 可重放的智能体工作流产物 —— Kane 的 Test.md 和 Cline 的多智能体示例都指向同一个缺口:成功的智能体工作需要被保存成可持久化的产物,之后才能重跑、检查和交接。这个机会处于中等强度,因为痛点清晰而且务实,尤其集中在浏览器和编排工作流上。
[+] 面向智能体原生的支付与认证通道 —— Circle 的 Agent Stack 和 agents.circle.com 说明,这个类别终于开始变得真实:钱包、付费 API 访问和机器速度的结算正在被打包到一起。这个机会还在早期,因为底层原语已经可见,但使用模式和评估标准都还很早。
8. 要点总结¶
- 常驻型智能体开始伴随明确警告一起发布,而不只是承诺。 Gemini Spark 的引导文案写明,它可以调用已连接应用、已登录站点和远程浏览器数据,而且由于仍属实验阶段,可能会在未征求同意的情况下共享信息或直接购买。(来源)
- 企业对智能体的采用,正在收敛到运行时收容和可审计性上。 SAP 和 NVIDIA 并不是把 OpenShell 当成一个更好看的聊天机器人外壳来推销;它们强调的是隔离执行、策略执行,以及面对业务流程系统时可审计的控制。(来源)
- 智能体平台正在演变成控制平面。 Agno 的公开平台界面和 Cline 的流式多智能体示例,都说明当天的需求正在转向调度器、追踪、审批和结构化扇出,而不是一次性的聊天会话。(来源)
- 发现层扩张的速度,快过信任建立的速度。 SkillsMP 可以拿出超过 130 万条来自 GitHub 的技能作为规模证明,但无论是它自己的 FAQ,还是推文下的回复,都表明质量信号和安全安装信心仍远远落后于目录规模。(来源)
- 可复现性正在成为智能体的一等问题。 Kane 对 Test.md 的描述之所以成立,是因为团队已经切实遇到了这种痛点:工作流可以成功一次,但如果不重新编写,就无法在 CI 里或交给另一个智能体时重放。(来源)
- 公开的智能体构建产物正变得更容易检视。 BRUT-V 值得注意,是因为仓库、演示和截图让这个说法变得可读、可查:那是一个基于浏览器的创意编程栈,而不只是模糊地吹嘘“有个智能体帮了忙”。(来源)