Twitter AI 智能体 - 2026-05-14¶

1. 人们在讨论什么¶

1.1 常驻型智能体开始配套明确的权限控制界面 🡕¶

当天最大的变化，不是又多了一张抽象的编排架构图，而是开始出现具名智能体，明确写出它们能看到哪些数据、又可以执行哪些动作。Google 泄露出来的 Gemini Spark 入门引导、xAI 的 Grok Build Beta，以及 SAP/NVIDIA 的 OpenShell 运行时，都把智能体描述成需要长期运行的执行者：只有先把权限、浏览器状态和执行控制交代清楚，用户才会信任它们。

@testingcatalog 报道称（524 个点赞、26 条回复、34,072 次浏览），Gemini Spark BETA 主打一个面向收件箱和在线任务的 24/7 智能体。附带的引导文案称，它可以从 Connected Apps、技能、聊天记录、用户已登录的网站、Personal Intelligence 和位置信息中获取内容，同时会保存登录详情和远程代码执行状态等远程浏览器数据。TestingCatalog 配套的文章包含同样的文字，并指出 Google 警告说，由于它仍属实验产品，Spark 可能会在未征求同意的情况下与第三方共享信息，甚至直接下单购买。

Gemini Spark 入门引导截图，展示这个常驻型智能体的定位、它可调用的跨应用上下文来源，以及“它可能会在未询问的情况下共享信息或直接购买”的警告

@yunta_tsai 表示（362 个点赞、20 条回复、18,452 次浏览），Grok Build 已经能用于车队数据分诊、训练标签改进、修补安全漏洞，以及跨多个环境给出建议，同时引用了 xAI 对 Grok Build 的早期 Beta 描述：这是一个面向编程、应用构建和工作流自动化的智能体 CLI。更强的证据出现在回复里：他说这已经是自己的“主力干活工具”，而 xAI 团队成员也回复称，直接用户反馈正在加速产品改进。

@nvidia 宣布（468 个点赞、33 条回复、39,198 次浏览），SAP 正把 NVIDIA OpenShell 嵌入 SAP Business AI Platform，把专用智能体从开发阶段推进到可被信任的生产部署。NVIDIA 自己的发布文章称，OpenShell 增加了隔离执行环境、文件系统与网络策略执行，以及在智能体逻辑失效时的收容能力；SAP 的配套文章则把同一层视为支撑可审计性、企业 IAM 对齐，以及业务流程内可治理执行的基础。

讨论要点： 回复里关心的已经不太是模型质量本身，而是监督机制。Gemini Spark 引来了对发布范围以及 Google 是否值得托付后台动作的怀疑；而 SAP/OpenShell 那条讨论串则反复回到同一个问题：智能体到底能访问什么、批准什么，又能花掉什么钱。

与前日对比： 5 月 13 日已经开始强调 Notion 和 Cursor 上的编排界面。到了 5 月 14 日，这个转向变得更具体：消费级、编程类和企业级智能体都开始以常驻系统的形式出现，因此也都需要显式的控制层。

1.2 受管控制平面与可重放工作流正在取代临时会话 🡕¶

第二个讨论簇把话题从“智能体能协同”推向了“智能体需要可运营的控制界面”。最有力的例子不是模型发布，而是控制平面、扇出式运行时，以及能让智能体行为变得可观测、可重复执行的工作流产物。

@ashpreetbedi 认为（19 个点赞、4 条回复、2,039 次浏览），下一代界面会是一个受管的智能体工作区，里面有上下文、工具、权限、记忆、审查循环和领域专属技能，并链接到了 Agno。Agno 公开的 README 把自己描述为一个用于构建和管理智能体平台的控制平面，包含追踪、调度、RBAC、人类审批、上下文提供器和多种接口，这让这条推文不只是一个泛泛的工作区概念图。

Agno 仪表盘截图，展示在同一控制平面里整合的智能体、团队、工作流、追踪、记忆、评估、审批和调度器

@cline 分享了（27 个点赞、2 条回复、1,108 次浏览）一个 Cline SDK 多智能体示例，会并行拉起多个专长智能体，并把它们的输出实时流式传到浏览器。公开的示例 README写明，这个应用会用 Promise.all 并发运行 3 个智能体，通过 SSE 把各自的流发送出去，再把结果交给一个汇总智能体处理；这是一种非常具体的做法，而不是一句空泛的“多智能体”口号。

@kane_cli 介绍了（11 个点赞、1 条回复、140 次浏览）Test.md：它可以把一次跑通的浏览器流程保存下来，之后无论是在 CI 里重跑，还是交给另一个智能体继续执行，都不用从头重写。Kane 公开的 agents.md把它描述为一种基于 Markdown 的测试形式，支持可复用的导入、变量、重放、缓存以及与 Playwright 的互操作性，这就精准收窄了浏览器智能体最常见的一种失败模式：demo 跑得通，但很难稳定复现。

讨论要点： 围绕受管工作区的回复，重点放在集成能力，而不是新鲜感。Agno 那条讨论串里，最早的问题之一就是它能否兼容现有订阅，这说明团队想要的是一个能吸纳当前工具的控制平面，而不是推倒重来。

与前日对比： 5 月 13 日还主要把工作区和编排视为产品方向；5 月 14 日则补上了更具体的原语，比如 RBAC、调度器、SSE 扇出，以及可重放的 Markdown 测试。

1.3 市场正从技能发现转向付费服务发现 🡕¶

技能供给爆炸仍是主线，但叙事已经从“找一个技能”扩大到“找一个服务并为它付费”。最强的市场类帖子都在讲发现层，但后续讨论显示，信任和评估机制仍然远远落后于目录规模。

@cyrilXBT 声称（98 个点赞、15 条回复、3,677 次浏览），一个智能体技能市场已经上线，提供超过 100 万个可直接部署的技能和插件。公开的 Skills Marketplace 网站目前宣称收录了 1,319,403 条来自 GitHub 的 SKILL.md 条目，兼容 Claude Code 和 Codex 风格工具，FAQ 还提醒用户在安装前先检查代码；这既印证了推文对规模的描述，也说明仍有大量责任被留给用户自己承担。

@circle 推出了（107 个点赞、9 条回复、5,344 次浏览）Agent Marketplace，把它定位为持有资金的智能体发现、评估并集成付费服务的地方。Circle 的 Agent Stack 发布文章称，这套组合包含 Agent Wallets、Agent Marketplace、CLI、纳米支付和技能，让智能体可以持有 USDC、发现服务并以编程方式发起交易；而 agents.circle.com 则把它概括为面向付费 API 的“支付即认证”。

Circle Agent Marketplace 发布图，展示 Circle Agent Stack 内用于发现付费智能体服务的服务发现界面

讨论要点： 两条市场类讨论几乎立刻撞上了同一层缺失能力。SkillsMP 的回复质疑，超大目录是不是只是一个更高级的提示词商店，却没有质量信号；Circle 的回复则追问，一旦智能体开始自主为服务付款，声誉、可靠性和可强制执行的合约要怎么解决。

与前日对比： 5 月 13 日的重点还在技能目录规模和第一方技能；5 月 14 日则把这套逻辑延伸到了市场层——智能体不只是要安装能力，还要找到服务并为之付费。

2. 令人困扰的问题¶

一旦智能体转到后台运行，权限边界仍然过于模糊¶

最清晰、严重程度最高的挫败感，不是“模型太弱”，而是“控制面还不完整”。@testingcatalog 报道称（524 个点赞、26 条回复、34,072 次浏览），Gemini Spark 可能会在未征求同意的情况下与第三方共享信息，甚至直接下单购买；链接的 TestingCatalog 文章也重复了 Google 自己的警告：这个产品仍处于实验阶段，需要有人监督。企业侧则从另一个方向描述了同一个问题：NVIDIA 的 OpenShell 文章和 SAP 的配套文章都在强调，一旦智能体能触碰业务记录系统，团队就需要收容机制、策略执行、IAM 对齐和审计轨迹。严重程度：高。信息流里可见的绕行方案，不是更好的提示词，而是更强的治理。

浏览器流程跑通一次，仍不等于团队以后还能重跑¶

@kane_cli 把这个失败模式说得很直接（11 个点赞、1 条回复、140 次浏览）：浏览器流程可以成功一次，但在 Test.md 出现之前，下周重跑、放进 CI，或者交给另一个智能体执行，都意味着得重写一遍。Kane 公开的 agents.md用基于 Markdown 的重放、导入和缓存来回应这个问题，使得抱怨变得异常具体。严重程度：中等，但可直接落地。这个方向值得做，因为痛点范围窄、反复出现，而且很容易验证。

发现层来得比信任信号更快¶

这些市场类讨论在标题层面很热闹，但回复里明显存疑。@cyrilXBT 推广了（98 个点赞、15 条回复、3,677 次浏览）一个拥有超过 100 万个技能的市场，但最早的一条质疑回复之一就把它称作“一个更花哨的提示词商店”，因为看不到明确的质量信号。Skills Marketplace FAQ 本身也写着，用户应当在安装前先检查代码。同样地，@circle 推出了（107 个点赞、9 条回复、5,344 次浏览）Agent Marketplace，而它的回复也立刻开始追问：一旦智能体开始自动购买服务，声誉、可靠性和可强制执行的合约在哪里。对于生产采用来说，这一问题的严重程度很高。当前的绕行方案仍是人工审核和选择性精选。

3. 人们期望的功能¶

带信任评分的技能与服务发现¶

人们真正想要的，似乎不是更大的目录，而是一个能告诉他们什么是安全、仍在维护、而且可靠的市场。@cyrilXBT 把注意力带到了（98 个点赞、15 条回复、3,677 次浏览）一个拥有超过 100 万个技能的市场上，但回复很快转向质量担忧，而 Skills Marketplace FAQ 也明确要求用户在安装前先检查代码。同样的模式也出现在 @circle 的 Agent Marketplace 帖子（107 个点赞、9 条回复、5,344 次浏览）下面，回复都在追问付费服务的声誉、可靠性和合约执行。机会：直接且有竞争性。发现层已经存在，信任基础设施仍然很薄。

无需人工结账回路的智能体支付与认证通道¶

Circle 自己的材料说明，这个需求正在从概念走向现实，不再只是设想。@circle 把（107 个点赞、9 条回复、5,344 次浏览）Agent Marketplace 定位为持有资金的智能体发现和集成服务的地方；Agent Stack 博客文章则表示，智能体需要钱包、发现能力和 CLI 工具链，才能以编程方式发起交易；agents.circle.com 进一步把它概括为面向付费 API 的“支付即认证”。机会：直接。现在已经能看到这类基础设施的雏形，但这一类别仍足够早期，因此认证、结算和服务评估依然是开放设计空间。

可重放的智能体原生工作流产物¶

Kane 那条讨论把这个需求说得异常具体：真正的缺口不是泛泛的浏览器自动化，而是另一位智能体或一个 CI 任务也能稳定重跑的、可重复浏览器自动化。@kane_cli 把（11 个点赞、1 条回复、140 次浏览）Test.md 描述成连接“一次成功的浏览器会话”和“一个可持久保存的产物”之间缺失的桥梁，而公开的 agents.md则用 Markdown 步骤、导入、变量和重放补上了具体机制。机会：直接。这更像一个务实需求，而不是情绪化诉求；而今天的证据显示，现有工具链对此仍只覆盖了一部分。

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
LangGraph	智能体框架	(+/-)	有状态图、路由、持久化，以及在面试准备讨论串里清晰呈现的显式工作流结构	连推广者自己都提到学习曲线陡峭、图管理复杂
Gemini Spark	消费级智能体	(+/-)	跨应用上下文、常驻任务处理、远程浏览器状态、面向技能的产品定位	仍属实验产品；Google 警告它可能会在未征求同意时共享信息或下单购买
NVIDIA OpenShell	安全运行时	(+)	隔离执行、文件系统/网络策略执行、收容、审计钩子、IAM 对齐	它本身是运行时安全层，不是完整的终端用户产品
Grok Build	编程智能体 CLI	(+)	有真实用户报告称可用于数据分诊、标签改进、安全补丁和工作流自动化	仍处 Beta 早期；证据主要还是发布文案加少量用户报告
Agno	智能体平台/控制平面	(+)	追踪、调度、RBAC、人类审批、上下文提供器、多接口部署	当前的社交证明更多围绕 demo 工作区，而不是广泛的用户结果证据
Cline SDK	智能体运行时	(+)	并行专长智能体、SSE 流式传输、汇总智能体模式、可扩展的工具运行时	仍偏面向构建者；要自己补不少工程工作
Skills Marketplace	技能发现	(+/-)	大规模 GitHub 来源目录、多工具兼容、搜索/筛选界面	质量排序、维护可见性和安全安装信任仍未解决
Circle Agent Stack / Agent Marketplace	智能体支付/发现	(+)	钱包、市场、CLI、可编程的 USDC 结算、“支付即认证”的定位	声誉、评估和合约执行仍然定义不足
Kane CLI Test.md	智能体测试/浏览器自动化	(+)	可重放的 Markdown 测试、导入、变量、缓存、与 Playwright 的互操作性	仍然早期且范围较窄；公开定位主要集中在浏览器流程

总体情绪偏务实。信息流更在意能否落地，而不是新奇感：Gemini Spark 的权限边界、OpenShell 的安全运行时层、Agno 的控制平面界面、Cline SDK 的扇出式编排，以及 Kane 的可重放浏览器产物。当天清晰可见的迁移路径，是从单智能体聊天走向能够被观测、被重放、被治理、能付费、也能被安全约束的系统。最明显的竞争分界线，已经不再是“哪个模型最聪明”，而是“哪套栈足够值得信任，能真的放手让智能体行动”。

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
Grok Build	@xai	面向编程、应用构建和工作流自动化的智能体 CLI	给开发者一个原生于终端的智能体，能处理比自动补全或聊天更广的工程任务	智能体 CLI、编程/构建自动化、终端工作流	Beta	发布推文 · 用户报告
Agno	@AgnoAgi	带追踪、调度、审批和多种接口的智能体平台与控制平面	团队需要一个受治理的地方来运行和管理智能体，而不是零散孤立的会话	Python SDK、控制平面、RBAC、调度、人类审批	已发布	GitHub · 推文
Cline SDK multi-agent example	@cline	并行运行 3 个专长智能体并综合结果的 Web 应用	向构建者展示如何用实时流式传输来组织多智能体扇出，而不是手写定制编排	TypeScript、智能体运行时、SSE、`Promise.all` 扇出	已发布	示例 · 推文
Test.md	@kane_cli	用于记录和重放浏览器智能体工作流的基于 Markdown 的测试产物	团队需要在 CI 中，或交给另一个智能体时，重跑一次成功的浏览器流程，而不用重写	Kane CLI、Markdown、重放、导入、缓存、Playwright 互操作性	已发布	agents.md · 推文
Circle Agent Stack / Agent Marketplace	@circle	让智能体发现服务、持有 USDC，并以编程方式发起交易	智能体需要一层金融基础设施和发现界面来使用付费 API 与服务	Agent Wallets、Agent Marketplace、CLI、USDC、纳米支付、技能	已发布	博客 · 网站 · 推文
BRUT-V	@daumerval	基于浏览器的创意编程环境，Hermes Agent 帮它构建了一个 RISC-V 汇编器和草图框架	展示智能体不只是能帮忙写提示词，也能构建开发者工具和创意系统	RISC-V 汇编、JavaScript 汇编器、浏览器 VM、宏框架	已发布	GitHub · 演示 · 推文

最强的构建模式不是新奇包装，而是基础设施。Grok Build、Agno、Cline SDK、Kane 和 Circle 都在试图补上执行、重放、支付或协同方面的运营缺口，而不只是再加一个聊天界面。

BRUT-V 之所以突出，是因为它属于恰好相反的一类项目：一个公开可见的产物，展示智能体如何帮忙做出真正的创意编程工具链。公开仓库称它提供浏览器编辑器、JavaScript 汇编器、最小化 RISC-V VM 和示例草图，而推文则声称 Hermes Agent 写了 6,200 行汇编，并把汇编器引导到与参考模拟器达到逐字节一致。

BRUT-V 画廊图，展示多个 RISC-V 汇编草图以及背后的原始代码列表

放眼整个部分，反复出现的触发点都是可靠性。构建者之所以把智能体打包进控制平面、可复现产物、支付通道和可检视的仓库，是因为临时拼凑的会话看起来已经不足以支撑严肃使用。

6. 新动态与亮点¶

Gemini Spark 让 Google 的后台智能体野心变得清晰可见¶

@testingcatalog 曝光了（524 个点赞、26 条回复、34,072 次浏览）迄今最清晰的 Gemini Spark 公开信息，而链接的文章则暗示，它可能会在 Google I/O 前后进入公开 Beta。它真正值得注意的地方，不只是又一个新的智能体名字，而是引导文案对 Connected Apps、已登录的网站、远程浏览器数据，以及“可能会在未确认的情况下购买或共享数据”这类风险的明确表述。

SAP 和 NVIDIA 把安全执行层做成一等企业产品能力¶

@nvidia 介绍了（468 个点赞、33 条回复、39,198 次浏览）OpenShell 在 SAP Business AI Platform 里的角色，而 NVIDIA 和 SAP 的两篇文章对运行时加固、策略执行、收容、IAM 对齐和可审计性都写得异常具体。正是这种具体程度，让它的重要性超过了一般的企业合作公告。

7. 机会在哪里¶

[+++] 面向可行动智能体的策略与审计层 —— 证据出现在多个部分。Gemini Spark 的引导文案已经警告了数据共享和购买行为，而 SAP/NVIDIA 也明确在 OpenShell 里构建收容、策略执行、IAM 对齐和审计轨迹。这个机会很强，因为同样的需求同时出现在消费级和企业级场景里。

[++] 带信任评分的技能与服务市场 —— SkillsMP 展示了供给，Circle 则展示了迈向付费服务发现的下一步，但两条讨论都立刻撞上了声誉、维护和合约执行的问题。这个机会处于中等强度，因为市场已经明显开始成形，但缺失的信任层仍然空着。

[++] 可重放的智能体工作流产物 —— Kane 的 Test.md 和 Cline 的多智能体示例都指向同一个缺口：成功的智能体工作需要被保存成可持久化的产物，之后才能重跑、检查和交接。这个机会处于中等强度，因为痛点清晰而且务实，尤其集中在浏览器和编排工作流上。

[+] 面向智能体原生的支付与认证通道 —— Circle 的 Agent Stack 和 agents.circle.com 说明，这个类别终于开始变得真实：钱包、付费 API 访问和机器速度的结算正在被打包到一起。这个机会还在早期，因为底层原语已经可见，但使用模式和评估标准都还很早。

8. 要点总结¶

常驻型智能体开始伴随明确警告一起发布，而不只是承诺。 Gemini Spark 的引导文案写明，它可以调用已连接应用、已登录站点和远程浏览器数据，而且由于仍属实验阶段，可能会在未征求同意的情况下共享信息或直接购买。(来源)
企业对智能体的采用，正在收敛到运行时收容和可审计性上。 SAP 和 NVIDIA 并不是把 OpenShell 当成一个更好看的聊天机器人外壳来推销；它们强调的是隔离执行、策略执行，以及面对业务流程系统时可审计的控制。(来源)
智能体平台正在演变成控制平面。 Agno 的公开平台界面和 Cline 的流式多智能体示例，都说明当天的需求正在转向调度器、追踪、审批和结构化扇出，而不是一次性的聊天会话。(来源)
发现层扩张的速度，快过信任建立的速度。 SkillsMP 可以拿出超过 130 万条来自 GitHub 的技能作为规模证明，但无论是它自己的 FAQ，还是推文下的回复，都表明质量信号和安全安装信心仍远远落后于目录规模。(来源)
可复现性正在成为智能体的一等问题。 Kane 对 Test.md 的描述之所以成立，是因为团队已经切实遇到了这种痛点：工作流可以成功一次，但如果不重新编写，就无法在 CI 里或交给另一个智能体时重放。(来源)
公开的智能体构建产物正变得更容易检视。 BRUT-V 值得注意，是因为仓库、演示和截图让这个说法变得可读、可查：那是一个基于浏览器的创意编程栈，而不只是模糊地吹嘘“有个智能体帮了忙”。(来源)