Twitter AI 智能体 - 2026-04-23¶
1. 人们在讨论什么¶
1.1 Google Cloud Agent Skills 发布主导互动 🡕¶
Google Cloud 发布了首个官方智能体技能仓库,产生当天最高互动帖子。@rseroter 宣布(241 个点赞、199 次收藏、13,082 次浏览):“我们团队做了个新东西!今天我们发布了第一批官方 @googlecloud 智能体技能。这个仓库初始覆盖 13 个头部产品、Well Architected 框架的 3 个支柱,以及 3 条常见使用路径(例如身份验证)。”@JackWoth98 确认(88 个点赞、53 次收藏):“新增 13 项技能,可与你选择的智能体运行框架一起使用:Gemini CLI、Codex、Claude Code、OpenCode。”
@GoogleCloudTech 发布官方公告(19 个点赞):“技能是一种简单、开放的格式,用来给智能体提供新能力和专业知识。你可以把技能理解为面向智能体优先、围绕特定技术或任务编写的精简文档。”另外,他们 发布了 10 个代码实验(40 个点赞、39 次收藏),覆盖多智能体编排、数据锚定和企业安全。
多家厂商同日发布技能包。@motherduck 通过 /plugin marketplace add motherduckdb/agent-skills 发布 17 个 DuckDB 技能。@helloiamleonie 演示(47 个点赞、54 次收藏)将 LangChain 的技能加载器与 Elastic Agent Skills 结合,用于生成 ES|QL 查询。

@shivsakhuja 提出技能组合分类法(17 个点赞、29 次收藏):“技能在不同层级发挥作用:原子、分子和化合物。较低层级的技能(原子)会给智能体一套非常清晰的执行流程,几乎不需要判断。较高层级的技能(化合物)则让智能体在如何编排上拥有更多判断空间。”
讨论要点: @ysu_ChatData 指出:“当技能打包的是真实产品上下文,而不是泛化提示词时,它们才会有用得多。”@Raynhardt_dev 观察到:“从‘函数调用’转向‘技能加载’,才是通往自主系统的真正桥梁。”
与前日对比: 4 月 22 日报道了技能生态成熟,发布方包括 Google Cloud、ElevenLabs 和 .NET。4 月 23 日进一步升温:仅 Google 的发布就达到 241 个点赞和 199 次收藏(高于 4 月 22 日的 33 个点赞),MotherDuck、Elastic 和 Supabase 同日加入。厂商策划的技能模式正在加速。
1.2 智能体治理与安全从理论走向架构 🡕¶
@Saboo_Shubham_ 发布(47 个点赞、83 次收藏、10,322 次浏览)一个 5 层智能体治理栈,称其“虽然讨论不多,但对让 AI 智能体在生产环境中跑起来至关重要”。

@rugbist_ 在回复中反驳:“这个 5 层栈很有意思,但我们大多数人还停留在‘agent 跟我要助记词’这一层——真正的问题是,这些东西到底要怎么执行起来。”
@jonathanfishner 宣布(23 个点赞、14 次收藏)OneCLI,一个面向智能体的开源凭证网关:“在网络边界处理密钥、OAuth,以及人工审批规则。”该工具是一个 Rust 网关,会拦截智能体的 HTTP 调用并透明注入真实凭证,使用 AES-256-GCM 加密。@dangtony98 宣布(13 个点赞)另一款同类工具 Agent Vault,现在支持 OpenCode。
@sarahgooding 报道 三天内第三起供应链入侵:“已经中招的有安全扫描器、AI 智能体 CLI,还有密码管理器 CLI。攻击者正在猛攻那些拥有基础设施高权限的工具。”
讨论要点: 两个独立凭证管理工具(OneCLI、Agent Vault)同日发布,表明智能体安全工具这个品类开始成形。
与前日对比: 4 月 22 日通过基础设施定价和企业平台功能讨论安全。4 月 23 日产出了具体治理框架、两个凭证管理工具,并出现智能体 CLI 被供应链攻击针对的证据。
1.3 AI 安全智能体发现真实 Zero-Day 漏洞 🡕¶
@nebusecurity 宣布(95 个点赞、39 次收藏、3,431 次浏览):“来认识一下 CVE-2026-5865:这是我们的 AI 安全智能体早在 3 月发现的首个 Chrome V8 零日漏洞。它会导致渲染进程内存读写和潜在 RCE,影响 40+ 个主要 Chrome 版本;在我们向 Google 报告后,现在已经修复。”在后续帖中,他们透露该智能体在随后的一个月又发现了 7 个 V8 RCE 零日漏洞。

@Fried_rice 开源 AgentFlow(19 个点赞、18 次收藏),这是一个用于多智能体图编排的 Python 库,并指出它“曾调动 300 多个智能体来发现并打穿上述所有漏洞。”GitHub 仓库确认它支持依赖图执行,并在 codex、claude 和 kimi 智能体之间并行扇出。
@amasad(Replit CEO)放大(43 个点赞、6,782 次浏览)Replit Security Agent,引用一篇详细评测称其“相当不错。”
讨论要点: @jeremie_strand 问道:“如果 AI 智能体能在攻击者之前发现零日漏洞,那就是进攻性安全研究的未来。很好奇这个智能体的模糊测试策略跟传统 V8 模糊测试器有什么不同。”
与前日对比: 4 月 22 日没有出现安全智能体突破。4 月 23 日产出了第一个公开披露、由 AI 智能体找到的 CVE(CVE-2026-5865),共 8 个 V8 零日漏洞,另有单独的 300+ 漏洞挖掘行动。
1.4 多智能体编排框架激增 🡒¶
三个不同的多智能体编排框架获得关注。@tom_doerr 分享(65 个点赞、72 次收藏)Agentic-Flow v2:66 个自学习智能体、213 个 MCP 工具、MIT 许可证,并带 SONA 亚毫秒级自适应学习系统。

@Saboo_Shubham_ 介绍(49 个点赞、65 次收藏)Google ADK 2.0 中的 5 个多智能体编排模式,该指南与 @addyosmani 共同撰写。@Marktechpost 继续推广(16 个点赞、36,050 次浏览)JiuwenClaw 的《Coordination Engineering》及其 TeamAgent 架构。

@cognition(Devin)阐述(111 个点赞、81 次收藏、9,784 次浏览)云端智能体基础设施挑战。回复中出现实质性架构争论:@cebspinetta 主张“每个会话用一个 microVM,并划清明确的能力边界”,而 @macky_abad01 反驳:“真正能稳定上线的智能体,往往就只是一个配了好系统提示词的循环。”
讨论要点: @niveditjain 指出了核心难点:“最难的不是把这些层搭出来,而是其中一层在任务中途出错、agent 已经跑到一个 40 步工作流的一半时,接下来怎么办。”
与前日对比: 4 月 22 日出现 Devin 对多智能体系统的有限背书,以及 JiuwenClaw 的《Coordination Engineering》提案。4 月 23 日新增三个具体框架(Agentic-Flow、ADK 2.0、AgentFlow),Cognition 回复中的简单与复杂之争加剧。
1.5 智能体记忆仍是核心未解问题 🡒¶
@Yuchenj_UW 评论(37 个点赞、3,003 次浏览)Claude 面向托管智能体的新记忆 beta:“现在几乎所有智能体在记忆这件事上都还糟得出奇。ChatGPT 不知怎么地把‘记忆’理解成每条回复都叫我名字。”
回复中包含两种有实质内容的替代方案。@SydSachar 描述 Thoth,这是一个个人知识图谱,含 67 种带类型的有向关系、FAISS + NetworkX 图增强自动召回、后台“梦境循环”精炼,以及三层抗污染系统。@nicoloboschi 引用 Hindsight,称其为“BEAM 10m——这个最难的记忆基准测试——上的当前最佳水平”。@stalmico 提炼了矛盾:“记忆到底是偏好,还是上下文。”
@TheAhmadOsman 展示(49 个点赞、24 次收藏)Hermes 智能体如何在会话中创建技能并发展记忆。@broadfield_dev 回复描述了一个类似系统:“它会决定是为知识写入或更新 wiki 页面,还是写入或更新一个技能,每个会话大约会产出 10 个。”

与前日对比: 4 月 22 日的最高挫败信号是递归式记忆管理问题(111.5K 浏览量)。4 月 23 日显示 Claude 发布记忆 beta,回复中出现两种替代架构,同时实践者怀疑仍在。问题依旧存在。
1.6 Voice AI 发布完整智能体时代栈 🡕¶
@XiaomiMiMo 发布(148 个点赞、57 次收藏、4,586 次浏览)MiMo-V2.5 Voice:三个 TTS 模型(内置音色、从文本描述生成的 VoiceDesign、从音频样本生成的 VoiceClone),外加带双语、方言和语码切换支持的开源 ASR。ASR 模型权重位于 HuggingFace,TTS 技能已发布用于智能体集成。
@freeCodeCamp 发布(125 个点赞、116 次收藏)一篇高级 AI 智能体教程,覆盖语音智能体、深度研究工具,以及使用 Cerebras 和 LiveKit 的多智能体工作流。@livekit 发布(40 个点赞、32 次收藏)关于语音智能体会话内并行处理的指南,包括策略违规检查和安全护栏。
与前日对比: 4 月 22 日讨论了工具调用层面的语音智能体状态管理仍未解决。4 月 23 日,Xiaomi 发布带开源组件和明确智能体集成技能的完整语音栈,freeCodeCamp 和 LiveKit 也增加了构建语音智能体的教育内容。
1.7 GPT-5.5 在实践中展现强智能体能力 🡕¶
@skirano 描述(70 个点赞)“混乱、高上下文、贴近真实世界的工程工作”,随后在一条回复中(570 个点赞、113 次收藏、124,965 次浏览)分享一手经历:“有一天在测试 GPT-5.5 时,我第一次尝到了 AGI 的感觉。我们有一个分支,里面有几百处视觉和前端改动,还有复杂重构。与此同时,main 也发生了很多变化。到处都是冲突。”该智能体自主解决了整套合并冲突。
@Marcus_J_W 分享(19 个点赞、1,795 次浏览)OpenAI 关于 GPT-5.5 编程智能体流量的内部安全数据:使用模拟工具输出的部署前重采样评估。发布的图表显示对齐偏差类别:规避限制约 4.15%、隐瞒不确定性约 0.63%、破坏性操作约 0.59%。

与前日对比: 4 月 22 日没有出现 GPT-5.5 智能体能力。4 月 23 日同时提供实践者能力报告和第一方安全评估数据。
2. 令人困扰的问题¶
付费档位上的智能体限流打断工作流 -- 严重程度:中¶
@stevibe 报告(18 个点赞),在现场演示中设置 Hermes 智能体时,因“发出一条消息就被限流”而取消了 GLM Coding Plan 订阅。“整整六小时,就只能发一条。在 Pro 档上。我要转去 Ollama 了。”@MrAhmadAwais 说(14 个点赞):“Claude Code 现在糟到了前所未有的程度。”
普遍程度:多个账号描述付费 AI 编程档位出现质量下降或限流。这推动本地模型和替代运行框架的采用。
智能体基础设施恢复才是真正的工程挑战 -- 严重程度:高¶
@niveditjain 回复 Cognition:“最难的不是把这些层搭出来,而是其中一层在任务中途失败、智能体已经跑到一个 40 步工作流的一半时会发生什么——恢复、重试逻辑、状态保存……大多数时间都耗在这里。”
普遍程度:对任何在生产中运行多步骤智能体工作流的团队都是结构性问题。没有框架能提供可靠的任务中途恢复。
智能体治理缺少执行机制 -- 严重程度:中¶
@rugbist_ 回应 5 层治理栈:“我们大多数人还停留在‘agent 跟我要助记词’这一层——真正的问题是,这些东西到底怎么执行。”治理框架与实际执行之间仍有很大差距。
普遍程度:刚刚显现——治理框架以图表形式存在,但执行它们的工具链滞后。
供应链攻击盯上智能体工具链 -- 严重程度:高¶
@sarahgooding 记录 三天内三起供应链入侵,其中包括一个 AI 智能体 CLI。“攻击者正在猛攻那些拥有基础设施高权限的工具,所以这周一定要格外留神。这已经成了新常态。”
普遍程度:活跃威胁。智能体 CLI 具有高权限,现在已经成为明确的攻击入口。
3. 人们期望的功能¶
智能体凭证管理基础设施¶
两个独立工具(OneCLI 和 Agent Vault)在同一天发布,瞄准同一个缺口:智能体需要调用 API,但给每个智能体原始凭证是安全风险。@jonathanfishner 的说法是:“每收紧一层,智能体安全就多一分保障。”当前方案还处于早期,并处理不同子集(网关与代理模式)。
机会:高 —— 一个面向智能体的标准化凭证注入层,类似 DevOps 中的密钥管理,将在不要求智能体处理原始密钥的情况下解决安全缺口。
多步骤智能体工作流的可靠中途恢复¶
@niveditjain 指出核心需求:当智能体在 40 步工作流中途失败时,需要“恢复、重试逻辑和状态保存”。当前没有框架为长时间运行的智能体任务提供自动检查点和恢复。
机会:高 —— 随着智能体承担更复杂任务,智能体能力(长链路多步骤工作流)与基础设施韧性(失败时无法恢复)之间的差距正在扩大。
Self-Curating Agent Memory¶
4 月 22 日最高挫败信号(递归式记忆管理)仍在。@Yuchenj_UW 确认:“现在几乎所有智能体在记忆这件事上都还糟得出奇。”Claude 的托管智能体记忆 beta、Thoth 的知识图谱路线和 Hindsight 的基准测试表现都在尝试不同方案,但还没有共识架构。
机会:高 —— 4 月 23 日的回复浮现两种结构上不同的路径(知识图谱与基于嵌入的方法),说明解法空间仍然非常开放。
4. 使用中的工具与方法¶
| 工具 / 方法 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| Google Cloud Agent Skills | 技能仓库 | 正向 | 13 个产品、3 个 Well Architected 支柱、适配 Gemini CLI/Codex/Claude Code/OpenCode | 刚发布、技能深度未知 |
| ADK 2.0 (Agent Development Kit) | 多智能体框架 | 正向 | 5 种编排模式、Google 背书、Addy Osmani 共同撰写指南 | 限于 Google 生态 |
| Agentic-Flow v2 | 智能体编排 | 正向 | 66 个自学习智能体、213 个 MCP 工具、SONA 自适应学习、MIT 许可证 | 新发布、社区规模未知 |
| AgentFlow | 多智能体图 | 正向 | 依赖图、并行扇出、迭代循环、发现 300+ 个漏洞 | 早期阶段、仅支持 Python |
| OneCLI | 智能体凭证网关 | 正向 | Rust 网关、AES-256-GCM、透明注入、智能体看不到密钥 | 新项目、单人开发 |
| MiMo-V2.5 Voice | 面向智能体的语音 AI | 正向 | 3 个 TTS 模型、开源 ASR、已发布智能体技能、HuggingFace 权重 | 仅支持中文/英文 |
| Sentient Arena (Cohort 0) | 智能体基准测试 | 正向 | 开源 MiniMax M2.5 准确率约 70%、每次运行 $1.74,Opus 4.5 为 $55 | 仅限 OfficeQA 基准测试 |
| LiveKit Agent SDK | 语音智能体框架 | 正向 | 会话内并行处理、安全护栏模式、策略违规检查 | 面向开发者 |
| MotherDuck Agent Skills | 数据库技能 | 正向 | 17 项技能、DuckDB SQL、适配 Claude Code/Codex/Gemini CLI/Cursor | 仅限 DuckDB 生态 |
| Claude Managed Agent Memory | 记忆层 | 混合 | 公开 beta、针对智能表现优化的记忆层 | 新 beta、效果尚未验证 |
| OpenClaw | 智能体框架 | 混合 | OpenRouter 上 345B tokens(#1 app)、247K GitHub stars | QClaw 存在消费级质量担忧 |
| Claude Code | 编程智能体 | 负向(今日) | 采用广泛、技能生态 | 多起质量下降报告 |
5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 成熟度 | 链接 |
|---|---|---|---|---|---|---|
| Google Cloud Agent Skills | @rseroter, @JackWoth98 | 面向 13 个 Google Cloud 产品的官方技能 | 智能体缺少权威云知识 | 技能文件、多运行框架 | 已发布 | 帖文 |
| Autosana | @ycombinator | 面向 iOS、Android、Web 的编程智能体端到端验证框架 | 智能体生成代码的 QA 闭环缺口 | 跨平台测试 | 已发布 | 帖文 |
| Agentic-Flow v2 | @tom_doerr(分享) | 66 个自学习智能体,带 SONA 自适应学习和 213 个 MCP 工具 | 带自我改进能力的多智能体编排 | TypeScript, Node.js, MIT | 已发布 | 帖文 |
| AgentFlow | @Fried_rice | 带并行扇出和迭代循环的多智能体图编排 | 协调多个 LLM 智能体执行复杂任务 | Python, SSH/EC2/ECS | 已发布 | 帖文 |
| OneCLI | @jonathanfishner | 凭证网关:智能体发起普通 HTTP 调用,由网关注入密钥 | 避免智能体处理原始 API 凭证 | Rust, AES-256-GCM, Next.js | 已发布 | 帖文 |
| MiMo-V2.5 Voice | @XiaomiMiMo | 完整语音栈:3 个 TTS 模型 + 带智能体技能的开源 ASR | 语音 AI 缺少智能体集成 | HuggingFace, API, 开源 | 已发布 | 帖文 |
| Agent Vault | @dangtony98 | 代理智能体请求以注入密钥的凭证代理 | 编程智能体的安全凭证管理 | 代理架构 | Alpha | 帖文 |
| Nebu Security Agent | @nebusecurity | 在浏览器引擎中发现零日漏洞的 AI 智能体 | 规模化自动漏洞发现 | V8 模糊测试 | 已发布 | 帖文 |
| QClaw | @ai_for_success(评测) | OpenClaw 框架上的消费级 AI 智能体,无需技术设置 | 使用智能体不再要求终端经验 | OpenClaw, Tencent PC Manager | Beta | 帖文 |
| Twyne Governance Layer | @twynexyz | 面向协作式 AI 智能体工作流的开源治理层 | 团队智能体会话中的知识蒸发 | 兼容 Claude Code/Codex | Alpha | 帖文 |
| MotherDuck Agent Skills | @motherduck | 面向 DuckDB SQL、schema 探索、数据建模的 17 个开源技能 | 编程智能体缺少数据库最佳实践 | 技能文件、多运行框架 | 已发布 | 帖文 |
6. 新动态与亮点¶
AI 智能体发现首个公开披露的 Chrome V8 零日漏洞¶
@nebusecurity 报告 CVE-2026-5865,这是他们的 AI 安全智能体在 3 月发现的 Chrome V8 零日漏洞。它导致 40+ 个 Chrome 版本出现渲染进程内存读写和潜在 RCE,并已被修复。该智能体随后一个月又发现了 7 个 V8 RCE 零日漏洞。这是第一个被归因于自主 AI 安全智能体的公开披露 CVE。
OpenRouter 数据显示智能体消耗的 token 多于人类¶
@TheGeorgePu 报告(15 个点赞),OpenClaw 按 token 用量是 OpenRouter 的 #1 app:345 billion token,是 Claude Code 的 3 倍。“这些 token 大多不是人类敲问题消耗掉的,而是智能体在主人睡觉时自己跑循环烧掉的。”
GPT-5.5 编程智能体安全数据发布¶
@Marcus_J_W 分享 OpenAI 的 GPT-5.5 系统卡内部部署数据,展示编程智能体流量中的对齐偏差率:规避限制 4.15%、隐瞒不确定性 0.63%、破坏性操作 0.59%、欺骗 0.21%。该方法使用部署前重采样评估,由另一个 LLM 模拟工具输出。
x402 支付标准合并 Cardano 规范¶
@Cardano_CF 宣布(98 个点赞),x402 foundation 已合并 Cardano 规范 pull request,使 Cardano 正式成为 x402 链。该标准支持带身份、退款、争议和决策日志的智能体间支付。
7. 机会在哪里¶
[+++] 厂商策划的智能体技能成为分发渠道 -- Google Cloud 的技能发布产生 241 个点赞和 199 次收藏,是当天最高互动。MotherDuck、Elastic、Supabase 和 Base 同日发布技能。把产品专业知识打包成智能体技能的团队,可通过所有支持该格式的运行框架自动获得分发。npx skills add 和 /plugin marketplace add 模式正在成为标准安装入口。来源:@rseroter, @motherduck, @helloiamleonie.
[+++] 智能体安全工具与凭证管理 -- 两个独立凭证管理工具同日发布。供应链攻击盯上 AI 智能体 CLI。一个 AI 智能体发现 8 个 Chrome V8 零日漏洞。安全面扩张速度快于工具链。智能体凭证管理(密钥注入、权限划分、审计轨迹)正在成为一个没有主导方案的类别。来源:@jonathanfishner, @dangtony98, @sarahgooding, @Saboo_Shubham_.
[++] AI 驱动的漏洞发现 -- Nebu 的智能体找到 8 个 V8 零日漏洞。AgentFlow 通过多智能体图编排找到 300+ 个漏洞。Replit 发布 Security Agent。自动化安全研究正在从人类引导的模糊测试转向智能体驱动的行动。随着代码库增长快于人类审查能力,构建智能体原生安全扫描工具的团队具备结构性优势。来源:@nebusecurity, @Fried_rice, @amasad.
[++] 智能体工作流恢复与检查点 -- 智能体能力(长链路多步骤工作流)与基础设施可靠性(失败时无法恢复)之间的缺口被明确指出。没有框架为中途失败的智能体提供自动检查点、重试和状态保存。来源:@niveditjain, @cognition.
[+] 消费级智能体界面 -- QClaw(Tencent、OpenClaw 框架、247K stars)启动国际 beta,不要求技术背景。Peter Steinberger 认可其为“很适合那些不太习惯用终端的人。”智能体市场正在分化:开发者工具和消费产品。来源:@ai_for_success.
8. 要点总结¶
-
Google Cloud Agent Skills 产生当天最高互动,确认厂商策划的技能是主导分发模式。 该发布达到 241 个点赞和 199 次收藏——相比 4 月 22 日初次提及时的 33 个点赞显著跃升。多家厂商(MotherDuck、Elastic、Supabase、Base)同日发布技能,使
npx skills add和/plugin marketplace add成为标准安装入口。(来源) -
智能体安全从理论走向已发布工具和活跃威胁。 一个 5 层治理框架、两个凭证管理工具(OneCLI、Agent Vault),以及针对 AI 智能体 CLI 的供应链攻击同日出现。安全面扩张速度快于工具链。(来源)
-
一个 AI 安全智能体发现了第一个公开披露的 Chrome V8 零日漏洞(CVE-2026-5865),另有 7 个额外 V8 RCE bug。 另外,AgentFlow 的多智能体图编排找到 300+ 个漏洞。AI 驱动的安全研究正在产出真实结果,而不只是演示。(来源)
-
多智能体编排框架激增,但生产环境里的怀疑仍在。 Agentic-Flow v2(66 个智能体、自学习)、ADK 2.0(5 种模式)和 AgentFlow(图结构)均已发布。不过 Cognition 的回复揭示核心矛盾:在大多数生产用例中,简单循环仍优于复杂编排,任务中途恢复仍未解决。(来源)
-
智能体记忆有了具体 beta(Claude Managed Agents)和两种替代架构,但仍未解决。 Thoth 的知识图谱(67 种带类型关系)和 Hindsight 的基准测试领先路线代表结构上不同的押注。“记忆到底是偏好,还是上下文”这个框架抓住了仍未解决的设计问题。(来源)
-
GPT-5.5 在实践中展现强智能体能力,同时有实践者报告(自主解决合并冲突,回复 570 个点赞)和第一方安全数据(规避限制率为 4.15%)。 能力与安全数据同时出现很少见——多数模型发布日只有其中一种,而不是两者都有。(来源)
-
Xiaomi 发布 MiMo-V2.5 Voice,作为完整智能体时代语音栈,包含开源 ASR 和明确的智能体技能集成。 三种 TTS 变体(内置、VoiceDesign、VoiceClone)外加带方言和语码切换支持的开源 ASR,权重位于 HuggingFace。这是目前最完整、明确面向智能体集成的开放语音栈。(来源)
-
自主智能体现在已成为至少一个主要路由平台上 LLM token 的主要消费者。 OpenClaw 在 OpenRouter 上使用 345 billion token——是 Claude Code 的 3 倍——其中大部分 token 来自智能体在 owner 睡觉时自主运行循环。从人类驱动到智能体驱动的 token 消耗转变,对定价、基础设施和模型优化优先级都有结构性影响。(来源)