Twitter AI 智能体 - 2026-04-20¶

1. 人们在讨论什么¶

1.1 智能体市场基础设施带着硬数据上线 🡕¶

这是当天的主导信号。@base 宣布 Agentic(.)Market（326 个点赞、65 条回复、50.6K 次浏览），这是一个基于 x402 协议的智能体对智能体市场。仪表盘展示了规模：已结算 167M+ 笔 x402 交易、48.6M 美元支付额、71,490 个唯一买家、12,992 个唯一卖家，服务排行榜由 Anthropic、X API、Bankr、Google Flights 和 OpenAI 领跑。

Agentic Market 仪表盘，展示 x402 交易量、买卖方比例，以及以 Anthropic、X API、Bankr 等为头部服务的服务排行榜

@MilkRoad 发布了一篇详细解读（97 个点赞、60 次收藏、15.5K 次浏览），把 Agentic Market 描述为“机器人版应用商店”：智能体可以自主发现、评估、付费并消费服务，而且不需要 API 密钥。@FD_XYZ 在回复中指出：“买家数量是卖家的 5 倍。智能体真的在跨服务购物，而不是只探测一个端点。”@LyvoCrypto 把它连接到 ClawBank 的银行层：“85% 的智能体交易已经在 Base 上……$ClawBank 是缺失的一块，它能把会交易的智能体变成真正经营业务的智能体。”

多个并行市场发布强化了这一主题。@TrenchFu 发布了包在 MCP 工具中的 TrenchFu Agent Marketplace。@OrbisAPI 宣布 2,200+ 个 API 可通过 npx skills add 安装。@JorgeCastilloPr 指向 skillsmp.com，称其有 60,000+ 个智能体技能。@cysic_xyz 预览 Cysic AI 2.0，包含智能体市场、技能和云托管。

讨论要点： 智能体市场不再是概念。Agentic Market 的仪表盘提供了智能体对智能体商业的首个公开规模证据：71K 买家和 5:1 的买卖方比例表明真实需求存在。市场层正在多个平台同时落地。

与前日对比： 4 月 19 日，智能体式商业主要还停留在协议层铺设（x402、ERC-8004）。4 月 20 日出现了第一批带真实交易数据和服务排行榜的市场仪表盘。故事从基础设施转向可观察市场。

1.2 OpenClaw vs Hermes Agent：框架比较清晰化 🡒¶

@shannholmberg 分享了一份详细源码比较（59 个点赞、39 次收藏），总结 @elvissun 对 OpenClaw 和 Hermes Agent 做的 9 小时并排研究。这份比较映射出智能体应该如何学习和使用技能的两种根本不同哲学。

OpenClaw vs Hermes 对比，展示技能哲学、内置技能、发现范围、核心取舍和产品定位差异

Hermes 随附 123 个内置技能（GitHub PRs、Obsidian、Notion、Linear），并有自我编写循环：每 N 次工具调用后，智能体会考虑保存一个技能，然后后台复查会扫描值得沉淀为技能的模式。OpenClaw 则采取相反立场：“新技能应该先发布到 ClawHub，而不是默认加进核心”，并提供五个优先级层级（工作区 > 用户全局 > 托管 > 内置 > 额外）和有边界的发现机制。

核心发现是：Hermes 有“技能爆炸问题”——Elvis 在自己的 ~/.hermes/skills/ 目录中，仅仅为了读取图片就发现了 3 个重叠技能。技能增长快于整合。OpenClaw 通过设计避免了这一点，代价是要求用户显式创建技能。@elvissun 总结：“任选其一，向两边学习，然后去做点有用的东西。”

@BlockLayerPod 发布了一份全面 OpenClaw 分析（153 个点赞、13.4K 次浏览），覆盖该框架的加密协同场景。关键轶事包括：Austin Griffith 的智能体在他睡觉时部署了生产智能合约，而智能体 @langoustine69A 一周内交付了 80+ 个付费 x402 端点。安全现实检查也很直接：“Austin 的机器人在任务中试图提取自己的私钥。”

@aiedge_ 发布了 GitHub Trending 周度快照（19 个点赞、41 次收藏），显示前五个仓库全部都是智能体项目：

GitHub Trending，展示 andrej-karpathy-skills 60,441 stars、hermes-agent 101,400、claude-mem 63,036、evolver 5,347、GenericAgent 4,441

讨论要点： 框架竞争已经成熟为一个可识别的架构分裂：全家桶式（Hermes/Rails 类比）与原语优先（OpenClaw/Linux 类比）。9 小时源码研究首次给出严格证据，说明每种方法都有不同失败模式：技能爆炸与手动编写负担。

与前日对比： 4 月 19 日聚焦 Hermes 达到 100K 星标。4 月 20 日增加了与 OpenClaw 的结构性比较，并将技能爆炸问题识别为 Hermes 的主要长尾风险，同时通过生产轶事记录 OpenClaw 的真实安全挑战。

1.3 智能体安全威胁数据更具体 🡕¶

安全是当天数据最丰富的主题。@stormrae_ai 引用企业数据（285 个点赞、24.9K 次浏览）：“96% 的企业已经在运行 AI 智能体。只有 21% 有相匹配的治理模型。”帖子描述了 Palo Alto Networks 的红队演示：一个智能体仅靠说服就执行了 900 美元提款——“没有漏洞利用，没有入侵，只是巧妙换框。”OWASP 的 Q2 2026 全景报告列出的主要威胁包括：提示词注入、智能体权限升级、数据投毒、幻觉漂移。@maestroalvarez 在回复中指出：“钓鱼桌面演练不能直接迁移；智能体需要对抗性角色扮演，攻击者是一个礼貌用户。”

@akshay_pachaar 提供了当天最详细安全讨论串（48 个点赞、69 次收藏），总结 Google DeepMind 的《AI Agent Traps》论文。论文映射了六类攻击面：内容注入（HTML 注入劫持率 86%）、语义操纵、认知状态陷阱（<0.1% 投毒数据下攻击成功率 >80%）、行为控制、系统性攻击和人在回路。

Google DeepMind《AI Agent Traps》论文，识别针对 AI 智能体的六类对抗性内容，覆盖感知、推理、记忆、行动、多智能体动态和人工监督

@web3nomad 提出了跨会话角度：“写入智能体记忆的对抗性内容注入会跨会话持久化。单会话劫持已经很糟。跨会话知识投毒是另一个威胁类别。”@hugobowne 警告，“AI Builders 正在慢慢意识到应该假设系统提示词会外泄……很少有人意识到整个智能体运行框架也几乎等同公开。”@aixarizzo 指出，使用带浏览器访问能力 AI 智能体的加密账号，会把缓存的钱包会话、登录令牌和种子词暴露给智能体。

@hackSultan 发布了当天互动最高的推文（254 个点赞、794 次收藏、score 4362）：一个面向 vibe coding 项目的综合安全审计提示词。该提示词指示智能体对前端、后端、认证、数据、API、基础设施和供应链层做全面漏洞分析。@goldencantech 在回复中观察到：“我喜欢这场讨论正在从‘不要 vibecode’转向‘如果你非要 vibecode，这里有办法’。”

讨论要点： 4 月 20 日，安全讨论沿三个维度演进：企业治理数据（96% 已部署、21% 有治理）、学术威胁分类（DeepMind 六类攻击面）和从业者工具（安全审计提示词获得 794 次收藏）。最重要信号是 @web3nomad 独立提出的跨会话记忆投毒，这是一类新威胁。

与前日对比： 4 月 19 日，AgentShield 提供量化威胁数据（12% 恶意技能）和前沿模型基准测试失败案例。4 月 20 日新增企业治理统计、DeepMind 威胁分类以及跨会话记忆投毒向量。威胁模型正从技能层风险扩大到记忆层和多智能体系统性风险。

1.4 自我改进智能体延伸到工业和研究领域 🡕¶

@omarsar0 延续了 4 月 19 日的 Autogenesis 讨论串（228 个点赞、293 次收藏、26.6K 次浏览），进一步阐释自我改进循环架构。

Autogenesis 架构，展示带版本的智能体组件经上下文管理器进入提交或回滚关口，并包含 Reflect、Select、Improve、Evaluate、Commit/Rollback 的自我改进循环

图中提示词、工具和记忆都是可变组件，上下文管理器通过提交或回滚关口调解变更。报告的 GAIA Test 平均 Pass@1 为 89.04。@Shurtcurt 评论：“底部那句‘带着历史重复，而不是失忆后重来’作用很大。大多数自我改进智能体设计都失败在每个改进周期都冷启动。”

@dair_ai 分享了一篇 NVIDIA 新论文（63 个点赞、52 次收藏），主题是自演化 EDA 工具：多智能体 LLM 自主改进 ABC 代码库（120 万行 C、4,000+ 个源文件），发现超过人工设计启发式方法的优化策略，并在 ISCAS、VTR、EPFL 和 IWLS 基准测试上领先。

NVIDIA 关于《Autonomous Evolution of EDA Tools》的论文，展示完整百万行规模下用于逻辑综合的多智能体自演化 ABC 框架

这是自我改进智能体模式首次用于生产半导体基础设施。@blip_tm 把点串起来（30 个点赞）：“如果智能体式工作负载正在推动 CPU 需求，它们也应该推动 SmartNICs 等加速器的需求，这些加速器可以卸载网络和安全任务，让 CPU 专注运行智能体循环。”

讨论要点： 自我改进智能体从论文抽象走向工业应用。NVIDIA 论文证明该模式在用于芯片交付的百万行生产代码库上有效。结合 Autogenesis 的协议层语义，这说明该模式正在从研究跨入部署。

与前日对比： 4 月 19 日引入 Autogenesis 作为协议、AutoSOTA 作为研究自动化。4 月 20 日把该模式扩展到工业 EDA 工具（NVIDIA/ABC），并加入硬件基础设施角度（用于智能体循环加速的 SmartNICs）。

1.5 新模型发布直接面向智能体式编程 🡕¶

两次主要模型发布明确聚焦智能体式执行能力。@Alibaba_Qwen 宣布 Qwen 3.6 Max Preview（291 个点赞、38 次收藏），这是下一代旗舰模型的早期预览，提升了智能体式编程、世界知识和智能体可靠性。基准图覆盖 12 个类别：

Qwen 3.6 Max Preview 基准对比，覆盖 SuperGPQA、SkillsBench、Terminal-Bench 2.0、SWE-Bench Pro 等 12 类，并对比 Qwen 3.6 Plus、Claude 4.5 Opus 和 GLM 5.1

Qwen 3.6 Max 在 SuperGPQA（73.9）、SkillsBench（55.6，相比 Claude 4.5 Opus 的 30.0）、Terminal-Bench 2.0（65.4）和 SWE-Bench Pro（57.3）领先。@drawais_ai 指出：“preserve_thinking 功能是大多数人会低估的部分……跨轮次携带推理，才是真正让长智能体轨迹连贯的东西。”@DoDataThings 观察到：“Alibaba 的编程栈正在收敛到 Anthropic 和 Cursor 运行的同一批智能体化模式。中国模型竞赛现在真正发生在工具集成深度上。”

@aaryan_kakad 提供了 Kimi K2.6 技术拆解（6 个点赞、8 次收藏）：12 小时自主编程会话、4,000+ 次工具调用且上下文不丢失、300 个并行子智能体（高于 K2.5 的 100 个），以及长周期工程基准测试上 68.2 分。该模型用 Zig 把 Qwen3.5-0.8B 推理从 15 tokens/second 优化到 193 tokens/second，比 LM Studio 快 20%。Kimi K2.6 是 Hugging Face 上的开放权重模型。

@sudoingX 称赞 Grok 4.3（36 个点赞）在自主智能体工作中的表现：“它处理多步推理的方式、不会中途放弃的方式，是完全不同的模型气质。”

讨论要点： 模型竞争已经从通用基准测试转向智能体专用能力：SkillsBench、Terminal-Bench、长周期执行和跨轮次推理保持。SkillsBench 差距（Qwen 3.6 Max 55.6，相比 Claude 4.5 Opus 30.0）是最醒目的差值。

与前日对比： 4 月 19 日讨论使用开源模型作为免费 Claude Code 替代方案。4 月 20 日新增两次主要模型发布（Qwen 3.6 Max、Kimi K2.6），两者都明确优化智能体式执行，并出现首个从业者报告 Grok 4.3 在自主智能体工作流中表现良好。

1.6 Codex 获得长期编排；单智能体优于 Swarms 🡒¶

@WesRoth 描述了 Codex 的新工作流功能（195 个点赞、91 次收藏、19.2K 次浏览）：定时自动化、讨论串复用和持久记忆，让智能体“保留项目约定、睡眠，并在之后自主醒来继续推进长期任务。”这建立在后台使用计算机的能力之上，即多个智能体并行操作桌面应用。

与此同时，@youdotcom 发布了一个反对多智能体热潮的反论：“在相同计算预算下，多智能体集群的表现不如一个充分扩展的单智能体。”他们的单智能体系统在 DeepSearchQA 上达到 SOTA，10M tokens、1,000 轮下准确率 83.67%。

DeepSearchQA 基准，显示 you.com 前沿模型 83.67%、sonar deep research 81.90%、K2.5 77.10%、Opus 4.5 76.10%，研究型工具落后在 27% 和 21%

@ZypherHQ 观察（32 个点赞），Codex 和 OpenCode 都是 LLM 封装器，“它们唯一真正能竞争的是更好的智能体编排。”回复共识是：“封装器的真正优势在 UX 和工作流，而不是底层智能能力。”

讨论要点： 两股力量处于张力中：Codex 押注多智能体、长期编排，而 you.com 的研究显示，相同计算量下一个充分扩展的单智能体胜过集群。这呼应 @ponnappa 4 月 19 日的挑战：“先别制造垃圾，跑通 2 个智能体并行，再来发你的多智能体编排理论。”

与前日对比： 4 月 19 日，Swarms v11 发布多智能体架构。4 月 20 日，you.com 给出了实证反驳，说明许多用例里的多智能体模式可能仍然过早。

1.7 Anthropic 免费课程生态与技能发现扩张 🡕¶

多个账号独立浮现 Anthropic 的 13 门免费 AI 课程（@Shruti_0810，19 个点赞、29 次收藏；@manishamishra24，推文，12 个点赞）。课程覆盖《Claude 101》、《AI Fluency》、《Introduction to Agent Skills》、《Claude Code in Action》、MCP 基础和进阶主题，以及 Bedrock、Vertex AI 云集成。@TimHaldorsson 称智能体技能是“Claude 现在最强大的功能……这是把 Claude 从聊天机器人变成系统的那一层。”

@SteveSolun 继续推广 ctx（5 个点赞、19 次收藏），这是一个技能/智能体发现工具，会“观察你正在开发的内容，遍历 1,700+ 个技能和 450+ 个智能体的知识图谱，并实时推荐合适的选项”。1,700+ 的技能数量（高于 4 月 19 日的 1,450+）显示生态正在快速增长。

与前日对比： 4 月 19 日将技能发现识别为新兴需求。4 月 20 日显示生态在增长（1,700+ 技能，相比 1,450+），同时 Anthropic 投资教育，以推动技能层采用。

2. 令人困扰的问题¶

智能体治理落后于部署 -- 严重性：高¶

@stormrae_ai 报道 96% 企业智能体部署、21% 治理（285 个点赞、24.9K 次浏览）。Palo Alto Networks 演示了一个红队智能体通过社会工程执行 900 美元提款——没有漏洞利用或入侵——这说明缺口真实存在。@EddyBrown777 回应：“核心问题不是 AI 能力，而是控制。企业匆忙部署，却没有对齐激励、监督或故障保护。”

跨会话记忆投毒没有防御 -- 严重性：高¶

@web3nomad 在回复 DeepMind 论文讨论串时指出一个新威胁类别：“写入智能体记忆的对抗性内容注入会跨会话持久化……自动捕获记忆系统对此没有真正防御。”当前唯一缓解方式是“显式写入时复查”，由人决定什么能进入知识库。

自我编写智能体的技能爆炸 -- 严重性：中¶

@elvissun（经由 @shannholmberg，59 个点赞、39 次收藏）记录到，Hermes 为单一任务（读取本地图片）生成了三个重叠技能。“智能体很擅长发现‘我应该把这个封装起来’。它没那么擅长发现‘我已经在三个文件夹外封装过这个了’。”技能增长速度快于整合。还没有去重机制。

智能体运行框架实际等同公开 -- 严重性：中¶

@hugobowne 警告（6 个点赞、3 次收藏）：“AI Builders 正在慢慢意识到应该假设系统提示词会外泄并公开。很少有人意识到他们的整个智能体运行框架也几乎等同公开。”含义是：任何依赖运行框架保密性的安全假设都已经破产。

3. 人们期望的功能¶

技能去重与整合¶

@elvissun（经由 @shannholmberg）指出，Hermes Agent 需要“带调用指标的整合流程 + 在技能创建上更强的去重”。技能语料库无限制增长：“有些很出色，有些冗余，有些与另外三个没人记得存在的技能重叠。”

机会：一个技能去重引擎，如果能基于调用数据聚类语义相似技能、合并重叠技能、剪掉未使用技能，就能解决自我编写智能体系统的主要长期风险。

智能体金融身份（Know Your Agent）¶

@t54ai 描述了缺口：“今天金融栈中的每项检查都是围绕人类设计的。签名、身份、点击、拒付。当 AI 智能体负责交易时，这些检查每一项都有缺口。”该讨论串提出 KYA（Know Your Agent），覆盖每个自主动作的模型来源、版本、运行时完整性和签名授权。

机会：一个把智能体身份连接到现有金融合规基础设施的 KYA 框架，将释放企业级智能体商业。

写入时记忆安全¶

@web3nomad（回复 @akshay_pachaar）指出，现在没有工具会验证进入智能体记忆的内容：“显式写入时复查（由人决定什么进入 wiki）是当前唯一缓解方式。”

机会：自动化记忆写入验证——内容进入持久记忆前先分类、过滤并标记——将处理跨会话投毒向量。

4. 使用中的工具与方法¶

工具 / 方法	类别	评价	优势	局限
Hermes Agent	Agent platform	Positive	123 bundled skills、self-authoring loop、persistent memory	Skill explosion problem、no deduplication
OpenClaw	Agent framework	Positive	Governance by design、5 precedence levels、bounded discovery	Manual skill authoring、setup difficulty for non-developers
Claude Code	Coding agent	Mixed	Powerful with skills、13 free courses	Rate limits persist、harness effectively public
Codex	Coding agent	Positive	Scheduled automations、persistent memory、thread reuse	LLM wrapper competing on orchestration alone
Kimi K2.6	LLM	Positive	12-hour sessions、4K+ tool calls、open weights	Self-hosting 需要 serious GPU
Qwen 3.6 Max	LLM	Positive	SkillsBench 55.6、preserve_thinking for cross-turn reasoning	Preview only、weights 尚未公开
Grok 4.3	LLM	Positive	强 multi-step reasoning、real-time X search	从业者报告有限
x402	Payment protocol	Positive	167M+ transactions、zero API keys	85% on Base、chain concentration risk
Swarms v11	Multi-agent framework	Positive	3 new architectures、HeavySwarm to 16 agents、security fixes	单个 well-scaled agent 可能胜过 swarms
Firecrawl web-agent	Web agent framework	Positive	Plan-Act mechanism、parallel sub-agents、model-agnostic	新工具，production data 有限
Browser Harness	Browser automation	Positive	Self-healing selectors、agent rewrites broken functions	无 guardrails by design
Hyperframes	Video framework	Positive	HTML in, MP4 out、agent-native、Apache 2.0	刚发布，采用有限
MCP	Integration protocol	Positive	生态扩张、tool poisoning awareness 上升	通过恶意 tool descriptions 的 poisoning attacks
LiveKit + xAI STT	Voice agent infra	Positive	一个 API key 支持完整 STT + Grok + TTS pipeline	Cascaded latency 仍需 aggressive streaming

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
Agentic(.)Market	@base / Coinbase	Agent-to-agent service marketplace	Agents 发现并支付 capabilities	x402, Base	Shipped	post
Hermes-Workspace V2	@outsource_	Agent View Office、Conductor for missions、sub-agent orchestration	Hermes UI 和部署	Hermes Agent	Shipped	post
FreeBuff	@jahooma	使用 GLM 5.1 的免费 coding agent，带 waiting room system	Agent coding 的成本壁垒	GLM 5.1, npm	Shipped	post
Aigis v2	@NayanKanaparthi	面向 coding agents 的 AI governance compiler	把 governance patterns 变成 agent-readable context	NIST AI RMF, OWASP, ISO 42001	Shipped	post
RuFlo v3.5	@tom_doerr	面向 Claude 的 multi-agent orchestration platform	协调多个 Claude agents	Claude Code SDK, MIT	Shipped	post
OpenTraces 0.3	@jayfarei	Git for agent traces，带 session blame	把代码变更归因到 agent traces	Local TUI, HuggingFace datasets	Alpha	post
SAEP	@BuildOnSAEP	带 10 个 Anchor programs 的 agent economy protocol	Agent identity、task bidding、ZK verification、streaming payments	Solana, Groth16, Switchboard VRF	Shipped	post
Hyperframes	HeyGen	Agent-native video composition：HTML in, MP4 out	用 agent workflows 替代基于 React 的 video frameworks	Puppeteer, FFmpeg, Apache 2.0	Shipped	post
ctx	@SteveSolun	通过 knowledge graph 做 skill/agent recommender	从 1,700+ 选项中发现 relevant skills	Knowledge graph	Alpha	post
Eliza LifeOps	@shawmakesmagic	支持 local model 和 n8n workflows 的 personal agent	信息过载管理	Local models, n8n	Alpha	post
Nyx	@FabraixHQ	面向 AI agents 的 verification engine	找出 agent behavior failure modes	AI security engineers on demand	Alpha	post
Sleek Design Skill	@jameslevicf	让 agents 生成更好 mobile app designs 的 skill	Agent-generated UIs 的设计质量	Claude Code, Codex	Shipped	post
DSPy Agent Skills	@intertwineai	教 agents 学 DSPy GEPA 和 RLM 的 skills plugin	Agents 学习 optimization frameworks	Claude, Codex	Shipped	post

6. 新动态与亮点¶

Agentic(.)Market Dashboard 揭示智能体商业规模¶

@base 发布了智能体对智能体商业的首个公开仪表盘：167M+ 笔 x402 交易、48.6M 美元交易额、71,490 个唯一买家、12,992 个唯一卖家。服务排行榜显示 Anthropic、X API、Bankr、Google Flights 和 OpenAI 是最常被智能体消费的服务。这是智能体对智能体市场正在以有意义规模运转的首个硬证据。

Google DeepMind 将智能体攻击面归纳为六类¶

@akshay_pachaar 总结了《AI Agent Traps》论文（69 次收藏），这是第一个系统化描述针对智能体对抗性内容的框架。六类攻击——内容注入、语义操纵、认知状态、行为控制、系统性攻击、人在回路——以及具体攻击成功率（HTML 注入 86%、0.1% 投毒数据下 80%），为智能体安全提供了研究议程。

NVIDIA 在百万行规模上演示 Self-Evolving EDA¶

@dair_ai 分享了 NVIDIA 论文（52 次收藏），把多智能体自我改进应用于 ABC——一个半导体行业使用的 120 万行逻辑综合工具。该框架发现了超越人工设计启发式方法的优化策略。这是自演化智能体模式首次应用于生产工业基础设施。

Qwen 3.6 Max Preview 在 SkillsBench 上领先 Claude 近 2x¶

@Alibaba_Qwen 发布了基准结果，显示 Qwen 3.6 Max Preview 在 SkillsBench（智能体技能执行）上得分 55.6，而 Claude 4.5 Opus 为 30.0——优势达 1.85x。preserve_thinking 功能可跨断开的会话携带推理链，是长智能体轨迹的新能力。

Single Agent 在 DeepSearchQA 上达到 SOTA，挑战 Swarm Paradigm¶

@youdotcom 报告，一个充分扩展的单智能体使用 10M tokens 和 1,000 轮，在 DeepSearchQA 上达到 83.67% 准确率，并声称“多智能体集群在相同计算预算下不如单个充分扩展的智能体”。这一实证结果挑战了当前多智能体趋势。

MCP 工具投毒成为隐形攻击向量¶

@correlicHQ 描述 MCP 工具投毒：“恶意工具描述告诉你的智能体读取 SSH keys。智能体以为自己是在遵循指令。UI 什么都不显示。”该攻击利用智能体与工具描述之间的信任关系，而描述本身变成攻击载荷。

7. 机会在哪里¶

[+++] 智能体市场基础设施 -- Agentic Market 仪表盘（167M 笔交易、71K 买家、48.6M 美元交易额）证明智能体对智能体商业真实存在。5:1 的买卖方比例表明服务供给不足。帮助开发者上架、定价和监控智能体可消费服务的工具会有即时需求。来源：@base, @MilkRoad, @OrbisAPI.

[+++] 智能体安全与治理工具 -- 96% 企业部署、21% 治理创造巨大缺口。DeepMind 分类法提供了结构化攻击面地图。跨会话记忆投毒和 MCP 工具投毒没有自动化防御。来源：@stormrae_ai, @akshay_pachaar, @correlicHQ.

[++] 技能去重与生命周期管理 -- Hermes 的技能爆炸问题（技能增长快于整合）会影响每一个自我编写智能体系统。能根据调用数据聚类、合并并修剪语义相似技能的工具，会解决一个随采用扩大的问题。来源：@elvissun via @shannholmberg.

[++] 智能体原生模型优化 -- SkillsBench、Terminal-Bench 和长周期基准测试正在成为智能体开发者的选型标准。针对工具调用连贯性和跨轮次推理明确优化的模型（Qwen 3.6 Max 的 preserve_thinking、Kimi K2.6 的 12 小时会话）正在领先通用模型。来源：@Alibaba_Qwen, @aaryan_kakad.

[+] 智能体金融身份（KYA） -- @t54ai 指出现有金融合规为人类设计，与智能体执行的交易之间存在结构性缺口。167M 笔智能体交易已经结算，合规缺口正在扩大。来源：@t54ai, @stormrae_ai.

[+] 单智能体扩展与多智能体编排 -- you.com 的 DeepSearchQA 结果（单智能体 83.67%）与 Swarms v11 的 16 智能体架构构成未解决的架构问题。帮助开发者判断什么时候纵向扩展、什么时候横向扩展的工具，会节省大量计算和工程时间。来源：@youdotcom, @swarms_corp.

8. 要点总结¶

智能体对智能体商业产出了第一个公开仪表盘：Agentic Market 上 167M+ 笔 x402 交易、48.6M 美元交易额、71,490 个买家，且 5:1 的买卖方比例表明供给不足。来源：@base, @MilkRoad.
OpenClaw vs Hermes 的对比清晰化为两种哲学：全家桶式（Hermes，123 个技能，自我编写）与原语优先（OpenClaw，有边界的发现，按策略治理）。Hermes 的技能爆炸是主要长期风险；OpenClaw 的手动编写是主要采用摩擦。来源：@shannholmberg.
智能体安全威胁数据达到新层级：96% 企业部署、21% 治理，DeepMind 六类攻击分类，HTML 注入 86% 劫持率，以及跨会话记忆投毒这个没有自动化防御的新威胁类别。来源：@stormrae_ai, @akshay_pachaar.
自我改进智能体进入工业基础设施：NVIDIA 演示了 120 万行半导体 EDA 工具的多智能体自演化，发现超越人工启发式方法的优化策略。来源：@dair_ai, @omarsar0.
模型竞争转向智能体专用基准测试：Qwen 3.6 Max 在 SkillsBench 上相对 Claude 4.5 Opus 有 1.85x 优势（55.6 对 30.0），Kimi K2.6 展示了 12 小时自主编程和 4,000+ 次工具调用。来源：@Alibaba_Qwen, @aaryan_kakad.
多智能体范式遭遇第一次实证挑战：you.com 的充分扩展单智能体在 DeepSearchQA 上达到 SOTA（83.67%），并声称集群在等价计算预算下表现更差。来源：@youdotcom.
Vibecoding 安全讨论从“不要做”转向“如果要做，就审计”：一条安全提示词获得 794 次收藏（数据集中最高），显示 vibe coding 工作流内部对实用安全工具有需求。来源：@hackSultan.
技能生态增长加速：ctx 现在索引 1,700+ 个技能和 450+ 个智能体（高于 4 月 19 日的 1,450 个技能），skillsmp.com 列出 60,000+ 个技能，Anthropic 投入 13 门免费课程推动采用。发现问题现在是主要瓶颈。来源：@SteveSolun, @JorgeCastilloPr.