跳转至

Twitter AI 智能体 - 2026-04-11

1. 人们在讨论什么

1.1 Agent Skills 成为标准知识层 🡕

Agent skills 格式——为 AI 编程工具编码流程性知识的 markdown 文件——本周越过拐点。多个独立信号确认,它不再只是 Claude 专属的新奇事物,而是正在成为跨平台标准。

@xelebofficial 发布了一条误解澄清讨论串,指出 skills 不是“只是一段长提示词”(skills 会跨任务持久存在,而 prompts 会消失),不要求编程能力(它们是 markdown),并且不仅能用于 Claude,也能用于 GitHub Copilot、Cursor、Gemini CLI 和 Windsurf。最有挑衅性的说法是:“最高价值的 Skills 很少是关于代码。它们关乎你的团队如何写提案、如何组织报告、如何处理客户升级问题。”

Agent Skills 误解澄清信息图

@code_rams 宣布 autoskills,一个 CLI 工具(npx autoskills),可以识别项目的技术栈指纹,并从 skills.sh 的精选注册表自动安装匹配的 skill 文件,支持 50+ 技术。@safaa_9411 在回复中提出提示词注入风险:skills 在加载前需要安全审查。

@tom_doerr 分享了 Paul Hudson 的 Swift Agent Skills 仓库——一个面向 Swift 和 Apple 平台开发的精选开源 skills 集合,按框架(SwiftUI、SwiftData、Swift Concurrency 等)组织,并在显眼位置提示安装第三方 skills 前要先审查。

Swift Agent Skills README

@dshukertjr 发布了官方 Supabase Agent Skills,把最新产品知识和文档打包成 skills——这标志着平台厂商开始把文档作为智能体可消费文件分发,而不是只提供人类可读页面。

@AlphaSignalAI 报道了一个 Google 工程师的开源 Agent Skills repo,编码了覆盖完整开发生命周期的 19 个工程技能和 7 个斜杠命令:先写规格再写代码、先测试再合并、先度量再优化。适用于 Claude Code、Cursor 或任何能读取 markdown 的 agent。

@DipanshuKu55175 整理了 Anthropic 的 13 门免费认证课程,包括 Introduction to Agent Skills 和 MCP Advanced Topics——这是一次实质性的教育推动,说明 Anthropic 正在投资生态增长。

1.2 Harness Engineering 结晶为一门学科 🡕

“模型周围的代码比模型本身更重要”这一想法,本周获得了实证支持,也出现了首批书籍篇幅的系统论述。

@elvissun 发布了当天最高分推文(464 个点赞、744 个收藏),描述 Codex 在获得正确 harness 后如何“一次性修好我们的 turbo cache”——一个智能体调试循环将构建时间从 3 分 22 秒降到 34 秒。附图展示了结构化三步方法:给智能体诊断视野(本地和云端工具)、放入假设-测试-结果反馈循环,并让它驱动流程,而工程师在 Telegram 上旁观。

Agent debugging harness 流程图

@IntuitMachine 对 Meta-Harness 论文(arXiv:2603.28052v1)做了深度讨论串:自动 harness optimization 比人类专家高 7.7 分,用 token 少 4x,并能泛化到未见过的模型。核心发现是:仅 harness 改动就能让同一个 frozen model 的性能出现 6x 摆动。

@tom_doerr 分享了两本完整 harness engineering 书(托管在 harness-books.agentway.dev):一本 Claude Code 设计指南,一本 Claude Code 与 Codex 理念的比较研究。核心主张是:“Harness engineering 关乎约束结构如何组织执行。”

Harness engineering 设计指南书籍封面

@RLanceMartin 讨论了 session-harness 解耦,提出一种架构:session 是大脑可以询问的 context 对象,关键洞察是“没有任何 context engineering 是不可逆的”。

Session-Harness architecture diagram

@ottamm_190 分享了一篇综述论文(“Externalization in LLM Agents,” arXiv:2604.08224),21 位作者提供了学术基础:memory 将状态外部化、skills 将流程性专业知识外部化、protocols 将交互结构外部化,而 harness engineering 是统一层。

@deararchitects 提供了反向观点:harness engineering “听起来是更快交付的明显下一步。但它也是团队现在必须拥有和维护的又一层基础设施。”

1.3 个人 AI 语音智能体浪潮 🡕

@garrytan(YC 总裁)用三条推文主导了个人 AI 讨论。GBrain v0.8.0 发布了语音到大脑能力,交付 25 个生产模式:WebRTC 默认启用、context-first prompts、dynamic VAD、激进提示词压缩(13K 到 4.7K tokens)、卡住状态看门狗、工具调用期间的思考音效,以及先认证再说话。Changelog 图显示的是生产级语音基础设施,而不是演示。

GBrain v0.8.0 changelog

他还描述了自己在 Kona 泳池边用 iPhone 在 Telegram 上和语音智能体聊天来构建它,并说“我戒酒是为了更好地写代码。” 第三条推文传播了个人 AI 运动,一条回复确认该 setup “能运行所有东西,放在别处每月要花 200 美元。”

@ASUS 发布了一篇官方博客指南,介绍如何用 OpenClaw 把旧笔记本改造成专用 AI 智能体——一个主要硬件厂商正式背书个人 AI 智能体用例。

@cgtwts 展示了用 OpenClaw 本地运行 Gemma的三条命令(安装 Ollama、下载 Gemma、启动 OpenClaw),展示了完整私有 AI 智能体的最低门槛。

1.4 Agent Platform 竞争加剧 🡒

OpenClaw 与 Hermes Agent 的竞争成为焦点。@iamlukethedev 详细介绍了 OpenClaw v2026.4.10 release:Active Memory plugin(自动拉取偏好和历史对话)、原生 Codex provider,以及 macOS 本地语音。不过,@markkurajala2 报告 Active Memory 在真实使用中返回空结果,尽管手动 memory 搜索可以查到相关结果——这是一个生产就绪度缺口。

@steipete(OpenClaw 维护者)透露,OpenClaw 中 GPT 的两个实验模式:strict mode 会推动模型继续工作,codex app server 作为 harness——这条回复有 144 个点赞,说明社区对让非 Claude 模型成为可行 orchestrators 很感兴趣。

@bridgemindai 在 NVIDIA DGX Spark 上搭建 Hermes Agent,用于冷邮件外联,耗时不到 20 分钟,并称“OpenClaw 有热度,Hermes 的架构更对。” @cto_junior 称赞 Hermes 的自学习循环,认为它比手动方法更能捕捉经验,并自动启动新 skills。

@KanikaBK 分享了 “The Orange Book”,一本社区编写的 17 章 Hermes Agent 手册,涵盖三层 memory system、skill creation loop,以及与 Claude Code 和 OpenClaw 的比较——社区文档正在填补 Nous Research 留下的缺口。

@Codex_Changelog 宣布 Codex 0.119.0,包括 WebRTC voice default、实质性 MCP 改进(resource reads、elicitations、file uploads)和 remote/app-server workflows。@jlave_dev 的回复批评其节奏:“你们需要加快速度才能和 Claude Code 竞争。复制快捷键居然是最重要的新功能之一,这太离谱了。”

1.5 Context Engineering 进入主流 🡕

@drummatick 列出了成为前 1% AI 工程师所需的主题——context engineering、context compactness、agent harness、memory 和 subagent spawning 与传统 LLM skills 并列。这条推文获得 331 个收藏,说明对结构化学习路径的需求很高。一条回复补充了“evals and guardrails”。

@nyk_builderz 认为 下一个 AI 护城河是 context governance:“2026 年交付最快的团队都做三件事:像代码一样给 memory 做版本管理、在行动前给 agent outputs 打分、把 prompts 当作 interfaces,而不是 magic。” 他与 @l33tdawg 的扩展交流把 SAGE(BFT-consensus memory as data plane)与 LACP(Claude Code control plane)做对比,结论是二者互补而非竞争。

@i_amanchadha 在 contexteng.aman.ai 发布了完整 context engineering 入门指南,涵盖构建模块、retrieval/memory/compression、失效模式(context poisoning、distraction、confusion、clash)和生产启发式。

@aa22396584 凝练出共识:“人们关注‘哪个模型更好’,但真正的 skill gap 是:如何组织 agent memory、设计 permission boundaries,以及构建 composable SKILL.md files。工具会商品化,架构才是竞争优势。”


2. 令人困扰的问题

Managed Agents 中的 Vault 和 Permission Scoping(High)

@dani_avila7 发现 Claude Managed Agents vaults 是 workspace-scoped,意味着任何有 workspace access 的人都可以引用 vaults,并在自己的 sessions 中使用已存储的 OAuth credentials。架构图让问题很清楚:sessions 会 attach vault_ids,但 access control 只存在于 workspace level。请求的修复包括按 agent 划分的 vault permissions、credential audit logs 和原生定时 agents。

Claude Managed Agents vault 架构图,展示 workspace-scoped credentials

Active Memory 在生产中失效(Medium)

@markkurajala2 报告,OpenClaw 新的 Active Memory plugin “在真实使用中一直返回空结果,尽管手动 memory 搜索能返回相关结果。” 另一名用户报告更新后被卡在 terminal 中调试。一个重大 release 的头号功能无法在生产中稳定工作,已经成为反复出现的模式。

Agent Tooling 速度落后竞争(Medium)

@jlave_dev 批评 Codex:“你们需要加快速度才能和 Claude Code 竞争。复制快捷键居然是最重要的新功能之一,这太离谱了。” 这种挫败感反映了更广泛的情绪:OpenAI 的 agent tooling 在 developer experience 上落后于 Anthropic。

基础设施指标错位(Low)

@braelyn_ai 指出,sandbox vendors 在 initialization time 上竞争(“快 0.02s”),而使用 sandbox 的 agent 会运行 15 分钟。真正瓶颈是 agent execution time,而不是 infrastructure startup——厂商优化的是 benchmarks,不是用户实际感知性能。

智能体 Exploit Demos 误导泛化能力(Low)

@dbreunig 认为,发现漏洞利用是搜索问题(在墙上找到一道裂缝),而构建软件是建造问题(处理边界情况,维持一致性)。智能体漏洞利用演示有内置验证循环,非常适合营销,但不能很好说明更广泛能力。未回答的问题是:Anthropic 为每个漏洞利用花了多少钱?


3. 人们期望的功能

细粒度智能体权限系统

多位从业者描述了对按智能体(而不是按工作区)限定凭证范围、运行时权限强制执行(防止声明能力和实际能力之间漂移),以及显示谁在何时使用了什么的凭证审计轨迹的需求。@dani_avila7@0xAgix 都独立提出了类似需求。

统一的 Agent Engineering 学习路径

@drummatick 承认,要成为顶级 AI engineer 所需的 skills “几乎没有一个单一资源能完整覆盖”,并承诺自己写一个。@KanikaBK 指出 Nous Research “丢下工具,基本让你自己摸索”。社区正在自行创建文档——Orange Book、harness books、context engineering primer——但仍没有 canonical curriculum。

智能体原生调度和 Cron

@dani_avila7 特别指出 Claude Managed Agents 缺少原生定时智能体,并说“不应该需要 cron job 这种绕路方案。” @Viewforge 构建了一个多设备调度器来填补这个缺口,说明需求强到足以推动独立工具。

Cross-Framework Skill Portability Guarantees

虽然 @xelebofficial 声称 skills 可跨多个平台工作,但 @felipedeleon_ 指出需要“一个原生 runtime solution,在需要时检查 skill 并移植它”。Skills 是 markdown,但运行时行为各异。尚无互操作性测试标准。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
OpenClaw 智能体平台 Mixed Active Memory、本地 speech、广泛 model support、50K+ stars 生产 memory bugs、update breakage
Hermes Agent 智能体平台 Positive Self-improving skill loop、3-layer memory、Orange Book community docs Skill browsing 仅 console;official docs 稀疏
Codex (OpenAI) 编程智能体 Mixed WebRTC voice、MCP improvements、session resume 速度被批评落后 Claude Code,被视为追赶中
Claude Code 编程智能体 Positive Managed agents、vault system、强 harness design Vault scoping 过宽、无 native scheduling
GBrain Personal AI Positive 25 voice patterns、WebRTC、prompt compression(13K 到 4.7K tokens) 需要 OpenClaw/Hermes,早期阶段
Daytona Sandbox Positive 通过 OpenRouter CLI 一条命令 spawn agent --
autoskills Skill installer Early 自动检测 50+ tech stacks、--dry-run flag 来自 untrusted skills 的 prompt injection risk
Agent Lightning RL optimization Early Framework-agnostic、drop-in agl.emit()、MIT license v0.3.0,规模化未验证
Gemma 4 31B Open model Positive 用 ADK 做 autonomous agent work,open weights 小于 frontier models
Privy Agent CLI Wallet infra Early Spin up、fund、manage agent wallets Experimental surfaces

5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
GBrain @garrytan 带 WebRTC、Twilio 和 memory 的 personal AI voice agent Packaged AI limitations OpenClaw/Hermes, WebRTC, PGLite v0.8.0 GitHub
Vibe-Trading @ihtesham2005 64 skills、29 swarm presets 的开源 trading agent Quant tools 碎片化 Python, FastAPI, React, DAG multi-agent v0.1.4 Tweet
SearchClaw @ruc_ytz 带 quality gates 和 harness engineering 的 research agent LLM research answers 不可靠 FastAPI, litellm, Playwright Released GitHub
Charon @suncostlabs 管理 remote Claude、Codex、pi、Hermes instances 的 orchestrator Multi-agent coordination Custom orchestration Pre-release Tweet
Escroue @Escapation Trustless agent-to-agent task marketplace Agent payment settlement OpenServ SDK, on-chain Hackathon winner escroue.com
Harness Books @tom_doerr / AgentWay 两本 harness engineering design guides 缺少 written harness engineering theory Markdown, hosted at agentway.dev Published GitHub
autoskills @code_rams 自动检测 stack 并安装匹配 agent skills 手动 skill installation overhead npx CLI, skills.sh registry Released Tweet
Agent Experience Protocol @itsashonaroll Security-first agent coordination standard 缺少 agent interoperability standard Protocol spec Early Tweet

Vibe-Trading 是今天出现的开源项目中架构野心最大的一个。它使用基于 DAG 的多智能体系统,专门智能体会实时协作、辩论和交接,覆盖技术分析(Ichimoku、Elliott Wave、SMC)、量化工具(Black-Scholes、Greeks、MVO)、另类数据(social sentiment、macro regime detection)和 crypto(perp funding basis、liquidation heatmaps)。该项目来自 HKU Data Intelligence Lab,发布仅 10 天。

Vibe-Trading GitHub README

SearchClaw 来自 RUC-NLPIR,将 harness engineering principles 应用于 web research:quality gate hooks 会拒绝缺少足够 citations 的答案,research plan tool 会把复杂 queries 分解成可跟踪 sub-tasks,两阶段 context compaction 让 sessions 保持在 context limits 内。这是 harness engineering 从理论走向应用的具体案例。


6. 新动态与亮点

Meta-Harness:模型周围的模型

Meta-Harness 论文(arXiv:2603.28052v1)证明,AI agent 可以自动优化 frozen model 周围的 harness code,并以 7.7 分优势超过人类 harness engineers,同时 token 用量少 4x。该 agent 拥有 prior code、最高 10M tokens 的 execution traces 和 failure logs 的 filesystem access。它不是在 gaming benchmarks,而是发现了 structured programs——classification 中的 draft-verification、math retrieval 中的 lexical routing、coding 中的 adaptive context。含义是:harness search 可能是 model scaling 之后的下一个 frontier。

Famou-Agent 2.0 重夺 MLE-Bench SOTA

Baidu AI Cloud 的 Famou-Agent 2.0 在 ML engineering tasks 的 MLE-Bench 上重新夺回第一名,升级包括 evolution strategies、long-horizon memory 和 infrastructure。它已经部署到制造、金融、交通等行业的数千家企业。

MLE-Bench leaderboard showing Famou-Agent 2.0 at number 1

VAGEN:教 VLM Agents 构建 World Models

Stanford 的 VAGEN framework 使用 reinforcement learning 教 vision-language model agents 构建并维护 internal world models。通过鼓励 agents 估计 current state 并预测 future transitions,一个 3B parameter model 使用 PPO with bi-level advantage estimation,在多类视觉任务上达到 SOTA。

VAGEN architecture diagram showing rollout loop, trajectory buffer, and policy update

Agent Lightning:适用于任何 Agent Framework 的 RL

@pvergadia 宣布 Microsoft open-sourced Agent Lightning,这是一个 framework-agnostic RL tool,用于提升 agents。插入 agl.emit(),或使用 auto-tracer 把每个 prompt、tool call 和 reward 捕捉为 structured events。支持 LangChain、AutoGen、CrewAI、OpenAI SDK 和 plain Python。它把手动调 prompt 替换成 continuous learning loop。

Agent Lightning GitHub README

外部化理论获得综述论文

一篇 21 位作者合著的综述论文(arXiv:2604.08224)用认知外部化来框定智能体基础设施:记忆把跨时间状态外部化,技能把流程性专业知识外部化,协议把交互结构外部化,而运行框架工程则作为统一层。它梳理了从权重到上下文再到运行框架的历史进展。


7. 机会在哪里

[+++] 强信号:Agent Skills Tooling and Distribution Skills 正在成为 AI agents 的标准知识包装单元,但生态缺少策展、安全审查和跨平台测试。@safaa_9411 提出的提示词注入风险和 Swift Agent Skills 上的安全警告都指向同一个缺口:目前还没有一个具备 verified、security-audited skills 的可信 registry。谁能用合适的审核机制建出“agent skills 的 npm”,谁就能抓住分发层。

[+++] 强信号:Harness Engineering as a Service Meta-Harness 论文显示,automated harness optimization 超过了人类专家。多数团队仍在手动调 agent scaffolding。一个能 profile agent harnesses、识别瓶颈,并建议或自动应用改进的服务,将解决 @elvissun 关于 debugging harness methodology 的帖子获得 744 个收藏所证明的痛点。

[++] 中等信号:Agent Permission and Credential Governance @dani_avila7 的 vault scoping 发现和 @nyk_builderz 的“context governance as moat”论点,都指向同一个缺口:处理真实 credentials 的 agents 需要细粒度、可审计的 permission systems。当前实现最多只是 workspace-scoped。企业采用取决于这个问题的解决。

[++] 中等信号:Personal AI Voice Infrastructure Garry Tan 的 GBrain、OpenClaw 的本地语音和 ASUS 的笔记本改造指南都指向以语音优先的个人 AI 智能体。基础设施可以用,但仍粗糙。把 setup 从“读 changelog 然后 debug”压缩到“安装后开聊”的 packaging,可以打开 consumer market。

[+] 新兴信号:Agent-to-Agent Marketplaces and Protocols Escroue(hackathon winner)、Agent Experience Protocol、Privy Agent CLI 和多个 marketplace announcements 表明,agents 发现、协商并支付其他 agents 的需求已经出现。基础设施碎片化,且多为 crypto-native。缺失的是 framework-agnostic coordination layer。

[+] 新兴信号:Multi-Device Agent Orchestration @Viewforge 的 cross-device scheduler 和 @suncostlabs 的 Charon orchestrator 显示,跨机器运行 agent fleets 有真实需求。尚无主导工具负责在 heterogeneous devices 上 scheduling、monitoring 和 coordinating agents。


8. 要点总结

  1. Agent skills 是新的 AI 知识包装标准。 Supabase、Google engineers、Paul Hudson 和 Anthropic 本周都发布了 skills,autoskills 还为 50+ tech stacks 自动安装它们。(Supabase skills launch

  2. Harness engineering 现在已有 textbooks、survey papers 和 empirical proof。 Meta-Harness 论文显示,单靠 automated harness search 就能比人类专家高 7.7 分;两本书和一篇 21-author survey 则提供了理论基础。(Meta-Harness thread

  3. 模型周围的代码带来的性能波动,比模型本身更大。 一个 harness change 可以让 frozen model 出现 6x 性能差异;架构——不是模型——才是竞争优势。(elvissun harness methodology

  4. 个人 AI 语音智能体从 demo 进入 daily driver。 Garry Tan 的 GBrain v0.8.0 交付 25 个 production voice patterns,包括 prompt compression、stuck watchdogs 和 dynamic noise suppression;ASUS 则发布了官方指南,用旧硬件改造 personal AI。(GBrain v0.8.0

  5. Agent platform 竞争正在暴露 production readiness gaps。 OpenClaw 的 Active Memory 在真实使用中返回空结果;Codex 的节奏被批评落后 Claude Code;Hermes 的 self-learning loop 获赞,但需要社区写文档才可用。(OpenClaw bug report

  6. 安全和治理是 agent adoption 的约束条件。 Workspace-scoped credential vaults、未经审查的 skill installation 和缺失 audit logs,都是本周从业者指出的具体 blockers。(Vault scoping issue

  7. Context engineering 已经有自己的 curriculum、primers 和 failure taxonomy。 从 poisoning 到 distraction 再到 compression artifacts,从业者现在把 context 当作有限资源,且有已知 failure modes,而不是一个神奇输入框。(Context engineering primer