跳转至

Twitter AI智能体 — 2026-04-11

1. 人们在讨论什么

1.1 智能体技能成为标准知识层 🡕

智能体技能格式——为AI编程工具编码程序性知识的markdown文件——本周跨越了临界点。多个独立信号证实,它已不再是Claude独有的新奇事物,而是一种正在兴起的跨平台标准。

@xelebofficial发布了一条澄清误解的帖子,认为技能不是"只是一个长提示词"(技能跨任务持久存在,而提示词会消失),不需要编程能力(它们是markdown格式),且可在GitHub Copilot、Cursor、Gemini CLI和Windsurf上使用——不仅限于Claude。最具挑战性的观点是:"最有价值的技能很少是关于代码的。它们关于你的团队如何撰写提案、如何组织报告、如何处理客户升级问题。"

智能体技能误解信息图

@code_rams发布了autoskills,这是一个CLI工具(npx autoskills),能够识别项目的技术栈并从skills.sh上的精选注册表中自动安装匹配的技能文件,支持50+种技术。@safaa_9411的回复提出了技能在加载前未经安全审查可能带来的提示词注入风险。

@tom_doerr分享了Paul Hudson的Swift Agent Skills仓库——一个按框架(SwiftUI、SwiftData、Swift Concurrency等)组织的开源Swift及Apple平台开发技能精选集合,并附有醒目的安全警告,提醒用户在安装前审查第三方技能。

Swift Agent Skills README

@dshukertjr发布了官方Supabase智能体技能,将最新的产品知识和文档打包为技能——标志着平台厂商开始以智能体可消费的文件形式分发文档,而非人类可读的页面。

@AlphaSignalAI报道了一位Google工程师的开源Agent Skills仓库,编码了19项工程技能和7个斜杠命令,覆盖完整的开发生命周期:先写规范再写代码,先测试再合并,先度量再优化。可与Claude Code、Cursor或任何能读取markdown的智能体配合使用。

@DipanshuKu55175汇总了Anthropic的13门免费认证课程,包括智能体技能入门和MCP高级主题——这一大规模教育推动表明Anthropic对生态系统建设的投入。

1.2 Harness工程作为一门学科走向成熟 🡕

"模型周围的代码比模型本身更重要"这一理念在本周获得了实证支持和首批教科书级别的论述。

@elvissun发布了当天最高分的推文(464个赞、744个书签),描述了Codex在获得正确的harness后如何"一次性解决了我们的turbo缓存修复问题"——一个智能体调试循环将构建时间从3分22秒缩短到34秒。附图展示了一套结构化的三步方法论:给智能体诊断视角(本地和云端工具),将其置于假设-测试-结果反馈循环中,让它主导而工程师在Telegram上旁观。

智能体调试harness流程图

@IntuitMachineMeta-Harness论文(arXiv:2603.28052v1)进行了深度解读,该论文中自动化harness优化以7.7分的优势超越人类专家,使用的token减少4倍,且能泛化到未见过的模型。核心发现:仅通过harness更改,同一冻结模型就能产生6倍的性能波动。

@tom_doerr分享了两本完整的harness工程著作(托管在harness-books.agentway.dev):一本Claude Code设计指南和一本Claude Code与Codex理念的比较研究。核心主张:"Harness工程关注的是约束结构如何组织执行。"

Harness工程设计指南书籍封面

@RLanceMartin讨论了会话与harness的解耦,提出一种架构,其中会话是大脑可以查询的上下文对象,关键洞察是"没有不可逆的上下文工程"。

会话-Harness架构图

@ottamm_190分享了一篇综述论文("LLM智能体中的外化",arXiv:2604.08224),由21位作者撰写,提供了学术基础:记忆外化跨时间状态,技能外化程序性专业知识,协议外化交互结构,而harness工程是统一层。

@deararchitects提出了质疑:harness工程"听起来是加速交付的必然下一步。但它也是团队现在必须拥有和维护的又一层基础设施。"

1.3 个人AI语音智能体浪潮 🡕

@garrytan(YC主席)以三条帖子主导了个人AI话题。GBrain v0.8.0发布了语音到大脑功能,附带25种生产级模式:WebRTC默认、上下文优先提示词、动态VAD、激进的提示词压缩(13K降至4.7K token)、卡顿看门狗、工具调用时的思考音效以及先认证后语音。更新日志图片揭示了生产级语音基础设施,而非演示。

GBrain v0.8.0更新日志

他还描述了在Kona泳池边构建语音智能体的经历,通过iPhone上的Telegram与之对话,并表示"我为了更好地编程而戒了酒"。第三条帖子推广了个人AI运动,有回复确认该设置"运行一切,其他地方每月要花200美元的东西"。

@ASUS发布了一篇官方博客指南,介绍如何使用OpenClaw将旧笔记本电脑改造为专用AI智能体——一家主要硬件厂商为个人AI智能体用例正名。

@cgtwts展示了使用OpenClaw本地运行Gemma的过程,仅需三条命令(安装Ollama、下载Gemma、启动OpenClaw),演示了获得完全私有AI智能体的最低门槛。

1.4 智能体平台竞争加剧 🡒

OpenClaw与Hermes Agent的竞争成为焦点。@iamlukethedev详细介绍了OpenClaw v2026.4.10版本:Active Memory插件(自动拉取偏好和历史对话)、原生Codex提供商以及macOS本地语音。然而,@markkurajala2报告Active Memory在实际使用中返回空结果,尽管手动记忆搜索确实能返回相关结果——暴露了生产就绪性差距。

@steipete(OpenClaw维护者)透露了OpenClaw中GPT的两种实验模式:严格模式(推动模型持续工作)和codex应用服务器作为harness——144条赞的回复表明社区对使非Claude模型成为可行编排器有高度兴趣。

@bridgemindaiNVIDIA DGX Spark上部署Hermes Agent用于冷开发邮件,不到20分钟完成,声称"OpenClaw获得了热度,Hermes才是架构做对了。"@cto_junior称赞了Hermes的自学习循环,认为它比手动方式更好地捕获经验并自动生成新技能。

@KanikaBK分享了"The Orange Book",一本由社区编写的17章Hermes Agent手册,涵盖三层记忆系统、技能创建循环以及与Claude Code和OpenClaw的对比——社区文档填补了Nous Research留下的空白。

@Codex_Changelog发布了Codex 0.119.0,包含WebRTC语音默认、大幅MCP改进(资源读取、征询、文件上传)以及远程/应用服务器工作流。@jlave_dev的回复批评了进展速度:"你们需要加快步伐才能与Claude Code竞争。一个复制快捷键成为顶级新特性简直不可思议。"

1.5 上下文工程进入主流 🡕

@drummatick列出了成为顶尖1% AI工程师所需的主题——上下文工程、上下文紧凑性、智能体harness、记忆和子智能体生成与传统LLM技能并列。该帖获得331个书签,表明对结构化学习路径的高需求。一条回复补充了"评估和安全护栏"。

@nyk_builderz认为下一个AI护城河是上下文治理:"2026年交付最快的团队都做到三件事:像代码一样版本化记忆、在操作前评分智能体输出、将提示词视为接口而非魔法。"与@l33tdawg的深入讨论比较了SAGE(BFT共识记忆作为数据平面)和LACP(Claude Code的控制平面),得出结论认为二者互补而非竞争。

@i_amanchadha在contexteng.aman.ai发布了一篇全面的上下文工程入门,涵盖构建模块、检索/记忆/压缩、故障模式(上下文中毒、干扰、混淆、冲突)及生产启发式方法。

@aa22396584总结了共识:"人们关注'哪个模型更好',而真正的技能差距在于:如何构建智能体记忆、设计权限边界、以及构建可组合的SKILL.md文件。工具已经商品化;架构才是竞争优势。"


2. 令人困扰的问题

托管智能体中的Vault与权限范围问题(High)

@dani_avila7发现Claude托管智能体的vault作用域为工作区级别,意味着任何拥有工作区访问权限的人都能引用vault并在自己的会话中使用存储的OAuth凭证。架构图清楚地展示了问题所在:会话附加vault_id,但访问控制仅存在于工作区层面。请求的修复措施包括按智能体划分的vault权限、凭证审计日志和原生定时智能体。

Claude托管智能体vault架构展示工作区级别的凭证作用域

Active Memory在生产环境中不可用(Medium)

@markkurajala2报告OpenClaw的新Active Memory插件"在实际使用中持续返回空结果,尽管手动记忆搜索确实能返回相关结果"。另一位用户报告在更新后卡在终端调试中。一个重大版本的主打功能在生产环境中无法可靠运行,这是一个反复出现的模式。

智能体工具迭代速度与竞争对手的差距(Medium)

@jlave_dev批评Codex:"你们需要加快步伐才能与Claude Code竞争。一个复制快捷键成为顶级新特性简直不可思议。"这一不满反映了更广泛的情绪,即OpenAI的智能体工具在开发者体验方面落后于Anthropic。

基础设施指标与实际需求不匹配(Low)

@braelyn_ai指出,沙箱厂商在初始化时间上竞争("快0.02秒"),而使用沙箱的智能体需要15分钟。真正的瓶颈是智能体执行时间,而非基础设施启动时间——厂商为基准测试优化,而非为用户实际感知的性能优化。

智能体漏洞利用演示对通用能力的误导(Low)

@dbreunig认为,发现漏洞是一个搜索问题(在墙上找到一条裂缝),而构建软件是一个建造问题(处理边界情况、保持一致性)。智能体漏洞利用演示内置了验证循环,使它们成为理想的营销素材,但并不能很好地反映更广泛的能力。未回答的问题是:Anthropic在每个漏洞利用上花了多少钱?


3. 人们期望的功能

细粒度的智能体权限系统

多位实践者描述了以下需求:按智能体(而非按工作区)的凭证作用域、防止声明能力与实际智能体能力之间漂移的运行时权限执行,以及显示谁在何时使用了什么凭证的审计追踪。@dani_avila7@0xAgix分别独立提出了这一需求的不同版本。

统一的智能体工程学习路径

@drummatick承认"几乎没有单一资源能涵盖"顶级AI工程所需的所有技能,并承诺将编写一份。@KanikaBK指出Nous Research"发布了工具,然后基本上让你自己摸索"。社区正在创建自己的文档——Orange Book、harness工程著作、上下文工程入门——但尚无标准化的课程体系。

智能体原生的定时调度与Cron

@dani_avila7特别指出Claude托管智能体缺乏原生定时智能体功能,表示"不应该需要cron作业变通方案"。@Viewforge构建了一个多设备调度器来填补这一空白,说明需求足够强烈,已驱动独立工具的开发。

跨框架技能可移植性保障

虽然@xelebofficial声称技能可在多个平台上使用,但@felipedeleon_指出需要"一个原生运行时解决方案来检查技能,并在需要时在框架之间进行移植"。技能是markdown格式,但运行时行为各异。目前尚无互操作性测试标准。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
OpenClaw 智能体平台 Mixed Active Memory、本地语音、广泛的模型支持、50K+星标 生产环境中的记忆bug、更新导致的故障
Hermes Agent 智能体平台 Positive 自改进技能循环、3层记忆、Orange Book社区文档 技能浏览仅限控制台、官方文档稀少
Codex (OpenAI) 编程智能体 Mixed WebRTC语音、MCP改进、会话恢复 迭代速度受到批评,被认为在追赶Claude Code
Claude Code 编程智能体 Positive 托管智能体、vault系统、强大的harness设计 Vault作用域过宽、无原生定时调度
GBrain 个人AI Positive 25种语音模式、WebRTC、提示词压缩(13K降至4.7K token) 需要OpenClaw/Hermes、早期阶段
Daytona 沙箱 Positive 通过OpenRouter CLI一条命令生成智能体 --
autoskills 技能安装器 Early 自动检测50+种技术栈、--dry-run标志 不受信任技能的提示词注入风险
Agent Lightning RL优化 Early 框架无关、即插即用的agl.emit()、MIT许可证 v0.3.0,未经大规模验证
Gemma 4 31B 开放模型 Positive 使用ADK进行自主智能体工作、开放权重 小于前沿模型
Privy Agent CLI 钱包基础设施 Early 创建、充值、管理智能体钱包 实验性界面

5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
GBrain @garrytan 带有WebRTC、Twilio和记忆的个人AI语音智能体 封装式AI的局限性 OpenClaw/Hermes, WebRTC, PGLite v0.8.0 GitHub
Vibe-Trading @ihtesham2005 拥有64项技能、29种swarm预设的开源交易智能体 碎片化的量化工具 Python, FastAPI, React, DAG多智能体 v0.1.4 Tweet
SearchClaw @ruc_ytz 带有质量门控和harness工程的研究智能体 不可靠的LLM研究回答 FastAPI, litellm, Playwright Released GitHub
Charon @suncostlabs 管理远程Claude、Codex、pi、Hermes实例的编排器 多智能体协调 自定义编排 Pre-release Tweet
Escroue @Escapation 无信任的智能体间任务市场 智能体支付结算 OpenServ SDK, on-chain Hackathon winner escroue.com
Harness Books @tom_doerr / AgentWay 两本harness工程设计指南 缺乏harness工程理论著作 Markdown, hosted at agentway.dev Published GitHub
autoskills @code_rams 自动检测技术栈并安装匹配的智能体技能 手动安装技能的开销 npx CLI, skills.sh registry Released Tweet
Agent Experience Protocol @itsashonaroll 标准化的安全优先智能体协调协议 缺乏智能体互操作性标准 Protocol spec Early Tweet

Vibe-Trading是今天浮现的架构最具雄心的开源项目。它使用基于DAG的多智能体系统,其中专业化智能体实时协作、辩论和交接,涵盖技术分析(Ichimoku、Elliott Wave、SMC)、量化工具(Black-Scholes、Greeks、MVO)、另类数据(社交情绪、宏观体制检测)和加密货币(永续资金费率基差、清算热力图)。由香港大学数据智能实验室在10天前发布。

Vibe-Trading GitHub README

SearchClaw来自RUC-NLPIR,将harness工程原则应用于网络研究:质量门控钩子拒绝缺乏足够引用的回答,研究计划工具将复杂查询分解为可追踪的子任务,两阶段上下文压缩使会话保持在上下文限制内。这是harness工程从理论走向应用的具体案例。


6. 新动态与亮点

Meta-Harness:模型周围的模型

Meta-Harness论文(arXiv:2603.28052v1)证明,AI智能体可以自动优化冻结模型周围的harness代码,并以7.7分的优势超越人类harness工程师,同时使用的token减少4倍。该智能体获得了对先前代码的文件系统访问权限、多达10M token的执行轨迹和失败日志。它并非在刷基准测试,而是发现了结构化程序——分类的草稿验证、数学检索的词法路由、编码的自适应上下文。其启示是:harness搜索可能是模型缩放之后的下一个前沿。

Famou-Agent 2.0夺回MLE-Bench SOTA

百度智能云的Famou-Agent 2.0重新夺回ML工程任务MLE-Bench排行榜第一名,在进化策略、长期记忆和基础设施方面均有升级。已被制造、金融和交通领域的数千家企业部署。

MLE-Bench排行榜显示Famou-Agent 2.0排名第一

VAGEN:教VLM智能体构建世界模型

Stanford的VAGEN框架使用强化学习教视觉语言模型智能体构建和维护内部世界模型。通过鼓励智能体估计当前状态和预测未来转换,一个3B参数的模型使用PPO和双层优势估计在多样化视觉任务上达到了SOTA。

VAGEN架构图展示rollout循环、轨迹缓冲区和策略更新

Agent Lightning:面向任意智能体框架的RL

@pvergadia宣布Microsoft开源了Agent Lightning,这是一个框架无关的RL智能体改进工具。通过插入agl.emit()或使用自动追踪器,将每个提示词、工具调用和奖励捕获为结构化事件。支持LangChain、AutoGen、CrewAI、OpenAI SDK和纯Python。用持续学习循环取代手动提示词调优。

Agent Lightning GitHub README

外化理论获得综述论文

一篇21位作者的综述论文(arXiv:2604.08224)从认知外化角度构建智能体基础设施框架:记忆外化跨时间状态,技能外化程序性专业知识,协议外化交互结构,而harness工程作为统一层。追溯了从权重到上下文再到harness的历史演进。


7. 机会在哪里

[+++] Strong:智能体技能工具与分发 技能正在成为AI智能体知识打包的标准单元,但生态系统缺乏策展、安全审查和跨平台测试。@safaa_9411提出的提示词注入风险和Swift Agent Skills上的安全警告都指向一个空白:尚不存在经过验证和安全审计的可信技能注册表。谁能构建带有适当审核的"智能体技能npm",谁就能掌控分发层。

[+++] Strong:Harness工程即服务 Meta-Harness论文表明自动化harness优化可以超越人类专家。大多数团队仍在手动调优其智能体脚手架。一项能分析智能体harness、识别瓶颈并建议或自动应用改进的服务,将解决@elvissun关于调试harness方法论的帖子上744个书签所确认的痛点。

[++] Moderate:智能体权限与凭证治理 @dani_avila7的vault作用域发现和@nyk_builderz的"上下文治理作为护城河"论点都指向同一空白:处理真实凭证的智能体需要细粒度、可审计的权限系统。目前的实现最多只是工作区级别。企业采用取决于这一问题的解决。

[++] Moderate:个人AI语音基础设施 Garry Tan的GBrain、OpenClaw的本地语音和ASUS的笔记本电脑改造指南都汇聚于个人语音优先AI智能体。基础设施已经可用但仍粗糙。将设置过程从"阅读更新日志并调试"压缩到"安装即对话"的封装方案将开启消费者市场。

[+] Emerging:智能体间市场与协议 Escroue(黑客松获胜者)、Agent Experience Protocol、Privy Agent CLI以及多个市场公告表明,对能够发现、协商并支付其他智能体的智能体存在早期需求。基础设施碎片化且大多依赖加密货币原生方案。框架无关的协调层是缺失的部分。

[+] Emerging:多设备智能体编排 @Viewforge的跨设备调度器和@suncostlabs的Charon编排器表明对跨机器运行智能体集群的需求。目前没有用于跨异构设备调度、监控和协调智能体的主导工具。


8. 要点总结

  1. 智能体技能成为AI知识打包的新标准。 Supabase、Google工程师、Paul Hudson和Anthropic本周都发布了技能,autoskills为50+种技术栈自动化了安装流程。(Supabase技能发布

  2. Harness工程现在拥有教科书、综述论文和实证证明。 Meta-Harness论文表明仅通过自动化harness搜索就能比人类专家高出7.7分,而两本著作和一篇21位作者的综述提供了理论基础。(Meta-Harness解读

  3. 模型周围的代码产生的性能波动大于模型本身。 单一harness更改可使冻结模型产生6倍的性能差异;架构——而非模型——才是竞争优势。(elvissun的harness方法论

  4. 个人AI语音智能体从演示跨入日常使用。 Garry Tan的GBrain v0.8.0发布了25种生产级语音模式,配备激进的提示词压缩,同时ASUS发布了将硬件改造为个人AI的官方指南。(GBrain v0.8.0

  5. 智能体平台竞争暴露了生产就绪性差距。 OpenClaw的Active Memory在实际使用中返回空结果;Codex的迭代速度被批评为落后于Claude Code;Hermes的自学习循环获得好评但需要社区编写的文档才能使用。(OpenClaw bug报告

  6. 安全和治理是智能体采用的约束瓶颈。 工作区级别的凭证vault、未经审核的技能安装以及缺失的审计日志是本周从业者提出的具体阻碍因素。(Vault作用域问题

  7. 上下文工程拥有了自己的课程、入门读物和故障分类法。 从中毒到干扰再到压缩伪影,从业者现在将上下文视为具有已知故障模式的有限资源,而非神奇的输入字段。(上下文工程入门