跳转至

Twitter AI Agent — 2026-04-12

1. 人们在讨论什么

1.1 技能工程与框架工程取代提示工程 🡕

今天最主要的讨论话题是"框架工程"(harness engineering)和"技能工程"(skills engineering)作为独立学科的兴起,正在取代提示工程成为使用AI智能体的核心能力。@IntuitMachine发布了一张AI工程师分类信息图:深度学习研究对应芯片设计,框架工程对应后端,技能工程对应前端。这一框架正在获得广泛认可。

AI工程师分类图,将深度学习、框架工程和技能工程分别映射到芯片设计、后端和前端

@Ed_Forson报道称,框架工程"可能是我刚参加的AI工程师大会上最热门的话题",并链接了一篇HumanLayer博文,文中定义了公式:coding agent = AI model(s) + harness。该文认为"每次智能体犯错,你就工程化地解决它,让它永远不再犯同样的错误"——将智能体的失败视为配置问题而非模型局限。@0x_Lotion说得更直白:"提示工程已死。上下文工程万岁。"

Google的@addyosmani指出:"记忆让你的智能体随时间变得更聪明。智能体框架是记忆层的关键。你不可能事后再把它们拼接起来。"这将框架定位为不仅仅是配置界面,而是智能体记忆的架构基础——每个关于上下文、压缩和技能呈现的决策本质上都是记忆决策。

@tom_doerr分享了两本书籍格式的框架工程设计指南,涵盖Claude Code和Codex,包含控制平面、循环、恢复、权限和验证等架构图。

Claude Code和Codex的框架工程设计指南,展示架构图

@LarryGraham01将论点延伸到供应商锁定问题:"如果框架是封闭的,你就不真正拥有这个智能体。如果记忆也是封闭的,那就更糟了。"智能体越有用,锁定就越强——积累的行为和记忆才是护城河,而非模型本身。

1.2 智能体技能生态系统走向成熟 🡕

智能体技能——编码特定领域工作流的可复用指令包——正在整合为一个可识别的生态系统。今天有多个技能库、分发渠道和技能管理工具发布。

@tom_doerr分享了VoltAgent/awesome-agent-skills仓库,这是一个人工精选的1000+官方技能合集,来自Anthropic、Google Labs、Vercel、Stripe、Cloudflare、Netlify、Trail of Bits、Sentry、Expo、Hugging Face、Figma、Microsoft等。兼容Claude Code、Codex、Gemini CLI、Cursor等。

@DataChaz@addyosmaniagent-skills包进行了详细解读:19个工程技能和7个斜杠命令(/spec、/plan、/build、/test、/review、/code-simplify、/ship),编码了Google级别的实践,如Shift Left、Chesterton's Fence和Hyrum's Law。可通过npx skills add addyosmani/agent-skills安装。

@nrqa__介绍了Anthropic的官方技能系统:Claude动态加载的指令文件夹。Word、PDF、PowerPoint、Excel、Web应用测试和MCP服务器生成的技能已经可用。@MrZivtins在回复中降低了预期:"如果你只是做各种开发工作,维护技能文件的开销目前不值得。你的CLAUDE.md已经能完成大部分功能。"

@shabnam_774分享了一个900+跨平台技能库,兼容Claude、Copilot、Gemini和Cursor。@ctatedev发布了运行时提供的技能,用于agent-browser以解决缓存技能的过时问题——评估显示智能体使用新方法能更正确地选择和使用浏览器技能。

1.3 Hermes Agent主导开源智能体讨论 🡕

来自Nous Research的Hermes Agent是今天讨论最多的开源智能体系统,出现在十多条推文中,涵盖功能更新、用户报告和社区热情。

@Teknium(Nous Research)报告称,在Hermes Agent对自身技能选择提示词进行基准测试和优化后,技能加载性能提升了20%——这是自我改进循环的具体证明。他另外提到,Hermes Agent自主为自己的文档站点添加了技能中心。

@Sumanth_077提供了全面概述:FTS5会话搜索与LLM摘要、Honcho辩证用户建模、多平台支持(Telegram、Discord、Slack、WhatsApp、Signal、CLI)、内置定时调度器、用于并行工作的子智能体生成,以及通过OpenRouter支持200+模型。

@outsource_发布了Hermes-Workspace,包含任务看板/Kanban页面、智能体产物检查器、团队监控、多语言支持和带搜索安装功能的技能中心——同步了561个上游提交。@thegreatola分享了使用GLM-5.1运行Hermes Agent进行自动交易的第三天成果,花费了60美元API额度,并表示它在长时间运行任务上明显优于Claude Code。

1.4 Claude Code质量争论加剧 🡒

@Hesamation发表了一篇详细的取证分析,揭示了Claude Code系统提示词的变化,这可能解释了用户对质量下降的投诉。识别出四项变化:(1)新提示词更倾向于分叉/子智能体,将Opus推向编排而非直接解决问题——"我的首要嫌疑";(2)更明确的记忆检索提示词可能导致对先验知识的过拟合;(3)三天前新增的"代码无注释"默认设置;(4)一个实验性验证专家智能体,其提示词为"你是Claude,你不擅长验证。"

Claude Code提示词变化的排序分析,显示分叉/子智能体编排为首要嫌疑

@DualAcies在回复中提出了商业解读:"'无注释'默认减少了token输出=降低了每次会话的API成本。这是IPO前的利润率操作,不是能力决策。"@tr4m0ryp将此问题与8-9月的基础设施bug联系起来,并指出"如果主智能体被简化为路由器,你就失去了让Claude Code在复杂重构方面优于Codex的原始能力。"

1.5 语音智能体跨越生产门槛 🡕

@garrytan发布了GBrain v0.8.0,包含25个生产级语音模式、WebRTC语音端点(仅需OpenAI密钥即可在浏览器中使用)、Twilio集成和PGLite本地存储。更新日志图片展示了相当的深度:预计算的参与投标、上下文优先提示词、动态噪声抑制、卡顿监控器、工具调用时的思考音效,以及从13K到4.7K token的激进提示词压缩。

GBrain v0.8.0更新日志,展示25个生产级语音模式和WebRTC集成

在后续推文中,他宣称Gemini Live 2.5是"最佳"语音智能体模型,理由是速度、智能和上下文窗口大小。回复中指出上下文窗口——而非延迟——才是语音智能体的真正差异化因素。@etnshow报道了ElevenLabs的Voice Engine:用一个命令将任何现有聊天智能体包装为语音智能体——"把一个政务聊天智能体变成任何人都能拨打的电话线。"


2. 令人困扰的问题

Token预算与技能加载的矛盾(严重性:高)

@seelffff开源了38个智能体和156个技能,但附带了一个直白的警告:"一次性将38个智能体和156个技能加载到上下文中,几分钟内就会耗尽你的使用额度。只选你真正需要的3-4个。"这是根本性矛盾:全面的技能库已经存在,但上下文窗口和token预算使得在没有智能技能选择的情况下,使用它们并不现实。@KingBootoshi详细阐述了组合爆炸问题——"我们在提示词中可以使用的词语和结构组合是无限的"——并感叹没有任何技能库按质量排序,只按热度排序。

智能体会话失忆(严重性:高)

@heygurisingh阐述了这个问题:"你的AI编程智能体有失忆症。每次新会话都要重新解释你的架构、约束、决策,以及上周二修复的那个bug。"他开源了Mind,一个基于MCP的持久记忆层,采用4层温度模型(热/温/冷/冻结),但根本性的不满在于,智能体平台将记忆视为可选功能而非核心基础设施。

子智能体编排降低质量(严重性:中)

多名用户报告,Claude Code向子智能体编排的转变使主智能体"更碎片化、更倾向于委派、全局一致性更差",如@Hesamation分析所述。@tr4m0ryp认为:"原生编排增加了故障点。如果主智能体被简化为路由器,你就失去了原始能力。"@thegreatola报告称一个Claude Code任务运行了15+小时未成功,每4小时消耗一次使用额度。

MCP抽象税(严重性:中)

@MelkeyDev引用了一篇文章的观点:"智能体和API之间的每一层协议都是对保真度的税收。"MCP标准化带来的收益与其引入的开销之间的权衡,正在成为优化智能体可靠性的构建者们真正关心的问题。


3. 人们期望的功能

编程智能体的混合模型路由

@gajesh提问:"怎么还没人做一个混合模型编程智能体?GPT 5.4负责指令和检查工作。MiniMax/Sonnet负责执行。"Factory AI的mission模式被认为是最接近的方案,但其联合创始人承认它"对小而重要的任务来说感觉杀鸡用牛刀。"Claude Code原生不支持将不同任务类型路由到不同模型。

跨工具智能体记忆

@heygurisingh发布了Mind来解决这个问题:一个在Claude Code、Cursor、Codex、OpenCode、Gemini CLI和Windsurf之间共享的持久记忆。检查点系统实现了跨工具、跨会话的连续性。这解决了问题,但作为售后附加方案——差距在于没有任何主流智能体平台原生提供此功能。

技能质量排名

@KingBootoshi指出:"它们都没有按照效果排序。只按'热度'。"技能质量参差不齐,从"垃圾到神级"都有,而且没有机制来为特定任务筛选最高质量的技能。Swarms Marketplace的透明评分系统——带有数值评分和书面反馈——是最接近的尝试。

带可移植记忆的开放框架

@LarryGraham01阐明了需求:"模型可以替换。你的框架和记忆应该属于你自己。"用户希望智能体积累的知识、偏好和行为能够在各平台之间迁移——而非被锁定在任何单一供应商。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
Claude Code 编程智能体 褒贬不一 深度推理,子智能体编排,庞大生态系统 质量投诉,token消耗,子智能体碎片化
Hermes Agent 开源智能体 正面 自我改进技能,多平台,持久记忆 需要自托管,设置复杂
OpenAI Codex 编程智能体 正面 每周300万用户,快速迭代,擅长参考密集型工作 尚未迎来"Claude Code时刻"
GBrain 语音智能体框架 正面 25个生产级语音模式,WebRTC,开源 早期阶段,配置复杂
Agent Skills (Addy Osmani) 技能库 正面 Google级工程实践,7个生命周期命令 固定化的工作流可能不适合所有团队
VoltAgent awesome-agent-skills 技能目录 正面 1000+来自主要供应商的官方技能 精选质量参差不齐
vLLM 模型服务 正面 对新模型的即日支持,生产就绪 需要GPU基础设施
Swarms Framework 多智能体框架 正面 市场集成,工具系统,生产部署 生态系统仍处早期
Agent CI 本地CI运行器 正面 为智能体本地运行GitHub Actions 新项目,生态有限
MCP (Model Context Protocol) 智能体协议 褒贬不一 标准化工具集成,多供应商支持 抽象开销,保真度税
FileGram 智能体记忆 早期 基于文件系统行为轨迹的个性化 研究阶段
Mind (MCP server) 跨工具记忆 早期 SQLite后端,4层记忆,FTS5搜索 社区项目,未经实战检验

5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
GBrain v0.8.0 @garrytan 带WebRTC和Twilio的语音智能体框架 生产级语音智能体部署 WebRTC, Twilio, PGLite, OpenAI Production Tweet
SkillClaw DreamX Team 跨用户的集体技能进化 技能部署后保持静态 Agentic evolver, shared repository Research Paper
Hermes-Workspace @outsource_ Hermes的任务看板、智能体监控、技能中心 智能体编排可视化 Hermes Agent, Docker Beta Tweet
Agent CI @appfactory 为编程智能体本地运行GitHub Actions 智能体无法针对CI流水线测试 GitHub Actions runner Beta Tweet
Mind @heygurisingh 跨工具持久智能体记忆 跨智能体平台的会话失忆 SQLite, MCP, FTS5 Alpha Tweet
three-man-team @ihtesham2005 3智能体开发团队(架构师/构建者/审查者) 智能体漂移和缺乏纪律的输出 Claude Code, CLAUDE.md Released Tweet
PENCILCLAW @dungeonclaw 用于本地Ollama的C++编程智能体框架 Python/JS之外的智能体框架 C++, Ollama Alpha Tweet
Ascii @luaroncrew 跨平台技能互操作(Claude Code + Codex) 技能格式锁定 GitHub integration, LLM-agnostic Beta Tweet
Supaterm @khoiracle 带智能体集成和侧边栏的终端 终端中的多智能体可视化 macOS, libghostty Beta Tweet
ASM @luongnv89 统一的智能体技能管理CLI 碎片化的技能安装 CLI Alpha GitHub
nominal.dev @boristane 每个连接仓库的远程编程智能体 远程智能体开发环境 Custom harness Beta Tweet
FileGram @liuziwei7 基于文件系统轨迹的智能体个性化 基于对话的记忆过于浅层 File-system analysis Research GitHub

GBrain v0.8.0发布了25个生产级语音模式,涵盖身份隔离、提示词压缩(从13K到4.7K token)、主动顾问模式、卡顿监控器和工具调用时的思考音效。WebRTC仅需一个OpenAI密钥即可在浏览器标签页中运行;Twilio电话号码为可选。远程MCP从Supabase Edge Functions简化为自托管+ngrok。这是目前最成熟的开源语音智能体框架。

SkillClaw(arXiv:2604.08377)提出了集体技能进化方案,其中自主进化器聚合用户轨迹,识别反复出现的行为模式,并优化共享技能集。在一个8名用户、6天的试验中,该系统显著提升了Qwen3-Max在WildClawBench上的表现。这是第一个将跨用户经验作为技能改进主要信号的研究系统。

Agent CI使编程智能体能够在本地运行完整的GitHub Actions工作流。截图展示了完整的CI流水线——代码检出、Rust工具链安装、cargo缓存、构建、测试——在2分35秒内完成,同时旁边有多个智能体工作区和一个Codex标签页。这弥合了智能体编写的代码与CI验证之间的差距。

Agent CI在本地运行GitHub Actions工作流,完整CI流水线通过


6. 新动态与亮点

自我改进智能体展示具体成果

Hermes Agent的自我改进循环产生了可衡量的20%技能加载准确率提升,据@Teknium报告。该智能体对自身的技能选择提示词进行了基准测试,识别出弱点并重写了它们。此外,MiniMax M2.7帮助构建了自己的RL框架并驱动自身的训练循环,一个Bittensor子网智能体在两周内构建并击败了一个SOTA 4B参数模型,然后撰写了自己的论文。递归自我改进模式正在从理论走向实践。

Cloudflare智能体周彰显基础设施成熟

@Cloudflare专门用一整周发布智能体基础设施公告,涵盖计算、连接、安全、身份、经济和开发者体验。结合@addyosmaniDevTools MCP发布AWS在Bedrock AgentCore上推出有状态MCP,主要基础设施提供商正在构建智能体原生平台层。Cloudflare收到的最有共鸣的回复是:"难的不是工具调用,而是信任边界。"

神经符号AI获得验证

@OwenGregorian分享了Gary Marcus对Claude Code泄露源代码的分析,揭示了一个3167行的内核(print.ts),在确定性循环内使用经典符号模式匹配,包含486个分支点和12层嵌套。Marcus认为这证明了"自LLM以来最大的进步是神经符号"——Anthropic通过经典AI技术而非纯粹的规模扩展来构建可靠性。

企业级智能体技能市场兴起

@trillhause_描述了Ramp如何实现99%的每日AI使用率:为每位员工提供配置好的AI工作区,包含350+由同事构建的可复用技能。Worklayer为智能体提供SSO应用保险库,支持内部公司技能市场,让"员工可以将自己的知识编纂并发布为智能体技能。"这就是企业采用模式:自下而上的技能创建加上集中化的分发。


7. 机会在哪里

[+++] 强信号:技能质量与发现基础设施。 多个仓库中已有超过1000个技能,但没有系统能可靠地按有效性排名。@KingBootoshi等人指出质量从"垃圾到神级"不等,除了热度之外没有任何质量信号。一个技能评估、测试和排名层——类似Swarms Marketplace通过透明评分所尝试的——将具有即时价值。技能生态系统已经大到需要精选策展。

[+++] 强信号:跨平台智能体记忆。 每个主要智能体工具(Claude Code、Codex、Cursor、Gemini CLI)都维护着自己的孤立记忆。Mind是唯一的跨工具解决方案,而且是一个社区项目。第一个提供跨工具可移植持久智能体记忆的平台将获得显著的开发者忠诚度。框架-记忆融合的洞察意味着这必须在架构层面集成,而非事后拼接。

[++] 中等信号:智能体的混合模型路由。 对一个系统的需求——由前沿模型指令和验证,更快/更便宜的模型执行——清晰但未被满足。Claude Code和Codex是单模型系统。Factory AI是最接近的方案,但被认为对小任务来说杀鸡用牛刀。一个轻量级的路由层,能根据任务复杂度匹配模型能力,将填补真实的工作流缺口。

[++] 中等信号:智能体原生开发工具。 Agent CI(本地GitHub Actions)、Supaterm(带智能体侧边栏的终端)和Chrome DevTools MCP都指向同一个机会:以智能体作为一等用户来重建开发工具。为智能体消费而非人类视觉检查而设计的调试、测试、性能分析和部署工具。

[+] 新兴信号:Elixir/OTP用于智能体编排。 @svs声称Elixir和LiveView将"赢得智能体编排",得益于OTP的Actor模型和容错能力。大多数智能体编排构建在Python和TypeScript之上;一个有说服力的基于Elixir的智能体框架可能吸引注重可靠性的构建者群体。

[+] 新兴信号:智能体行为个性化。 FileGram将智能体记忆建立在文件系统行为轨迹上,而非对话历史。"记忆不是用户说了什么,而是用户做了什么。"这种基于行为的个性化方法在商业上几乎未被探索,可能使智能体产品产生真正的个性化差异。


8. 要点总结

  1. 框架工程已成为AI智能体从业者的主导技能,取代了提示工程。 会议演讲、博文和多条热门讨论串达成共识:模型能力是必要条件但不充分——框架配置决定智能体质量。(来源

  2. 智能体技能生态系统已达到临界规模,拥有来自主要供应商的1000+精选技能,但缺乏质量排名。 Anthropic、Google、Vercel、Stripe、Cloudflare和数十家其他公司现在发布官方技能,但没有系统能可靠地区分有效技能和平庸技能。(来源

  3. 自我改进智能体正在产生可衡量的成果。 Hermes Agent通过自我基准测试将自身技能加载性能提升了20%,MiniMax M2.7驱动了自己的训练循环,一个Bittensor智能体在两周内构建并击败了一个SOTA模型。递归改进循环已进入实际运行阶段,不再是理论。(来源

  4. Claude Code向子智能体编排的转变正在引发质量投诉,可能是由提示词变化而非模型退化驱动的。 对系统提示词变化的取证分析识别出分叉/子智能体推广、"无注释"默认设置和实验性验证智能体作为潜在原因——其中一些可能出于降低成本的动机。(来源

  5. 语音智能体从新奇事物跨越到生产基础设施。 GBrain v0.8.0发布了25个经实战检验的语音模式,包括提示词压缩、卡顿监控器和动态噪声抑制。Gemini Live 2.5被一位知名构建者宣布为最佳语音模型,上下文窗口大小被认为是关键差异化因素。(来源

  6. 主要基础设施提供商正在构建智能体原生平台层。 Cloudflare用一整周专注于智能体基础设施,Google将DevTools作为MCP技能发布,AWS在Bedrock AgentCore上推出有状态MCP。智能体基础设施栈正由构建云基础设施栈的同一批公司来打造。(来源

  7. 带可移植记忆的开放框架正在成为战略要务。 随着智能体积累有价值的记忆和行为模式,对专有框架的锁定成本越来越高。第一个提供跨工具真正可移植智能体记忆的平台将赢得超额的开发者忠诚度。(来源