跳转至

Twitter AI 智能体 - 2026-04-22

1. 人们在讨论什么

1.1 企业智能体平台收敛:Microsoft Foundry、Google Gemini、Anthropic 同日出货 🡕

三家超大规模云厂商在同一个 24 小时窗口内宣布企业智能体平台。@satyanadella 发布了当天 互动最高的公告(1,191 个点赞、597 次收藏、97.6K 次浏览):“每个智能体都需要属于自己的计算环境。借助 Foundry 中新的 Hosted agents,每个智能体都能获得专属的企业级沙箱,具备持久状态、内置身份与治理能力,并支持任意运行框架或开发框架。”@jeffhollan 详细介绍技术预览(186 个点赞、157 次收藏、31.5K 次浏览):具备按需缩至零经济性的持久化 microVM、1,000+ 个内置工具、可观测性、评估、安全护栏和私有网络。

Foundry Agent Service 公告,展示四个支柱:可预测的冷启动、即时扩缩容、持久且可靠的会话状态、自动按会话隔离

@georgeorch 回应 Google DeepMind 的 Gemini Enterprise Agent Platform(93 个点赞、5.7K 次浏览):“模型战争正在结束。编排战争才刚开始。”@googlecloud 在 Gemini Enterprise 内发布智能体市场(49 个点赞、3.2K 次浏览),合作伙伴包括 Atlassian、Elastic、Oracle、ServiceNow 和 Workday。另一个帖子中,@rseroter 宣布(33 个点赞、21 次收藏)Google Cloud 首个官方智能体技能仓库,覆盖 13 个产品、3 个 Well Architected 框架支柱和 3 条常见旅程。

@aakashgupta 继续分析(27 个点赞、32 次收藏、6.9K 次浏览)Anthropic 每小时 0.08 美元的智能体运行时:“过去两年,三十到五十家 AI 初创公司融了 1,000 万到 1 亿美元,目标是成为‘AI 智能体的基础设施层’。Anthropic 刚把这片空间定价为 0.08 美元/小时。”@bpizzacalla 在回复中确认:“我现在就在 Claude 上跑 20 多个智能体。基础设施成本比它们替代掉的任何一个 SaaS 工具都低。”

@agora_alpha 回复:“真正的突破点是专属沙箱吗?大多数企业团队早就在用标准容器和现有 IAM 编排这件事了。”@gagansaluja08 回复:“这个月每家超大规模云厂商都在走向同样的收敛:Anthropic 云端集群、Google Cloud Run 沙箱,现在又轮到 Foundry。基础设施正在迅速商品化。”

与前日对比: 4 月 21 日把 Anthropic 定价压力作为结构性论点提出。4 月 22 日,Microsoft 和 Google 同时发布相互竞争的平台,将智能体基础设施市场推入三方超大规模云厂商竞赛。4 月 21 日识别出的基础设施定价压缩,现在在三家提供商上得到确认。


1.2 运行框架工程成为主导设计讨论 🡕

前几天的“运行框架工程”概念在今天达到最高讨论密度。@TheAhmadOsman 宣称(172 个点赞、20 次收藏、6.7K 次浏览):“运行框架工程会成为新的软件工程。”这在回复中引发争论——@guigotgit 说“我感觉我们还没找到更好的名字”,@rugbist_ 则反驳:“运行框架工程听起来还是同一份工作,只是步骤更多,而且可能薪水更低。”

@Vtrivedy10 出现在三条高互动讨论中。在 与 @himanshustwts 的播客回顾(47 个点赞、14 次收藏)中,他概括实践方式:“做法是从模型的能力和缺陷往回推,再围绕它们搭建系统(也就是运行框架)来把任务跑通。”执行轨迹是“持续学习和自我改进型智能体的信号”。他还 指出(19 个点赞),Google 和前沿公司“正在大力投入,研究运行框架为什么以及如何让智能体表现得更好”,并引用 @addyosmani 的观点:“普通模型配上优秀的运行框架,胜过强模型配上糟糕的运行框架。”

@Marktechpost 通过 JiuwenClaw 的 AgentTeam 能力 提出“协作工程”(Coordination Engineering)(16 个点赞、33.8K 次浏览),作为运行框架工程之后的一步:层级化编排,包含 Leader Agent、统一团队工作区和事件驱动的故障恢复。

JiuwenClaw TeamAgent 架构,展示用户层、带 CoordinatorLoop/EventDispatcher/RolePolicy/TeamTools 的智能体层、带本地文件系统和 MinIO 的团队工作区、带共享任务列表的数据层、p2p+pubsub 消息通信层,以及 openJiuwen Harness SDK

@SentientAGI 发布 Arena Cohort 0 结果(72 个点赞、3.2K 次浏览),显示开源 MiniMax M2.5 搭配 Goose 运行框架在 OfficeQA 上达到约 70% 准确率,每次运行成本 1.74 美元——以 Claude Opus 4.5(55 美元/次)1/30 的成本获得接近前沿模型的性能。“开源模型不只是更便宜。配合正确的运行框架和提示词设计,它们在每美元准确率上明显胜出。”

Sentient Arena Cohort 0 排行榜,显示前六名团队使用 MiniMax M2.5 以 1.60-2.00 美元/次达到 69-71% 准确率,而 Opus 4.5 以 54-62 美元/次达到 78-80%

与前日对比: 4 月 21 日引入了运行框架/环境区分,并讨论 OpenClaw 与 Hermes 的理念。4 月 22 日以量化证据收束:Arena 基准测试证明按美元计,运行框架质量比模型选择更重要;JiuwenClaw 提出“协作工程”(Coordination Engineering)作为运行框架之上的下一层抽象。


1.3 CodeRabbit Agent for Slack 掀起最大单产品讨论浪潮 🡕

@harjotsgill 发布 CodeRabbit Agent for Slack(81 个点赞、43.5K 次浏览),@IndianTechGuide 放大 到 2,104 个点赞、343 次收藏、226.8K 次浏览——当天第二高互动帖子。该产品解决 CodeRabbit 在 15,000+ 个团队中观察到的三个痛点:上下文和决策留在代码库之外、缺少团队级持久知识库、智能体式工作流没有信任层。

至少六条独立引用推文复述了同一诊断。@darshal_ 写道(24 个点赞、14 次收藏):“工程团队通常不是被糟糕代码拖垮的,而是因为上下文会不断丢失。”@base10_ 补充(26 个点赞):“AI 不只是让工程更快,也把工程切得更碎了。每次会话都会重置,每个工具都从零开始。你的团队成了记忆层。”@JaynitMakwana 指出(21 个点赞、11 次收藏):“真正压垮工程团队的是上下文切换。”

@carlvellotti 在回复中浮现了具体 Claude Code 痛点:“1. 完全没有记忆——每次会话都从零开始;2. 没有团队上下文——它只知道我告诉它的内容;3. 决策都死在没人能搜索到的 Slack 讨论串里。”

与前日对比: 4 月 21 日抽象讨论了上下文丢失问题。4 月 22 日出现了具体产品(CodeRabbit Agent),并有六个独立账号描述同一失败模式,讨论从架构理论转向具体工具。


1.4 上下文工程从概念走向架构图 🡕

@mdancho84 发布(39 个点赞、32 次收藏)一张三阶段演化图,区分 RAG、Agentic RAG 和《Agentic search in context engineering》。关键区别是:上下文工程在检索流水线中加入文件搜索工具、技能加载工具、数据库工具、网页搜索工具、记忆工具和 shell 工具,Skills YAML frontmatter 与记忆文件成为上下文窗口的一等组件。

三阶段架构图,展示从固定检索流水线的 RAG,到带搜索工具和数据库的 Agentic RAG,再到上下文工程中带文件搜索、技能加载、数据库、网页搜索、记忆、shell 工具的 Agentic search,最终进入包含 Skills YAML frontmatter 和记忆文件的上下文窗口

@ihtesham2005 拆解 Anthropic 工程博客发现(4 个点赞、4 次收藏),讨论 MCP 上下文膨胀:把 MCP 服务器呈现为文件系统,可将工具定义加载从 150,000 tokens 降到 2,000 tokens(降低 98.7%)。在代码执行环境内先过滤数据,再进入模型,可把 Playwright 快照从 56KB 缩到 299 bytes,把 500-request 访问日志从 45KB 缩到 155 bytes。“智能体没有变聪明。架构变干净了。”

@_avichawla 的 InsForge 量化结果 继续获得互动(152 个点赞、283 次收藏、38.4K 次浏览):10.4M tokens 降到 3.7M(2.8x reduction),10 个 errors 降到 0,成本从 9.21 美元降到 2.81 美元。@megacode_ai 回复:“上下文工程正在变成独立的一层技术栈。”

与前日对比: 4 月 21 日给出首批量化上下文工程结果(InsForge 2.8x、Claude Context 40%)。4 月 22 日增加架构图、Anthropic 自身工程数据(降低 98.7%)和以文件系统充当工具注册表的模式,把上下文工程从测量结果推进到可复现技巧。


1.5 智能体记忆成为未解决的核心问题 🡕

@eddiegreenwood_ 发布(116 个点赞、12 次收藏、111.5K 次浏览)当天浏览量最高的有机挫败信号:“我已经跑 AI 智能体跑了几个月。难题不是模型,而是记忆。为了不让它们丢掉昨天,我自己做了一套归档系统。现在我又得找一个新智能体来管理这套归档系统。智能体套智能体,开始觉得自己像在追一条永远抓不住的龙。”@0xGrebe 回复:“每修一个补丁就会长出新的一层,最后你几乎等于在笔记本上运行一整套 AI 官僚体系。”

@WalrusProtocol 引用 @GDanezis(29 个点赞):“记忆早已不只是智能体到目前为止行为的随手痕迹。它真的是智能体的灵魂——是它的个性,也是它的职业资历。”

@threepointone 分享(28 个点赞、16 次收藏)了一个具体设计方案:Cloudflare Durable Objects 上带“facets”(切面)的子智能体,现有 Agent 可作为子级挂载,并共享记忆和文件系统。“本周发货。”

Cloudflare Durable Objects 上的多会话 AI 聊天界面,展示注入每个聊天会话的每用户共享记忆,每个聊天都是自己的 AIChatAgent Durable Object

与前日对比: 4 月 21 日通过 Google ReasoningBank 框架和 Hermes librarian 配置档讨论记忆。4 月 22 日转向从业者挫败:记忆是阻碍真实自主智能体运作的瓶颈,而递归式智能体管理会制造新复杂度,并不解决问题。


1.6 多智能体系统获得 Devin 的谨慎背书 🡒

@cognition 发帖(44 个点赞、38 次收藏、7.2K 次浏览):“10 个月前,我们的 CPO @walden_yan 还认为不该构建多智能体系统。今天,形势已经不同,我们已经在 Devin 中落地了几种特定流程。”@walden_yan 进一步说明(14 个点赞、5 次收藏):“一年前,我会告诉大家不要构建多智能体,而是专注把上下文工程的基本功打牢。今天,很多听起来很诱人的想法仍然不实用,但我们确实找到了一些真正能跑通的配置。”

这种选择性背书符合当天更广泛模式。@georgeorch 指出(196 个点赞、10.3K 次浏览):“我曾以为,多智能体编排会取代大多数独立开发工作,而一个人的 AI 团队要交付真实产品至少还得十年。我错了。”@sharbel 发布(14 个点赞、13 次收藏)一条 25 分钟教程,讲如何部署 PaperClip:一个包含 CEO 和 CTO 智能体、心跳间隔以及预算控制的多智能体系统。

与前日对比: 4 月 21 日关于单智能体优越性的讨论(来自 farhanhelmycode 的生产经验)现在被 Devin 的有限反转细化:多智能体适用于“特定流程”,而不是通用架构模式。


1.7 智能体技能生态通过官方仓库和市场走向成熟 🡕

多个主要平台发布官方智能体技能仓库。@rseroter 发布(33 个点赞、21 次收藏)Google Cloud 首个官方技能仓库,覆盖 13 个产品。@googlecloud宣布(19 个点赞)Data Agent Kit,将技能集成到 VS Code、Claude Code 和 Gemini CLI。@ElevenLabsDevs 发布(19 个点赞、16 次收藏)Voice Isolator Skill,可通过 npx skills add elevenlabs/skills 安装。@dotnet 详述(6 个点赞、6 次收藏)三种 .NET 智能体技能编写方式,并带人工审批关卡。

加密技能生态也独立扩张。@diegoxyz 整理(10 个点赞、5 次收藏)Crypto Skill Hub:1,185 个加密技能、97 个 MCP 服务器、13 个类别、23 个官方项目,来自 Coinbase、Binance、MetaMask 和 Uniswap,并兼容 OpenClaw、Claude Code 和 Hermes Agent。

与前日对比: 4 月 21 日讨论技能作为概念和发现难题。4 月 22 日,平台厂商(Google、ElevenLabs、.NET)发布官方技能包,生态从社区驱动走向厂商策展的技能仓库。


2. 令人困扰的问题

智能体记忆需要递归式智能体管理 -- 严重程度:高

@eddiegreenwood_ 描述(116 个点赞、111.5K 次浏览),自己为 agent memory 构建了 filing system,结果又需要另一个 agent 来管理它。“智能体上面再套智能体,开始觉得自己像在追一条永远抓不住的龙。”@OmoKadupe05 指出更深层问题:“到底从什么时候开始,增加智能体来管理记忆,只是在重建你本来想解决的那套复杂性?”@_orcaman 补充(6 个点赞):“智能体记忆真的很糟……老是把无关背景混进新的对话里。”

普遍性:高——多个独立账号描述同样的递归式管理问题。现有框架还无法在没有人工监督的情况下提供可扩展的记忆整理。

基础设施定价压缩威胁智能体创业公司 -- 严重程度:高

@aakashgupta 延续(27 个点赞、32 次收藏)4 月 21 日的结构性论点:Anthropic 每小时 0.08 美元、Microsoft Foundry hypervisor-level isolation、Google Gemini Enterprise Agent Platform 都在同一周收敛。“落在这片绞杀区里的公司,可能只剩 12 到 18 个月的现金跑道。”@gagansaluja08 确认:“基础设施正在迅速商品化。真正的问题是哪一个平台能把开发者入口抓走。”

普遍性:对数据集中识别出的 30-50 家智能体基础设施初创公司来说是结构性问题。三方超大规模云厂商收敛让它比 4 月 21 日更尖锐。

工程工具之间的上下文丢失被 AI 智能体放大 -- 严重程度:中

4 月 22 日,六个独立账号描述了同一失败模式。@carlvellotti:“完全没有记忆——每次会话都从零开始……决策都死在 Slack 讨论串里。”@JaynitMakwana:“真正压垮工程团队的是上下文切换:从 Slack 到 terminal,再到 GitHub,然后又回到 Slack。”@base10_:“AI 不只是让工程更快,它也把工程切得更碎了。”

普遍性:在使用 AI 编程智能体的工程团队中很高。CodeRabbit Agent 是第一个明确针对这一缺口的已发布产品。

运行框架工程缺少职业身份 -- 严重程度:低

@TheAhmadOsman 宣称“运行框架工程会成为新的软件工程”,但回复抵触这种说法。@guigotgit:“我们似乎还没给它找到更好的名字。”@rugbist_:“听起来还是同一份工作,只是步骤更多,而且很可能薪水更低。”@ethankongee 提出评估缺口:“我找到的大多数文章都太抽象……没有扎实基准测试,很难知道一个运行框架是否真的好。”

普遍性:新兴——这门学科已存在,但命名和标准化评估标准都还没有共识。


3. 人们期望的功能

不需要递归管理的自我整理智能体记忆

@eddiegreenwood_(116 个点赞、111.5K 次浏览)搭了自己的归档系统,却仍需要一个智能体管理它。核心缺口是:没有框架能自动区分什么值得记住、什么是噪声,同时又不需要新增一个智能体层。@eddiegreenwood_ 在回复中总结:“记忆并不难,难的是整理。”

机会:高——一个带内置关联度评分和自动剪枝的记忆系统,如果能在单一智能体循环内运作,而不是作为独立管理层,将解决“追一条永远抓不住的龙”模式。

标准化运行框架工程基准测试

@ethankongee 描述缺口:“我正在学习如何构建智能体运行框架,但找到的大多数文章都太抽象,没法帮助我判断运行框架是否有效。没有扎实基准测试,很难知道一个运行框架是否真的好。”@SentientAGI 的 Arena Cohort 0 结果是一个开端,但还没有公开基准测试能把运行框架质量和模型质量分离出来。

机会:高——一个能把智能体性能分解为模型贡献与运行框架贡献的基准测试,将重塑团队如何评估和投资智能体基础设施。

语音智能体打断与状态管理

@JamesClawn 指出 一个具体失效模式:“当打断只停掉音频,却没有停掉还没结束的工具调用时,语音智能体就会失去用户信任,因为在它继续行动之前,记忆和轮次状态都必须被硬性撤销。”@somi_ai 确认:“大多数语音技术栈在用户想插话时,还是会把人拦在半个音节上。”

机会:中——在工具调用层级而不只是音频层级处理打断的语音智能体框架,将解决生产语音部署中的结构性信任缺口。


4. 使用中的工具与方法

工具 / 方法 类别 评价 优势 局限
Microsoft Foundry Agents Enterprise agent platform Positive Persistent microVMs、1000+ tools、Entra identity、scale-to-zero、any framework Preview stage、pricing 尚未详述
Gemini Enterprise Agent Platform Enterprise agent platform Positive Partners(Atlassian、Oracle、ServiceNow)、agent marketplace、Google Cloud integration New launch、production reports 有限
CodeRabbit Agent for Slack Agentic SDLC Positive 15K teams 每周 2M+ reviews、Slack-native、durable knowledge base Slack-only、team size scaling unknown
Hermes Agent Agent platform Positive 106K GitHub stars、self-improving skills、persistent memory、cross-platform 与 OpenAI “Hermes” 撞名、skill management complexity
InsForge Context engineering Positive 2.8x token reduction、zero errors、open-source、MCP-based New release、production data 有限
Claude Code Coding agent Mixed Strong with skills and context engineering Session memory resets、closed source、team context 有限
Spectrum (Photon) Multi-platform agent messaging Positive iMessage、WhatsApp、Telegram、Slack、SMS/RCS、one API、open-source Early adoption、scale data 有限
OpenHarness Open-source agent harness Positive 43+ tools、skills system、claude-code plugin compatible、MIT license、114 passing tests New、community size unknown
Cloudflare Agents SDK Voice + edge agents Positive Streaming STT/TTS at the edge、Durable Objects for state、interruption handling Workshop-stage、developer-focused
Hyperframes (HeyGen) Agent video creation Positive HTML in, MP4 out、Apache 2.0、skills for Claude Code/Cursor/Gemini CLI/Codex New open-source release
MiniMax M2.5 + Goose Open model + harness Positive 约 70% accuracy at $1.74/run(Opus 4.5 成本 1/30) Absolute accuracy 低于 frontier
Qwen3.6 27B Open LLM Positive Coding agent benchmarks 相比 Qwen3.5 27B 提升 +42-77%、保留 reasoning context Self-reported benchmarks

5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 成熟度 链接
Foundry Hosted Agents @satyanadella, @jeffhollan 每个 agent 拥有带 durable state 和 identity 的 enterprise-grade sandbox 企业安全、治理型 agent compute Azure, hypervisor microVMs, Entra Beta post
CodeRabbit Agent for Slack @harjotsgill 基于每周 2M+ code reviews 的 Slack-native engineering knowledge base Context loss 和 tribal knowledge 分散在多个工具中 Slack, GitHub, Jira, AWS integrations Shipped post
Hyperframes @sentient_agency 面向 AI agents 的 HTML-to-MP4 video rendering framework Video creation tools 是为人类而不是 agents 构建的 Node.js, Puppeteer, FFmpeg, Apache 2.0 Shipped post
OpenHarness + ohmo @Sumanth_077 带 43+ tools、skills、permissions、multi-agent 的 open-source agent harness 轻量 open alternative to closed agent frameworks Python 3.10+, React+Ink TUI, MIT Shipped post
JiuwenClaw AgentTeam @Marktechpost 带 hierarchical orchestration 和 shared workspace 的 multi-agent collaboration 从 single-agent harnesses 转向 coordinated agent teams openJiuwen SDK, event-driven Shipped post
Google Cloud Agent Skills @rseroter 面向 13 个 Google Cloud products 的官方 skills repository Agents 缺少 authoritative cloud provider knowledge Skills files, multiple agent tools Shipped post
Subagents with Facets @threepointone 将现有 agents 作为 children mount,并共享 memory 和 filesystems Multi-session agent state management Cloudflare Durable Objects Alpha post
Autosana @ycombinator 面向 iOS、Android、web 的 coding agents end-to-end validation harness 关闭 agent-generated code changes 后的 QA loop Cross-platform testing Shipped post
Higgsfield Marketing Studio @higgsfield 用产品 URL 创建 AI UGC ads,基于 Hermes Agent Vibe-coded products 的 distribution bottleneck Hermes Agent, Seedance 2.0, Meta Ads Shipped post
Respan Agent + CLI + MCP @RespanAI AI engineering observability agent、CLI setup 和 MCP integration 手动构建 evaluators、prompt debugging、trace analysis Claude Code, Cursor, MCP Shipped post
Voice Isolator Skill @ElevenLabsDevs 背景噪音移除作为 installable agent skill 不写 custom audio engineering 也能为 app 添加 voice isolation npx skills add Shipped post

重点项目细节

Hyperframes by HeyGen 是一个创造品类的发布:第一个从一开始就为 AI 智能体设计的视频框架。此前每个视频工具都默认有一个拿鼠标的人。Hyperframes 使用 HTML 作为编排格式,用 data attributes 定义时序,用 elements 定义图层。它为 Claude Code、Cursor、Gemini CLI 和 Codex 提供智能体技能,内置框架特定模式。Apache 2.0 许可证,发布时 npm 月下载量为 24K。

HeyGen Hyperframes README,展示支持一等 AI 智能体的 HTML-to-video 渲染框架,npm 徽章显示 v0.4.12、月下载量 24K、Apache 2.0 许可证

OpenHarness 填补了闭源 Claude Code 与极简自定义运行框架之间的空白。架构定义为 Harness = Tools + Knowledge + Observation + Action + Permissions。它包含 43+ 个工具、与 Anthropic 格式兼容的技能、与 claude-code 插件兼容的插件、多层权限(default/auto/plan modes),并附带 ohmo——一个个人智能体,可在 Feishu、Slack、Telegram 或 Discord 中使用既有 Claude Code 或 Codex 订阅工作。

OpenHarness 架构,展示 Harness 公式:Tools(43+,含 bash、read、write、search)+ Knowledge(skills、CLAUDE.md、memory)+ Observation(git diff、error logs、file state)+ Action(CLI commands、API calls、file edits)+ Permissions(沙箱隔离、审批、信任)


6. 新动态与亮点

Devin 反转对多智能体系统的立场

@cognition(Devin 背后的公司)宣布(44 个点赞、38 次收藏、7.2K 次浏览)已经落地多智能体流程,反转其 CPO 之前的公开立场。@walden_yan 限定了这种变化(14 个点赞):“很多听起来很诱人的想法仍然不实用,但我们已经找到了一些真正可行的配置。” 这种选择性背书——多智能体用于特定流程,而不是通用架构——标志着最大融资编程智能体公司的一次重要转向。

开放模型在 Arena 竞赛中以每美元性能接近前沿模型

@SentientAGI 发布(72 个点赞、3.2K 次浏览)Arena Cohort 0 竞赛结果。排名第一的团队用 MiniMax M2.5 以 1.78 美元/次达到 69.91% 准确率;而 Claude Opus 4.5 以 55.44 美元/次达到 80.89%。最终综合分几乎相同(188.11 vs 187.44),说明运行框架工程、提示词密度和技能能以极低成本弥补模型能力差距。

Qwen3.6 27B 在编程智能体基准测试上大幅提升

@leftcurvedev_ 报告(16 个点赞),Qwen3.6 27B 相比 Qwen3.5 27B 在多个智能体基准测试上有显著提升:Terminal-Bench 2.0 +42.55%、SkillsBench +77.21%、QwenWebBench +39.23%、NL2Repo +32.60%、Claw-Eval +12.60%。该版本还引入对历史消息中推理上下文的保留,降低迭代式智能体工作流的开销。

ERC-8226 提出 AI 智能体金融操作监管框架

@Brickken 介绍(35 个点赞)ERC-8226,一个合规智能体授权框架,允许已验证投资者把有限链上权限委派给 AI 智能体,同时保留 KYC、AML、资格检查和发行方控制。这是第一个针对金融市场中受监管 AI 智能体操作的具体 Ethereum 标准提案。

MCP 上下文膨胀获得 98.7% 降低技巧

@ihtesham2005 综合 Anthropic 工程博客发现:把 MCP 服务器作为文件系统呈现,而不是一次性加载所有工具定义,可将上下文从 150,000 tokens 降到 2,000 tokens。Cloudflare 独立确认同一模式,称之为“Code Mode”——让智能体编写代码来调用工具,而不是直接调用工具。


7. 机会在哪里

[+++] 智能体记忆整理系统 -- 递归式管理问题是当天最高浏览量挫败信号(111.5K 次浏览)。每个智能体框架都提供记忆存储,但没有一个提供智能整理——决定什么值得记住、何时遗忘,以及如何防止无关上下文污染新会话。一个带内置关联度评分和自动剪枝、且在单一智能体循环内运行的记忆系统,将解决“追一条永远抓不住的龙”模式。来源:@eddiegreenwood_, @_orcaman, @WalrusProtocol.

[+++] 上下文工程工具链与服务 -- 三个独立数据点确认上下文浪费巨大:InsForge 的 2.8x token 消耗降低、Anthropic 的 98.7% 工具定义压缩、Cloudflare 的 Code Mode 模式。构建上下文优化层的团队——语义检索、文件系统即注册表模式、增量索引、上下文压缩——同时解决成本和可靠性。市场仍早且碎片化。来源:@_avichawla, @ihtesham2005, @mdancho84.

[++] 运行框架基准测试与评估 -- Arena Cohort 0 结果显示,运行框架质量在最终性能分上可与模型选择相提并论,但还没有公开基准测试能把运行框架贡献从模型贡献中隔离出来。一个标准化运行框架评估框架将帮助团队决定在基础设施还是模型开销上投入。@ethankongee 明确要求“不同任务和行业的基准测试”。来源:@SentientAGI, @ethankongee.

[++] 工程工作流的团队上下文持久化 -- 六个独立账号描述了同一失败:AI 编程会话重置上下文、决策死在 Slack 讨论串中、团队每个 sprint 都要反复解释同样上下文。CodeRabbit Agent for Slack 是首个针对该问题的已发布产品,但问题延伸到 Slack 之外的所有协作界面。来源:@harjotsgill, @carlvellotti, @base10_.

[+] 智能体原生视频和媒体创作 -- HeyGen 的 Hyperframes 是第一个让智能体创建视频的开源框架。更广泛模式是:所有媒体创作工具都是为拿鼠标的人构建的,而智能体需要原生接口。音频(ElevenLabs 技能)、视频(Hyperframes)和图像工具如果设计成智能体原语,将在增长中的 UGC 自动化浪潮(Higgsfield、Hermes Agent)中有即时需求。来源:@sentient_agency, @ElevenLabsDevs.

[+] 工具调用层级的语音智能体状态管理 -- 当前语音智能体框架在音频层级处理打断,但不在工具调用层级处理;当被打断的智能体继续执行待处理动作时,会破坏信任。Cloudflare 和 LiveKit 正在投入这一方向,但客户支持和电话等生产语音部署仍有缺口。来源:@JamesClawn, @Cloudflare, @livekit.


8. 要点总结

  1. 三家超大规模云厂商在同一个 24 小时窗口内发布企业智能体平台。Microsoft Foundry Agents(持久化 microVM、Entra 身份、1,000+ 个工具)、Google Gemini Enterprise Agent Platform(与 Atlassian、Oracle、ServiceNow 合作的智能体市场)以及 Anthropic 的 0.08 美元/小时运行时,都瞄准同一层。4 月 21 日识别出的基础设施定价压缩,现在已成为三方竞赛。来源:@satyanadella, @georgeorch, @aakashgupta.

  2. 运行框架工程以量化证据主导设计讨论。Arena Cohort 0 显示,开源 MiniMax M2.5 在合适运行框架下,以 Claude Opus 4.5 成本的 1/30 获得接近前沿模型的性能。JiuwenClaw 提出“协作工程”(Coordination Engineering)作为下一层抽象。新共识是:按美元计,运行框架质量比模型选择更重要。来源:@SentientAGI, @Vtrivedy10, @Marktechpost.

  3. CodeRabbit Agent for Slack 产生当天最大单产品讨论浪潮(被放大的帖子获得 2,104 个点赞、226.8K 次浏览)。六个独立账号描述同一痛点:AI 编程智能体把工程上下文碎片化到多个工具中,团队变成记忆层。来源:@IndianTechGuide, @harjotsgill, @base10_.

  4. 上下文工程从测量结果推进到可复现架构模式。Anthropic 自身工程数据显示,把 MCP 服务器呈现为文件系统,可让上下文减少 98.7%。InsForge 以 2.8x token 消耗降低继续获得互动。@mdancho84 的架构图把从 RAG 到智能体式上下文工程的演进编码成三阶段流水线。来源:@ihtesham2005, @_avichawla, @mdancho84.

  5. 智能体记忆成为当天最高挫败的未解问题。@eddiegreenwood_ 用 111.5K 次浏览描述递归式管理模式——构建智能体来管理智能体记忆。当前没有框架能在不添加管理层的情况下提供可扩展记忆整理。来源:@eddiegreenwood_.

  6. Devin 反转了对多智能体系统的公开立场,在 10 个月前反对之后落地了“特定流程”。限定词很重要:多智能体适用于有针对性的用例,而不是通用架构。这与当天更广泛的选择性、证据驱动采用模式一致。来源:@cognition, @walden_yan.

  7. 官方智能体技能仓库来自 Google Cloud(13 个产品)、ElevenLabs(语音隔离)和 .NET(三种编写模式)。Crypto Skill Hub 记录了 97 个 MCP 服务器上的 1,185 个技能。技能生态正从社区驱动转向厂商策展,npx skills add 成为标准安装模式。来源:@rseroter, @ElevenLabsDevs, @diegoxyz.

  8. HeyGen 开源 Hyperframes,第一个为 AI 智能体构建的视频渲染框架。输入 HTML、输出 MP4,并为 Claude Code、Cursor、Gemini CLI 和 Codex 提供技能。与此同时,Higgsfield Marketing Studio(由 Hermes Agent 驱动的 UGC 创作)产生多个高互动帖子,声称能以 100 美元/月替代 500 美元/视频的外包制作。来源:@sentient_agency.