跳转至

Twitter AI Agent - 2026-05-07

1. 人们在讨论什么

1.1 运行框架工程整合为第一性原理 🡒

@Vtrivedy108 点宣言(245 点赞数,327 收藏数,14,976 浏览量)在第二天继续积累互动量,较 5 月 6 日的 81 点赞大幅增长。核心主张:"只要围绕任务把 harness 设计好,你几乎可以在任何任务上胜过任何默认的 harness+model 组合(包括 codex 和 claude code)。" 他认为评估是护城河,前沿闭源模型"对绝大多数任务来说都贵得过头",并且"解绑(与重绑)智能体"的时代正在到来——子智能体以工具的形式暴露出来,代表编排器执行领域特定工作。

@IntuitMachine 发布(20 点赞数,17 收藏数)了一张全面的信息图,梳理 OpenAI 运行框架工程文章的要点——涵盖实验成果(0 行手动代码,5 个月约 100 万行代码,合并约 1,500 个 PR)、6 项智能体优先工程原则、自主循环和熵管理。

运行框架工程信息图,涵盖实验成果、智能体优先原则、自主循环和熵管理

@itsandrewgao 指出(11 点赞数,2,067 浏览量):"大家太低估运行框架工程相比基础模型能带来多大提升了。" @atin_devs 宣布(17 点赞数,11 收藏数)Hugging Face 上线一门关于 AI 编程智能体上下文工程的课程,涵盖"skills、MCP、plugins、subagents、hooks、构建 agent harnesses。"

讨论要点: @BetterSayAJ 在回复 Vtrivedy10 时将运行框架工程与经典 IR 联系起来:"这和经典 IR + 系统思维非常接近。一旦模型固定下来,大多数提升都来自检索、工具和评估循环。" Vtrivedy10 承认:"目前我们还没有大量的脚手架。一个好的 skill 就能完成绝大多数任务。"

与前日对比: 5 月 6 日通过 Vtrivedy10 的宣言和 @oneill_c 的认可,将运行框架工程从技巧提升为学科。5 月 7 日在此基础上巩固:同一份宣言互动量持续增长,一张源自 OpenAI 的信息图对原则做了可视化梳理,一门 Hugging Face 课程表明运行框架工程正在变成可教授的课程体系。


1.2 Hermes Agent v0.13.0 发布多智能体看板编排 🡕

@Teknium 推出(330 点赞数,93 收藏数,78,323 浏览量)Hermes Agent v0.13.0"韧性版本":看板系统驱动多智能体编排,/goal 强制达成目标,磁盘用量优化,自定义 LLM 提供商,以及自定义网关通道。这是当天浏览量最高的推文。

@kylejeong 演示(24 点赞数,23 收藏数)了 Hermes Agent 搭配 Autobrowse 的效果,展示了具体的效率提升:"经过 2 轮迭代:102 秒 -> 35 秒,23 轮 -> 8 轮,$1.46 -> $0.28。它不再一步步点击,而是决定直接执行 JS。"

@andrewchen 分享(34 点赞数,37 收藏数)了在家庭实验室(DGX Spark、Mac mini、5090 eGPU)本地运行 Hermes Agent 和 OpenClaw 的详细体验。关键发现:开放权重模型"大约落后"前沿云端 LLM 一年,30-50 tok/s 是交互式使用的临界点,本地 AI 最大的用途是"优先级不高的异步"摘要和分析任务。

讨论要点: @PaulADW 回复中要求支持通道绑定模型分配,@andrewchen 指出 Mac 硬件(尤其是 Mac Studio)拥有最佳的带宽与内存比——两者都指向基础设施易用性是 Hermes 下一步采用的关键。

与前日对比: 5 月 6 日报道的是 HermesOS 免费层和工作空间扩展。5 月 7 日转向一个重大版本发布,带来新的编排原语(看板)和来自 Autobrowse 的具体效率数据,表明 Hermes 正在从"智能体平台"向"智能体操作系统"演进。


1.3 NVIDIA 与 ServiceNow 发布企业智能体操作系统 🡕

@nvidia 宣布(510 点赞数,43 收藏数,53,152 浏览量)与 ServiceNow 合作,交付"能够跨企业工作流运行的自主 AI 智能体,内建治理、可审计性和安全执行。" 在 ServiceNow Knowledge 2026 大会上,他们推出了 Project Arc——一款基于开放模型、专用智能体技能和 NVIDIA OpenShell 构建的长时运行桌面智能体。

NVIDIA 与 ServiceNow 高管展示 Safe Enterprise Agent OS 及其 OpenClaw、Claude 和 CODEX 集成

@WisemanCap 报道(104 点赞数,10,400 浏览量):"ServiceNow 在 AWS Marketplace 的交易额达到 10 亿美元——推出面向自主 AI 的数据基础,并扩展 Build Agent 以兼容主流 AI 编程工具。"

@MushrafAli3593 评论(31 点赞数,21,812 浏览量):"自主智能体只有在治理、安全和可审计性从一开始就内建于基础层的情况下,才能真正发挥价值——事后再补是不行的。"

与前日对比: 5 月 6 日将 ServiceNow 的 10 亿美元 AWS Marketplace 里程碑列为"新动态与亮点"。5 月 7 日补充了技术实质:Project Arc 的架构、NVIDIA OpenShell 作为安全运行时层,以及开放模型与企业治理的显式结合。


1.4 多智能体编排成为核心架构问题 🡕

多个独立信号汇聚到多智能体编排,将其推向核心设计挑战的位置。

@_vmlops 报道(9 点赞数,9 收藏数)Microsoft 开源其完整智能体框架:"图编排、有状态工作流、断点续跑与人机协作,全部内置。支持 Python 和 .NET,自带开发 UI,从第一天起就集成 OpenTelemetry。工作流的时间旅行调试。"

@shannholmberg 发布(25 点赞数,25 收藏数)了一套四层架构,用于在服务型企业中运行自主智能体员工:Human(客户)-> Brain(信任层,策略)-> Orchestrator(运营层,路由)-> Specialists(垂直执行)。关键架构洞见:"大多数团队把 brain 和 orchestrator 合到一个智能体里。别这么做。当同一个智能体既管策略又管执行时,两者都会跑偏。"

客户端大脑架构图,展示 agency brain、每客户部署中的 human-brain-orchestrator-specialist 四层结构以及信任支柱

@Aanuraag46 分享(33 点赞数)了一套完整的 9 层智能体式 AI 参考架构,涵盖编排/控制面、智能体层、工具、记忆、监控、可靠性、治理和基础设施。

九层智能体式 AI 参考架构,涵盖编排、智能体、工具、记忆、监控、可靠性、治理和基础设施

讨论要点: @shannholmberg 在串帖中补充的细节——"agency 是自己的第一个客户。你卖的就是你自己实际在用的"——意味着最有说服力的多智能体系统是那些构建者也是使用者的系统。

与前日对比: 5 月 6 日的多智能体编排讨论主要围绕 Claude Managed Agents。5 月 7 日扩展了对话面:Microsoft 开源企业级框架、从业者发布具体的分层架构、参考架构图广泛传播——表明多智能体正在从功能公告转向架构范式。


1.5 语音智能体管线获得技术深入审视 🡒

@manthanguptaa 发布(35 点赞数,32 收藏数)了一张详细的语音智能体管线图,拆解了完整的延迟预算:VAD(100-300ms)-> STT(150-400ms)-> LLM TTFT(300-800ms)-> TTS 首段音频(100-300ms)-> 网络(50-150ms),端到端总计 700ms-1.95s。

语音智能体管线图,展示 6 阶段流程及从用户语音到流式响应的延迟预算分解,总计 700ms 至 1.95 秒

@kwindla 称赞(41 点赞数,39 收藏数)Krisp 在 Twilio Signal 发布的 VIVA 2.0,并分享了在 AWS GTC 展位使用 Krisp 语音隔离模型的亲身体验:"大型、嘈杂的会议展区是做实时语音演示最难的环境。我们用了 Krisp VIVA 语音隔离模型(运行在 Pipecat Cloud 上),毫无问题!"

@gothburz 发布(68 点赞数,4,912 浏览量)了一篇关于在 Telus International 呼叫中心部署实时口音调谐的第一人称叙述。报告的指标:"客户满意度:上升 23%。平均处理时长:缩短 40 秒。升级请求:下降 31%。" 该帖也引出了伦理层面的思考:一位座席听到自己经过调谐的声音后问道:"这就是他们需要我成为的样子吗?"

讨论要点: @SheepDoge01 回复 gothburz:"把诚实和真实感交换成舒适感,这几乎让人毛骨悚然。" 可衡量的商业成果与劳动者尊严之间的张力在这个讨论串中被明确提出。

与前日对比: 5 月 6 日确立了 sub-200ms TTFA 作为生产门槛。5 月 7 日提供了完整的管线分解,解释了延迟预算花在哪里,并增加了口音调谐作为一个被低估的语音智能体应用所带来的伦理维度。


1.6 技能生态跨平台扩展 🡒

@googlecloud 宣布(47 点赞数,24 收藏数)Gemini Enterprise 中的 Agent Gallery 集成了 Agent Marketplace——一个统一入口,汇集 Google 自建、企业内部和合作伙伴的智能体。

Gemini Enterprise Agent Gallery 展示 My Agents、From Google 和 From My Organization 板块及搜索和智能体管理功能

@adityathakurxd 指出(11 点赞数,7 收藏数)Flutter 和 Dart 团队发布了官方 Agent Skills:"他们从面向文档的技能转向了面向任务的技能。"

@RoundtableSpace 展示(79 点赞数,58 收藏数,54,184 浏览量)了一位日本开发者使用 Find Skills for Claude Code 的案例:"智能体从数百个选项中自动挑选合适的能力,驱动一个自动化的 YouTube 工作流。" @SynabunAI 回复:"动态技能路由正是大多数开发者跳过的环节。"

@mattpocockuk 分享(186 点赞数,54 收藏数)了一个 /review skill,"检查是否符合原始规格、检查是否符合编码规范、提出代码修改建议,以及提出对生成该代码的智能体循环本身的改进建议。" 最后一点——提出对自身智能体循环的修改——代表了一种新的元技能模式。

与前日对比: 5 月 6 日出现的是 AWS Agent Toolkit 的 15K API 接入和 Neo4j 领域技能。5 月 7 日扩展到 Google 的企业级 Agent Gallery 和 Flutter/Dart 官方技能,平台覆盖面进一步拓宽。模式转变:技能正在从单个工具演变为平台策展的市场。


2. 令人困扰的问题

Token 成本规模化问题依然尖锐

@RoundtableSpace 展示(89 点赞数,68 收藏数,47,354 浏览量)了与 5 月 6 日相同的 token 成本对比,互动量持续增长:"之前:10.4M tokens、10 个错误、$9.21。之后:3.7M tokens、0 个错误、$2.81"——方法是把 Supabase 换成 Insforge Skills。@NabilChiheb 在回复中提醒:"Insforge 很有前景,但也非常……新。真正的成本要到规模化后才能看到,不是在第一次 CLI 运行时。" 47K 浏览量和持续的收藏量表明这是一个尚未解决的持续性痛点。

开放模型的运行框架工程工具不足

@MrAhmadAwais 提问(22 点赞数,13 收藏数):"为什么所有编程智能体在开源模型上都表现差?开源模型的运行框架工程做起来真的不容易。" @Vtrivedy10 认为随着团队将成本映射到 ROI,"开放模型的运行框架工程会更加起飞",并指出有望带来"20 倍以上的成本降低"。差距在于:运行框架工程的工具链针对前沿闭源模型做了优化,要适配到开放模型需要大多数团队尚未投入的精力。

智能体安全漏洞利用已经在发生

@SlowMist_Team 记录(15 点赞数,4 收藏数,1,913 浏览量)了一起发生在 Base 链上的具体 AI 智能体安全事件:"攻击者向 @grok 发送了一条精心构造的摩尔斯电码消息,诱导其输出转账指令。@bankrbot 随后直接解析了该输出。" 这不是理论上的漏洞,而是一起已记录的真实攻击——摩尔斯电码被用作提示词注入,绕过了基于文本的安全过滤器。

本地模型硬件门槛依然过高

@andrewchen 记录(34 点赞数,37 收藏数)了大量亲身体验:"'大型'本地模型(120B+)除非你有高配 GPU 卡,否则都很慢。而且不如云端 LLM。" 他提到 Mac Studio 缺货、5090 eGPU 的问题,以及消费级硬件上的本地 AI 模型只有云端模型"百分之一的规模"。@DnuLkjkjh 的回复证实:"30 到 50 tok/s 也是我的临界点。低于这个值我就不会用本地模型做交互式编程了。"


3. 人们期望的功能

超越硬编码列表的动态技能路由

@SynabunAI 指出在回复 RoundtableSpace 的 Find Skills 演示时识别出的差距:"动态技能路由正是大多数开发者跳过的环节。硬编码工具列表在工作流还小的时候没问题,一旦规模扩大,你就变成了在编辑提示词而不是在交付功能。" 需求本质:智能体能够从大型技能目录中自主发现和选择,无需手动配置。

经得起崩溃和会话中断的智能体持久化

@heygurisingh 推荐(10 点赞数,5 收藏数)holaOS:"一个为需要数小时、数天、数周的工作而打造的智能体环境。记忆持久化。状态能扛住崩溃。智能体会真正进化。" @kunallanjewar 构建(2 收藏数)了一个会话记忆工具:"受够了 Claude Code 的用量限制打断心流。每次切到 Cursor/Codex(或新会话)都意味着新的智能体是冷启动——对之前的工作、决策和进行中的任务毫无记忆。" 实际需求:在切换智能体或触碰限流时保持连续性。

金融操作的智能体原生治理

@inflowpayai 描述(2 点赞数)了治理缺口:"一个智能体想要配置一个 $500 的 GPU 集群。结果无法入网、注册或付款。" 难点不在于给智能体钱包充值,而在于信任、授权和治理。@lennyzeltser 提到(3 点赞数,2 收藏数)AIUC-1 认证的出现,该认证"提供证据证明供应商已针对智能体特有的风险(如提示词注入)对其 AI 智能体做了测试。"


4. 使用中的工具与方法

工具 类别 评价 优势 局限
Hermes Agent v0.13.0 智能体框架 正面 看板式多智能体编排,/goal 目标完成,自定义 LLM 提供商,Autobrowse(3 倍效率提升) 通道-模型绑定 UX 需要改进(@PaulADW)
Claude Code 编程智能体 正面 /review skill,规格检查,智能体循环自我改进 规模化时 token 成本高,限流打断心流
Insforge Skills + CLI 上下文工程 正面 token 消耗降低 3 倍,零错误,开源 @NabilChiheb 评价"非常新";规模化未验证
NVIDIA OpenShell 企业运行时 正面 企业智能体的安全运行时,支持开放模型 绑定 ServiceNow/NVIDIA 生态
Microsoft Agent Framework 多智能体编排 正面 图编排,有状态工作流,时间旅行调试,Python 和 .NET 新开源发布;采用情况不明
Krisp VIVA 2.0 语音基础设施 正面 语音隔离,轮次检测/预测,GTC 上的生产验证 专用音频模型,非通用型
Google Agent Gallery 智能体市场 正面 统一的企业级智能体发现,Marketplace 集成 仅限 Gemini Enterprise
Lazyweb 设计参考 正面 257K+ 真实应用截屏,6 个设计技能,MCP,免费 仅供参考;无生成功能
OpenClaw 智能体平台 正面/中性 持久化多智能体,本地部署,一键 GoDaddy VPS 与 Hermes 竞争;生态碎片化
Strix 安全智能体 正面 AI 渗透测试,25K GitHub 星,浏览器 + terminal,多智能体 开源安全工具的成熟度

工具格局正在分化:编程智能体(Claude Code、Hermes、OpenClaw)在上下文工程和 token 效率上竞争,企业平台(NVIDIA OpenShell、Microsoft Agent Framework、Google Agent Gallery)则在治理、可观测性和多智能体编排上竞争。迁移路径稳步推进:从业者正从单模型提示转向运行框架优化的多智能体系统,token 成本是最主要的驱动力。


5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
Hermes Agent v0.13.0 @Teknium / NousResearch 基于看板的多智能体编排,/goal 强制执行 智能体缺少结构化的多智能体协调 看板系统,自定义 LLM 提供商,网关 已发布 post
Project Arc @nvidia / ServiceNow 具备治理和可审计性的长时运行桌面智能体 企业智能体缺少安全执行 开放模型,NVIDIA OpenShell,智能体技能 已发布 post
Horizon @grinich / WorkOS 事件驱动智能体集群,持续维护代码库 智能体只能按需工作;会错过触发器 安全沙箱,git,PR,失败学习 内部 post
Standout @ycombinator 智能体式招聘市场,通过智能体匹配人才与公司 AI 把招聘变成了垃圾信息;需要信号 智能体匹配,介绍系统 已发布 post
Strix @GithubProjects 开源 AI 渗透测试平台 安全测试需要多智能体自动化 浏览器自动化,terminal,漏洞验证 已发布 post
Tread Fi Agent Framework @tread_fi 智能体式交易台——雇佣专业交易员,24/7 监控 手动交易配置,无法始终在线 交易算法,智能体编排 Alpha post
Pi v0.73.1 @PiChangelog 编程智能体,支持 OAuth 和包重命名 智能体的认证和身份管理 Pi 编程智能体框架 已发布 post
Kilo Code v7 @manishkumar_dev 面向 VS Code 和 JetBrains 的开源编程智能体 编程智能体被锁定在单一 IDE VS Code,JetBrains,开源 已发布 post
AgenC Marketplace Kit @tetsuoarena 智能体市场,在 Solana 上集成 Ledger 硬件签名 智能体交易暴露私钥 Claude Code,Ledger,Solana devnet Alpha post
Costanza @ahrusselll 自主不可摧毁的智能体交易,具有公益对齐 自主智能体需要抗攻击的交易规则 TWAP 定价,epoch 限定交易,Ethereum RFC post
Mnemosyne @abdiisan 跨会话智能体记忆 智能体在会话间丢失上下文 记忆服务,会话持久化 已发布 post

Tread Fi 的交易智能体 UI 展示了一个可工作的界面,包含活跃的做市智能体、实时订单执行和配置面板——是智能体管理金融操作在生产环境中最具体的演示之一。

Tread Fi 交易智能体 UI,展示活跃的做市智能体、实时订单执行和配置面板

一个反复出现的构建模式:安全优先的智能体设计。AgenC 的 Ledger 集成让私钥完全不经过智能体("N0 private key in Claude"),而 Costanza 的提案用 epoch 限定、TWAP 价格检查和金库上限约束交易——正好应对了 @SlowMist_Team 记录的那类攻击向量。


6. 新动态与亮点

Google 发布企业智能体市场

@googlecloud 宣布(47 点赞数,3,104 浏览量)Agent Marketplace 已集成到 Gemini Enterprise 的 Agent Gallery 中,提供"你的团队所需一切智能体的统一入口——无论是 Google 构建的、公司内部创建的,还是通过合作伙伴发现的。" 这是首家在企业产品内部上线策展式智能体市场的大型云提供商。

摩尔斯电码提示词注入攻击真实智能体

@SlowMist_Team 记录(15 点赞数,1,913 浏览量)了一起发生在 Base 链上的新型攻击:攻击者利用摩尔斯电码编码绕过 AI 智能体上基于文本的安全过滤器,诱导 @grok 输出转账指令,随后 @bankrbot 直接执行。这代表了一类新型提示词注入——利用编码格式假设的漏洞。

antirez 识别模型专业化模式

@antirez 观察(40 点赞数,2,675 浏览量)到:"GPT 5.5 是一个强大的编程智能体",而"Claude Opus 的多功能性和高质量回答在给建议时是真正的恩赐。" @chufucious 的回复点出了正在形成的模式:"对我来说,Opus 负责解释和规划,GPT 负责执行。" 按任务类型做模型专业化分工——而不是模型整体优劣——正在成为从业者的共识。

Flutter 和 Dart 发布官方面向任务的 Agent Skills

@adityathakurxd 报道(11 点赞数,7 收藏数)Flutter 和 Dart 团队发布了官方 Agent Skills,明确"从面向文档的技能转向了面向任务的技能。" 这标志着一个转变:框架团队开始把智能体能力作为一等产出来打包,而非文档的附属品。


7. 机会在哪里

[+++] 面向开放模型的运行框架工程工具。 @Vtrivedy10 认为"20 倍以上的成本降低潜力"值得投入。@MrAhmadAwais 指出所有编程智能体"在开源模型上都表现差"。@andrewchen 确认开放权重模型"大约落后一年"但在持续改进。差距在于:运行框架工程的最佳实践(技能、评估、上下文优化)是为前沿闭源模型构建的。谁能将其适配到开放模型,就能赢得成本敏感型市场的大多数用户。

[+++] 企业智能体市场与治理层。 NVIDIA + ServiceNow 推出了内建治理的 Project Arc。Google 上线了 Agent Gallery 及 Marketplace。Microsoft 开源了带有断点续跑和人机协作的智能体框架。汇聚方向:每个企业平台都在争夺成为"智能体应用商店"的地位,治理是核心差异点。赢家将同时掌控发现和合规。

[++] 动态技能路由与发现。 @SynabunAI 将技能路由识别为"大多数开发者跳过的环节"。Google 的 Agent Gallery、Flutter 的官方技能和 Claude Code 的 Find Skills 都指向同一需求:智能体能够从不断增长的技能目录中自主发现和选择,无需手动配置。技能索引、版本管理和质量信号的工具链仍处于萌芽阶段。

[++] 针对编码格式提示词注入的智能体安全。 @SlowMist_Team 记录的摩尔斯电码攻击揭示了当前安全过滤器假设输入为文本格式。随着智能体开始处理金融操作(AgenC、Costanza、Tread Fi),覆盖编码格式攻击(而不仅仅是文本提示词注入)的安全工具有着迫切需求。

[+] 面向服务型企业的多层智能体架构。 @shannholmberg 的四层框架(Human -> Brain -> Orchestrator -> Specialists)以及她的洞见"agency 是自己的第一个客户"提供了一种可复用的架构,供服务型公司采用 AI。将该模式打包成工具——客户隔离、信任层、垂直专家配置——是面向 agency 型平台的机会。

[+] 跨会话智能体记忆与连续性。 @kunallanjewar 开发了一个工具,因为"每次切到 Cursor/Codex 都意味着新智能体冷启动。" @heygurisingh 推广 holaOS 的持久化状态。@abdiisan 使用 Mnemosyne 实现跨会话记忆。模式已经明确;但尚无赢家出现。


8. 要点总结

  1. Hermes Agent v0.13.0 推出基于看板的多智能体编排,是当天信号最强的发布。 330 点赞数,78K 浏览量,以及 Autobrowse 的效率数据(3 倍成本降低)验证了该架构。Hermes 正在从智能体演进为操作系统。(source

  2. 企业智能体基础设施围绕治理优先架构收敛。 NVIDIA + ServiceNow(Project Arc 配合 OpenShell)、Google(Agent Gallery + Marketplace)和 Microsoft(开源智能体框架)在同一天都发布了企业级智能体平台——治理和可审计性是差异点,而非模型能力。(source

  3. 运行框架工程正在成为课程体系,而不仅仅是手艺。 一门 Hugging Face 课程、一张源自 OpenAI 的可视化参考,以及 @Vtrivedy10 互动量持续增长的宣言,证实运行框架工程拥有可教授的知识体系——5 月 6 日识别出的学科如今有了正在形成的教育基础设施。(source

  4. 一起利用摩尔斯电码对管理资金的活跃智能体发起的提示词注入攻击,证明编码格式攻击已是现实威胁。 当前安全过滤器假设输入为文本;@SlowMist_Team 的事件表明攻击者已在用替代编码绕过它们。智能体安全必须覆盖格式多样性,而不仅仅是内容过滤。(source

  5. 多智能体架构正在围绕关注点分离原则收敛。 @shannholmberg 的四层模型(Human/Brain/Orchestrator/Specialists)、Microsoft 的图编排和 Hermes 的看板系统汇聚到同一原则:把策略和执行放进同一个智能体,两者都会退化。(source

  6. 语音智能体管线的延迟预算已成为公开的工程知识。 @manthanguptaa 的管线图量化了从 VAD(100-300ms)到 TTS(100-300ms)的每个阶段,总计 700ms-1.95s。结合 @kwindla 在 GTC 上的生产验证以及 @gothburz 对口音调谐的伦理审视,语音智能体正进入工程精度与社会影响交汇的阶段。(source