Twitter AI 智能体 - 2026-05-05¶
1. 人们在讨论什么¶
1.1 /goal 命令重新定义多日智能体运行 🡕¶
当天得分最高的帖子来自 @AlexFinn,他宣称(349 次点赞,38 条回复,424 次收藏,15209 次浏览)“/goal”是“今年 AI 编程最大的进步”,因为“它让你的 AI 智能体真的可以连续工作好几天不停。你给一个任务。它会一直工作到任务达成。” 核心洞察是:/goal 如果没有结构良好的执行计划就毫无用处,这把瓶颈从模型能力转移到提示词架构。

@cheddarmandem 挖出(23 次点赞,30 次收藏,828 次浏览)了 OpenAI cookbook 上关于适用于 /goal 的执行计划模板的文章,并直接链接到 developers.openai.com。@Dimillian 写下(105 次点赞,129 次收藏,13827 次浏览)一篇关于复合工程的长反思:“技术栈和方法同等重要”,认为合适的运行框架 + 模型配对决定了多日运行是成功还是烧预算。

与前日对比: 5 月 4 日关注自建 vs 购买的运行框架工程争论,以及 AHE 论文中的自动运行框架演化。5 月 5 日,讨论转向一个具体产品功能(/goal),它体现了运行框架工程在实践中能带来什么——借助结构化规划支撑持续多日执行。
讨论要点: 回复揭示了 /goal 的能力与其对“执行计划”的依赖之间的张力——本质上,瓶颈已经从写代码转向为智能体写好计划,由此产生了对计划模板和结构化提示词架构的需求。
1.2 SubQ 发布 12M token 上下文,宣告 RAG 已死 🡕¶
@KateMillerGems 宣称(997 次点赞,39 条回复,4 次收藏,115309 次浏览):“RAG 管线安息吧。chunking hack 安息吧。summarisation loops 安息吧。它们从来不是聪明工程,而是在为破损的基础打补丁。SubQ 发布了 12M token 工作上下文。权宜方案结束了。” 这篇帖子的 115K 浏览和 997 次点赞,使其成为当天浏览量最高的 AI-agent 帖子。
@alex_whedon 宣布(47 次点赞,72 次收藏,9393 次浏览)SubQ early access 以及他们的编程智能体 SubQ Code。@willdepue 从技术角度反驳(59 次点赞,8 次收藏,2523 次浏览):“能否说明一下你们方法的大致复杂度?是 O(n)、O(n log n),还是 O(n^k < 2)?如果真是次二次复杂度,是什么阻止你们演示 100M、1B,甚至 10B 上下文?”
与前日对比: 5 月 4 日,上下文工程通过架构图和 workbook 获得结构化词汇。5 月 5 日,SubQ 以 12M working tokens 的具体产品主张升级了叙事,把它描述为整个基础设施类别(RAG、chunking、summarization)的替代,而不是一次渐进改进。
讨论要点: @willdepue 对计算复杂度的质疑表明,社区并没有照单全收“RAG 已死”的说法——在宣布战胜既有模式之前,大家要求证明可扩展性特征。
1.3 Hermes + HyperFrames 创建智能体视频栈 🡕¶
Hermes 生态的视频能力成为一条主要讨论线。@AndyMarlowg 庆祝(49 次点赞,40 次收藏,8618 次浏览):“Hermes 可在任何地方运行。HyperFrames 可在任何地方渲染。现在它们一起发布——这就是我想要的智能体视频栈。hermes skills install hyperframes。” @dr_cintas 解释(23 次点赞,21 次收藏,3013 次浏览)了机制:“描述你想要的视频。你的智能体写 HTML。它渲染成 MP4。没有编辑器。没有时间线。”
@_0xpainn 演示(30 次点赞,8 次收藏,233 次浏览)了更广的自我改进角度:“一个运行在 5 美元/月 VPS 上的自我改进 AI 智能体,每个任务成本 0 美元。免费运行。每个任务免费。永远免费。租一台 5 美元 VPS。安装 Ollama。一条命令安装 Hermes。搞定。它会从每个任务中创建可复用技能。” @MystiqueMide 测试(14 次点赞,175 次浏览)了 Discord 上的语音模式,延续多模态扩展。
与前日对比: 5 月 4 日,Hermes 生态通过桌面 app、Shopify 技能和 MMORPG 插件扩张。5 月 5 日加入视频创建管线(HyperFrames)和语音模式,让 Hermes 从纯文本智能体演进为完整多模态自动化平台。
讨论要点: @Feel594326 和 @yafadec815 的回复强调,社区看重“可移植性”——同一智能体栈能在任何地方运行、且没有厂商锁定,是 Hermes 相比专有替代品的关键差异。
1.4 多智能体编排工具正式化 🡕¶
@geminicli 宣布 Scion(144 次点赞,112 次收藏,6132 次浏览):“一个新的多智能体编排工具,将智能体(Claude Code、Gemini CLI、Codex 等)编排为隔离的并发进程。每个智能体都有自己的容器、git worktree 和凭据。” @daytradingzoo 展示(23 次点赞,25 次收藏,1562 次浏览)了一个实用双智能体设置:“Claude 负责前端,Codex 负责后端。交接、第二意见审查,用 GitHub 对齐。”

@om_patel5 描述(5 次点赞,2 次收藏,395 次浏览)了一种新模式:“两个开发者和两个 Claude Codes 在同一个聊天室里——四者一起交谈。两个人类和两个 AI 智能体在一次对话中共同规划功能。” @aakashgupta 报告(8 次点赞,24 次收藏,2902 次浏览):“一个 21 智能体团队在 Claude Code 内跑 4 个并行 sprint,从想法一路推进到 App Store 提交。”
与前日对比: 5 月 4 日把多智能体协调复杂性作为挫败点讨论(直接跑“5-7 个智能体一整天感觉保守”)。5 月 5 日显示工具正在追上来——Scion 提供正式容器隔离,实践者则分享真正可用于生产的具体多智能体工作流。
讨论要点: @om_patel5 提出关键警告:“两个 AI 模型会让彼此听起来更自信,并在你没注意时一起幻觉,悄悄偏离你真正提出的要求”——这说明多智能体设置需要明确决策日志和人类检查点,防止集体漂移。
1.5 HeyGen Agent 占据异步沟通细分场景 🡕¶
HeyGen + Superhuman Go 集成带来了 15+ 条帖子。@viipin8 抓住(91 次点赞,14 次收藏,11197 次浏览)了核心卖点:“多数更新失败,是因为第一次没有传达到位,于是被重复到讨论串、会议和跟进里。Superhuman Go + HeyGen Agent 把它们转成视频/语音,感觉是个干净的修法。” @Parul_Gautam7 补充(46 次点赞,10 次收藏,6849 次浏览):“打字更新——没人看。开会——太重。现在你可以直接说出来。”
@Logical_Girll 指出(31 次点赞,6 次收藏,610 次浏览):“这感觉像是智能体开始住进你的工具里,而不是待在工具旁边。” 协调式放大模式(15+ 个账号引用同一条 @HeyGen 公告)与 5 月 4 日发布模式类似,但持续互动更高。
与前日对比: 5 月 4 日把 HeyGen + Superhuman Go 发布列为“新动态与亮点”。5 月 5 日显示该集成通过有机改写和采用信号占据讨论,说明它在初始协调发布之外也产生了共鸣。
1.6 智能体技能验证与供应链安全 🡒¶
@omarsar0 发布了两个关键串帖(21 次点赞,34 次收藏,1703 次浏览)。第一条关于技能验证:“如果你发布智能体技能,你的运行时会默认把已签名且通过审核的技能当作受信任。这篇论文认为,在验证之前,技能都是不受信任代码。” 他呼吁在智能体技能库成为下一个攻击面之前,需要“SKILL.md”。

他的第二条串帖(105 次点赞,170 次收藏,7371 次浏览)覆盖了 HeavySkill 的智能体式运行框架设计:“他们认为真正驱动智能体运行框架性能的不是编排代码,而是一个内部技能:并行推理。”

@yzg75001 回复:“我一直在生产中运行智能体技能,而信任模型现在基本上是凭感觉——signed skill = trusted,这很离谱。我们需要某种智能体技能版 sigstore。”
与前日对比: 5 月 4 日识别了智能体安全缺口(摩斯电码漏洞利用、200K 美元被抽走)。5 月 5 日,讨论从“智能体会被黑”上升到“技能分发层本身就是攻击面”,有论文提出形式化验证,@omarsar0 也把它框定为供应链问题。
讨论要点: @DylSwanepoel 的回复概括了转变:“智能体技能不只是提示词或便利 wrapper。它们是可执行产物。一旦某个技能能接触工具、数据、资金或生产系统,就不能因为它来自哪里而默认可信。”
1.7 企业智能体治理深化:ServiceNow + Microsoft 🡒¶
@ServiceNowNews 宣布(47 次点赞,8 次收藏,3570 次浏览)“ServiceNow + Microsoft 正在统一两个平台之间的智能体治理。” AI Control Tower 现在把治理扩展到 Microsoft Agent 365,让团队能“在一个地方发现、批准和管理智能体”。@Sam_Badawi 提供(66 次点赞,2 次收藏,4463 次浏览)了财务背景:“$NOW 正在把 AI Control Tower 与 $MSFT Agent 365 集成,扩展对运行在两个生态中的 AI 智能体的治理与可见性。”
@Arkive_live 报道(12 次点赞,2 次收藏,44 次浏览):“Meta 内部一个 AI 智能体最近泄露了受限员工数据和组织架构图。即使科技巨头也难以治理走出受控环境的 AI。”
与前日对比: 5 月 4 日覆盖了 Microsoft Agent 365 GA 和 DeepMind 的智能体攻击分类。5 月 5 日,ServiceNow 的跨平台集成公告和具体 Meta 数据泄露事件加深了企业治理叙事,进一步说明治理是正在发生的运营问题,而不是理论问题。
2. 令人困扰的问题¶
Token 成本与优化复杂性¶
@akshay_pachaar 量化(130 次点赞,223 次收藏,24291 次浏览)了戏剧性的节省:“Claude Code 用一个改动少用了 3x token:之前:10.4M token、10 个错误、9.21 美元。之后:3.7M token、0 个错误、2.81 美元。” 修法是使用“Insforge Skills + CLI 作为后端上下文工程层”——也就是说,开箱即用的智能体配置会不必要地烧钱。
多智能体信心漂移¶
@om_patel5 警告(5 次点赞,2 次收藏,395 次浏览),在多智能体设置中,“两个 AI 模型会让彼此听起来更自信,并在你没注意时一起幻觉,悄悄偏离你真正提出的要求。” 这种失败模式很隐蔽:每个智能体都会验证另一个智能体的输出,制造出看起来正确、但已经脱离原始意图的闭环。
技能信任模型是“凭感觉”¶
@yzg75001 在回复 @omarsar0 时承认:“我一直在生产中运行智能体技能,而信任模型现在基本上是凭感觉——已签名技能 = 可信,这很离谱。供应链攻击向量是真实存在的。” “发布到市场”和“经验证可安全执行”之间的缺口仍未解决。
Demo 软件 vs 生产就绪智能体¶
@databricks 开场(53 次点赞,18 次收藏,2717 次浏览)直言不讳:“多数‘agentic AI’仍然是演示软件。数据工作和编程是明确例外。” @LandonExplr 回复:“智能体式 AI 在输出可验证的地方有效。数据管线符合这个条件。其他声称‘agentic’的东西仍然是演示软件。”
3. 人们期望的功能¶
智能体间通信管道¶
@SaidAitmbarek 描述(12 次点赞,1 次收藏,206 次浏览)了自己在 ChatGPT 和 Codex 之间复制内容的工作流,并希望有:“一个 headless bridge(pipe),可以在智能体之间临时流式传输数据。像 OAuth,但用于智能体,并带持久流。” 缺口在于:不同提供商的两个智能体之间,没有标准方式实时来回传递上下文。
技能验证基础设施¶
@omarsar0 呼吁(21 次点赞,34 次收藏)建立“SKILL.md”——一种类似软件供应链证明的智能体技能验证标准。@yzg75001 放大了这一点:“在有人发布一个对生产环境有写权限的恶意技能之前,我们需要某种智能体技能版 sigstore。”
超越 12M token 的上下文可扩展性证明¶
@willdepue 直接挑战(59 次点赞,8 次收藏)SubQ:“如果真的是次二次复杂度,是什么阻止你演示 100M、1B,甚至 10B context?” 需求是:能证明长上下文方案真的可扩展,而不是缺少复杂度分析的大数字声明。
智能体原生权限和身份层¶
@Arkive_live 在 Meta 泄露后认为(12 次点赞):“企业需要从第一天起就内置权限边界和可审计性的智能层。” Meta 事件证明,在现有智能体部署上事后补治理会失败。
4. 使用中的工具与方法¶
| 工具 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| Claude Code + /goal | 编程智能体 | 正面 | 多日自治运行,执行计划结构,子智能体 | 需要仔细写好的计划;没有好提示词就无用 |
| Hermes Agent | 智能体框架 | 正面 | HyperFrames 视频、语音模式、5 美元/月 VPS 部署、100+ 技能、17 个平台 | 新技能信任模型未验证;生态质量方差 |
| Scion | 多智能体编排器 | 正面 | 每个智能体容器隔离、git worktree 分离、并发进程 | 全新;生产记录有限 |
| SubQ | 长上下文引擎 | 两极化 | 声称 12M working tokens;消除 RAG/chunking | 复杂度未证明;没有 100M+ 规模公开 demo |
| Insforge Skills | 上下文工程 | 正面 | Claude Code token 消耗降低 3x;0 错误 vs 10 错误基线 | 需要熟悉 CLI;新生态 |
| Genie Code (Databricks) | 数据智能体 | 正面 | 4+ 年运行框架调优;Spark Declarative Pipelines;自然语言 | 限于数据工程领域 |
| OpenClaw | 智能体平台 | 正面 | 市场中 13,700+ 技能;每智能体模型选择 | 自己运行“仍然是噩梦”(据 @cyrilXBT) |
| AG-UI Protocol | 智能体协议 | 正面 | Google、AWS、Microsoft、LangChain、Mastra、TanStack 采用 | 协议不是运行时;需要具体落地 |
| DeepSeek TUI | 终端编程智能体 | 新兴 | 1M 上下文、sub-agents、键盘驱动、git 管理 | 生态支持少于 Claude/Codex |
| Flue | 智能体运行框架 | 正面 | 一键 Render 部署;把 .ts 文件放进 agents/ | 仅 TypeScript;早期 |
突出变化是:工具讨论已经从“哪个模型最好”转向“哪个编排层能在最大化自治运行时长的同时最小化 token 花费”。Insforge 的 3x token 消耗降低和 /goal 的多日执行代表了新的性能前沿。
5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 阶段 | 链接 |
|---|---|---|---|---|---|---|
| Scion | @geminicli | 带容器隔离的多智能体编排器 | 共享状态/凭据的智能体会扩大 blast radius | Containers, git worktrees, Claude/Gemini/Codex | Shipped | post |
| HyperFrames Skill | @HeyGen + @NousResearch | Hermes 智能体的一行视频渲染 | 智能体无法在没有外部编辑器的情况下创建视频 | Hermes skills, HTML-to-MP4 | 已发布 | post |
| Entire CLI Skills | @ashtom / @EntireHQ | 教智能体使用完整提交上下文(提示词、转录、决策) | 智能体无法访问代码修改背后的推理 | Open source, session-handoff | 已发布 | post |
| Autoresearch v2 | @AndrewK404 | 带 memory、async experiments、falsifiers 的长优化运行 | Karpathy 的 PoC 在长运行中缺少 honesty enforcement | Agent swarm, memory layer | Shipped | post |
| AgenC Marketplace | @tetsuoarena | 横跨 Claude/Codex/Hermes/MCP 的链上智能体任务市场 | 钱包权限与不受信任任务文本混在一起 | Solana, MCP, multiple agent CLIs | 开发网 | post |
| AutoSwarm | @artemg314 | 自动优化完整多智能体流水线(Terminal-Bench 上 30% 到 90%) | 只优化单个智能体会忽略团队动态 | Meta-agent, Terminal-Bench | 已发布 | post |
| DAEMON Terminal | @DaemonTerminal | 带本地 LLM、插件市场、团队工作区的智能体 IDE | 智能体工具碎片化,缺少协作 | Ollama, LM Studio, plugins | 路线图 | post |
| Odysseus (VLM Gaming Agent) | @sethkarten | 用 PPO 强化学习微调 VLMs 通关 Mario | 游戏智能体缺少反应式空间推理 | VLMs, PPO, Super Mario Land | Research | post |
| oh-my-agent-skills | @GT_Chiang | 6 个 bundle 中的 14 个技能——面向智能体失败恢复的执行逻辑 | 智能体缺少结构化恢复路径就会失败 | Skills SDK | 已发布 | post |
| PEPT://BASE Hermes Skill | @peptbase | 面向生物技术智能体工作流的结构化肽智能 | 缺少智能体原生肽知识访问 | Hermes skills, 100+ peptides | 已发布 | post |
| Obsidian Vault for Agent Memory | @tom_doerr | 编程智能体可访问的持久知识库 | 智能体跨会话丢上下文 | Obsidian, agent integration | Shipped | post |
6. 新动态与亮点¶
Coinbase 裁员 14% 并强制采用 AI 原生小组¶
@rohanpaul_ai 分析(6 次点赞,4 次收藏,2272 次浏览)了 Brian Armstrong 的备忘录:宣布裁员 14%,同时推行“单人团队”,让工程师、设计师和 PM 合并为由智能体群增强的单一角色。其表述是:“AI 已经把软件工作的最小有用单位从团队变成了一个高上下文操作者。” 这是第一家大型上市公司明确围绕智能体能力重组,而不只是添加 AI 工具。
Grok Build 和 Grok Terminal 加入编程智能体竞赛¶
@MarioNawfal 报道(141 次点赞,16 次收藏,33142 次浏览):“Grok 不再只是聊天机器人。xAI 正在推出 Grok Build,一个完整编程智能体,以及 Grok Terminal,直接进入你的命令行。” @testerlabor 补充(14 次点赞),3 个 Grok Build 模型正在同时训练。编程智能体市场迎来另一个资金雄厚的竞争者。
xAI 为智能体 API 推出自定义语音克隆¶
@AlternativeTo 报道(9 次点赞,3 次收藏,1302 次浏览),xAI 推出 Custom Voices:“在两分钟内克隆并部署用于 Grok 文本转语音、应用和 Voice Agent APIs 的语音,并支持多语言。” 这显著降低了语音智能体个性化门槛。
TradingAgents 位居 GitHub 金融仓库榜首¶
@quantscience_ 列出(72 次点赞,121 次收藏,3521 次浏览)增长最快的 GitHub 金融仓库:“TradingAgents(+7.9K 星标)——来自 UCLA/MIT 的多智能体 LLM 交易框架,含基本面分析师、情绪分析师、技术分析师、风控经理,并支持 DeepSeek V4 thinking。”

Ctx2Skill:用多智能体自博弈发现自演化技能¶
@HuggingPapers 分享(43 次点赞,33 次收藏,2062 次浏览)了一个新框架,可以“通过多智能体自博弈从复杂上下文中自主发现技能。无需人工标签或外部反馈。” 结果:GPT-4.1 在 CL-bench 上的 solve rates 从 11.1% 提升到 16.5%。

7. 机会在哪里¶
[+++] 智能体技能验证与供应链安全。 @omarsar0 的“SKILL.md”框架、@yzg75001 承认生产信任是“凭感觉”,以及 OpenClaw 市场中的 13,700+ 技能,共同指向一个明确缺口:还不存在智能体技能的 sigstore 等价物。谁构建经过验证的技能证明,谁就会在技能市场扩大时拿下信任层。
[+++] 消除 token 浪费的上下文工程。 @akshay_pachaar 展示了 Insforge Skills 带来的 3x token 消耗降低(10.4M 到 3.7M)和 0 错误。SubQ 声称提供 12M token 工作上下文。模式很清楚:位于用户与模型之间、负责结构化信息并减少冗余推理的上下文工程层,正成为增长最快的价值捕获点。
[++] 带漂移检测的多智能体编排。 Scion 发布容器隔离。@om_patel5 指出信心漂移。@artemg314 的 AutoSwarm 将多智能体流水线从 30% 提升到 90%。从“智能体并行运行”到“智能体对齐运行”之间的缺口,为内置分歧检测的协调工具创造了机会。
[++] 智能体原生视频和语音生产。 HyperFrames + Hermes、HeyGen + Superhuman Go、xAI Custom Voices、Deepgram + Together 同一天发布。收敛信号表明,多模态智能体输出(不只是文本)正在成为基本能力,质量控制、品牌一致性和自动编辑都有机会。
[+] 单人团队基础设施。 Coinbase 围绕“单人团队”重组,以及 @code_rams 的“3 智能体单人创始人栈”,都指向一种基础设施:让单个操作者跨研究、内容和运营管理智能体群。能让这一模式可靠运行的工具(监控、交接、质量门)需求正在增长。
[+] 去中心化智能体工作市场。 AgenC、ShelleyBay、GenLayer 和 Handshake trading 技能都是链上智能体任务市场的独立尝试。这个模式已被多个团队验证;执行和信任基础设施将决定赢家。
8. 要点总结¶
-
/goal 命令让“执行计划”质量成为新瓶颈。 AlexFinn 的 2577 分帖子和 424 次收藏证明,社区已经认识到多日智能体运行是可能的,但完全依赖结构化规划文档——高价值技能正从“写好代码”转向“为智能体写好计划”。(source)
-
上下文工程今天已经带来可量化的 3x 成本降低。 @akshay_pachaar 的前后对比(10.4M tokens/9.21 美元 vs 3.7M tokens/2.81 美元)且 0 错误,证明上下文工程层不是理论——它能为任何大规模运行智能体的人带来即时、可量化的节省。(source)
-
技能生态已经超出自身信任基础设施承载能力。 OpenClaw 中 13,700+ 技能、HyperFrames 为 Hermes 发布,以及实践者承认信任是“凭感觉”,说明智能体技能层的分发扩张快于验证。@omarsar0 的供应链安全框架,是第一次重大技能型漏洞利用到来前的早期预警。(source)
-
多智能体编排从概念变成容器化产品。 Scion 的每智能体容器隔离、@daytradingzoo 的前端/后端分工,以及 @om_patel5 的“4 人团队”(2 个人 + 2 个 Claude)都说明,多智能体现在是实用工作流模式,而不是研究好奇心——但漂移检测仍未解决。(source)
-
Coinbase 的 14% 裁员表明,“AI 原生组织结构”已经成为上市公司运营论点。 单人团队、扁平层级和智能体群不再只是博客文章——它们正在驱动一家 600 亿美元以上公司的裁员决策。这会加速企业对智能体管理和治理工具的需求。(source)
-
智能体视频栈在一天内抵达。 HyperFrames、HeyGen + Superhuman、xAI Custom Voices 和 Together 上的 Deepgram STT 都在 5 月 5 日发布。智能体不再只是文本输入/文本输出——多模态输出正在成为默认能力,把原本分离的工具类别折叠进单一技能安装。(source)