Twitter AI 智能体 - 2026-05-05¶

1. 人们在讨论什么¶

1.1 /goal 命令重新定义多日智能体运行 🡕¶

当天得分最高的帖子来自 @AlexFinn，他宣称（349 次点赞，38 条回复，424 次收藏，15209 次浏览）“/goal”是“今年 AI 编程最大的进步”，因为“它让你的 AI 智能体真的可以连续工作好几天不停。你给一个任务。它会一直工作到任务达成。” 核心洞察是：/goal 如果没有结构良好的执行计划就毫无用处，这把瓶颈从模型能力转移到提示词架构。

AlexFinn 关于 /goal 命令的讨论串，展示执行计划如何驱动多日智能体运行

@cheddarmandem 挖出（23 次点赞，30 次收藏，828 次浏览）了 OpenAI cookbook 上关于适用于 /goal 的执行计划模板的文章，并直接链接到 developers.openai.com。@Dimillian 写下（105 次点赞，129 次收藏，13827 次浏览）一篇关于复合工程的长反思：“技术栈和方法同等重要”，认为合适的运行框架 + 模型配对决定了多日运行是成功还是烧预算。

OpenAI 面向 /goal 命令的执行计划模板

与前日对比： 5 月 4 日关注自建 vs 购买的运行框架工程争论，以及 AHE 论文中的自动运行框架演化。5 月 5 日，讨论转向一个具体产品功能（/goal），它体现了运行框架工程在实践中能带来什么——借助结构化规划支撑持续多日执行。

讨论要点： 回复揭示了 /goal 的能力与其对“执行计划”的依赖之间的张力——本质上，瓶颈已经从写代码转向为智能体写好计划，由此产生了对计划模板和结构化提示词架构的需求。

1.2 SubQ 发布 12M token 上下文，宣告 RAG 已死 🡕¶

@KateMillerGems 宣称（997 次点赞，39 条回复，4 次收藏，115309 次浏览）：“RAG 管线安息吧。chunking hack 安息吧。summarisation loops 安息吧。它们从来不是聪明工程，而是在为破损的基础打补丁。SubQ 发布了 12M token 工作上下文。权宜方案结束了。” 这篇帖子的 115K 浏览和 997 次点赞，使其成为当天浏览量最高的 AI-agent 帖子。

@alex_whedon 宣布（47 次点赞，72 次收藏，9393 次浏览）SubQ early access 以及他们的编程智能体 SubQ Code。@willdepue 从技术角度反驳（59 次点赞，8 次收藏，2523 次浏览）：“能否说明一下你们方法的大致复杂度？是 O(n)、O(n log n)，还是 O(n^k < 2)？如果真是次二次复杂度，是什么阻止你们演示 100M、1B，甚至 10B 上下文？”

与前日对比： 5 月 4 日，上下文工程通过架构图和 workbook 获得结构化词汇。5 月 5 日，SubQ 以 12M working tokens 的具体产品主张升级了叙事，把它描述为整个基础设施类别（RAG、chunking、summarization）的替代，而不是一次渐进改进。

讨论要点： @willdepue 对计算复杂度的质疑表明，社区并没有照单全收“RAG 已死”的说法——在宣布战胜既有模式之前，大家要求证明可扩展性特征。

1.3 Hermes + HyperFrames 创建智能体视频栈 🡕¶

Hermes 生态的视频能力成为一条主要讨论线。@AndyMarlowg 庆祝（49 次点赞，40 次收藏，8618 次浏览）：“Hermes 可在任何地方运行。HyperFrames 可在任何地方渲染。现在它们一起发布——这就是我想要的智能体视频栈。hermes skills install hyperframes。” @dr_cintas 解释（23 次点赞，21 次收藏，3013 次浏览）了机制：“描述你想要的视频。你的智能体写 HTML。它渲染成 MP4。没有编辑器。没有时间线。”

@_0xpainn 演示（30 次点赞，8 次收藏，233 次浏览）了更广的自我改进角度：“一个运行在 5 美元/月 VPS 上的自我改进 AI 智能体，每个任务成本 0 美元。免费运行。每个任务免费。永远免费。租一台 5 美元 VPS。安装 Ollama。一条命令安装 Hermes。搞定。它会从每个任务中创建可复用技能。” @MystiqueMide 测试（14 次点赞，175 次浏览）了 Discord 上的语音模式，延续多模态扩展。

与前日对比： 5 月 4 日，Hermes 生态通过桌面 app、Shopify 技能和 MMORPG 插件扩张。5 月 5 日加入视频创建管线（HyperFrames）和语音模式，让 Hermes 从纯文本智能体演进为完整多模态自动化平台。

讨论要点： @Feel594326 和 @yafadec815 的回复强调，社区看重“可移植性”——同一智能体栈能在任何地方运行、且没有厂商锁定，是 Hermes 相比专有替代品的关键差异。

1.4 多智能体编排工具正式化 🡕¶

@geminicli 宣布 Scion（144 次点赞，112 次收藏，6132 次浏览）：“一个新的多智能体编排工具，将智能体（Claude Code、Gemini CLI、Codex 等）编排为隔离的并发进程。每个智能体都有自己的容器、git worktree 和凭据。” @daytradingzoo 展示（23 次点赞，25 次收藏，1562 次浏览）了一个实用双智能体设置：“Claude 负责前端，Codex 负责后端。交接、第二意见审查，用 GitHub 对齐。”

双智能体设置，展示 Claude 负责 frontend、Codex 负责 backend，并用 GitHub 对齐

@om_patel5 描述（5 次点赞，2 次收藏，395 次浏览）了一种新模式：“两个开发者和两个 Claude Codes 在同一个聊天室里——四者一起交谈。两个人类和两个 AI 智能体在一次对话中共同规划功能。” @aakashgupta 报告（8 次点赞，24 次收藏，2902 次浏览）：“一个 21 智能体团队在 Claude Code 内跑 4 个并行 sprint，从想法一路推进到 App Store 提交。”

与前日对比： 5 月 4 日把多智能体协调复杂性作为挫败点讨论（直接跑“5-7 个智能体一整天感觉保守”）。5 月 5 日显示工具正在追上来——Scion 提供正式容器隔离，实践者则分享真正可用于生产的具体多智能体工作流。

讨论要点： @om_patel5 提出关键警告：“两个 AI 模型会让彼此听起来更自信，并在你没注意时一起幻觉，悄悄偏离你真正提出的要求”——这说明多智能体设置需要明确决策日志和人类检查点，防止集体漂移。

1.5 HeyGen Agent 占据异步沟通细分场景 🡕¶

HeyGen + Superhuman Go 集成带来了 15+ 条帖子。@viipin8 抓住（91 次点赞，14 次收藏，11197 次浏览）了核心卖点：“多数更新失败，是因为第一次没有传达到位，于是被重复到讨论串、会议和跟进里。Superhuman Go + HeyGen Agent 把它们转成视频/语音，感觉是个干净的修法。” @Parul_Gautam7 补充（46 次点赞，10 次收藏，6849 次浏览）：“打字更新——没人看。开会——太重。现在你可以直接说出来。”

@Logical_Girll 指出（31 次点赞，6 次收藏，610 次浏览）：“这感觉像是智能体开始住进你的工具里，而不是待在工具旁边。” 协调式放大模式（15+ 个账号引用同一条 @HeyGen 公告）与 5 月 4 日发布模式类似，但持续互动更高。

与前日对比： 5 月 4 日把 HeyGen + Superhuman Go 发布列为“新动态与亮点”。5 月 5 日显示该集成通过有机改写和采用信号占据讨论，说明它在初始协调发布之外也产生了共鸣。

1.6 智能体技能验证与供应链安全 🡒¶

@omarsar0 发布了两个关键串帖（21 次点赞，34 次收藏，1703 次浏览）。第一条关于技能验证：“如果你发布智能体技能，你的运行时会默认把已签名且通过审核的技能当作受信任。这篇论文认为，在验证之前，技能都是不受信任代码。” 他呼吁在智能体技能库成为下一个攻击面之前，需要“SKILL.md”。

论文图示展示技能作为可验证部署产物，需要门控验证

他的第二条串帖（105 次点赞，170 次收藏，7371 次浏览）覆盖了 HeavySkill 的智能体式运行框架设计：“他们认为真正驱动智能体运行框架性能的不是编排代码，而是一个内部技能：并行推理。”

HeavySkill 论文展示内部技能设计，而不是编排代码，驱动运行框架性能

@yzg75001 回复：“我一直在生产中运行智能体技能，而信任模型现在基本上是凭感觉——signed skill = trusted，这很离谱。我们需要某种智能体技能版 sigstore。”

与前日对比： 5 月 4 日识别了智能体安全缺口（摩斯电码漏洞利用、200K 美元被抽走）。5 月 5 日，讨论从“智能体会被黑”上升到“技能分发层本身就是攻击面”，有论文提出形式化验证，@omarsar0 也把它框定为供应链问题。

讨论要点： @DylSwanepoel 的回复概括了转变：“智能体技能不只是提示词或便利 wrapper。它们是可执行产物。一旦某个技能能接触工具、数据、资金或生产系统，就不能因为它来自哪里而默认可信。”

1.7 企业智能体治理深化：ServiceNow + Microsoft 🡒¶

@ServiceNowNews 宣布（47 次点赞，8 次收藏，3570 次浏览）“ServiceNow + Microsoft 正在统一两个平台之间的智能体治理。” AI Control Tower 现在把治理扩展到 Microsoft Agent 365，让团队能“在一个地方发现、批准和管理智能体”。@Sam_Badawi 提供（66 次点赞，2 次收藏，4463 次浏览）了财务背景：“$NOW 正在把 AI Control Tower 与 $MSFT Agent 365 集成，扩展对运行在两个生态中的 AI 智能体的治理与可见性。”

@Arkive_live 报道（12 次点赞，2 次收藏，44 次浏览）：“Meta 内部一个 AI 智能体最近泄露了受限员工数据和组织架构图。即使科技巨头也难以治理走出受控环境的 AI。”

与前日对比： 5 月 4 日覆盖了 Microsoft Agent 365 GA 和 DeepMind 的智能体攻击分类。5 月 5 日，ServiceNow 的跨平台集成公告和具体 Meta 数据泄露事件加深了企业治理叙事，进一步说明治理是正在发生的运营问题，而不是理论问题。

2. 令人困扰的问题¶

Token 成本与优化复杂性¶

@akshay_pachaar 量化（130 次点赞，223 次收藏，24291 次浏览）了戏剧性的节省：“Claude Code 用一个改动少用了 3x token：之前：10.4M token、10 个错误、9.21 美元。之后：3.7M token、0 个错误、2.81 美元。” 修法是使用“Insforge Skills + CLI 作为后端上下文工程层”——也就是说，开箱即用的智能体配置会不必要地烧钱。

多智能体信心漂移¶

@om_patel5 警告（5 次点赞，2 次收藏，395 次浏览），在多智能体设置中，“两个 AI 模型会让彼此听起来更自信，并在你没注意时一起幻觉，悄悄偏离你真正提出的要求。” 这种失败模式很隐蔽：每个智能体都会验证另一个智能体的输出，制造出看起来正确、但已经脱离原始意图的闭环。

技能信任模型是“凭感觉”¶

@yzg75001 在回复 @omarsar0 时承认：“我一直在生产中运行智能体技能，而信任模型现在基本上是凭感觉——已签名技能 = 可信，这很离谱。供应链攻击向量是真实存在的。” “发布到市场”和“经验证可安全执行”之间的缺口仍未解决。

Demo 软件 vs 生产就绪智能体¶

@databricks 开场（53 次点赞，18 次收藏，2717 次浏览）直言不讳：“多数‘agentic AI’仍然是演示软件。数据工作和编程是明确例外。” @LandonExplr 回复：“智能体式 AI 在输出可验证的地方有效。数据管线符合这个条件。其他声称‘agentic’的东西仍然是演示软件。”

3. 人们期望的功能¶

智能体间通信管道¶

@SaidAitmbarek 描述（12 次点赞，1 次收藏，206 次浏览）了自己在 ChatGPT 和 Codex 之间复制内容的工作流，并希望有：“一个 headless bridge（pipe），可以在智能体之间临时流式传输数据。像 OAuth，但用于智能体，并带持久流。” 缺口在于：不同提供商的两个智能体之间，没有标准方式实时来回传递上下文。

技能验证基础设施¶

@omarsar0 呼吁（21 次点赞，34 次收藏）建立“SKILL.md”——一种类似软件供应链证明的智能体技能验证标准。@yzg75001 放大了这一点：“在有人发布一个对生产环境有写权限的恶意技能之前，我们需要某种智能体技能版 sigstore。”

超越 12M token 的上下文可扩展性证明¶

@willdepue 直接挑战（59 次点赞，8 次收藏）SubQ：“如果真的是次二次复杂度，是什么阻止你演示 100M、1B，甚至 10B context？” 需求是：能证明长上下文方案真的可扩展，而不是缺少复杂度分析的大数字声明。

智能体原生权限和身份层¶

@Arkive_live 在 Meta 泄露后认为（12 次点赞）：“企业需要从第一天起就内置权限边界和可审计性的智能层。” Meta 事件证明，在现有智能体部署上事后补治理会失败。

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
Claude Code + /goal	编程智能体	正面	多日自治运行，执行计划结构，子智能体	需要仔细写好的计划；没有好提示词就无用
Hermes Agent	智能体框架	正面	HyperFrames 视频、语音模式、5 美元/月 VPS 部署、100+ 技能、17 个平台	新技能信任模型未验证；生态质量方差
Scion	多智能体编排器	正面	每个智能体容器隔离、git worktree 分离、并发进程	全新；生产记录有限
SubQ	长上下文引擎	两极化	声称 12M working tokens；消除 RAG/chunking	复杂度未证明；没有 100M+ 规模公开 demo
Insforge Skills	上下文工程	正面	Claude Code token 消耗降低 3x；0 错误 vs 10 错误基线	需要熟悉 CLI；新生态
Genie Code (Databricks)	数据智能体	正面	4+ 年运行框架调优；Spark Declarative Pipelines；自然语言	限于数据工程领域
OpenClaw	智能体平台	正面	市场中 13,700+ 技能；每智能体模型选择	自己运行“仍然是噩梦”（据 @cyrilXBT）
AG-UI Protocol	智能体协议	正面	Google、AWS、Microsoft、LangChain、Mastra、TanStack 采用	协议不是运行时；需要具体落地
DeepSeek TUI	终端编程智能体	新兴	1M 上下文、sub-agents、键盘驱动、git 管理	生态支持少于 Claude/Codex
Flue	智能体运行框架	正面	一键 Render 部署；把 .ts 文件放进 agents/	仅 TypeScript；早期

突出变化是：工具讨论已经从“哪个模型最好”转向“哪个编排层能在最大化自治运行时长的同时最小化 token 花费”。Insforge 的 3x token 消耗降低和 /goal 的多日执行代表了新的性能前沿。

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
Scion	@geminicli	带容器隔离的多智能体编排器	共享状态/凭据的智能体会扩大 blast radius	Containers, git worktrees, Claude/Gemini/Codex	Shipped	post
HyperFrames Skill	@HeyGen + @NousResearch	Hermes 智能体的一行视频渲染	智能体无法在没有外部编辑器的情况下创建视频	Hermes skills, HTML-to-MP4	已发布	post
Entire CLI Skills	@ashtom / @EntireHQ	教智能体使用完整提交上下文（提示词、转录、决策）	智能体无法访问代码修改背后的推理	Open source, session-handoff	已发布	post
Autoresearch v2	@AndrewK404	带 memory、async experiments、falsifiers 的长优化运行	Karpathy 的 PoC 在长运行中缺少 honesty enforcement	Agent swarm, memory layer	Shipped	post
AgenC Marketplace	@tetsuoarena	横跨 Claude/Codex/Hermes/MCP 的链上智能体任务市场	钱包权限与不受信任任务文本混在一起	Solana, MCP, multiple agent CLIs	开发网	post
AutoSwarm	@artemg314	自动优化完整多智能体流水线（Terminal-Bench 上 30% 到 90%）	只优化单个智能体会忽略团队动态	Meta-agent, Terminal-Bench	已发布	post
DAEMON Terminal	@DaemonTerminal	带本地 LLM、插件市场、团队工作区的智能体 IDE	智能体工具碎片化，缺少协作	Ollama, LM Studio, plugins	路线图	post
Odysseus (VLM Gaming Agent)	@sethkarten	用 PPO 强化学习微调 VLMs 通关 Mario	游戏智能体缺少反应式空间推理	VLMs, PPO, Super Mario Land	Research	post
oh-my-agent-skills	@GT_Chiang	6 个 bundle 中的 14 个技能——面向智能体失败恢复的执行逻辑	智能体缺少结构化恢复路径就会失败	Skills SDK	已发布	post
PEPT://BASE Hermes Skill	@peptbase	面向生物技术智能体工作流的结构化肽智能	缺少智能体原生肽知识访问	Hermes skills, 100+ peptides	已发布	post
Obsidian Vault for Agent Memory	@tom_doerr	编程智能体可访问的持久知识库	智能体跨会话丢上下文	Obsidian, agent integration	Shipped	post

6. 新动态与亮点¶

Coinbase 裁员 14% 并强制采用 AI 原生小组¶

@rohanpaul_ai 分析（6 次点赞，4 次收藏，2272 次浏览）了 Brian Armstrong 的备忘录：宣布裁员 14%，同时推行“单人团队”，让工程师、设计师和 PM 合并为由智能体群增强的单一角色。其表述是：“AI 已经把软件工作的最小有用单位从团队变成了一个高上下文操作者。” 这是第一家大型上市公司明确围绕智能体能力重组，而不只是添加 AI 工具。

Grok Build 和 Grok Terminal 加入编程智能体竞赛¶

@MarioNawfal 报道（141 次点赞，16 次收藏，33142 次浏览）：“Grok 不再只是聊天机器人。xAI 正在推出 Grok Build，一个完整编程智能体，以及 Grok Terminal，直接进入你的命令行。” @testerlabor 补充（14 次点赞），3 个 Grok Build 模型正在同时训练。编程智能体市场迎来另一个资金雄厚的竞争者。

xAI 为智能体 API 推出自定义语音克隆¶

@AlternativeTo 报道（9 次点赞，3 次收藏，1302 次浏览），xAI 推出 Custom Voices：“在两分钟内克隆并部署用于 Grok 文本转语音、应用和 Voice Agent APIs 的语音，并支持多语言。” 这显著降低了语音智能体个性化门槛。

TradingAgents 位居 GitHub 金融仓库榜首¶

@quantscience_ 列出（72 次点赞，121 次收藏，3521 次浏览）增长最快的 GitHub 金融仓库：“TradingAgents（+7.9K 星标）——来自 UCLA/MIT 的多智能体 LLM 交易框架，含基本面分析师、情绪分析师、技术分析师、风控经理，并支持 DeepSeek V4 thinking。”

GitHub 热门金融仓库显示 TradingAgents 为 +7.9K 星标

Ctx2Skill：用多智能体自博弈发现自演化技能¶

@HuggingPapers 分享（43 次点赞，33 次收藏，2062 次浏览）了一个新框架，可以“通过多智能体自博弈从复杂上下文中自主发现技能。无需人工标签或外部反馈。” 结果：GPT-4.1 在 CL-bench 上的 solve rates 从 11.1% 提升到 16.5%。

Ctx2Skill 框架图展示多智能体自博弈技能发现

7. 机会在哪里¶

[+++] 智能体技能验证与供应链安全。 @omarsar0 的“SKILL.md”框架、@yzg75001 承认生产信任是“凭感觉”，以及 OpenClaw 市场中的 13,700+ 技能，共同指向一个明确缺口：还不存在智能体技能的 sigstore 等价物。谁构建经过验证的技能证明，谁就会在技能市场扩大时拿下信任层。

[+++] 消除 token 浪费的上下文工程。 @akshay_pachaar 展示了 Insforge Skills 带来的 3x token 消耗降低（10.4M 到 3.7M）和 0 错误。SubQ 声称提供 12M token 工作上下文。模式很清楚：位于用户与模型之间、负责结构化信息并减少冗余推理的上下文工程层，正成为增长最快的价值捕获点。

[++] 带漂移检测的多智能体编排。 Scion 发布容器隔离。@om_patel5 指出信心漂移。@artemg314 的 AutoSwarm 将多智能体流水线从 30% 提升到 90%。从“智能体并行运行”到“智能体对齐运行”之间的缺口，为内置分歧检测的协调工具创造了机会。

[++] 智能体原生视频和语音生产。 HyperFrames + Hermes、HeyGen + Superhuman Go、xAI Custom Voices、Deepgram + Together 同一天发布。收敛信号表明，多模态智能体输出（不只是文本）正在成为基本能力，质量控制、品牌一致性和自动编辑都有机会。

[+] 单人团队基础设施。 Coinbase 围绕“单人团队”重组，以及 @code_rams 的“3 智能体单人创始人栈”，都指向一种基础设施：让单个操作者跨研究、内容和运营管理智能体群。能让这一模式可靠运行的工具（监控、交接、质量门）需求正在增长。

[+] 去中心化智能体工作市场。 AgenC、ShelleyBay、GenLayer 和 Handshake trading 技能都是链上智能体任务市场的独立尝试。这个模式已被多个团队验证；执行和信任基础设施将决定赢家。

8. 要点总结¶

/goal 命令让“执行计划”质量成为新瓶颈。 AlexFinn 的 2577 分帖子和 424 次收藏证明，社区已经认识到多日智能体运行是可能的，但完全依赖结构化规划文档——高价值技能正从“写好代码”转向“为智能体写好计划”。(source)
上下文工程今天已经带来可量化的 3x 成本降低。 @akshay_pachaar 的前后对比（10.4M tokens/9.21 美元 vs 3.7M tokens/2.81 美元）且 0 错误，证明上下文工程层不是理论——它能为任何大规模运行智能体的人带来即时、可量化的节省。(source)
技能生态已经超出自身信任基础设施承载能力。 OpenClaw 中 13,700+ 技能、HyperFrames 为 Hermes 发布，以及实践者承认信任是“凭感觉”，说明智能体技能层的分发扩张快于验证。@omarsar0 的供应链安全框架，是第一次重大技能型漏洞利用到来前的早期预警。(source)
多智能体编排从概念变成容器化产品。 Scion 的每智能体容器隔离、@daytradingzoo 的前端/后端分工，以及 @om_patel5 的“4 人团队”（2 个人 + 2 个 Claude）都说明，多智能体现在是实用工作流模式，而不是研究好奇心——但漂移检测仍未解决。(source)
Coinbase 的 14% 裁员表明，“AI 原生组织结构”已经成为上市公司运营论点。 单人团队、扁平层级和智能体群不再只是博客文章——它们正在驱动一家 600 亿美元以上公司的裁员决策。这会加速企业对智能体管理和治理工具的需求。(source)
智能体视频栈在一天内抵达。 HyperFrames、HeyGen + Superhuman、xAI Custom Voices 和 Together 上的 Deepgram STT 都在 5 月 5 日发布。智能体不再只是文本输入/文本输出——多模态输出正在成为默认能力，把原本分离的工具类别折叠进单一技能安装。(source)