Twitter AI 智能体 - 2026-05-04¶
1. 人们在讨论什么¶
1.1 运行框架工程成熟:自建 vs 购买分歧加深 🡒¶
运行框架工程争论延续了 5 月 3 日的势头,但从“是否应该自建?”转向更实际的落地模式。@_colemurray 明确反自建立场(51 次点赞,50 次收藏):“你不太可能在子智能体编排、压缩、渐进式披露等方面有值得拥有整个运行框架的新想法。把时间投到运行框架周围的部分:执行基础设施、自定义工具/MCP/技能,以及基于轨迹的自我改进。”
@nichochar 直接反驳:“不同意。运行框架在功能上相当简单,而且我们把工作委托给它们,所以深入理解它们非常重要。所有构建者都应该熟悉自己的工具,而在 2026 年维护一个运行框架是做到这一点的最佳方式。” @skastr052 补充了更细腻的观点:“模型-运行框架耦合会倾向于增强——例如,最近 code 的 /goal 命令只真正适用于 codex 和 codex 的压缩后端。”
与此同时,Agentic Harness Engineering(AHE)论文通过 @DataScienceDojo 的报道(23 次浏览)获得关注:一个闭环系统,在不触碰基础模型的情况下,自动演化编程智能体周围的全部脚手架。关键结果:10 次迭代把 Terminal-Bench 2 上的 pass@1 从 69.7% 提高到 77.0%,并在 SWE-bench-verified 上减少 12% token。
@MrAhmadAwais 用一段 meme 视频概括了内部构建情绪(14 次点赞):“‘我们可以在内部构建一个编程智能体运行框架。’” @dexhorthy 保持反弹姿态(70 次点赞):“嘿 Nikita,我真的很想看更多 AI 写的运行框架工程炒作垃圾文,你能帮我吗?”
与前日对比: 5 月 3 日从定义转向自建/购买的战略决策。5 月 4 日进一步加深分歧——争论现在有已发布研究结果(AHE 论文)支持“自动化运行框架演化”阵营,而 @nichochar 这样的实践者仍捍卫靠构建来理解。@dexhorthy 的反弹疲劳则作为持续的平衡力量存在。
1.2 上下文工程获得结构化词汇 🡕¶
上下文工程讨论从笼统倡导走向技术细节。@_overment 发布了一份详细拆解(7 次收藏),分析多智能体提示词架构,并指出未解问题:“设置变化后,你如何保留上下文缓存?压缩后如何保留重要上下文?结果超过可用上下文窗口时,你如何把结果呈现给模型?”

@avrldotdev 强调(8 次收藏)了一篇关于压缩的深度文章,覆盖 7 种哲学及其优缺点。@petergyang 分享(9 次收藏)了一份免费的 Context Engineering for Prototyping Workbook。@NalyMetaX 概括了更大转变(56 次点赞):“市场沉迷于提示工程,但提示词只是缺少上下文时的创可贴。”
@DanIsBuilding 在回复 @_overment 时抓住了拐点:“我个人认为我们即将从模型是瓶颈,过渡到运行框架设计是瓶颈。上下文工程、工具披露和委派已经在很大程度上限制了现有模型。”
与前日对比: 5 月 3 日,上下文工程只是运行框架争论中的次要主题。5 月 4 日,它凭借结构化材料(架构图、workbook、压缩策略分类)成为独立话题。
1.3 消费级 GPU 上的本地模型编程智能体 🡕¶
@witcheer 详细说明(64 次点赞,78 次收藏),单张 RTX 3090 上的 27B 模型现在可以用 Qwen3.5-27B + q4_0 KV cache 在 262K 上下文下运行完整自治编程循环:“模型能写多文件代码、跑测试、修自己的 bug、启动服务。全部跑在 24GB VRAM 上。” 该串帖还包含 RTX 4060 Ti(8GB)和 RTX 3060(12GB)配置。
@sakurayukiai 称赞:“q4 KV cache 单枪匹马让消费级 GPU 还能撑住智能体式工作流。” 但 @oppollo11 提醒:“q4_0 做 KV cache 会产出不可靠结果。我建议不要低于 q8。” @EdgeDimi 则很直接:“在合理时间内读完复杂智能体式工作区都不可能,更不用说做合适的顺序工具调用了。我不知道 512GB RAM 硬件体验如何……但认为这些小参数模型能做任何本质工作,都是妄想。”
与前日对比: 5 月 3 日讨论了本地模型的成本优势(Mac Mini 设置)。5 月 4 日收窄到具体 GPU 配置和量化取舍,并给出了消费级硬件上的真实基准。
1.4 Hermes Agent 生态快速扩张 🡕¶
Hermes Agent 生态延续了 5 月 3 日 Kanban 发布后的爆发轨迹。@shmidtqq 梳理(58 次点赞,31 次收藏)了完整功能集:“持久记忆、文件系统回滚、会话分支、触达 17 个平台、其中 4 个平台上的实时语音、多提供商模型切换、cron + webhooks、100+ 个作为 slash commands 的技能。”

@DODOREACH 发布 Hermes Desktop v0.6.0(36 次点赞,24 次收藏),支持 Kanban 编排。@outsource_ 推出 HermesWorld(11 次点赞)——一个面向 Hermes 智能体的 MMORPG 插件。@WesRoth 报道(24 次点赞)了 Shopify 面向自主店铺管理的专用 Hermes Agent 技能。@MystiqueMide 记录了完整迁移到 VPS 托管 Hermes 的过程,在 Telegram 和 Discord 上 24/7 运行。
与前日对比: 5 月 3 日是 Kanban 本身的发布。5 月 4 日展示了生态建设——桌面 app、第三方技能(Shopify)、社区插件(HermesWorld MMORPG)和用户部署指南。生态开发速度正在加快。
1.5 智能体技能与技能市场扩散 🡕¶
智能体技能成为一个独立产品类别,并出现多个发布。@higgsfield 发布(526 次点赞,440 次收藏,17,830 次浏览)Higgsfield CLI + Marketing Skills——当天得分最高的 AI 帖子:“与其把 token 烧在臃肿 schema 上,或者大规模交付破损创意,CLI 能让智能体花费保持精简,技能则让输出保持高质量。可搭配 Codex、Claude Code、Openclaw 等使用。”
@tom_doerr 分享 autoskills(10 次点赞,5 次收藏)——一个扫描技术栈并自动安装合适智能体技能的 CLI。@xdotli 庆祝(24 次点赞)SkillsBench 在 2 个月内达到 1.1K GitHub 星标,65% 的智能体技能研究现在引用了他们的论文。

@Shruti_0810 强调(17 次点赞)TinyFish 为每个 AI 智能体免费提供网络搜索和抓取,支持 REST API、MCP、Python、TS SDK 和 Claude Code 技能。
与前日对比: 5 月 3 日在运行框架语境中提到技能。5 月 4 日显示技能正在成为独立产品类别,有自己的市场动态、基准和自动安装工具。
1.6 企业智能体治理上线 🡒¶
@WesRoth 报道(22 次点赞)Microsoft Agent 365 于 5 月 1 日正式 GA:“一个集中控制平面,让 IT 和安全团队能够在企业范围内观察、治理和保护 AI 智能体”,包括统一注册表、可视化智能体地图,以及对委派式和自治式智能体的支持。
@RavenOfSpace 提出了尖锐反对:“带自身凭据的自治智能体 = IAM 原本没为这种爆炸半径问题设计。Microsoft 的表述承认了这个缺口。” @ItsKondrat 指出了真正瓶颈:“控制平面已解决。未解决的是:你实际要填哪些字段。manager-of-record:空白。这个规格归 PM 管,不归 IT。”
@TheWhizzAI 总结(47 次点赞,23 次收藏)了 Google DeepMind 的“AI Agent Traps”论文,记录 6 类会劫持 AI 智能体、使其对抗自身用户的攻击,并特别担心审批疲劳:“你今天已经看了 50 条 AI 建议。你批准了 49 条。你开始不再仔细阅读。陷阱就是这时触发的。”
与前日对比: 5 月 3 日把 Google Agent Anomaly Detection 作为新兴信号。5 月 4 日加入 Microsoft Agent 365 GA 和 DeepMind 的对抗研究,说明智能体治理已成为多厂商优先级,而不是某一家公司单独推进。
1.7 研究:运行框架演化、多智能体搜索与技能结构 🡒¶
@dair_ai 发布(135 次点赞,132 次收藏)了本周热门 AI 论文,包括 Latent Agents、RecursiveMAS、OneManCompany、AgenticQwen-30B-A3B、Agentic World Modeling 和 Agentic Harness Engineering。
@HuggingPapers 和 @_akhaliq 都报道了 Web2BigTable——一个用于互联网规模信息提取的双层多智能体框架,在 WideSearch 上达到 7.5x SOTA(8 次收藏)。

@EmpathYang 宣布(15 次点赞)PlugMem 被 ICML 2026 接收——一个即插即用记忆模块,把原始轨迹转成知识图谱,并在 LongMemEval 和 HotpotQA 上达到 SOTA。@fly51fly 分享了北京大学论文“From Skill Text to Skill Structure”,讨论面向智能体技能的调度-结构-逻辑表示。
与前日对比: 5 月 3 日以预览形式出现同一批论文。5 月 4 日加入 Web2BigTable(大规模多智能体搜索)和 PlugMem(ICML 接收的智能体记忆),加深了研究管线。
2. 令人困扰的问题¶
Token 浪费和成本不透明¶
@higgsfield 把当天热门帖的核心放在“把 token 烧在臃肿 schema 上”。@AINativeLang 量化了缺口:“总 AI 花费 870 美元 vs 传统智能体循环 3,000+ 美元”,用 7 周时间通过编译编排层而不是在每一步都让 LLM 推理,成本降低 71%。
多智能体协调复杂性¶
@hosseeb 提问(37 次点赞,61 次收藏):“你见过最疯狂的多智能体工作流/设置是什么?” 回复显示,大多数设置仍然原始。@0xgilbert 承认:“我整天直接跑 5-7 个智能体。和一个有意设计的编排系统应该能管理的东西相比,这感觉相当保守。” @ercwl 把多智能体巅峰描述得故意荒诞:“巅峰性能就是让 Claude 通过 Dispatch 从你的手机使用 computer use,去控制你的 Codex 桌面应用。”
运行框架话语疲劳¶
@dexhorthy 表达(70 次点赞)对“AI 写的运行框架工程炒作垃圾文”的疲惫,后来又提到自己“比上下文工程早 3 个月,比 lights off software factory 早 6 个月,比‘噢该死把灯重新打开’早 6 个月”。持续反弹说明这个话题已经过了新鲜感峰值。
智能体安全缺口¶
@dipsybitsy 评论(9 次点赞)有人用摩斯电码从智能体中抽走 200K 美元:“我们在智能体安全上早期到一点都不好笑。下周他们就要用烟雾信号了。谁在构建真正的安全护栏?”
3. 人们期望的功能¶
标准化智能体身份与授权¶
@Aiagent_s 描述了缺口:“企业正在部署 AI 智能体,却没有身份框架。没有权限范围。没有审计轨迹。没有撤销机制。” Microsoft Agent 365 解决了一部分,但 @RavenOfSpace 指出,IAM 并不是为带自身凭据的自治智能体设计的。
无需沙箱的无头智能体执行¶
@hwchase17 回应(33 次点赞,18 次收藏)了运行无磁盘或 bash 访问运行框架的需求:“deepagents 可以用‘虚拟文件系统’运行,让你做很多很棒的上下文工程技巧,而不需要真实沙箱环境!” @BrandGrowthOS 称其“聪明——所以你基本是在模拟文件系统调用,而不是启动容器。”
智能体基础设施即服务¶
@cycle_vega 指出反复出现的痛点:“每个垂直 SaaS 现在都在构建自己的 AI 智能体。但触发器、会话持久化、API 编排、数据安全——每次都是一个完整基础设施项目。Stripe 没让每家初创公司自己建支付轨道。”
真正有效的智能体记忆¶
@EloPhanto 在回复 RunTrim 时给出了标准:“对于编程智能体,‘记忆’只有能回答这些问题才配叫记忆:我碰过什么、我承诺过不碰什么、上次运行后发生了什么变化,以及什么证据说明我已经做完?”
4. 使用中的工具与方法¶
| 工具 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| Hermes Agent | 智能体框架 | 正面 | 100+ 技能、多平台、Kanban 编排、自我改进、持久记忆 | 新生态,社区驱动导致质量方差 |
| Claude Code | 编程智能体 | 正面 | 深度推理、技能系统、subagents、hooks | Credit limits(@nichxbt:“在 200 美元/月计划之外又花了 120 美元”) |
| Flue / PyFlue | 智能体运行框架 | 正面 | 可编程运行框架,Model+Harness+Memory 公式,跨语言 | Python 移植版很新,仍在追赶 TS 原版 |
| LangChain Deep Agents | 智能体运行框架 | 正面 | 虚拟文件系统、上下文工程、电池齐全 | 比最小运行框架更复杂 |
| Qwen3.5-27B (q4_0 KV) | 本地模型 | 混合 | 24GB VRAM 上 262K 上下文,零速度惩罚 | q4_0 量化质量存疑,复杂任务不可靠 |
| OpenClaw | 智能体平台 | 正面 | 100+ 技能、slash commands、插件生态 | 框架吃掉上下文预算(见 5 月 3 日反馈) |
| Codex | 编程智能体 | 正面 | /goal command、云端执行、compaction backend | 模型-运行框架耦合增强 |
| Gemini CLI | 编程智能体 | 新兴 | Google 集成,技能支持增长 | 生态不如 Claude/Codex 成熟 |
| TinyFish | 智能体 web fetch | 正面 | 免费层、干净 markdown 输出、更低 token 成本 | 新服务,历史记录有限 |
| MCP | 工具协议 | 正面 | 智能体-工具连接标准,广泛采用 | 不是运行时——仍需要运行框架 |
5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 阶段 | 链接 |
|---|---|---|---|---|---|---|
| Higgsfield CLI + Marketing Skills | @higgsfield | 面向规模化营销创意的智能体技能 | 创意工作流中的 token 浪费 | Skills SDK, Codex/Claude/OpenClaw | 已发布 | post |
| PyFlue | @Shashikant86 | Flue 智能体运行框架的 Python 移植版 | 没有等价于 Flue 的 Python 运行框架 | Python, LangChain Deep Agents | 已发布 | post |
| Hermes Desktop v0.6.0 | @DODOREACH | 带 Kanban 的 Hermes Agent macOS 桌面 app | 不愿用 CLI 的用户需要 GUI 管理智能体 | Electron, SSH, Hermes | 已发布 | post |
| HermesWorld | @outsource_ | Hermes Agent dashboard 的 MMORPG plugin | 社区参与和技能发现 | Hermes plugin system | 已发布 | post |
| RunTrim | @MichelLeoAnt | 面向编程智能体的记忆、范围和控制层 | 缺少跨智能体运行历史和 forbidden-file tracking | CLI, dashboard | 已发布 | post |
| AgenC Marketplace Agent Kit | @tetsuoarena | 面向 AI 智能体的链上任务市场 | 分离钱包权限与任务执行 | Solana, Claude Code, MCP | Devnet 测试 | post |
| PlugMem | @EmpathYang | 使用知识图谱的即插即用记忆模块 | 智能体跨会话丢记忆 | Knowledge graphs, OpenClaw/Claude Code | 研究(ICML 2026) | post |
| Anvia | @indrazulfi | 带 Studio 的开源 TypeScript AI 智能体框架 | 智能体检查和调试 | TypeScript, 13 npm packages, MIT | 已发布 | post |
| RustyClaw | @webxos | Rust 本地-only 终端智能体运行框架 | 需要最小化、单二进制智能体运行框架 | Rust, Ollama, TUI | 已发布 | post |
| Decode MCP Server | @seflless | 通过编程智能体生成和编辑 mermaid 图 | 智能体无法为规划创建视觉图 | MCP, Mermaid.js | 已发布 | post |
| headless-cli | @RobertTLange | 统一无头编程智能体执行界面 | 运行多个智能体 CLI 需要不同命令 | TypeScript, npx | 已发布 | post |
| Veritas Kanban v4.1 | @BradGroux | 带语义搜索的 OpenClaw 任务管理器 | 多智能体工作的重复检测和上下文注入 | OpenClaw, QMD, SQLite | 已发布 | post |
6. 新动态与亮点¶
Shopify 发布官方 Hermes Agent Skill¶
@WesRoth 报道(24 次点赞),Shopify 发布了专用 Hermes Agent skill,可自主管理店铺——产品、库存、订单和履约。值得注意的是,一个大型 commerce 平台选择与开源智能体框架做原生集成,而不是采用专有方案。
Google Remy Agent Tab 出现在 Gemini iOS 改版中¶
@Lentils80 发现(41 次点赞),即将推出的 Gemini app 改版中出现了新的“Agent”tab,展示 Tasks、Skills 和 Schedules 区块——确认 Google 正在 Gemini 内以“Remy”为代号构建持久智能体能力。

Anthropic 发布 AI 公司蓝图¶
@VaibhavSisinty 描述(21 次点赞,36 次收藏)了 Anthropic 发布的“AI 公司”建设蓝图,使用 Claude + Google Cloud 的 Agent Stack:“1 位人类 CEO,多个 AI 员工,智能体在彼此之间分工,跨会话长期记忆,一条命令部署到生产。” 其表述是:“2024 年的转变是工具。2025 年的转变是智能体。2026 年的转变是组织架构。”
HeyGen Agent 进入 Superhuman Go¶
@HeyGen 宣布(59 次点赞,33 次引用)与 Superhuman Go 集成,把文字更新转成视频或语音。高引用数值得注意——至少 15 个账号放大了这次发布,说明这是一次协调发布。该集成加入 Canva、Granola 和 RecitalApp,成为 Superhuman Go 内的智能体之一。
展示 In-Context Recursive Self-Improvement¶
@doodlestein 认为(14 次点赞),递归自我改进已经通过自定义智能体 CLI 工具和技能存在:“我让 Claude Code 把它提出的计划拿去和 ntm 一起用,管理 agent swarm 来实施这个计划。” 这个技能创建一个 TUI inspector,智能体用它验证自己的视觉输出,并把改进反馈回技能。
7. 机会在哪里¶
[+++] 智能体记忆与上下文持久层。 多个信号收敛:RunTrim 发布面向编程智能体的记忆/范围/控制。PlugMem 获 ICML 接收。@_overment 指出未解的上下文缓存问题。@EloPhanto 定义了智能体记忆必须证明什么。“无状态智能体会话”和“持久、可审计的智能体工作区”之间的差距,是被最频繁提及的未被满足需求。
[+++] 智能体技能市场与分发。 Higgsfield CLI(526 次点赞,440 次收藏)领跑当天。SkillsBench 达到 1.1K 星标。Autoskills 自动检测并安装技能。Shopify 发布官方 Hermes 技能。“npx skills add”模式正在成为智能体能力的 npm——谁构建发现和质量层,谁就赢。
[++] 智能体治理与安全工具。 Microsoft Agent 365 GA。DeepMind 发布智能体攻击分类。@dipsybitsy 报告有智能体被摩斯电码攻击抽走 200K 美元。@xBalbinus 概括机会:“下一个爆款 AI 产品可能不是更聪明的智能体,而是更安全的智能体。” 企业需求清楚;供给碎片化。
[++] 编译式编排(零成本协调)。 AINL 展示通过编译编排逻辑,而不是每一步都运行 LLM 推理,可降低 71% 成本。随着智能体工作负载增长,“编排税”会成为主导成本。能消除每步推理开销的工具具有结构性成本优势。
[+] 本地模型智能体基础设施。 消费级 GPU 配置(RTX 3060-3090)运行 27B 模型,并以 262K 上下文执行自治编程循环。“技术上可用”和“足够可靠”之间的差距,为自动处理量化取舍、模型选择和质量监控的本地优先智能体工具创造了机会。
[+] 智能体原生 SaaS 基础设施。 @cycle_vega 观察到,每个垂直 SaaS 都在重复构建触发器、会话持久化和 API 编排。一个“智能体基础设施版 Stripe”——标准化触发器、状态管理和工具连接——会抓住这个重复出现的横向层。
8. 要点总结¶
-
技能层正在吞掉智能体栈。 Higgsfield CLI 的 526 次点赞和 440 次收藏(当天 AI 热门帖第一)加上 Shopify 官方 Hermes 技能表明,可安装、可组合的技能——而不是单体框架——正在成为智能体能力分发的主要单位。(source)
-
运行框架工程已经进入“无聊基础设施”阶段。 争论已经从“它是什么?”转向“是否应该自动化它的演化?” AHE 论文 77% pass@1 的结果证明自动化运行框架优化有效,而 @nichochar 与 @_colemurray 的分歧说明实践者仍在自建 vs 购买之间摇摆。(source)
-
上下文工程是新瓶颈,不是模型质量。 @_overment 的详细架构图、@DanIsBuilding 的“从模型到运行框架设计”过渡判断,以及数据集中 12 次“context engineering”短语匹配,都指向上下文管理正在超过模型能力,成为约束条件。(source)
-
Hermes Agent 生态构建速度快于任何竞争性开源智能体框架。 桌面 app、Shopify 技能、HermesWorld MMORPG 插件、VPS 部署指南和 Kanban 编排,都在同一天发布或启动。社区贡献的广度说明它已经不只是炒作,而是有真实采用。(source)
-
智能体治理正在从“锦上添花”变成企业要求。 Microsoft Agent 365 GA、DeepMind 的智能体陷阱分类,以及 200K 美元智能体漏洞利用实例,构成了供给(厂商工具)、研究(攻击框架)和需求(真实损失)的三角。治理栈很可能会成为企业智能体部署的必备条件。(source)
-
本地模型编程智能体可行但尚不可靠。 RTX 3090 上的 Qwen3.5-27B 设置证明了 262K 上下文下的技术可行性,但 q4_0 vs q8_0 争论和 @EdgeDimi 的反驳确认,“它能跑”和“我信任它处理生产代码”之间仍有距离。(source)
-
智能体市场模式已经从概念走向竞争。 Solana devnet 上的 AgenC、Hermes skills marketplace、Swarms Marketplace、智能体原生黑客松赛道——至少 5 个独立团队正在同时构建智能体工作市场。概念已被验证;问题转向执行和分发。(source)