Twitter AI 智能体 - 2026-05-04¶

1. 人们在讨论什么¶

1.1 运行框架工程成熟：自建 vs 购买分歧加深 🡒¶

运行框架工程争论延续了 5 月 3 日的势头，但从“是否应该自建？”转向更实际的落地模式。@_colemurray 明确反自建立场（51 次点赞，50 次收藏）：“你不太可能在子智能体编排、压缩、渐进式披露等方面有值得拥有整个运行框架的新想法。把时间投到运行框架周围的部分：执行基础设施、自定义工具/MCP/技能，以及基于轨迹的自我改进。”

@nichochar 直接反驳：“不同意。运行框架在功能上相当简单，而且我们把工作委托给它们，所以深入理解它们非常重要。所有构建者都应该熟悉自己的工具，而在 2026 年维护一个运行框架是做到这一点的最佳方式。” @skastr052 补充了更细腻的观点：“模型-运行框架耦合会倾向于增强——例如，最近 code 的 /goal 命令只真正适用于 codex 和 codex 的压缩后端。”

与此同时，Agentic Harness Engineering（AHE）论文通过 @DataScienceDojo 的报道（23 次浏览）获得关注：一个闭环系统，在不触碰基础模型的情况下，自动演化编程智能体周围的全部脚手架。关键结果：10 次迭代把 Terminal-Bench 2 上的 pass@1 从 69.7% 提高到 77.0%，并在 SWE-bench-verified 上减少 12% token。

@MrAhmadAwais 用一段 meme 视频概括了内部构建情绪（14 次点赞）：“‘我们可以在内部构建一个编程智能体运行框架。’” @dexhorthy 保持反弹姿态（70 次点赞）：“嘿 Nikita，我真的很想看更多 AI 写的运行框架工程炒作垃圾文，你能帮我吗？”

与前日对比： 5 月 3 日从定义转向自建/购买的战略决策。5 月 4 日进一步加深分歧——争论现在有已发布研究结果（AHE 论文）支持“自动化运行框架演化”阵营，而 @nichochar 这样的实践者仍捍卫靠构建来理解。@dexhorthy 的反弹疲劳则作为持续的平衡力量存在。

1.2 上下文工程获得结构化词汇 🡕¶

上下文工程讨论从笼统倡导走向技术细节。@_overment 发布了一份详细拆解（7 次收藏），分析多智能体提示词架构，并指出未解问题：“设置变化后，你如何保留上下文缓存？压缩后如何保留重要上下文？结果超过可用上下文窗口时，你如何把结果呈现给模型？”

多智能体提示词架构图，展示缓存前缀结构、运行时备注、目录和缓存断点

@avrldotdev 强调（8 次收藏）了一篇关于压缩的深度文章，覆盖 7 种哲学及其优缺点。@petergyang 分享（9 次收藏）了一份免费的 Context Engineering for Prototyping Workbook。@NalyMetaX 概括了更大转变（56 次点赞）：“市场沉迷于提示工程，但提示词只是缺少上下文时的创可贴。”

@DanIsBuilding 在回复 @_overment 时抓住了拐点：“我个人认为我们即将从模型是瓶颈，过渡到运行框架设计是瓶颈。上下文工程、工具披露和委派已经在很大程度上限制了现有模型。”

与前日对比： 5 月 3 日，上下文工程只是运行框架争论中的次要主题。5 月 4 日，它凭借结构化材料（架构图、workbook、压缩策略分类）成为独立话题。

1.3 消费级 GPU 上的本地模型编程智能体 🡕¶

@witcheer 详细说明（64 次点赞，78 次收藏），单张 RTX 3090 上的 27B 模型现在可以用 Qwen3.5-27B + q4_0 KV cache 在 262K 上下文下运行完整自治编程循环：“模型能写多文件代码、跑测试、修自己的 bug、启动服务。全部跑在 24GB VRAM 上。” 该串帖还包含 RTX 4060 Ti（8GB）和 RTX 3060（12GB）配置。

@sakurayukiai 称赞：“q4 KV cache 单枪匹马让消费级 GPU 还能撑住智能体式工作流。” 但 @oppollo11 提醒：“q4_0 做 KV cache 会产出不可靠结果。我建议不要低于 q8。” @EdgeDimi 则很直接：“在合理时间内读完复杂智能体式工作区都不可能，更不用说做合适的顺序工具调用了。我不知道 512GB RAM 硬件体验如何……但认为这些小参数模型能做任何本质工作，都是妄想。”

与前日对比： 5 月 3 日讨论了本地模型的成本优势（Mac Mini 设置）。5 月 4 日收窄到具体 GPU 配置和量化取舍，并给出了消费级硬件上的真实基准。

1.4 Hermes Agent 生态快速扩张 🡕¶

Hermes Agent 生态延续了 5 月 3 日 Kanban 发布后的爆发轨迹。@shmidtqq 梳理（58 次点赞，31 次收藏）了完整功能集：“持久记忆、文件系统回滚、会话分支、触达 17 个平台、其中 4 个平台上的实时语音、多提供商模型切换、cron + webhooks、100+ 个作为 slash commands 的技能。”

Hermes Desktop v0.6.0 Kanban board 展示带 Ready、Blocked 和 Done 列的多智能体任务编排

@DODOREACH 发布 Hermes Desktop v0.6.0（36 次点赞，24 次收藏），支持 Kanban 编排。@outsource_ 推出 HermesWorld（11 次点赞）——一个面向 Hermes 智能体的 MMORPG 插件。@WesRoth 报道（24 次点赞）了 Shopify 面向自主店铺管理的专用 Hermes Agent 技能。@MystiqueMide 记录了完整迁移到 VPS 托管 Hermes 的过程，在 Telegram 和 Discord 上 24/7 运行。

与前日对比： 5 月 3 日是 Kanban 本身的发布。5 月 4 日展示了生态建设——桌面 app、第三方技能（Shopify）、社区插件（HermesWorld MMORPG）和用户部署指南。生态开发速度正在加快。

1.5 智能体技能与技能市场扩散 🡕¶

智能体技能成为一个独立产品类别，并出现多个发布。@higgsfield 发布（526 次点赞，440 次收藏，17,830 次浏览）Higgsfield CLI + Marketing Skills——当天得分最高的 AI 帖子：“与其把 token 烧在臃肿 schema 上，或者大规模交付破损创意，CLI 能让智能体花费保持精简，技能则让输出保持高质量。可搭配 Codex、Claude Code、Openclaw 等使用。”

@tom_doerr 分享 autoskills（10 次点赞，5 次收藏）——一个扫描技术栈并自动安装合适智能体技能的 CLI。@xdotli 庆祝（24 次点赞）SkillsBench 在 2 个月内达到 1.1K GitHub 星标，65% 的智能体技能研究现在引用了他们的论文。

GitHub star history 图表，对比 SkillsBench、SWE-bench 和 Terminal-Bench 增长率

@Shruti_0810 强调（17 次点赞）TinyFish 为每个 AI 智能体免费提供网络搜索和抓取，支持 REST API、MCP、Python、TS SDK 和 Claude Code 技能。

与前日对比： 5 月 3 日在运行框架语境中提到技能。5 月 4 日显示技能正在成为独立产品类别，有自己的市场动态、基准和自动安装工具。

1.6 企业智能体治理上线 🡒¶

@WesRoth 报道（22 次点赞）Microsoft Agent 365 于 5 月 1 日正式 GA：“一个集中控制平面，让 IT 和安全团队能够在企业范围内观察、治理和保护 AI 智能体”，包括统一注册表、可视化智能体地图，以及对委派式和自治式智能体的支持。

@RavenOfSpace 提出了尖锐反对：“带自身凭据的自治智能体 = IAM 原本没为这种爆炸半径问题设计。Microsoft 的表述承认了这个缺口。” @ItsKondrat 指出了真正瓶颈：“控制平面已解决。未解决的是：你实际要填哪些字段。manager-of-record：空白。这个规格归 PM 管，不归 IT。”

@TheWhizzAI 总结（47 次点赞，23 次收藏）了 Google DeepMind 的“AI Agent Traps”论文，记录 6 类会劫持 AI 智能体、使其对抗自身用户的攻击，并特别担心审批疲劳：“你今天已经看了 50 条 AI 建议。你批准了 49 条。你开始不再仔细阅读。陷阱就是这时触发的。”

与前日对比： 5 月 3 日把 Google Agent Anomaly Detection 作为新兴信号。5 月 4 日加入 Microsoft Agent 365 GA 和 DeepMind 的对抗研究，说明智能体治理已成为多厂商优先级，而不是某一家公司单独推进。

1.7 研究：运行框架演化、多智能体搜索与技能结构 🡒¶

@dair_ai 发布（135 次点赞，132 次收藏）了本周热门 AI 论文，包括 Latent Agents、RecursiveMAS、OneManCompany、AgenticQwen-30B-A3B、Agentic World Modeling 和 Agentic Harness Engineering。

@HuggingPapers 和 @_akhaliq 都报道了 Web2BigTable——一个用于互联网规模信息提取的双层多智能体框架，在 WideSearch 上达到 7.5x SOTA（8 次收藏）。

Web2BigTable 架构图，展示编排器-工作器通过共享工作区协作，并带有自演化技能库

@EmpathYang 宣布（15 次点赞）PlugMem 被 ICML 2026 接收——一个即插即用记忆模块，把原始轨迹转成知识图谱，并在 LongMemEval 和 HotpotQA 上达到 SOTA。@fly51fly 分享了北京大学论文“From Skill Text to Skill Structure”，讨论面向智能体技能的调度-结构-逻辑表示。

与前日对比： 5 月 3 日以预览形式出现同一批论文。5 月 4 日加入 Web2BigTable（大规模多智能体搜索）和 PlugMem（ICML 接收的智能体记忆），加深了研究管线。

2. 令人困扰的问题¶

Token 浪费和成本不透明¶

@higgsfield 把当天热门帖的核心放在“把 token 烧在臃肿 schema 上”。@AINativeLang 量化了缺口：“总 AI 花费 870 美元 vs 传统智能体循环 3,000+ 美元”，用 7 周时间通过编译编排层而不是在每一步都让 LLM 推理，成本降低 71%。

多智能体协调复杂性¶

@hosseeb 提问（37 次点赞，61 次收藏）：“你见过最疯狂的多智能体工作流/设置是什么？” 回复显示，大多数设置仍然原始。@0xgilbert 承认：“我整天直接跑 5-7 个智能体。和一个有意设计的编排系统应该能管理的东西相比，这感觉相当保守。” @ercwl 把多智能体巅峰描述得故意荒诞：“巅峰性能就是让 Claude 通过 Dispatch 从你的手机使用 computer use，去控制你的 Codex 桌面应用。”

运行框架话语疲劳¶

@dexhorthy 表达（70 次点赞）对“AI 写的运行框架工程炒作垃圾文”的疲惫，后来又提到自己“比上下文工程早 3 个月，比 lights off software factory 早 6 个月，比‘噢该死把灯重新打开’早 6 个月”。持续反弹说明这个话题已经过了新鲜感峰值。

智能体安全缺口¶

@dipsybitsy 评论（9 次点赞）有人用摩斯电码从智能体中抽走 200K 美元：“我们在智能体安全上早期到一点都不好笑。下周他们就要用烟雾信号了。谁在构建真正的安全护栏？”

3. 人们期望的功能¶

标准化智能体身份与授权¶

@Aiagent_s 描述了缺口：“企业正在部署 AI 智能体，却没有身份框架。没有权限范围。没有审计轨迹。没有撤销机制。” Microsoft Agent 365 解决了一部分，但 @RavenOfSpace 指出，IAM 并不是为带自身凭据的自治智能体设计的。

无需沙箱的无头智能体执行¶

@hwchase17 回应（33 次点赞，18 次收藏）了运行无磁盘或 bash 访问运行框架的需求：“deepagents 可以用‘虚拟文件系统’运行，让你做很多很棒的上下文工程技巧，而不需要真实沙箱环境！” @BrandGrowthOS 称其“聪明——所以你基本是在模拟文件系统调用，而不是启动容器。”

智能体基础设施即服务¶

@cycle_vega 指出反复出现的痛点：“每个垂直 SaaS 现在都在构建自己的 AI 智能体。但触发器、会话持久化、API 编排、数据安全——每次都是一个完整基础设施项目。Stripe 没让每家初创公司自己建支付轨道。”

真正有效的智能体记忆¶

@EloPhanto 在回复 RunTrim 时给出了标准：“对于编程智能体，‘记忆’只有能回答这些问题才配叫记忆：我碰过什么、我承诺过不碰什么、上次运行后发生了什么变化，以及什么证据说明我已经做完？”

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
Hermes Agent	智能体框架	正面	100+ 技能、多平台、Kanban 编排、自我改进、持久记忆	新生态，社区驱动导致质量方差
Claude Code	编程智能体	正面	深度推理、技能系统、subagents、hooks	Credit limits（@nichxbt：“在 200 美元/月计划之外又花了 120 美元”）
Flue / PyFlue	智能体运行框架	正面	可编程运行框架，Model+Harness+Memory 公式，跨语言	Python 移植版很新，仍在追赶 TS 原版
LangChain Deep Agents	智能体运行框架	正面	虚拟文件系统、上下文工程、电池齐全	比最小运行框架更复杂
Qwen3.5-27B (q4_0 KV)	本地模型	混合	24GB VRAM 上 262K 上下文，零速度惩罚	q4_0 量化质量存疑，复杂任务不可靠
OpenClaw	智能体平台	正面	100+ 技能、slash commands、插件生态	框架吃掉上下文预算（见 5 月 3 日反馈）
Codex	编程智能体	正面	/goal command、云端执行、compaction backend	模型-运行框架耦合增强
Gemini CLI	编程智能体	新兴	Google 集成，技能支持增长	生态不如 Claude/Codex 成熟
TinyFish	智能体 web fetch	正面	免费层、干净 markdown 输出、更低 token 成本	新服务，历史记录有限
MCP	工具协议	正面	智能体-工具连接标准，广泛采用	不是运行时——仍需要运行框架

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
Higgsfield CLI + Marketing Skills	@higgsfield	面向规模化营销创意的智能体技能	创意工作流中的 token 浪费	Skills SDK, Codex/Claude/OpenClaw	已发布	post
PyFlue	@Shashikant86	Flue 智能体运行框架的 Python 移植版	没有等价于 Flue 的 Python 运行框架	Python, LangChain Deep Agents	已发布	post
Hermes Desktop v0.6.0	@DODOREACH	带 Kanban 的 Hermes Agent macOS 桌面 app	不愿用 CLI 的用户需要 GUI 管理智能体	Electron, SSH, Hermes	已发布	post
HermesWorld	@outsource_	Hermes Agent dashboard 的 MMORPG plugin	社区参与和技能发现	Hermes plugin system	已发布	post
RunTrim	@MichelLeoAnt	面向编程智能体的记忆、范围和控制层	缺少跨智能体运行历史和 forbidden-file tracking	CLI, dashboard	已发布	post
AgenC Marketplace Agent Kit	@tetsuoarena	面向 AI 智能体的链上任务市场	分离钱包权限与任务执行	Solana, Claude Code, MCP	Devnet 测试	post
PlugMem	@EmpathYang	使用知识图谱的即插即用记忆模块	智能体跨会话丢记忆	Knowledge graphs, OpenClaw/Claude Code	研究（ICML 2026）	post
Anvia	@indrazulfi	带 Studio 的开源 TypeScript AI 智能体框架	智能体检查和调试	TypeScript, 13 npm packages, MIT	已发布	post
RustyClaw	@webxos	Rust 本地-only 终端智能体运行框架	需要最小化、单二进制智能体运行框架	Rust, Ollama, TUI	已发布	post
Decode MCP Server	@seflless	通过编程智能体生成和编辑 mermaid 图	智能体无法为规划创建视觉图	MCP, Mermaid.js	已发布	post
headless-cli	@RobertTLange	统一无头编程智能体执行界面	运行多个智能体 CLI 需要不同命令	TypeScript, npx	已发布	post
Veritas Kanban v4.1	@BradGroux	带语义搜索的 OpenClaw 任务管理器	多智能体工作的重复检测和上下文注入	OpenClaw, QMD, SQLite	已发布	post

6. 新动态与亮点¶

Shopify 发布官方 Hermes Agent Skill¶

@WesRoth 报道（24 次点赞），Shopify 发布了专用 Hermes Agent skill，可自主管理店铺——产品、库存、订单和履约。值得注意的是，一个大型 commerce 平台选择与开源智能体框架做原生集成，而不是采用专有方案。

Google Remy Agent Tab 出现在 Gemini iOS 改版中¶

@Lentils80 发现（41 次点赞），即将推出的 Gemini app 改版中出现了新的“Agent”tab，展示 Tasks、Skills 和 Schedules 区块——确认 Google 正在 Gemini 内以“Remy”为代号构建持久智能体能力。

Gemini iOS 改版展示 Agent tab，包含 Tasks、Skills 和 Schedules

Anthropic 发布 AI 公司蓝图¶

@VaibhavSisinty 描述（21 次点赞，36 次收藏）了 Anthropic 发布的“AI 公司”建设蓝图，使用 Claude + Google Cloud 的 Agent Stack：“1 位人类 CEO，多个 AI 员工，智能体在彼此之间分工，跨会话长期记忆，一条命令部署到生产。” 其表述是：“2024 年的转变是工具。2025 年的转变是智能体。2026 年的转变是组织架构。”

HeyGen Agent 进入 Superhuman Go¶

@HeyGen 宣布（59 次点赞，33 次引用）与 Superhuman Go 集成，把文字更新转成视频或语音。高引用数值得注意——至少 15 个账号放大了这次发布，说明这是一次协调发布。该集成加入 Canva、Granola 和 RecitalApp，成为 Superhuman Go 内的智能体之一。

展示 In-Context Recursive Self-Improvement¶

@doodlestein 认为（14 次点赞），递归自我改进已经通过自定义智能体 CLI 工具和技能存在：“我让 Claude Code 把它提出的计划拿去和 ntm 一起用，管理 agent swarm 来实施这个计划。” 这个技能创建一个 TUI inspector，智能体用它验证自己的视觉输出，并把改进反馈回技能。

7. 机会在哪里¶

[+++] 智能体记忆与上下文持久层。 多个信号收敛：RunTrim 发布面向编程智能体的记忆/范围/控制。PlugMem 获 ICML 接收。@_overment 指出未解的上下文缓存问题。@EloPhanto 定义了智能体记忆必须证明什么。“无状态智能体会话”和“持久、可审计的智能体工作区”之间的差距，是被最频繁提及的未被满足需求。

[+++] 智能体技能市场与分发。 Higgsfield CLI（526 次点赞，440 次收藏）领跑当天。SkillsBench 达到 1.1K 星标。Autoskills 自动检测并安装技能。Shopify 发布官方 Hermes 技能。“npx skills add”模式正在成为智能体能力的 npm——谁构建发现和质量层，谁就赢。

[++] 智能体治理与安全工具。 Microsoft Agent 365 GA。DeepMind 发布智能体攻击分类。@dipsybitsy 报告有智能体被摩斯电码攻击抽走 200K 美元。@xBalbinus 概括机会：“下一个爆款 AI 产品可能不是更聪明的智能体，而是更安全的智能体。” 企业需求清楚；供给碎片化。

[++] 编译式编排（零成本协调）。 AINL 展示通过编译编排逻辑，而不是每一步都运行 LLM 推理，可降低 71% 成本。随着智能体工作负载增长，“编排税”会成为主导成本。能消除每步推理开销的工具具有结构性成本优势。

[+] 本地模型智能体基础设施。 消费级 GPU 配置（RTX 3060-3090）运行 27B 模型，并以 262K 上下文执行自治编程循环。“技术上可用”和“足够可靠”之间的差距，为自动处理量化取舍、模型选择和质量监控的本地优先智能体工具创造了机会。

[+] 智能体原生 SaaS 基础设施。 @cycle_vega 观察到，每个垂直 SaaS 都在重复构建触发器、会话持久化和 API 编排。一个“智能体基础设施版 Stripe”——标准化触发器、状态管理和工具连接——会抓住这个重复出现的横向层。

8. 要点总结¶

技能层正在吞掉智能体栈。 Higgsfield CLI 的 526 次点赞和 440 次收藏（当天 AI 热门帖第一）加上 Shopify 官方 Hermes 技能表明，可安装、可组合的技能——而不是单体框架——正在成为智能体能力分发的主要单位。(source)
运行框架工程已经进入“无聊基础设施”阶段。 争论已经从“它是什么？”转向“是否应该自动化它的演化？” AHE 论文 77% pass@1 的结果证明自动化运行框架优化有效，而 @nichochar 与 @_colemurray 的分歧说明实践者仍在自建 vs 购买之间摇摆。(source)
上下文工程是新瓶颈，不是模型质量。 @_overment 的详细架构图、@DanIsBuilding 的“从模型到运行框架设计”过渡判断，以及数据集中 12 次“context engineering”短语匹配，都指向上下文管理正在超过模型能力，成为约束条件。(source)
Hermes Agent 生态构建速度快于任何竞争性开源智能体框架。 桌面 app、Shopify 技能、HermesWorld MMORPG 插件、VPS 部署指南和 Kanban 编排，都在同一天发布或启动。社区贡献的广度说明它已经不只是炒作，而是有真实采用。(source)
智能体治理正在从“锦上添花”变成企业要求。 Microsoft Agent 365 GA、DeepMind 的智能体陷阱分类，以及 200K 美元智能体漏洞利用实例，构成了供给（厂商工具）、研究（攻击框架）和需求（真实损失）的三角。治理栈很可能会成为企业智能体部署的必备条件。(source)
本地模型编程智能体可行但尚不可靠。 RTX 3090 上的 Qwen3.5-27B 设置证明了 262K 上下文下的技术可行性，但 q4_0 vs q8_0 争论和 @EdgeDimi 的反驳确认，“它能跑”和“我信任它处理生产代码”之间仍有距离。(source)
智能体市场模式已经从概念走向竞争。 Solana devnet 上的 AgenC、Hermes skills marketplace、Swarms Marketplace、智能体原生黑客松赛道——至少 5 个独立团队正在同时构建智能体工作市场。概念已被验证；问题转向执行和分发。(source)