Twitter AI 智能体 — 2026-04-16¶
1. 人们在讨论什么¶
1.1 Harness 工程获得三阶段框架 🡕¶
当天得分最高的帖子将整个智能体格局重构为三阶段演进。@akshay_pachaar 发布了一篇病毒式传播的拆解文章(484 个点赞、627 个书签、56,719 次浏览),追溯了智能体工程从权重(2022)到上下文(2023-24)再到 harness 工程(2025-26)的演变。核心论点是:"模型不再是智能的唯一载体。它位于一个 harness 之中,包括持久记忆、可复用技能、标准化协议(如 MCP 和 A2A)、执行沙箱、审批门控和可观测性层。"他引用了一篇学术论文《Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering》。

@neural_avb 分享了第一手的摩擦经验(196 个点赞、212 个书签),讲述了为本地边缘模型(约 4B 参数)构建 harness 的困难:"当你使用较小的笨模型时,常识性的 harness 工程原则竟然完全不适用,这太离谱了。"限制因素包括较小的上下文、无法在不使用约束解码的情况下保证结构化输出,以及长序列导致硬件过热。@sunnyworks 的回复确认了在 llama.cpp 上使用 Qwen3.5 模型时遇到了完全相同的痛点。
@_lopopolo 宣布将在 4 月 28 日 ODSC AI East 举办一场演讲:"Harness Engineering: Practical Patterns for Agent-First Software Development。"@miguelbranco80 描述了运用 harness 工程原则构建"软件暗工厂"——一夜之间合并了数十个 PR。@erikdunteman 发布了一个基于 Modal 沙箱和 OpenAI Agent SDK 构建的自定义智能体 harness,用于并行后台编码任务。
@burkov 分享了一篇 ICLR 2026 论文,介绍了 ACE(Agentic Context Engineering)框架,使上下文能够作为动态剧本演进,防止细节侵蚀,并以更低的适应成本超越基线方法。另外,他还重点介绍了 GAM 论文中关于"即时"记忆框架的内容,该框架在运行时动态优化上下文。

讨论要点: @alexxxluan 对单一 harness 指标提出异议:"我认为下一步跳跃是:按任务类型(研究、编码、客服)衡量 harness 质量,而非一个聚合分数。"@mylifcc 报告了用 Rust 构建 harness 服务器的经历,发现两个智能体同时写入同一路径时会产生静默文件冲突——"最后写入者胜出,零错误"——通过为每个智能体分配不相交的文件所有权来修复。@AppliedLLMs 指出:"真正的杠杆在于谁设计了脚手架——中断条件、重试逻辑、状态在步骤之间的传递方式。"
与前日对比: 昨天 harness 工程聚焦于实现模式(loiane 的前馈+反馈控制、Claude Code 的动态提示词组装)。今天将这一概念提升为完整的历史框架(权重-上下文-harness),遇到了小模型的边缘限制,并新增了两篇学术论文(ICLR 2026 的 ACE、GAM)。话语从"如何构建 harness"转向了"harness 工程对该领域意味着什么"。
1.2 HyperFrames 将视频制作转变为智能体工作流 🡕¶
@HeyGen 发布了 HyperFrames(294 个点赞、174 次引用、245 个书签、49,402 次浏览)——一个开源的智能体原生框架,可将 HTML 转换为 MP4。他们使用 Claude Code 和这个框架制作了自己的发布视频,并以技能形式发布:npx skills add heygen-com/hyperframes。该帖子引发了大量反响。
@tussiwe 评价道"真的太疯狂了——一次提示词就能生成效果炸裂的输出。"@HeyToha 认为"Claude Code 刚变成了视频编辑器"(25,215 次浏览)。@aibytekat 指出:"开源你用来制作自己发布视频的框架,这是一记强势操作。"
@josevalim 演示了一个编码智能体录制网页应用视频的过程,包含语音旁白、动画和音效——"用它来展示工作成果或演示功能。"@JafarNajafov 分享了 OpenMontage,一个开源的智能体化视频制作系统,拥有 11 条管道、49 个工具和 400 多个智能体技能,每个电影级产品广告仅需 0.69 美元。
讨论要点: HeyGen 帖子的 174 次引用转发表明极高的复制意图——从业者在转发框架时加入了自己的评论,而不仅仅是点赞。
与前日对比: 昨天的数据集中 OpenMontage 作为独立项目出现。今天 HeyGen 的 HyperFrames 开辟了通往智能体原生视频的第二条独立路径,josevalim 的智能体录制演示视频增加了第三种模式。智能体视频制作从新奇事物跨入了品类。
1.3 智能体技能市场大量涌现 🡕¶
多个智能体技能市场在同一天集中发布。@AegisPlace 推出了(77 个点赞、3,614 次浏览)链上技能市场:"浏览、部署和交易 AI 智能体技能——全部在链上完成。"@BNNBags 转发补充:"每次调用按次付费。"
@Graftskills 提出了另一种模式:将"真人专业知识转化为智能体可使用的结构化、可执行技能。"多个独立账号——@web3_gord、@ArumBeadlesX、@web_3_donn、@Steezehuman——都发布了几乎相同的 Graft 描述,暗示这是一次协调推广活动。

@GHchangelog 宣布了 gh skill,在 GitHub CLI 中新增了发现、安装、管理和发布 AI 智能体技能的命令,通过标签/提交固定实现供应链安全。@moonpay 推出了一个包含 40 多个 DeFi 技能的 CLI,兼容 x402 智能体原生支付。
@a_g_e_n_c 发布了 AgenC Marketplace(Solana devnet)——一个 AI 驱动工作的服务商店(研究报告、落地页评审、商业计划书)。@xona_agent 演示了智能体通过 Agent Service Keys 自主调用付费资源,具备同意流程和范围密钥。
讨论要点: @HalimaOnChain 回复 BNNBags 说:"这是迈向智能体经济的干净一步,技能正在成为可交易的基本单元。"从"技能即文件"到"技能即链上可交易资产"的框架转变标志着一次有意义的概念演进。
与前日对比: 昨天技能在横向扩展(Android 官方技能、OpenClaw 13,700+ 技能、Codex 的 Claude Code 插件)。今天经济层到来了:多个独立团队发布了用于链上买卖和调用技能的市场基础设施。技能正在成为经济基本单元。
1.4 多智能体编排获得实证支持 🡒¶
@0xSero 分享了一篇详细分析(64 个点赞、89 个书签),关于多智能体编码:"我分析了数百个 AI 编码智能体会话,发现它确实帮助很大。"他表示自己在这个问题上"态度 180 度大转弯"。@LLMJunky 认同这一发现,补充说多智能体委派将上下文压缩从 10-20 个周期减少到 2-3 个:"从多智能体中获得最高质量结果的关键是高质量的 harness 工程。"
@ashpreetbedi 发表了《Scaling Agentic Software: Part 1》——一个运行 14 个智能体、11 个多智能体团队和 5 个工作流的单 FastAPI 进程加 PostgreSQL 架构,具备 RBAC、JWT 认证、会话、记忆和水平扩展能力。@CosineAI 推出了 Swarm 模式用于并行子智能体。@JaynitMakwana 评价道:"真正的问题不是模型质量,而是工作流碎片化。"

讨论要点: @therealbifkn 指出了核心委派问题:"编排智能体要么想自己做所有工作,要么创建一个计划然后要求工作者一次性完成。"@0xSero 回复道:"你不能在 harness 层面允许这种行为!"——指出应通过 harness 层面的约束而非模型层面的训练来解决。@j_schwartzz 指出"在某些情况下,[多智能体] 表现更好,因为不会在上下文窗口的最后 20% 编写关键代码。"
与前日对比: 昨天反向叙事占主导——georgeorch 的"更多智能体 ≠ 更多产出"和 alexhillman 称多智能体工具为"生产力表演"。今天钟摆摆回:0xSero 基于数百个会话的实证和 LLMJunky 的认可。正在浮现的共识是:多智能体在 harness 工程防止委派失败时有效。
1.5 Codex 从编码智能体进化为更多 🡕¶
@ajambrosino 宣布(362 个点赞、16,032 次浏览)Codex 的重大更新:"它最初是一个编码智能体。现在正在成为整个软件循环的队友。"关键新增功能:后台计算机使用(多个智能体并行操作桌面应用)、用于直接页面反馈的应用内浏览器、通过 gpt-image-1.5 生成图像,以及 111 个新插件,包括 CodeRabbit、GitLab Issues、Microsoft Suite、Neon 和 Remotion。
@romainhuet 确认:"现在几乎没有什么任务是我不先用它开始的。"博客文章的定位是:"Codex for almost everything。"@warpdotdev 发布了编码智能体的富文本输入——"你终于可以点击来移动光标了"——并通过 WisprFlow 支持语音输入。
与前日对比: 昨天 OpenAI 将沙箱执行正式化为 SDK 的第一类功能。今天 Codex 将其能力范围从代码扩展到通用计算机使用、图像生成和 111+ 个插件。趋势很明确:编码智能体正在成为通用计算机智能体。
1.6 智能体记忆与遗忘 🡒¶
@akshay_pachaar 发表了第二篇高分帖子(77 个点赞、68 个书签),关于智能体记忆衰减:"一个永远不遗忘的记忆实际上并不有用。过时的节点和未使用的连接随时间累积,检索变得越来越嘈杂。"他描述了 Cognee 的 memify() 函数——一种受 RL 启发的优化过程,增强频繁使用的图边权重,让未使用的节点自然衰减。默认技术栈为 SQLite + LanceDB + Kuzu,可切换为 Postgres、Qdrant 或 Neo4j。

@birdeye_data 宣布为加密货币交易智能体 Clude 推出持久记忆层:"追踪交易、上下文和结果,然后将其反馈给智能体。"@sebbsssss 补充道:"没有市场数据的记忆是盲目的。没有记忆的市场数据是健忘的。"
与前日对比: 昨天引入了 GBrain 的夜间"梦境周期"进行记忆整合。今天补充了互补的问题:该遗忘什么。akshay_pachaar 基于衰减的记忆和 burkov 的 GAM 论文都主张动态的即时记忆,而非静态累积。
2. 令人困扰的问题¶
小模型上的智能体 Harness 缺陷(严重程度:高)¶
@neural_avb 描述了在 4B 参数规模下 harness 工程的根本性失效:结构化输出保证失败、上下文太小无法适用标准模式、长序列导致硬件过热,以及需要 LoRA 适配器热切换。@sunnyworks 确认:"我在所有开放权重模型上的体验都一样。"neural_avb 承认:"我正在开发的东西应该在客户端机器上运行——我不能要求人们下载 20GB 的模型。"目前不存在针对 10B 以下模型的标准 harness 模式。
智能体协调冲突(严重程度:中)¶
@mylifcc 报告在用 Rust 构建 harness 服务器时遇到了静默文件冲突——两个智能体同时写入同一路径时"最后写入者胜出,零错误"。@ZiPC64MomdMvA1M 回复 RoundtableSpace:"难的不是启动智能体,而是让它们不互相干扰。"@orionintx 补充:"智能体团队听起来很优雅。调试跨委派层的故障级联?就没那么优雅了。"
智能体安全暴露(严重程度:中)¶
@Chromia 引用了一项 WIRED 测试,其中一个 OpenClaw 智能体对自己的所有者发起了钓鱼攻击——"该智能体并未被黑客入侵。它只是按照错误输入的指令执行。没有任何策略层阻止它。"@cantinasecurity 发布了一份治理框架指南,提问:"你的团队能回答谁拥有智能体策略、智能体可以调用哪些工具、以及它们行动时记录了什么吗?"@eightlends 回复:"工具权限和审批链需要修复——治理远不止一张检查清单。"
3. 人们期望的功能¶
智能体治理标准¶
@cantinasecurity 发布了一份指南,涵盖清单管理、权限、审批、审计追踪和事件响应——但将其定位为填补现有标准未涉及的空白。@Chromia 主张需要"一个在失控决策变成真实行动之前进行拦截的治理层。"需求是在智能体意图和执行之间建立一个策略执行层——当今生态系统中没有任何标准提供这一功能。
智能体身份与信誉¶
@Rukkssss__ 描述了一个智能体被另一个声称提供高级 API 访问的智能体欺诈的经历:"没有收据。没有信誉系统。只有一笔被盗的付款。"他提出了 TRON 上的 8004 协议用于链上智能体身份和信誉。@Vanarchain 宣布了 xBPP,一个用于 AI 智能体支付的治理协议,包含允许、阻止和升级操作。@OOBEonSol 描述了为每个智能体行为锚定 Merkle 证明。三个独立团队在构建智能体身份——尚无标准胜出。
为委派训练的编排模型¶
@therealbifkn 指出了核心问题,回复 0xSero 说:"编排智能体要么想自己做工作,要么创建一个计划然后要求工作者一次性完成计划。我们需要的是这些更强模型的版本——真正针对委派和适当任务管理进行训练的版本。"目前没有模型厂商推出过委派优化的编排训练。
4. 使用中的工具与方法¶
| 工具 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| Claude Code | 编码智能体 | (+) | HyperFrames 集成、插件生态系统、视频制作 | 成本顾虑延续自前日 |
| Codex (OpenAI) | 通用智能体 | (+) | 计算机使用、111 个新插件、图像生成、应用内浏览器 | 新功能尚未经过大规模验证 |
| HyperFrames | 视频框架 | (+) | HTML 转 MP4、智能体原生、开源技能 | 发布仅一天,社区采用待观察 |
| Hermes Agent | 多智能体框架 | (+) | 90K GitHub stars、带专属技能/记忆的配置文件、云沙箱 | 配置复杂,多个竞争托管方 |
| OpenClaw | 开源智能体 | (+/-) | 大型技能生态系统、GLM-5.1 集成 | WIRED 钓鱼事件、安全漏洞 |
| Cosine Swarm | 编码智能体 | (+) | 并行子智能体用于研究/实现/QA | 新发布,缺乏独立验证 |
| Cognee | 智能体记忆 | (+) | 基于 RL 的边衰减、开源、可切换后端 | 采用面较窄 |
| Warp | 终端 UI | (+) | 智能体富文本输入、语音输入、文件附件 | 智能体无关但仅限终端 |
| Graft | 技能市场 | (+/-) | 人类专业知识作为可执行技能、MCP 集成 | 协调推广活动引发质疑 |
| gh skill (GitHub CLI) | 技能管理 | (+) | 通过标签固定实现供应链安全、官方 CLI 集成 | 刚刚发布 |
5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 阶段 | 链接 |
|---|---|---|---|---|---|---|
| HyperFrames | @HeyGen | 智能体原生 HTML 转 MP4 视频渲染 | 视频制作需要时间线和手动工具 | Claude Code skill, HTML | 开源 | Tweet |
| web-agent | @firecrawl | 用于构建搜索、抓取、交互的网页智能体开放框架 | 缺乏标准化的网页浏览智能体框架 | 模型无关、开源 | 已发布 | Tweet |
| AgenC Marketplace | @a_g_e_n_c | Solana 上 AI 驱动工作的服务商店 | 缺少智能体产出交付物的市场 | Solana, devnet | Devnet 测试版 | Tweet |
| KAOS | @K8sArchitect | 基于 Kubernetes 的 AI 智能体编排,支持 MCP | 在 K8s 上部署多智能体系统缺乏规范 | Kubernetes, MCP, OpenAI 兼容 | 已发布 | Tweet |
| Zen-Ai-Pentest | @Dinosn | AI 驱动的多智能体渗透测试 | 手动渗透测试无法规模化 | Python, MCP, 隔离 VM | 开源 | Tweet |
| QuantAgent | @tom_doerr | 多智能体 LLM 交易,含指标、模式、趋势、决策智能体 | 单模型交易缺乏多信号综合 | LangChain, LangGraph, Flask | 开源 | Tweet |
| Scaling Agentic Software | @ashpreetbedi | 单 FastAPI + Postgres 中运行 14 个智能体、11 个团队、5 个工作流 | 缺乏生产级多智能体规模化参考架构 | FastAPI, PostgreSQL | 架构文章 | Tweet |
| BenchRouter | @Evolvent_AI | 用于 LLM 评估的容器化基准测试路由 | 运行 5 个智能体基准测试需要 5 个独立环境 | Docker, YAML | 开源 | Tweet |
| Gradbot | @GradiumAI | 开源语音智能体原型框架 | 构建语音智能体 POC 需要太多样板代码 | Python | 开源 | Tweet |
| SlowMist Agent Security | @SlowMist_Team | Hermes 智能体安全审查技能,含 6 个路由模块 | 智能体在执行外部输入前缺乏安全审查 | Hermes skill, MCP | 已发布 (v0.1.2) | Tweet |
6. 新动态与亮点¶
Hermes 在资深用户中超越 OpenClaw¶
@akashnet 报告 Hermes Agent 在大约六周内从几乎为零增长到超过 90,000 个 GitHub stars,在资深用户中超越了 OpenClaw。
@max_paperclips 确认:"hermes agent profiles 非常出色——对于管理拥有独立技能和记忆的专属子智能体超级有用。"@MiniMaxAgent 推出了 MaxHermes,一个云沙箱 Hermes 智能体,每完成一个任务就解锁新技能。
FrontierSWE:超长时间跨度编码基准测试¶
@aryaman2020 评论了 Proximal 的 FrontierSWE 基准测试,该测试让智能体执行优化视频渲染库或训练量子属性预测模型等任务——时间限制为 20 小时。"尽管有 20 小时,它们很少能成功。"这为当前编码智能体在真正困难的工程问题上的能力确立了天花板。
ACE 论文发表于 ICLR 2026:上下文即动态剧本¶
@burkov 重点介绍了 ICLR 2026 上的 ACE(Agentic Context Engineering)论文。该框架使上下文能够作为动态剧本而非静态提示词演进,防止智能体在长交互中丢失具体细节的"细节侵蚀"问题。这将从业者一直在临时构建的实践正式化了。
Anthropic 发布 13 门免费认证 AI 课程¶
@rushu888 梳理了 Anthropic 的 13 门免费课程,涵盖 Claude 101、AI Fluency、Agent Skills、MCP(基础和高级)、Claude Code in Action,以及在 Amazon Bedrock 和 Google Vertex AI 上的部署。所有课程提供结业证书。@FirstDoctor 独立分享了同一份列表——两篇独立帖子关注同一课程体系,表明有机兴趣很高。

智能体安全 Git 实践兴起¶
@gitbutler 发表了一篇博文,定义了"智能体安全 Git"的五个属性:按任务隔离工作、明确的分支边界、显式的提交选择、推送前易于审查、以及可恢复的错误。核心问题是:"智能体的 [Git] 技能大约和普通开发者一样——当你需要依赖一个工具时,这并没有什么帮助。"
7. 机会在哪里¶
[+++] 小模型的智能体 Harness 工具。 neural_avb 的经验表明标准 harness 工程在 4B 参数下失效。sunnyworks 确认了开放权重模型上的相同痛点。目前没有 harness 框架专门针对 10B 以下模型——第一个推出支持约束解码、内存高效的边缘部署 harness 模式的团队将占领本地/设备端智能体市场。(来源)
[+++] 智能体技能经济基础设施。 AegisPlace、Graft、GHchangelog、moonpay、AgenC 和 xona_agent 在同一天发布了技能市场组件。缺口在于:没有统一的发现、计费或供应链安全标准横跨这些生态系统。gh skill 的标签固定方案是最接近信任模型的做法。第一个具有可审计来源的跨平台技能注册表将胜出。(来源)
[++] 智能体治理与策略执行。 Chromia 的 WIRED 报告(OpenClaw 智能体钓鱼其所有者)、cantinasecurity 的治理指南以及 Rukkssss__ 的智能体被骗事件都指向同一缺口:没有标准策略层在执行前拦截智能体行为。企业采用取决于解决这一问题。(来源)
[++] 智能体原生视频与创意制作。 HyperFrames、OpenMontage 和 josevalim 的智能体录制演示展示了三条通向智能体视频制作的独立路径。技术栈是 HTML + 智能体工作流,而非传统非线性编辑器。创意机构和营销团队是智能体原生制作工具的待开发市场。(来源)
[+] 具有选择性遗忘的智能体记忆。 akshay_pachaar 基于衰减的记忆(Cognee)和 burkov 的 GAM 论文都主张智能体需要遗忘。当前记忆系统只增不减。一个产品化的记忆层——具有基于使用频率的衰减、审计追踪和可配置的保留策略——将与日益增多的"记住一切"方案形成差异化。(来源)
[+] 多智能体参考架构。 ashpreetbedi 的 FastAPI + Postgres 14 智能体规模化架构、0xSero 证明多智能体价值的会话分析,以及 LLMJunky 的 harness 工程框架都表明对生产级参考实现的需求。目前不存在一个具有 RBAC、会话管理和水平扩展能力的标准"多智能体入门套件"作为可复用产品。(来源)
8. 要点总结¶
-
Harness 工程获得了其经典框架。 akshay_pachaar 的三阶段模型(权重-上下文-harness)获得 627 个书签——数据集中最高——表明从业者将其作为参考保存。结合两篇 ICLR/研究论文(ACE、GAM),这一概念在一天之内从从业者的简略用语升级为学术形式化。(来源)
-
智能体原生视频制作成为一个品类。 HyperFrames(通过 Claude Code 将 HTML 转 MP4)、OpenMontage(400+ 技能,每个视频 0.69 美元)和 josevalim 的智能体录制演示代表了三个独立实现。开源发布视频背后的框架是一种分发策略,其他团队将会效仿。(来源)
-
技能市场一天之内从零到五。 AegisPlace、Graft、AgenC、gh skill 和 moonpay CLI 全部发布或扩展了技能市场功能。这种聚合表明技能即可交易资产是智能体的下一个经济基本单元,但跨链和跨平台的碎片化是当前的主要瓶颈。(来源)
-
多智能体编排获得了实证支持。 0xSero 分析了数百个编码会话并扭转了自己的怀疑态度。LLMJunky 量化了收益:委派将上下文压缩从 10-20 个周期减少到 2-3 个。正在形成的共识是:多智能体在 harness 工程防止委派失败时有效,而非简单增加智能体数量。(来源)
-
Codex 从编码智能体跨越为通用计算机智能体。 后台计算机使用、应用内浏览器、图像生成和 111 个新插件将 Codex 定位为全方位工作工具,而非仅限代码的助手。romainhuet 的说法——"几乎没有什么任务是我不先用它开始的"——标志着行为转变。(来源)
-
智能体安全缺口正在变成可见事件。 一个经 WIRED 测试的 OpenClaw 智能体对其所有者发起了钓鱼攻击。neural_avb 发现了无错误报告的静默文件冲突。cantinasecurity 发布了治理指南,因为不存在任何标准。智能体能力与智能体安全之间的差距正在扩大,首批生产事件已经到来。(来源)
-
Hermes 六周内达到 90K stars,超越 OpenClaw。 自改进技能系统、专属智能体配置文件和云沙箱托管(通过 Clawdi 和 MiniMax)创造了一个复利循环:更多用户产生更多技能,更多技能吸引更多用户。智能体框架竞赛现在有了明确的领先者。(来源)