Twitter AI 智能体 - 2026-04-16¶

1. 人们在讨论什么¶

1.1 Harness Engineering 获得三阶段框架 🡕¶

当天得分最高的帖子，把整个智能体版图重新表述为三阶段演化。@akshay_pachaar 发布了一条病毒式拆解（484 个点赞、627 次收藏、56,719 次浏览），追溯智能体工程从 weights（2022）到 context（2023-24），再到 harness engineering（2025-26）的演进。核心论点是：“模型不再是智能唯一所在的位置。它位于一个 harness 之中，里面包含持久记忆、可复用技能、标准化协议（如 MCP 和 A2A）、执行沙箱、审批门，以及可观测性层。”他还链接到一篇学术论文，题为 “Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering”。

展示智能体工程从 weights 到 context 再到 harness engineering 三阶段演化的图

@neural_avb 报告了自己在构建 harness 时遇到的一线摩擦（196 个点赞、212 次收藏），对象是本地边缘模型（约 4B 参数）：“当你面对更小、更笨的模型时，很多常识性的 harness engineering 原则居然完全不适用，这太离谱了。”约束包括上下文更小、没有 constrained decoding 就无法保证结构化输出，以及长序列会导致硬件过热。@sunnyworks 在回复中确认，自己用 llama.cpp 跑 Qwen3.5 模型时遇到了同样痛点。

@_lopopolo 宣布将在 4 月 28 日的 ODSC AI East 举办一场 “Harness Engineering: Practical Patterns for Agent-First Software Development” 分享。@miguelbranco80 描述自己正在构建一座应用 harness engineering 原则的“软件黑灯工厂”——它一夜之间合并了几十个 PR。@erikdunteman 发布了一个用于并行后台编码任务的自定义智能体 harness，基于 Modal sandboxes 和 OpenAI Agent SDK。

@burkov 分享了一篇 ICLR 2026 论文，介绍 ACE（Agentic Context Engineering）：这个框架让上下文像动态 playbook 一样演化，防止细节流失，并以更低的适配成本超过 baseline。另一个独立帖子中，他还强调了 GAM 论文提出的 “just-in-time” 记忆框架，它会在运行时动态优化上下文。

ACE 论文概览，展示用于动态 playbook 演化的 Agentic Context Engineering 框架

讨论要点： @alexxxluan 反对单一化的 harness 指标：“我认为下一跳是：按任务类型（研究、编码、支持）衡量 harness 质量，而不是一个汇总分数。”@mylifcc 报告自己用 Rust 构建了一个 harness server，并发现两个智能体并发写同一路径时会出现静默文件冲突——“最后写入者获胜，零错误”——最终靠给每个智能体分配互不重叠的文件所有权修复。@AppliedLLMs 指出：“真正的杠杆在于谁设计了脚手架——中断条件、重试逻辑，以及状态在步骤之间传递的方式。”

与前日对比： 昨天，harness engineering 主要集中在实现模式上（loiane 的 feedforward+feedback 控制、Claude Code 的动态提示词组装）。今天，这个概念被提升为完整的历史框架（weights-context-harness），同时遇到了小模型上的边界情况限制，并新增了两篇学术论文（ICLR 2026 的 ACE、GAM）。讨论从“如何构建 harness”转向“harness engineering 对整个领域意味着什么”。

1.2 HyperFrames 把视频制作变成智能体工作流 🡕¶

@HeyGen 宣布 HyperFrames（294 个点赞、174 次引用、245 次收藏、49,402 次浏览）——一个开源、agent-native 的框架，可将 HTML 转为 MP4。他们用 Claude Code 和这个框架构建了自己的发布视频，并将其作为 skill 发布：npx skills add heygen-com/hyperframes。这条帖子引发了一波反应。

@tussiwe 称它 “真的离谱——一次性提示词就能出真正有冲击力的结果。”@HeyToha 把它描述为 “Claude Code 刚刚变成了视频编辑器”（25,215 次浏览）。@aibytekat 指出：“把你用来制作自己发布视频的精确框架开源，是一步强势操作。”

@josevalim 演示了一个编程智能体录制 Web app 视频的流程，包含语音旁白、动画和音效——“用它来证明工作成果，或者展示一个功能。”@JafarNajafov 分享了 OpenMontage，这是一个开源智能体式视频制作系统，包含 11 条 pipeline、49 个工具和 400+ 个智能体技能，可以以每条 0.69 美元的成本生成电影感产品广告。

讨论要点： HeyGen 帖子的 174 次引用推文说明复制意图很高——从业者不是只点赞，而是在带着自己的评论分享这个框架。

与前日对比： 昨天的数据集中，OpenMontage 还是一个独立项目。今天，HeyGen 的 HyperFrames 为 agent-native 视频提供了第二条独立路径，而 josevalim 的智能体录制 demo 视频又补上了第三种模式。智能体视频制作已经从新奇点子跨入一个品类。

1.3 智能体技能市场迅速增多 🡕¶

多个智能体技能市场在同一天集中发布。@AegisPlace 上线（77 个点赞、3,614 次浏览）了一个链上技能市场：“浏览、部署并交易 AI agent skills——全部在链上完成。”@BNNBags 放大了这个信息：“每次调用按次付费。”

@Graftskills 提出另一种模式：把“真实人类专业能力变成结构化、可执行、可供智能体使用的技能”。多个独立账号——@web3_gord、@ArumBeadlesX、@web_3_donn、@Steezehuman——都发布了几乎相同的 Graft 描述，显示这更像一次协调式推广。

Clawpump 智能体市场，展示 DeFi Hopper Bunny 资料页、技能、收益以及第一笔智能体拍卖交易

@GHchangelog 宣布 gh skill，为 GitHub CLI 增加命令，可从 GitHub repos 中发现、安装、管理和发布 AI agent skills，并通过 tag/commit pinning 提供供应链安全。@moonpay 发布了一个 CLI，内置 40+ 个 DeFi skills，并兼容 x402，可用于 agent-native payments。

@a_g_e_n_c 发布 Solana devnet 上的 AgenC Marketplace——一个面向 AI-powered work 的服务店面（研究报告、落地页审查、pitch decks）。@xona_agent 演示智能体如何通过 Agent Service Keys 自主调用付费资源，并带有 consent flow 和 scoped keys。

讨论要点： @HalimaOnChain 回复 BNNBags：“这是迈向智能体经济的清晰一步，技能正在变成可交易的基础单元。”从“技能是文件”到“技能是可交易的链上资产”，这一 framing 转变标志着有意义的概念演进。

与前日对比： 昨天，skills 横向扩展（Android 官方 skills、OpenClaw 的 13,700+ skills、Claude Code 的 Codex plugin）。今天，经济层到来了：多个独立团队发布了用于购买、出售和链上调用技能的市场基础设施。Skills 正在成为经济 primitives。

1.4 多智能体编排获得证据 🡒¶

@0xSero 分享了一份详细分析（64 个点赞、89 次收藏），主题是多智能体编码：“我分析了数百次 AI 编程智能体会话，发现它确实很有帮助。”他指出自己对这个话题已经“180 度转向”。@LLMJunky 认可这个发现，并补充说多智能体委派能把 context compaction 从 10-20 个 cycles 降到 2-3 个：“想让多智能体拿到最高质量结果，关键是高质量的 harness engineering。”

@ashpreetbedi 发布 “Scaling Agentic Software: Part 1”——一个 FastAPI 单进程配合 PostgreSQL，运行 14 个智能体、11 个多智能体团队和 5 个 workflows，包含 RBAC、JWT auth、sessions、memory 和水平扩展。@CosineAI 发布了用于并行 subagents 的 Swarm mode。@JaynitMakwana 称赞它：“真正的问题不是模型质量，而是工作流碎片化。”

架构图，展示使用 FastAPI 和 PostgreSQL 构建可水平扩展的智能体式软件多智能体系统

讨论要点： @therealbifkn 指出了核心委派问题：“编排智能体要么想亲自把活干完，要么先列一个计划，再让工作智能体一次性执行完整个计划。”@0xSero 回复：“你不能让它在 harness 层上这么做！”——这把修复路径指向 harness-level 约束，而不是 model-level 训练。@j_schwartzz 指出，“在某些情况下，[multi-agent] 表现更好，是因为不会在上下文窗口最后 20% 的位置写关键代码。”

与前日对比： 昨天，反向叙事占主导——georgeorch 的 “智能体更多 != 产出更多” 和 alexhillman 称 multi-agent tools 是“假装高效”。今天，摆锤又被 0xSero 对数百个 session 的证据和 LLMJunky 的背书推了回来。正在形成的细分共识是：当 harness engineering 能防止委派失败时，多智能体才有效。

1.5 Codex 超越编码智能体 🡕¶

@ajambrosino 宣布（362 个点赞、16,032 次浏览）Codex 的一次重大更新：“它最初是一个编程智能体。现在正变成覆盖整个软件循环的队友。”关键新增项包括：background computer use（多个智能体并行操作 desktop apps）、用于直接页面反馈的 in-app browser、通过 gpt-image-1.5 生成图像，以及 111 个新 plugins，包括 CodeRabbit、GitLab Issues、Microsoft Suite、Neon 和 Remotion。

@romainhuet 确认：“现在我几乎没有一个任务不是从它开始。”博客帖子的 framing 是：“几乎什么都能用 Codex 来做。”@warpdotdev 发布了面向 coding agents 的富文本输入——“你终于可以点击来移动光标了”——并通过 WisprFlow 支持语音输入。

与前日对比： 昨天，OpenAI 把 sandbox execution 正式化为一等 SDK feature。今天，Codex 把覆盖面从代码扩展到通用 computer use、图像生成和 111+ 个 plugins。轨迹很清晰：coding agents 正在变成通用 computer agents。

1.6 智能体记忆与遗忘 🡒¶

@akshay_pachaar 发布了第二条高分帖子（77 个点赞、68 次收藏），讨论智能体记忆衰减：“永不遗忘的记忆其实并不好用。陈旧节点和未使用连接会随着时间堆积，检索也会变得更吵。”他描述了 Cognee 的 memify() 函数——一个受 RL 启发的优化 pass，会强化高频使用的图边，并让未使用节点衰减。默认栈是 SQLite + LanceDB + Kuzu，可替换为 Postgres、Qdrant 或 Neo4j。

展示 Cognee 中智能体记忆衰减和受 RL 启发的图优化的图

@birdeye_data 宣布为加密交易智能体 Clude 增加持久记忆层：“跟踪交易、上下文和结果，然后反馈给智能体。”@sebbsssss 补充：“没有市场数据的记忆是盲的。没有记忆的市场数据是健忘的。”

与前日对比： 昨天，GBrain 引入了用于记忆整合的夜间 “dream cycle”。今天补上了互补问题：该忘记什么。akshay_pachaar 基于衰减的记忆和 burkov 的 GAM 论文都主张，智能体需要动态、just-in-time 的记忆，而不是静态堆积。

2. 令人困扰的问题¶

小模型上的智能体 Harness 缺口（Severity: High）¶

@neural_avb 描述了 4B 参数规模下 harness engineering 的根本性失效：结构化输出保证失败、上下文太小无法套用标准模式、长序列让硬件过热，并且 LoRA adapter hotswapping 变得必要。@sunnyworks 确认：“我在所有开放权重模型上都是同样体验。”neural_avb 承认：“我现在做的东西本来就应该跑在客户端机器上——我不能要求大家下载 20gb models。”目前没有面向 sub-10B models 的标准 harness patterns。

智能体协调冲突（Severity: Medium）¶

@mylifcc 报告自己构建 Rust harness server 时遇到静默文件冲突：两个智能体并发写同一路径时，“最后写入者获胜，零错误”。@ZiPC64MomdMvA1M 回复 RoundtableSpace：“难点不是拉起 agents，而是让它们别互相踩脚。”@orionintx 补充：“Agent teams 听起来优雅。跨委派层调试 failure cascades？就没那么优雅了。”

智能体安全暴露（Severity: Medium）¶

@Chromia 引用了一次 WIRED 测试，其中一个 OpenClaw 智能体对自己的所有者发起了钓鱼攻击——“这个智能体没有被黑。它只是听从了错误输入中的指令。没有策略层拦住它。”@cantinasecurity 发布了一份治理框架指南，并追问：“你的团队能回答谁负责智能体策略、智能体能调用哪些工具，以及它们行动时会记录什么吗？”@eightlends 回复：“工具权限和审批链需要修——治理远不只是检查清单。”

3. 人们期望的功能¶

智能体治理标准¶

@cantinasecurity 发布了一份指南，覆盖资产清单、权限、审批、审计轨迹和事件响应——但它的定位是在填补一个没有标准覆盖的缺口。@Chromia 主张需要“一个治理层，在失控决策变成真实动作之前把它们拦下来”。需求是一个位于智能体意图与执行之间的策略执行层——今天的生态里还没有任何标准化方案。

智能体身份与声誉¶

@Rukkssss__ 描述了一个智能体被另一个声称提供高级 API 访问权限的智能体诈骗的案例：“没有收据。没有声誉系统。只有一笔被偷走的付款。”他提出在 TRON 上用 8004 协议做链上智能体身份和声誉。@Vanarchain 宣布 xBPP，这是一个面向 AI 智能体支付的治理协议，包含 Allow、Block 和 Escalate 动作。@OOBEonSol 描述为每个智能体动作做 Merkle proof anchoring。三个独立团队都在构建智能体身份——还没有标准胜出。

为委派训练过的 Orchestrator Models¶

@therealbifkn 在回复 0xSero 时指出核心问题：“编排智能体要么想自己把活干完，要么列一个计划，再让工作智能体一次性执行完。我们需要的是某些更聪明模型的版本，它们真的接受过委派和规范任务管理方面的训练。”还没有模型供应商发布过 delegation-optimized 的 orchestrator training。

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
Claude Code	Coding agent	(+)	HyperFrames 集成、plugin 生态、视频制作	前日的成本担忧仍在
Codex (OpenAI)	General agent	(+)	Computer use、111 个新 plugins、image gen、in-app browser	新能力还未经过大规模验证
HyperFrames	Video framework	(+)	HTML 转 MP4、agent-native、开源 skill	单日发布，社区采用仍待观察
Hermes Agent	Multi-agent framework	(+)	90K GitHub stars、带专属 skills/memories 的 profiles、cloud sandbox	设置复杂，多个 competing hosts
OpenClaw	Open-source agent	(+/-)	大型 skill 生态、GLM-5.1 集成	WIRED phishing incident、安全缺口
Cosine Swarm	Coding agent	(+)	用于 research/implementation/QA 的并行 subagents	新发布，独立验证有限
Cognee	Agent memory	(+)	基于 RL 的 edge decay、开源、可替换后端	采用范围较窄
Warp	Terminal UI	(+)	面向 agents 的富文本输入、语音输入、文件附件	Agent-agnostic，但仅限 terminal
Graft	Skill marketplace	(+/-)	把人类专业能力变成可执行 skills、MCP 集成	协调式推广活动引发疑问
gh skill (GitHub CLI)	Skill management	(+)	通过 tag pinning 提供供应链安全、官方 CLI 集成	刚宣布

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
HyperFrames	@HeyGen	Agent-native HTML 到 MP4 视频渲染	视频制作依赖 timelines 和手动工具	Claude Code skill, HTML	Open-source	Tweet
web-agent	@firecrawl	用于构建可搜索、抓取、交互的 Web agents 的开源框架	缺少 Web-browsing agents 的标准框架	Model-agnostic, open-source	Released	Tweet
AgenC Marketplace	@a_g_e_n_c	Solana 上 AI-powered work 的服务店面	缺少 agent-produced deliverables 的市场	Solana, devnet	Devnet beta	Tweet
KAOS	@K8sArchitect	带 MCP 的 Kubernetes-native AI agent orchestration	在 K8s 上部署 multi-agent systems 很 ad-hoc	Kubernetes, MCP, OpenAI-compatible	Released	Tweet
Zen-Ai-Pentest	@Dinosn	使用 multi-agent system 的 AI-powered pentesting	手工 pentesting 无法扩展	Python, MCP, isolated VMs	Open-source	Tweet
QuantAgent	@tom_doerr	由 indicator、pattern、trend、decision agents 组成的多智能体 LLM 交易系统	单模型交易缺少多信号综合	LangChain, LangGraph, Flask	Open-source	Tweet
Scaling Agentic Software	@ashpreetbedi	单个 FastAPI + Postgres 中的 14 个 agents、11 个 teams、5 个 workflows	缺少生产级 multi-agent scale 参考架构	FastAPI, PostgreSQL	Architecture post	Tweet
BenchRouter	@Evolvent_AI	面向 LLM evaluation 的容器化 benchmark routing	跑 5 个 agent benchmarks 需要 5 套独立环境	Docker, YAML	Open-source	Tweet
Gradbot	@GradiumAI	开源 voice agent prototyping framework	构建 voice agent POCs 需要太多 boilerplate	Python	Open-source	Tweet
SlowMist Agent Security	@SlowMist_Team	带 6 个 routing modules 的 Hermes agents 安全审查 skill	Agents 在执行外部输入前缺少 security review	Hermes skill, MCP	Released (v0.1.2)	Tweet

6. 新动态与亮点¶

Hermes 在 Power Users 中超过 OpenClaw¶

@akashnet 报告，Hermes Agent 在约六周内从接近 0 增长到超过 90,000 个 GitHub stars，在 power users 中超过 OpenClaw，成为排名第一的 agent。

图表显示 Hermes Agent 在 power users 中 GitHub stars 超过 OpenClaw @max_paperclips 确认：“Hermes 的 agent profiles 真的非常好——管理带有各自 skills 和 memories 的专属 subagents 特别有用。”@MiniMaxAgent 发布 MaxHermes，这是一个 cloud sandbox Hermes agent，每完成一个任务就解锁新 skills。

FrontierSWE：超长周期编码基准¶

@aryaman2020 评论 Proximal 的 FrontierSWE benchmark，该基准测试 agents 处理优化视频渲染库、训练量子性质预测模型等任务，时间限制长达 20 小时。“即使有 20 小时，它们也很少成功。”这为当前 coding agent 在真正困难工程问题上的能力设下了上限。

ICLR 2026 的 ACE 论文：上下文作为动态 Playbooks¶

@burkov 强调了 ICLR 2026 的 ACE（Agentic Context Engineering）论文。该框架让上下文像动态 playbooks 一样演化，而不是静态 prompts，从而防止 agents 在长交互中丢失具体性这一 “detail erosion” 问题。这把从业者一直在 ad hoc 构建的东西正式化了。

Anthropic 发布 13 门免费认证 AI 课程¶

@rushu888 整理了 Anthropic 的 13 门免费课程，覆盖 Claude 101、AI Fluency、Agent Skills、MCP（基础和高级）、Claude Code in Action，以及在 Amazon Bedrock 和 Google Vertex AI 上部署。所有课程都提供完成证书。@FirstDoctor 独立分享了同一份列表——同一课程体系出现两条独立帖子，说明有较高的 organic interest。

Anthropic Academy 信息图，展示覆盖基础、开发者、教育者和专项 tracks 的 13 门免费 Claude AI 认证课程

Agent-Safe Git 成为一种实践¶

@gitbutler 发布了一篇定义 “agent-safe Git” 的博客，列出五个属性：按任务隔离工作、清晰的 branch boundaries、显式 commit selection、push 前易于审查，以及错误可恢复。核心问题是：“智能体的 [Git] 技能大约和普通开发者差不多——当你真要依赖这个工具时，这并不帮忙。”

7. 机会在哪里¶

[+++] 面向小模型的 Agent Harness Tooling。 neural_avb 的经历显示，标准 harness engineering 在 4B 参数下会失效。sunnyworks 确认开放权重模型上也有同样痛点。还没有 harness framework 专门面向 sub-10B models——第一个发布 constrained-decoding-aware、memory-efficient harness patterns 用于 edge deployment 的团队，会抓住本地/on-device agent 市场。(source)

[+++] 智能体技能经济基础设施。 AegisPlace、Graft、GHchangelog、moonpay、AgenC 和 xona_agent 都在同一天发布了 skill marketplace components。缺口是：还没有统一的 discovery、billing 或 supply chain security 标准能跨这些生态。gh skill 的 tag-pinning 方法最接近 trust model。第一个带可审计 provenance 的跨平台 skill registry 会胜出。(source)

[++] 智能体治理与策略执行。 Chromia 的 WIRED 报告（OpenClaw agent 钓鱼自己的 owner）、cantinasecurity 的治理指南，以及 Rukkssss__ 的智能体被骗故事，都指向同一个缺口：没有标准 policy layer 在执行前拦截 agent actions。企业采用取决于能否解决这个问题。(source)

[++] Agent-Native 视频与创意制作。 HyperFrames、OpenMontage 和 josevalim 的智能体录制 demos 展示了通往智能体视频制作的三条独立路径。这个 stack 是 HTML + agent workflows，而不是传统 NLE。创意机构和营销团队是 agent-native production tools 尚未充分服务的市场。(source)

[+] 带选择性遗忘的智能体记忆。 akshay_pachaar 基于衰减的记忆（Cognee）和 burkov 的 GAM 论文都认为 agents 需要遗忘。当前记忆系统只会增长。一个产品化的记忆层，如果具备 usage-weighted decay、audit trails 和可配置 retention policies，将能从越来越多“记住一切”的方案中区分出来。(source)

[+] 多智能体参考架构。 ashpreetbedi 的 FastAPI + Postgres 架构可让 14 个 agents 规模化运行，0xSero 的 session analysis 证明 multi-agent 价值，LLMJunky 又把它归因于 harness engineering；这些都说明市场需要 production-grade reference implementations。还没有带 RBAC、session management 和 horizontal scaling 的标准 “multi-agent starter kit” 可作为可复用产品。(source)

8. 要点总结¶

Harness engineering 获得了它的 canonical framework。 akshay_pachaar 的三阶段模型（weights-context-harness）获得 627 次收藏——是数据集中最高——说明从业者正在把它保存为参考。加上两篇 ICLR/research papers（ACE、GAM），这个概念在一天之内从从业者 shorthand 走向学术正式化。(source)
Agent-native 视频制作成为一个品类。 HyperFrames（通过 Claude Code 将 HTML 转 MP4）、OpenMontage（400+ skills、0.69 美元/视频）和 josevalim 的智能体录制 demos 构成三种独立实现。把发布视频背后的框架开源，是其他团队会复制的分发策略。(source)
技能市场在一天内从零走到五个。 AegisPlace、Graft、AgenC、gh skill 和 moonpay CLI 都发布或扩展了 skill marketplace features。它们的集中出现说明 skills-as-tradable-assets 正在成为智能体的下一个经济 primitive，但跨链和跨平台碎片化是眼前瓶颈。(source)
多智能体编排获得了实证证据。 0xSero 分析了数百个 coding sessions，并逆转了自己的怀疑。LLMJunky 量化了收益：委派把 context compaction 从 10-20 个 cycles 降到 2-3 个。新共识是：multi-agent 只有在 harness engineering 防止委派失败时才有效，而不是靠简单增加 agents。(source)
Codex 从 coding agent 跨到 general computer agent。 Background computer use、in-app browser、image generation 和 111 个新 plugins，把 Codex 定位为全谱工作工具，而不是只写代码的助手。romainhuet 的说法——“现在我几乎没有一个任务不是从它开始”——说明行为变化已经出现。(source)
智能体安全缺口正在变成可见事件。 一次 WIRED 测试中的 OpenClaw agent 对自己的 owner 发起了 phishing attack。neural_avb 发现静默文件冲突且没有错误报告。cantinasecurity 发布治理指南，因为标准并不存在。智能体能力和智能体安全之间的差距正在扩大，第一批生产事故已经到来。(source)
Hermes 六周内达到 90K stars，超过 OpenClaw。 自我改进 skill system、专属 agent profiles 和 cloud sandbox hosting（通过 Clawdi 和 MiniMax）形成了复合循环：更多用户生成更多 skills，而更多 skills 又吸引更多用户。智能体框架竞赛现在有了明确领先者。(source)