Twitter AI Agent - 2026-05-23¶

1. 人们在讨论什么¶

1.1 运行框架工程的话题，已从成本抱怨转向具体的仓库基础设施 🡕¶

5 月 23 日最强的一组讨论，延续了 5 月 22 日关于运行框架和上下文的争论，但已经从“上下文很贵”推进到了人们可以安装、做基准测试、拿来教学的具体工件。支撑这一点的有 7 条保留样本：一个高互动的运行框架实验、一张把提示词 / 上下文 / 运行框架角色拆开的示意图、一个代码图谱产品、一项 AGENTS.md 研究、一份仓库级代码图基准测试、一个浏览器运行框架演示，以及一篇会自我演化的运行框架论文。

@_vmlops 认为（397 次点赞、5 条回复、24,034 次浏览、597 次收藏），Anthropic 保持模型和提示词不变，只改变了模型外围环境：没有运行框架时，成本是 $9、耗时 20 分钟，输出基本不可用；而完整运行框架时，成本涨到 $200、耗时 6 小时，却能产出一个真正可玩的结果。真正有辨识度的不是价格标签，而是那张清单：工具使用前先给指令、持久状态、验证闸口、限定作用范围，以及清晰的会话生命周期。

@akshay_pachaar 写道（367 次点赞、22 条回复、34,564 次浏览、564 次收藏），提示工程讲的是“消息”，上下文工程讲的是“记忆”，而运行框架工程则是包裹“收集 / 执行 / 验证”闭环的“机器”。配图把这种区别画得足够直观，以至于回复区把它当成了共享词汇，而不只是又一个口号。

把提示工程、上下文工程和运行框架工程拆成消息、记忆与机器三层的示意图

@Saboo_Shubham_ 发帖（63 次点赞、13 条回复、4,975 次浏览、135 次收藏）称，Understand Anything 能把代码库变成一个可供智能体查询的交互式图谱，而不必反复重读文件。Understand Anything 网站写道，它增加了业务领域视图、导览、模糊与语义搜索，以及面向 Claude Code、Codex、OpenCode、Gemini CLI 等工具的快速安装；来自 @SynabunAI 的一条回复则警告说，图谱只和上一次索引一样新，因此过期边可能会让智能体对已经删除的代码信心满满地推理。

Understand Anything 把代码库变成交互式图谱，并提供领域标签与引导式探索

@IntuitMachine 声称（5 次点赞、2 条回复、266 次浏览、11 次收藏），只加一个根目录级 AGENTS.md，就能让 124 个 pull request 的中位运行时下降 28.64%，输出 token 下降 16.58%；arXiv 摘要也确认了这组跨 10 个仓库的结果。与此同时，@BeauJohnson89 强调了 CodeGraph，其 README 称，预索引的本地图谱在 7 个代码库上把成本降了 35%、token 降了 59%、时间降了 49%、工具调用降了 70%；而 @TheDawningRoad 分享（6 次点赞、6 次转发、37 次浏览）了 AHE 论文，把运行框架改进描述为一个围绕组件、经验和决策的可观测闭环。

讨论要点： 最有价值的反驳不是“少用点上下文”，而是“让上下文更新鲜、也更可追溯”。图谱帖子下的回复希望能有持久任务状态，并警告说，过期索引有时比没有索引还糟。

与前日对比： 5 月 22 日聚焦的是 token 预算、长上下文经济性和运行框架分类。5 月 23 日保留了这种框架，但明显转向了仓库级修补：代码图谱、AGENTS.md，以及会自我演化的运行框架。

1.2 技能文件已经变成一层软件，也成了安全边界 🡕¶

第二组讨论把 SKILL.md、AGENTS.md 及其相邻的指令文件，当成真正的软件工件，而不是藏起来的提示词碎片。支撑这一点的有 5 条内容：一个被广泛转发的“不要从互联网上下载技能”警告、一项 AGENTS.md 效率研究、一个能从专家公开语料里生成智能体指令文件的工具、一套新的智能体技能课程，以及一股持续推动这些文件保持显式、可版本化，而不是隐式存在的趋势。

@AlexFinn 警告（289 次点赞、46 条回复、9,768 次浏览、150 次收藏），不要从互联网上下载智能体技能，因为公开技能目录正在变成提示词注入攻击面。真正让这条讨论变得更有用的，是回复区：@Trish_DIntel 回复说，就连让智能体去检查恶意技能本身都不安全，因为恶意负载一进入上下文窗口，风险就已经发生；@TulioSousapro 则认为，更安全的版本只能是人先手工审查，再把单独整理出的描述交给模型。

@DanKornas 介绍（7 次点赞、252 次浏览、12 次收藏）了 mimeo，这是一款 Python 工具，能把某位专家公开发表的内容变成可直接使用的 SKILL.md 或 AGENTS.md。仓库写道，它会发现来源、抓取访谈与文章、聚类反复出现的观点、拿原文校验引语，并在输出工件前再跑一轮批判性检查。

mimeo 流程截图，展示专家来源发现、聚类、引语校验，以及 SKILL.md 或 AGENTS.md 生成

@IntuitMachine 借着（5 次点赞、2 条回复、266 次浏览、11 次收藏）这篇新的 AGENTS.md 论文强调，更好的仓库指令比继续折腾提示词更有效；与此同时，@omarsar0 发布（97 次点赞、6 条回复、8,484 次浏览、123 次收藏）了新的 DAIR Agentic Engineering 实验室，其首个公开模块就是《Build Your First Agent Skill》。这组组合之所以重要，是因为人们不只是在交付技能文件，也在教它们、量化它们。

讨论要点： 争论点已经不是指令文件有没有用，而是摄入路径安不安全。当天最强的回复默认这些工件会长期存在，因此重点转向：如何在不把敌对指令交给智能体的前提下，去编写、审核和版本化这些文件。

与前日对比： 5 月 22 日强调的是官方厂商技能包和可安装知识包。5 月 23 日则把范围扩展到了安全导入、自动化编写，以及可衡量的仓库级指令文件。

1.3 持久记忆和多智能体控制室变得更可见了 🡕¶

第三个强信号簇，关心的不是单纯给智能体加更多记忆，而是如何让长寿命的智能体系统变得可见、可操作。支撑它的有 5 条内容：带语音的 GBrain 发布、一个带类型的记忆架构讲解、一个“记住 / 引用 / 遗忘”框架、一个基于浏览器的 Hermes 控制室，以及一个围绕智能体通知构建的终端。

@garrytan 发布（327 次点赞、38 条回复、16,428 次浏览、260 次收藏）了 GBrain v0.40.0，把它做成了一个基于 Gemini Live、面向 OpenClaw 和 Hermes 的语音智能体。GBrain README 把它描述为一个持久化大脑，会摄入会议、邮件、推文和语音通话；而 @neosphere_inc 回复说，语音加工具使用的瓶颈，不在上下文长度，而在每次工具调用的往返延迟。

@shannholmberg 解释（19 次点赞、8 条回复、605 次浏览），她如何把 GBrain 用作 Hermes 公司体底下的记忆层：Markdown 进，图谱出；底层是 Markdown + Postgres + pgvector；检索结合关键词、向量和图；夜间去重会修复链接并更新汇总后的事实版本。来自 @untold_bits 的一条回复补上了关键提醒：自动摄入前仍然必须有人类判断把关，否则系统最终会变成“一个巨大的杂乱糊团”。

展示 gBrain 作为带类型记忆层的架构图：摄入、图存储、混合检索与夜间去重一起为 Hermes 智能体提供支持

@Voxyz_ai 写道（71 次点赞、6 条回复、15,911 次浏览、155 次收藏），智能体记忆需要 3 个彼此不同的职责——记住、引用和遗忘——它们都要带层级、来源和过期检查，而不能塞进一个没有区分的统一存储。可见性这一侧，@tom_doerr 分享（13 次点赞、1 条回复、1,947 次浏览、31 次收藏）了 Hermes War Room，其 README 把它描述成覆盖 Hermes 委派与看板系统的浏览器仪表盘；同时，@lawrencecchen 做了（21 次点赞、899 次浏览、9 次收藏）cmux，这是一个带分 pane 通知的终端，因为“你必须知道智能体什么时候、又是在哪儿想跟你说话。”

讨论要点： 反复出现的修正是：光把记忆做得更大还不够。构建者不断再加来源、过期、通知和复审界面，好让人看见智能体记住了什么、正在做什么，以及它什么时候需要干预。

与前日对比： 5 月 22 日更强调共享记忆层和托管运行时这些抽象概念。5 月 23 日则把它们变成了面向用户的产品：语音前端、带类型的记忆架构海报、控制室和通知面板。

2. 令人困扰的问题¶

在模型推理开始前，公开技能摄入仍然不安全¶

严重程度：高。@AlexFinn 警告（289 次点赞、46 条回复、9,768 次浏览、150 次收藏），公开技能网站正在变成提示词注入攻击面。回复把失效方式说得更尖锐：@Trish_DIntel 指出，哪怕只是让智能体去检查恶意技能也不安全，因为恶意负载已经进了上下文窗口；@TulioSousapro 则认为，唯一安全的版本是人先手工复审，再把单独整理出的描述交给模型。@elsontec 进一步追问是否存在更安全的整套工作流。今天的应对模式是“把技能当成不可信输入，再从零重建”，但数据里没有强证据表明已经存在一个可信的审核层或沙箱，能把这个问题干净解决。值得做，因为需求已经很明确，而且失效发生在模型还没开始做有用工作之前。

仓库上下文仍会过期，或者被高成本地反复重读¶

严重程度：高。@Saboo_Shubham_ 发布（63 次点赞、13 条回复、4,975 次浏览、135 次收藏）图谱式上下文工具，恰恰因为智能体仍在反复重读代码库，而不是把结构带到后续轮次里；@SynabunAI 回复说，过期边会让智能体对“三个 PR 前就删掉的代码”继续高置信推理。@Bushmaster18523 补充，在压缩和交接过程中真正丢失的，其实是持久任务状态：决策、检查点、死路和证据。量化层面，@IntuitMachine 引用了《AGENTS.md》论文，其中 124 个 pull request 的中位运行时下降了 28.64%，输出 token 下降了 16.58%；而 CodeGraph README 则宣称预索引能降低成本、token、时间和工具调用。当前的绕行办法，是加仓库指令、保持索引常热，或在事后提炼轨迹，但每一种修复又都增加了一层必须保持新鲜的结构。值得做，因为同一天里有多份互不相干的工件，都在修补同一种无声浪费。

没有来源与过期机制，记忆层就会变成杂物抽屉¶

严重程度：高。@Voxyz_ai 写道（71 次点赞、6 条回复、15,911 次浏览、155 次收藏），给 Hermes 或 OpenClaw 继续堆记忆，只会造出一个杂物抽屉；只有把记忆拆成“记住、引用、遗忘”，并加上层级、来源和过期检查，问题才有解。@abdiisan 回复说，Hermes 内置记忆在长会话里一直忽好忽坏，直到 Mnemosyne 用向量 + 文本混合搜索把它替掉；@shannholmberg 展示的则是另一种更结构化的方案：带类型的链接、混合检索和夜间去重。来自 @untold_bits 的回复把剩余问题总结得很到位：自动摄入很快，但如果没有人工质量闸口，系统迟早会变成“一个巨大的杂乱糊团”。值得做，因为构建者现在仍在靠自定义插件、schema 包和清理作业来解决，而不是依赖一个稳定默认值。

编排开销仍在劝退一大批开发者¶

严重程度：中。@ThePrimeagen 发帖（963 次点赞、68 条回复、32,835 次浏览）称，“比起那种疯狂躁动的智能体编排梦魇，深度思考要平静得多”，回复区里满是认同这种感受的人，他们仍然更喜欢慢一点、手工一点的构建方式。这种挫败感也不只来自怀疑者：@simonlast 建议（304 次点赞、14 条回复、28,727 次浏览、171 次收藏）改进测试运行框架，同时明确提醒“通常越简单越好”；@_avichawla 写道（51 次点赞、9 条回复、5,980 次浏览、79 次收藏），一个工具做得好的单智能体，通常胜过多智能体堆栈。今天的应对模式，是把确定性的控制逻辑下沉到运行时代码里，把人留在回路中，并避免那些用便宜规则就能解决的问题上强行加智能体。值得把它当成设计约束来做：凡是只增加编排开销、却没提高可读性的产品，都会继续把用户推回更简单的闭环。

3. 人们期望的功能¶

在智能体真正看到文件之前，先做安全的技能审核¶

这不是模糊愿望，而是紧迫的务实需求。@elsontec 追问，在遵循流行的“先分析、再重建”建议时，怎么才能依然防住提示词注入；@JoeJ45665 则问，现在到底有没有任何经过审核的市场可用。@Trish_DIntel 和 @TulioSousapro 的回复把缺口说得很清楚：问题必须在推理开始前解决，因为模型一旦读进敌对指令，伤害可能就已经发生。今天数据里唯一能算部分答案的，仍然只是人工复审加从零重建，而这显然无法规模化。机会：直接。

更快、可审计地编写 `AGENTS.md` 和 `SKILL.md`¶

人们不只是在使用指令文件，也在追问更好的编写方式。@DanKornas 说，写出一份好的 AGENTS.md，不该意味着花几周时间去挖来源；而 mimeo 的存在，正是为了发现来源、提炼内容、校验引语，并产出最终工件。@omarsar0 开启了一套以智能体技能为第一课的新课程，而《AGENTS.md》论文则说明，一旦这些文件存在，收益就可以被量化。这让它同时成为一个务实需求和竞争性需求：人们想要的是可审计的默认值，但当前的编写方式仍然看起来要么太手工，要么太依赖模型。机会：直接且竞争激烈。

保持新鲜的仓库地图，加上持久任务状态¶

这个需求并不只是“更好的检索”。@Saboo_Shubham_ 展示的代码图谱，是一种答案；但 @SynabunAI 警告，过期边会污染结果；@Bushmaster18523 则明确要一种能跨压缩、工具切换和交接存活下来的持久任务状态。CodeGraph README 和《AGENTS.md》论文都指向了部分答案，但两者都无法独自消除“新鲜度”问题。这是一个务实需求，投资回报也很清楚，而且市场已经开始成形。机会：直接且竞争激烈。

面向智能体集群的人类控制室¶

当天的构建者反复在要的，不是更强自治，而是可见性。@lawrencecchen 做 cmux，是因为人必须知道智能体什么时候、在哪儿想交流；@tom_doerr 分享 Hermes War Room，是为了在浏览器里把委派与看板状态可视化；@wyckoffweb 写道，用户应该始终知道一个任务是已注资、已分配、已提交、已锁定，还是已准备好复审。现有产品会用仪表盘和通知部分覆盖这个问题，但底层需求更宽：需要一个清晰的工作界面，让一个操作者能看懂很多个智能体。机会：直接。

使用本地语言、但审批权仍留在人手里的语音智能体¶

@dadbodshuffl 做了（56 次点赞、6 条回复、4,743 次浏览、37 次收藏）一个支持古吉拉特语、印地语和英语的语音购物智能体：浏览器动作由确定性的运行时代码执行，而 Blinkit 购物车只有在显式批准后才会更新。回复立刻从“酷炫 demo”切到了具体用例：@buildwithsid 说希望给自己母亲做一个类似的东西，@ankit_auth 则表示自己能想象把同样模式用到乡村制造业生意里。语音堆栈和浏览器工具当然已有部分答案，但“本地语言 + 运行时确定性 + 显式审批”这一组组合仍然稀少。机会：正在浮现。

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
运行框架工程	方法	(+)	通过指令、持久状态、验证闸口和会话生命周期，让智能体行为变得明确	如果团队把闭环设计得过重，就会膨胀成额外的编排工作
`AGENTS.md`	仓库指令文件	(+)	仓库专属的架构、命令和约定能减少探索绕路；arXiv 研究报告了中位运行时降低 28.64%、输出 token 减少 16.58%	只有保持更新才有效；编写和维护本身会变成一项工作
Understand Anything	代码图谱 / 导入	(+/-)	交互式图谱、业务领域视图、导览，以及面向主要智能体的快速安装	回复警告说过期索引会误导智能体；大型图谱仍需要严格的新鲜度管理
CodeGraph	代码图谱 / 索引	(+)	预索引本地图谱；README 宣称在 7 个代码库上降低了成本、token、时间和工具调用	需要前置索引步骤，而且基准测试数据由项目方提供
GBrain	记忆层	(+/-)	带类型的知识图谱、混合检索、夜间去重，以及支持语音的个人智能体界面	自动摄入仍然需要人工质量闸口，而且基础设施比“只靠提示词”的方案更重
Mnemosyne	记忆插件	(+)	为 Hermes 会话提供向量 + 文本混合搜索和实体召回	生态适配面窄，公开证据也基本只停留在回复讨论串
Hermes Agent	智能体运行时	(+/-)	多角色委派、SOUL.md 与技能、看板，以及活跃的插件生态	内置记忆在长会话里时灵时不灵；可见性通常要靠外部插件补齐
cmux	终端界面 / 通知	(+)	pane 级通知、侧边栏元数据、内置浏览器，以及面向多并发智能体的会话恢复	仅支持 macOS，而且通常要在团队已经同时管理很多会话时才最有价值
浏览器运行框架	浏览器自动化	(+)	自愈式运行框架有时能选出比字面 UI 流程更好的路径	公开证据仍偏演示，行为也可能显得不够透明
本地开放堆栈（Qwen 3、Ollama、CrewAI、Cline、Browser Use、ChromaDB、Whisper、HF Spaces、OpenRouter、MCP）	本地 / 开放堆栈	(+/-)	订阅成本低，而且从模型到浏览器再到语音覆盖很广	隐藏成本在于接线时间、笔记本上限、路由选择，以及模型质量不均
mimeo	技能编写	(+)	自动化做来源发现、校验、批判性检查，并输出 `SKILL.md` 或 `AGENTS.md`	仍是早期项目；工件质量依然受来源选择和模型行为影响
Dispatch	智能体市场	(+/-)	有注资任务、清晰状态、付款前复审，以及可累积的声誉	仍很早期，而且基于测试网；信任和纠纷处理尚未被验证

最受好评的工具，是那些把状态外显出来的：仓库指令、预索引图谱、带类型的记忆层，以及通知界面。只要新鲜度或运营开销一出现，评价立刻转成两面：图谱会过期、记忆层会吞进杂物、本地堆栈会把笔记本烧到发烫，而编排界面如果不能减少工作量，就只是在增加工作。整体迁移方向，是从原始提示词微调和不可见的后台智能体，转向仓库级指令文件、图谱与索引层，以及面向人的控制室。竞争张力在仓库理解上最明显：Understand Anything 更强调业务逻辑和导览，而 CodeGraph 更强调预索引本地图谱带来的 token 与工具调用节省。

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
GBrain v0.40.0	@garrytan	为持久化的 OpenClaw/Hermes 大脑加入 Gemini Live 语音	个人智能体会忘记跨会话上下文，而且缺乏自然的人机接口	GBrain、Gemini Live、OpenClaw/Hermes、带类型知识图谱、混合检索	Alpha	推文, 仓库
Understand Anything	Lum1104	把代码库变成带业务领域视图和导览的交互式图谱	智能体会反复重读仓库，而且缺乏结构或业务上下文	TypeScript、多智能体分析流水线、交互式仪表盘、插件安装	已发布	推文, 网站, 仓库
Orchestration War Room	Naroh091	覆盖 Hermes 委派与看板的浏览器仪表盘	多智能体集群很难只靠原始终端会话来观察	Vue、Node、Hermes CLI、浏览器仪表盘	Beta	推文, 仓库
cmux	@lawrencecchen	基于 Ghostty 的终端，带通知、浏览器 pane 和会话恢复，面向编程智能体	操作者需要知道哪个并行智能体需要关注，也需要把长寿命会话管起来	Swift、AppKit、libghostty、内置浏览器、会话恢复	已发布	推文, 仓库
mimeo	@DanKornas	从专家公开语料中生成带校验和批判性检查的 `SKILL.md` 或 `AGENTS.md`	靠手写去产出高质量智能体默认值太耗时	Python、Parallel Search API、OpenRouter、可选 Whisper	Alpha	推文, 仓库
Dispatch	@wyckoffweb	带注资任务、复审、付款和声誉的智能体市场	智能体需要的是一层真实工作系统，而不只是聊天框	Arc testnet、USDC、在线前后端、任务合约	Beta	推文, 网站
Blinkit local-language voice shopper	@dadbodshuffl	接收古吉拉特语、印地语或英语语音请求，在浏览器里操作 Blinkit，并在改动购物车前等待批准	非英语用户需要免手操作的电商体验，但又不想放弃控制权	Sarvam Saarika、Saaras、Sarvam Translate、本地运行时、Playwright、Blinkit	Alpha	推文

@Saboo_Shubham_ 呈现（63 次点赞、13 条回复、4,975 次浏览、135 次收藏）了当天最具代表性的构建模式：把隐藏上下文外显成操作者可以检查的结构。Understand Anything 用图谱加业务领域视图做到这一点，GBrain 用的是带类型的记忆层，而 mimeo 用的是显式的 SKILL.md 或 AGENTS.md 工件。它们是不同产品，但都在把智能体状态从一长段提示词里搬出来，变成可以回访、版本化或审计的结构。

@wyckoffweb 把 Dispatch 描述成（62 次点赞、16 条回复、3,085 次浏览、8 次收藏）一层真实工作层：任务先被注资、被分配、被复审，然后才付款。更早那条被引用的讨论串把区别说得更明确：重点不是把智能体列成目录，而是让它们拥有会累积的任务历史、支付逻辑和声誉。

Dispatch 工作流，展示任务注资、状态可见、付款前复审，以及可承载声誉的工作流程

Hermes War Room 和 cmux 从两个方向夹击同一个瓶颈：前者给出一个浏览器控制室，用来看委派和看板；后者给出一个原生终端通知层，用来处理多个智能体并行运行时的注意力分配。@dadbodshuffl 进一步展示（56 次点赞、6 条回复、4,743 次浏览、37 次收藏）了当天数据里最明确的审批模式：浏览器动作交给运行时代码执行，但购物车更新必须等显式批准。5 月 23 日反复出现的构建模式，不是“不惜代价追求更多自治”，而是更明确的状态、更清晰的交接，以及围绕真实动作设置更紧的审批边界。

6. 新动态与亮点¶

`AGENTS.md` 研究为仓库指令文件给出了硬指标¶

@IntuitMachine 指向（5 次点赞、2 条回复、266 次浏览、11 次收藏）了一篇新的 arXiv 论文，主题是面向编程智能体的仓库级指令文件。它的重要性在于，把一种民间最佳实践变成了可量化证据：在 10 个仓库、124 个 pull request 上，加了 AGENTS.md 的条件让中位运行时下降 28.64%、输出 token 使用下降 16.58%，同时任务完成情况仍然可比。这是整份数据里，对“仓库专属智能体指令是一种效率原语，而不只是文档卫生”最清晰的量化支持。

论文截图，总结 AGENTS.md 对 124 个 pull request 运行时和 token 使用的影响

《Agentic Harness Engineering》把运行框架调优变成了一个可观测的闭环¶

@TheDawningRoad 分享（6 次点赞、6 次转发、37 次浏览）了 AHE 论文及其仓库，主题是会自我演化的编程智能体运行框架。论文最特别的主张不是修辞，而是结构：它把运行框架改进拆成组件可观测性、经验可观测性和决策可观测性，然后报告 GPT-5.4 在 Terminal-Bench 2 上的 pass@1，在 10 次迭代里从 69.7% 提升到 77.0%；仓库 README 还进一步表示，这套系统后来又用 GPT-5.5 拿到了 Terminal-Bench 2.0 第三名。也因此，AHE 成了当天互动量不高、但内容最扎实的工件。

DAIR 把智能体技能放进一套新智能体工程课程的第一课¶

@omarsar0 发布（97 次点赞、6 条回复、8,484 次浏览、123 次收藏）了一套新的 Agentic Engineering 系列，并明确从 Agent Skills 讲起。公开的 labs 页面目前主打的是《Build Your First Agent Skill》，而上下文工程、多智能体系统和长时运行智能体则被放在后续模块里。这一点之所以重要，是因为它表明技能与运行框架工作，正在固化成一门课程，而不再只是零散的构建者讨论串。

7. 机会在哪里¶

[+++] 技能摄入安全与推理前沙箱隔离 — 第 1、2、3 节的证据都指向同一方向：技能文件越来越承重，但 AlexFinn 讨论串及其回复说明，当前“先分析、再重建”的工作流在摄入阶段仍可能被攻破。需求明确、痛点即时，而数据里没有出现一个可信的默认解法。

[+++] 新鲜的仓库上下文，加上持久任务状态基础设施 — Understand Anything、CodeGraph、AGENTS.md 论文和 AHE 都在从不同角度攻击同一个问题：智能体重读太多、忘得太多，或在过期结构上工作。@Bushmaster18523 的回复又把需求从检索扩大到了跨交接的持久决策与证据。痛点、投资回报和反复出现的构建努力叠在一起，让这成为页面上最强的机会。

[++] SKILL.md 与 AGENTS.md 的可审计编写和生命周期管理 — Dan Kornas 的 mimeo 项目、DAIR 的新实验室，以及 AGENTS.md 效率论文，都说明指令文件正变成一层真正的软件界面，而且收益可测。缺失的那一层，不只是生成本身，而是这些文件随时间推移的复审、diff、来源追踪和安全发布。

[++] 面向多智能体工作的控制室 — Hermes War Room、cmux 和 Dispatch 之所以存在，是因为人们想知道哪个智能体正在工作、卡住了、等待中，还是准备好复审，而不想再靠手动翻日志判断。这个方向已有多个团队在做，所以它不像技能安全那样完全空白，但需求信号非常明确。

[+] 采用审批优先运行时设计的本地语言语音智能体 — dadbodshuffl 的构建及其回复，展示了市场里一个务实而被忽视的角落：本地语言语音界面、对高风险部分使用确定性的运行时步骤，以及在状态变更前做显式批准。证据还在早期，但下游用户请求已经直接而具体。

8. 要点总结¶

运行框架工程正被当成仓库基础设施，而不再只是模型传说。 当天最强的证据来自明确的脚手架工件——_vmlops 对运行框架组件和成本的拆解、Akshay 的提示词 / 上下文 / 运行框架分类，以及 AGENTS.md 论文里关于运行时与 token 节省的结果——而不是单纯宣称上下文窗口更大了。(source)
指令文件现在既是性能杠杆，也是攻击面。 SKILL.md 和 AGENTS.md 已经普及到可以被 benchmark、被教学、被自动生成，但 AlexFinn 的讨论串也说明，摄入路径仍然危险地缺乏解法。(source)
下一阶段的记忆收益来自来源、过期和可见性，而不只是更多存储。 “记住 / 引用 / 遗忘”的框架、带类型的 gBrain 架构，以及 Mnemosyne 这个绕行方案，都指向同一课：没有区分的记忆累积速度，往往快过它澄清问题的速度。(source)
构建者在把智能体真正交给现实工作之前，先把它们包进面向人的状态界面。 Dispatch 的“复审后付款”流程、Hermes War Room 的浏览器仪表盘、cmux 的通知环，以及 dadbodshuffl 在更新购物车前要求显式批准的做法，都押注于同一个设计判断：可见性先于自治。(source)
编排复杂度本身已经成了产品风险。 即便这是一个满是控制室与运行框架工具的日子，互动量最高的帖子之一仍然是 ThePrimeagen 说，手工深度思考比“疯狂躁动的智能体编排”更让人安心，而 simonlast 也独立提醒：通常越简单越好。(source)