跳转至

Twitter AI Agent - 2026-05-25

1. 人们在讨论什么

1.1 智能体记忆正从上下文窗口迁到可复用文件里 🡕

5 月 25 日最清晰的模式,是构建者已经不想把每个工具、MCP 和笔记都塞进实时上下文了。他们想要冷存储、选择性加载,以及可复用的技能工件。至少有 4 条保留样本指向同一方向:Obsidian 笔记、Markdown 技能记忆、可迁移技能库,以及用于运行框架设计的资源包。

@EXM7777 描述 说,他们把 Obsidian 当成一层记忆,用来存放那些应该保持可搜索、但不该永久加载进 Claude Code 或 Codex 的工具(289 次点赞、15 条回复、16,368 次浏览、437 次收藏)。最有力的一条回复,把这个想法进一步说成了架构语言:把工具记忆放在冷存储里,把活跃执行上下文保持在热态,只在任务确实需要时再拉取少量内容。

@GithubProjects 重点介绍 了 Acontext,把它定位为一层原生支持 Markdown 的技能记忆层(81 次点赞、4 条回复、7,735 次浏览、93 次收藏)。Acontext 仓库 把它定义为一套把智能体技能当作记忆来管理的系统;随附图片里的 README 卡片,比推文本身给出了更强的成熟度信号:网站与文档链接、已发布的 PyPI 和 npm 包,以及 core、API 和 CLI 测试通过。

Acontext README 卡片,展示网站 / 文档链接、已发布软件包和通过的测试

@DanKornas 分享 了 SkillX(34 次点赞、4 条回复、1,684 次浏览、44 次收藏),而 SkillX 仓库 写道,它能把成功轨迹提炼成可复用的规划技能、功能技能和原子技能,即使不重新训练,也能挂到更弱的智能体上使用。@tom_doerr 又补了一份 200+ 项运行框架工程资源清单(55 次点赞、4 条回复、3,110 次浏览、69 次收藏),把同一个主题扩展成一张公开的文件、工具和实践地图。

讨论要点: 回复区要的不是更大的窗口,而是更清楚地分开档案与运行时、知道某个工具为什么会被加载,以及能跨会话、跨智能体继续存活的可复用文件。

与前日对比: 5 月 24 日已经在推动可编辑记忆和选择性加载。5 月 25 日则把文件化版本讲得更明白——既有 Obsidian 冷存储,也有 Acontext、SkillX 这种可交付的技能库。

1.2 运行框架工程成了具体的设计学科,而不只是口号 🡕

第二大主题是,智能体构建者现在把提示词、上下文和运行框架层,当成彼此独立的工程表面来讨论。当日最强的帖子不是模型发布,而是图示、落地指南,以及讨论可靠智能体环境在模型之外还需要什么的文章。

@sjsandeep_jain 认为(97 次点赞、10 条回复、1,406 次浏览、45 次收藏),如今“最大的 AI 技能”已经变成围绕模型设计系统,而不是孤立地做提示工程。随附图示把区分讲得很清楚:提示工程塑造单次请求,上下文工程决定什么内容留在窗口里,而运行框架工程则把收集、执行、验证和重试包成一台机器。

把提示词、上下文和收集-执行-验证闭环分开的运行框架工程示意图

@bibryam OpenAI 的一篇文章称作“运行框架工程师的金矿”(101 次点赞、5 条回复、5,569 次浏览、134 次收藏),强调的是智能体能可靠运行的环境、把工程判断机械化编码,以及可供智能体读取的可观测性。回复区则补上了关键警告:一旦可观测性变成智能体可读,执行边界本身也会成为安全模型的一部分。

@harjtaggar 把实际体验总结得更直白:每个智能体项目一开始都看起来很简单,最后却会陷进检索质量、上下文工程和跨模态评估闭环里(120 次点赞、14 条回复、9,916 次浏览、26 次收藏)。@tom_doerr 则用 Picrew 的运行框架资源清单来为这个判断背书(55 次点赞、4 条回复、3,110 次浏览、69 次收藏);该仓库把自己描述成一份收集项目、工具、基准测试和实用指南的 awesome list。

讨论要点: 实际问题已经不再是“什么提示词有效?”,而是“该收集什么、什么要常驻、如何验证,以及运行框架本身失效时怎么办?”

与前日对比: 5 月 24 日,运行框架工程还在收敛出一套共同词汇。到了 5 月 25 日,讨论转向了资源库、实现示意图和可立即上手的基础设施指引。

1.3 重验证的智能体系统闯入主流讨论 🡕

最值得注意的爆发信号,是智能体式系统开始在那些“正确性必须被检查,而不能只靠宣称”的领域里被讨论:形式化证明搜索、形式化代码生成,以及安全导向的智能体套件,在同一天里同时出现。

@pushmeet 报道 称,Google DeepMind 的 AlphaProof Nexus 解决了 9 个开放的 Erdős 问题、44 个 OEIS 问题、一个困扰 15 年的代数几何问题,以及一个 7 年未解的 min-max 优化问题(696 次点赞、45 条回复、40,683 次浏览、181 次收藏)。公开的 AlphaProof Nexus results 仓库 包含这些已解问题的 Lean 证明;附带的证明表之所以重要,是因为它表明,这不是模糊的“AI 解出了数学题”宣传,而是能被机器检查、并且明确绑定证明技术的输出。

列出 AlphaProof Nexus 猜想编号和已解问题证明技术的证明表

@getjonwithit 介绍 了一款面向计算物理和应用数学的编程与形式验证智能体(83 次点赞、4 条回复、7,220 次浏览、49 次收藏),目标是生成 DSL 代码、在 Lean、Isabelle 或 Rocq 里形式化正确性性质,然后再编译出可证明正确的 C 代码。回复区也把真正的限制说得很清楚:代码的形式正确性,并不等于底层物理模型本身正确,因此验证范围仍必须小心界定。

@The_Cyber_News 分享 了 Pentest Agent Suite(56 次点赞、3 条回复、2,815 次浏览、30 次收藏);链接的 Cyber Security News 文章 写道,这个开源包覆盖了 50 个专用安全智能体、26 个 slash commands、19 个 CLI 工具,以及横跨 7 个编程平台的跨 IDE 安装器。这个信号之所以强,是因为它把安全审查打包成了一个结构化的智能体表面,而不是又一个通用助手。

讨论要点: 最有说服力的智能体主张,都是能绑定某个 checker 的:Lean、证明助手、仓库规则或安全工作流。这个数据集奖励的是可验证性,不是纯粹的自治。

与前日对比: 5 月 24 日强调的是争议处理、仪表盘和复审闸口等信任界面。5 月 25 日则把同样的直觉推进到数学可检验证明、形式化代码路径,以及面向安全的智能体框架。


2. 令人困扰的问题

上下文膨胀仍然让智能体越用越差

严重程度:高。@EXM7777 写道,往 Claude Code 或 Codex 里堆更多技能、MCP 和上下文,只会让它们更慢、更不可预测(289 次点赞、15 条回复、16,368 次浏览、437 次收藏)。@harjtaggar ,智能体项目很快就会坍缩成检索和评估复杂度问题(120 次点赞、14 条回复、9,916 次浏览、26 次收藏);@GithubProjects 推广 Acontext,本质上也是把它作为不透明记忆塞料的替代方案(81 次点赞、4 条回复、7,735 次浏览、93 次收藏)。可见的绕行方式,是选择性加载和外部记忆存储,但这也把更多架构工作压回给了构建者。值得做:是——这个痛点会反复出现、直接影响操作,而且已经在重塑人们日常使用智能体的方式。

“智能体工程” 这个标签下,仍藏着大量可靠性工作

严重程度:高。@sjsandeep_jain 展示 了为什么提示词、上下文和运行框架问题现在必须分开工程化(97 次点赞、10 条回复、1,406 次浏览、45 次收藏);@bibryam 认为,真正的工作藏在环境设计、机械化反馈闭环,以及可供智能体读取的可观测性里(101 次点赞、5 条回复、5,569 次浏览、134 次收藏)。@harjtaggar 则直接总结了 这种挫败感:人们一开始以为这是个能快速搭起来的项目,最后却陷进了检索质量和跨模态评估闭环。值得做:是——这正是那些看似“简单”的智能体想法,至今仍需要真工程投入的主因。

开源智能体仍需要更友好的控制室

严重程度:中。@hasantoxr 表示,Hermes Desktop 之所以存在,是因为终端优先的智能体把太多状态藏起来、安静地出错,还把原本普通的设置过程搞得过于技术化(31 次点赞、6 条回复、1,757 次浏览、37 次收藏)。回复区整体是支持但也带着怀疑:有人说这正是开源智能体需要的界面,也有人警告,GUI 只是让失败更容易被看见而已。值得做:是——这个工作流痛点很现实,也直接关系到更广泛的采用,哪怕单靠 UI 并不能解决更深层的可靠性问题。


3. 人们期望的功能

留在实时上下文窗口外、但仍可搜索的冷存储

这是数据里最直接的需求。@EXM7777 想要 一个会不断增长、由 Obsidian 支撑的工具库,只在任务需要时才被加载进来(289 次点赞、15 条回复、16,368 次浏览、437 次收藏);最强的一条回复则用系统术语说了同样的话:选项待在冷存储里,执行留给热上下文。Acontext 和 SkillX 都是局部答案,但真正的需求是那种可搜索、可版本化、并且能廉价放在提示词之外的记忆。机会:直接。

可检查、可重放且值得信任的智能体输出

最清晰的信号,来自那些重验证的构建者。@pushmeet 分享 了 AlphaProof Nexus,并链接到形式证明(696 次点赞、45 条回复、40,683 次浏览、181 次收藏);@getjonwithit 则把 形式验证当成一款新编程智能体的核心功能来讲(83 次点赞、4 条回复、7,220 次浏览、49 次收藏);@The_Cyber_News 又指向了 一整套安全智能体框架(56 次点赞、3 条回复、2,815 次浏览、30 次收藏)。缺的不是更自信的文字,而是能被证明系统、仓库规则或安全闸口检查的输出。机会:直接且具竞争性。

让普通人也能用开源智能体的控制室

@hasantoxr 认为,Hermes Desktop 之所以重要,是因为大多数开源智能体依然把用户暴露在设置摩擦、隐藏状态和终端复杂度面前(31 次点赞、6 条回复、1,757 次浏览、37 次收藏)。这不是一个愿景式需求,而是一个很实际的产品缺口。这个方向的竞争很可能会很激烈,因为底层智能体能力正越来越开放,而界面和恢复体验仍然薄弱。机会:直接且具竞争性。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
Obsidian 外部记忆层 (+) 让工具在实时上下文之外也可搜索;很适合选择性加载工作流 人工整理和新鲜度仍然重要
Acontext 技能记忆层 (+) 可编辑的 Markdown 技能、无 API 锁定、支持 ZIP 导出、包成熟度可见 从包版本和社区规模看仍偏早期
SkillX 技能知识库框架 (+) 三层技能层级、自动从轨迹蒸馏、可迁移技能库 工作流研究味很重;离主流团队还早
AlphaProof Nexus 形式证明智能体 (+) 机器可检查的 Lean 证明和公开结果仓库让主张可验证 领域狭窄,形式化成本高
awesome-agent-harness 资源库 (+) 面向运行框架项目、基准测试和指南的大型公开地图 只是参考清单,不是执行系统
Pentest Agent Suite 安全智能体框架 (+/-) 专用智能体、slash commands、MCP 基础设施、跨工具安装器 这里的证据主要来自新闻稿和单条推文,而不是广泛操作反馈
Hermes Desktop 智能体控制界面 (+/-) 更容易管理设置、记忆、工具、提供商、计划和日志 UI 提高了可见性,但回复区仍质疑它能否解决更深的失效模式

整体情绪偏向文件式记忆、显式结构,以及能把自己在做什么展示出来的系统。只要工具能减少隐藏状态,或提升可复用性,人们就更满意;而当产品表面扩张快过可靠性证明时,评价就会变得更复杂。当天帖子反复指向的共享绕行方案也很一致:让工作集保持小、把可复用知识做成有版本的资产,并在输出周围加上一层 checker。


5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
Acontext @GithubProjects / memodb-io 把智能体学习结果存成可编辑的 Markdown 技能文件 用可读、可迁移的技能替代不透明记忆存储 JavaScript, PyPI/npm packages, file-based skills 已发布 仓库, 帖子
SkillX @DanKornas / zjunlp 从智能体经验中构建可复用的规划、功能和原子技能库 避免智能体每次运行都重新摸索同样的工具使用模式 Python, trajectory distillation, hierarchical skill KB Alpha 仓库, 帖子
AlphaProof Nexus results @pushmeet / Google DeepMind 为已解公开数学问题发布 Lean 证明和文字证明 为智能体式证明搜索的主张提供公开、可检查的工件 Gemini-powered proof search, Lean, natural-language proof outputs Alpha 仓库, 帖子
Pentest Agent Suite @The_Cyber_News 横跨 7 种编程工具的开源漏洞赏金与安全智能体框架 把 offensive security 工作流打包成可复用的智能体栈 50 security agents, MCP infrastructure, 19 CLI tools Beta 文章, 帖子
Hermes Desktop @hasantoxr 围绕 Hermes Agent 的桌面界面,覆盖设置、聊天、记忆、技能、工具、计划和日志 让终端优先的开源智能体更容易操作与恢复 Desktop UI, provider setup, memory/tools control, scheduling Beta 帖子

Acontext 和 SkillX 是最清晰的两种记忆层构建,但它们解决的是相邻问题。Acontext 把学习结果打包成人类可读的文件,并允许它们跨环境导出;SkillX 则把成功轨迹提炼成结构化、可复用的技能层级。贯穿这两者的共同触发点,就是第 1-4 节里反复出现的同一种挫败感:智能体总在重新学习团队已经知道的东西。

AlphaProof Nexus 和 Pentest Agent Suite,则把同样的打包冲动带进了重验证工作。一边是把证明搜索变成公开的 Lean 工件,另一边则把进攻型安全变成一套带 slash commands 和工具基础设施的多智能体框架。这里重复出现的构建模式,不是“又一个聊天机器人”,而是给那些输出必须被检查的领域包上一层可复用外壳。

Hermes Desktop 则代表了围绕同一趋势展开的可用性层。在这组数据里,它的重要性不在于原始新颖度,而在于开源智能体构建者终于开始把精力花在界面、计划、日志和恢复上,而不只是继续加自治能力。


6. 新动态与亮点

AlphaProof Nexus 让“可检查的智能体输出”变得可感

@pushmeet 报道 称,AlphaProof Nexus 解决了 9 个开放的 Erdős 问题和 44 个 OEIS 问题;而公开的 results 仓库 之所以重要,是因为它直接发布了 Lean 证明本身(696 次点赞、45 条回复、40,683 次浏览、181 次收藏)。这件事之所以值得注意,是因为它把可信度测试从“你信不信这个 demo?”变成了“你能不能检查这个形式化工件?”

运行框架工程资源正被打包成自学材料

@tom_doerr 分享 了一份 200+ 项资源清单(55 次点赞、4 条回复、3,110 次浏览、69 次收藏);@sjsandeep_jain 则分享 了一张被广泛转发的图,把提示词、上下文和运行框架层拆得很清楚(97 次点赞、10 条回复、1,406 次浏览、45 次收藏)。两者放在一起,说明运行框架工程已经不再只是小圈子的内部概念,而正在被整理成公开课程。


7. 机会在哪里

[+++] 具备选择性加载的版本化智能体记忆 — 多个板块都收敛到这里。@EXM7777 推动 了 Obsidian 支撑的冷存储(289 次点赞、15 条回复、16,368 次浏览、437 次收藏),Acontext 把技能打包成 Markdown,而 SkillX 则把轨迹提炼成可复用知识库。这个需求很强,因为构建者正从不同方向索要同一样东西:在不失去可复用知识的前提下,减少上下文膨胀。

[++] 验证优先的智能体工具AlphaProof Nexus@getjonwithit(83 次点赞、4 条回复、7,220 次浏览、49 次收藏),以及 Pentest Agent Suite 都指向那种输出必须经过证明助手、代码规则或安全工作流检查的智能体系统。这个信号强度属于中等,而不是普适,但它是当天数据里最清晰的质量门槛之一。

[++] 智能体控制室与恢复界面@hasantoxr 提出了 围绕 Hermes 的桌面外壳,因为隐藏状态和纯终端设置仍然阻碍采用(31 次点赞、6 条回复、1,757 次浏览、37 次收藏)。这个机会属中等强度,因为每个开源智能体现在都需要某种安装、日志、记忆检查和计划调度的 UX。

[+] 运行框架工程教育@tom_doerr 发布 了一张大型资源图(55 次点赞、4 条回复、3,110 次浏览、69 次收藏),@sjsandeep_jain 则把概念拆分讲明白了(97 次点赞、10 条回复、1,406 次浏览、45 次收藏)。这个信号还在涌现,而不是主导主题,但其语言已经明显在固化成一种可教授的学科。


8. 要点总结

  1. 胜出的记忆模式是“冷档案,热执行”。 @EXM7777 说明了 为什么构建者正把工具移出实时上下文、放进可搜索笔记里(289 次点赞、15 条回复、16,368 次浏览、437 次收藏);而 Acontext 则把同样的思路打包成了 Markdown 技能。
  2. 运行框架工程正在被当成真正的系统工作,而不是提示词装饰。 @sjsandeep_jain 画出了 提示词、上下文和运行框架层的分工(97 次点赞、10 条回复、1,406 次浏览、45 次收藏);@bibryam 则认为,真正的杠杆点在环境设计和可观测性(101 次点赞、5 条回复、5,569 次浏览、134 次收藏)。
  3. 验证正在成为智能体系统的一等卖点。 @pushmeet 报道 了形式化检查过的数学证明(696 次点赞、45 条回复、40,683 次浏览、181 次收藏);@The_Cyber_News 则让人看到 一套把审查打包进栈里的安全智能体框架(56 次点赞、3 条回复、2,815 次浏览、30 次收藏)。
  4. 可复用技能库正在成为原始轨迹之上的耐久层。 @DanKornas 分享 了 SkillX 的分层知识库方法(34 次点赞、4 条回复、1,684 次浏览、44 次收藏);@tom_doerr 则梳理了 围绕同一思路的更广运行框架生态(55 次点赞、4 条回复、3,110 次浏览、69 次收藏)。
  5. 开源智能体终于开始拥有面向用户的控制界面。 @hasantoxr 认为,Hermes Desktop 之所以重要,是因为设置、记忆、工具、计划和日志,在终端优先工具里依然藏得太深(31 次点赞、6 条回复、1,757 次浏览、37 次收藏)。