Twitter AI Agent - 2026-05-25¶

1. 人们在讨论什么¶

1.1 智能体记忆正从上下文窗口迁到可复用文件里 🡕¶

5 月 25 日最清晰的模式，是构建者已经不想把每个工具、MCP 和笔记都塞进实时上下文了。他们想要冷存储、选择性加载，以及可复用的技能工件。至少有 4 条保留样本指向同一方向：Obsidian 笔记、Markdown 技能记忆、可迁移技能库，以及用于运行框架设计的资源包。

@EXM7777 描述说，他们把 Obsidian 当成一层记忆，用来存放那些应该保持可搜索、但不该永久加载进 Claude Code 或 Codex 的工具（289 次点赞、15 条回复、16,368 次浏览、437 次收藏）。最有力的一条回复，把这个想法进一步说成了架构语言：把工具记忆放在冷存储里，把活跃执行上下文保持在热态，只在任务确实需要时再拉取少量内容。

@GithubProjects 重点介绍了 Acontext，把它定位为一层原生支持 Markdown 的技能记忆层（81 次点赞、4 条回复、7,735 次浏览、93 次收藏）。Acontext 仓库把它定义为一套把智能体技能当作记忆来管理的系统；随附图片里的 README 卡片，比推文本身给出了更强的成熟度信号：网站与文档链接、已发布的 PyPI 和 npm 包，以及 core、API 和 CLI 测试通过。

Acontext README 卡片，展示网站 / 文档链接、已发布软件包和通过的测试

@DanKornas 分享了 SkillX（34 次点赞、4 条回复、1,684 次浏览、44 次收藏），而 SkillX 仓库写道，它能把成功轨迹提炼成可复用的规划技能、功能技能和原子技能，即使不重新训练，也能挂到更弱的智能体上使用。@tom_doerr 又补了一份 200+ 项运行框架工程资源清单（55 次点赞、4 条回复、3,110 次浏览、69 次收藏），把同一个主题扩展成一张公开的文件、工具和实践地图。

讨论要点： 回复区要的不是更大的窗口，而是更清楚地分开档案与运行时、知道某个工具为什么会被加载，以及能跨会话、跨智能体继续存活的可复用文件。

与前日对比： 5 月 24 日已经在推动可编辑记忆和选择性加载。5 月 25 日则把文件化版本讲得更明白——既有 Obsidian 冷存储，也有 Acontext、SkillX 这种可交付的技能库。

1.2 运行框架工程成了具体的设计学科，而不只是口号 🡕¶

第二大主题是，智能体构建者现在把提示词、上下文和运行框架层，当成彼此独立的工程表面来讨论。当日最强的帖子不是模型发布，而是图示、落地指南，以及讨论可靠智能体环境在模型之外还需要什么的文章。

@sjsandeep_jain 认为（97 次点赞、10 条回复、1,406 次浏览、45 次收藏），如今“最大的 AI 技能”已经变成围绕模型设计系统，而不是孤立地做提示工程。随附图示把区分讲得很清楚：提示工程塑造单次请求，上下文工程决定什么内容留在窗口里，而运行框架工程则把收集、执行、验证和重试包成一台机器。

把提示词、上下文和收集-执行-验证闭环分开的运行框架工程示意图

@bibryam 把 OpenAI 的一篇文章称作“运行框架工程师的金矿”（101 次点赞、5 条回复、5,569 次浏览、134 次收藏），强调的是智能体能可靠运行的环境、把工程判断机械化编码，以及可供智能体读取的可观测性。回复区则补上了关键警告：一旦可观测性变成智能体可读，执行边界本身也会成为安全模型的一部分。

@harjtaggar 把实际体验总结得更直白：每个智能体项目一开始都看起来很简单，最后却会陷进检索质量、上下文工程和跨模态评估闭环里（120 次点赞、14 条回复、9,916 次浏览、26 次收藏）。@tom_doerr 则用 Picrew 的运行框架资源清单来为这个判断背书（55 次点赞、4 条回复、3,110 次浏览、69 次收藏）；该仓库把自己描述成一份收集项目、工具、基准测试和实用指南的 awesome list。

讨论要点： 实际问题已经不再是“什么提示词有效？”，而是“该收集什么、什么要常驻、如何验证，以及运行框架本身失效时怎么办？”

与前日对比： 5 月 24 日，运行框架工程还在收敛出一套共同词汇。到了 5 月 25 日，讨论转向了资源库、实现示意图和可立即上手的基础设施指引。

1.3 重验证的智能体系统闯入主流讨论 🡕¶

最值得注意的爆发信号，是智能体式系统开始在那些“正确性必须被检查，而不能只靠宣称”的领域里被讨论：形式化证明搜索、形式化代码生成，以及安全导向的智能体套件，在同一天里同时出现。

@pushmeet 报道称，Google DeepMind 的 AlphaProof Nexus 解决了 9 个开放的 Erdős 问题、44 个 OEIS 问题、一个困扰 15 年的代数几何问题，以及一个 7 年未解的 min-max 优化问题（696 次点赞、45 条回复、40,683 次浏览、181 次收藏）。公开的 AlphaProof Nexus results 仓库包含这些已解问题的 Lean 证明；附带的证明表之所以重要，是因为它表明，这不是模糊的“AI 解出了数学题”宣传，而是能被机器检查、并且明确绑定证明技术的输出。

列出 AlphaProof Nexus 猜想编号和已解问题证明技术的证明表

@getjonwithit 介绍了一款面向计算物理和应用数学的编程与形式验证智能体（83 次点赞、4 条回复、7,220 次浏览、49 次收藏），目标是生成 DSL 代码、在 Lean、Isabelle 或 Rocq 里形式化正确性性质，然后再编译出可证明正确的 C 代码。回复区也把真正的限制说得很清楚：代码的形式正确性，并不等于底层物理模型本身正确，因此验证范围仍必须小心界定。

@The_Cyber_News 分享了 Pentest Agent Suite（56 次点赞、3 条回复、2,815 次浏览、30 次收藏）；链接的 Cyber Security News 文章写道，这个开源包覆盖了 50 个专用安全智能体、26 个 slash commands、19 个 CLI 工具，以及横跨 7 个编程平台的跨 IDE 安装器。这个信号之所以强，是因为它把安全审查打包成了一个结构化的智能体表面，而不是又一个通用助手。

讨论要点： 最有说服力的智能体主张，都是能绑定某个 checker 的：Lean、证明助手、仓库规则或安全工作流。这个数据集奖励的是可验证性，不是纯粹的自治。

与前日对比： 5 月 24 日强调的是争议处理、仪表盘和复审闸口等信任界面。5 月 25 日则把同样的直觉推进到数学可检验证明、形式化代码路径，以及面向安全的智能体框架。

2. 令人困扰的问题¶

上下文膨胀仍然让智能体越用越差¶

严重程度：高。@EXM7777 写道，往 Claude Code 或 Codex 里堆更多技能、MCP 和上下文，只会让它们更慢、更不可预测（289 次点赞、15 条回复、16,368 次浏览、437 次收藏）。@harjtaggar 说，智能体项目很快就会坍缩成检索和评估复杂度问题（120 次点赞、14 条回复、9,916 次浏览、26 次收藏）；@GithubProjects 推广 Acontext，本质上也是把它作为不透明记忆塞料的替代方案（81 次点赞、4 条回复、7,735 次浏览、93 次收藏）。可见的绕行方式，是选择性加载和外部记忆存储，但这也把更多架构工作压回给了构建者。值得做：是——这个痛点会反复出现、直接影响操作，而且已经在重塑人们日常使用智能体的方式。

“智能体工程” 这个标签下，仍藏着大量可靠性工作¶

严重程度：高。@sjsandeep_jain 展示了为什么提示词、上下文和运行框架问题现在必须分开工程化（97 次点赞、10 条回复、1,406 次浏览、45 次收藏）；@bibryam 认为，真正的工作藏在环境设计、机械化反馈闭环，以及可供智能体读取的可观测性里（101 次点赞、5 条回复、5,569 次浏览、134 次收藏）。@harjtaggar 则直接总结了这种挫败感：人们一开始以为这是个能快速搭起来的项目，最后却陷进了检索质量和跨模态评估闭环。值得做：是——这正是那些看似“简单”的智能体想法，至今仍需要真工程投入的主因。

开源智能体仍需要更友好的控制室¶

严重程度：中。@hasantoxr 表示，Hermes Desktop 之所以存在，是因为终端优先的智能体把太多状态藏起来、安静地出错，还把原本普通的设置过程搞得过于技术化（31 次点赞、6 条回复、1,757 次浏览、37 次收藏）。回复区整体是支持但也带着怀疑：有人说这正是开源智能体需要的界面，也有人警告，GUI 只是让失败更容易被看见而已。值得做：是——这个工作流痛点很现实，也直接关系到更广泛的采用，哪怕单靠 UI 并不能解决更深层的可靠性问题。

3. 人们期望的功能¶

留在实时上下文窗口外、但仍可搜索的冷存储¶

这是数据里最直接的需求。@EXM7777 想要一个会不断增长、由 Obsidian 支撑的工具库，只在任务需要时才被加载进来（289 次点赞、15 条回复、16,368 次浏览、437 次收藏）；最强的一条回复则用系统术语说了同样的话：选项待在冷存储里，执行留给热上下文。Acontext 和 SkillX 都是局部答案，但真正的需求是那种可搜索、可版本化、并且能廉价放在提示词之外的记忆。机会：直接。

可检查、可重放且值得信任的智能体输出¶

最清晰的信号，来自那些重验证的构建者。@pushmeet 分享了 AlphaProof Nexus，并链接到形式证明（696 次点赞、45 条回复、40,683 次浏览、181 次收藏）；@getjonwithit 则把形式验证当成一款新编程智能体的核心功能来讲（83 次点赞、4 条回复、7,220 次浏览、49 次收藏）；@The_Cyber_News 又指向了一整套安全智能体框架（56 次点赞、3 条回复、2,815 次浏览、30 次收藏）。缺的不是更自信的文字，而是能被证明系统、仓库规则或安全闸口检查的输出。机会：直接且具竞争性。

让普通人也能用开源智能体的控制室¶

@hasantoxr 认为，Hermes Desktop 之所以重要，是因为大多数开源智能体依然把用户暴露在设置摩擦、隐藏状态和终端复杂度面前（31 次点赞、6 条回复、1,757 次浏览、37 次收藏）。这不是一个愿景式需求，而是一个很实际的产品缺口。这个方向的竞争很可能会很激烈，因为底层智能体能力正越来越开放，而界面和恢复体验仍然薄弱。机会：直接且具竞争性。

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
Obsidian	外部记忆层	(+)	让工具在实时上下文之外也可搜索；很适合选择性加载工作流	人工整理和新鲜度仍然重要
Acontext	技能记忆层	(+)	可编辑的 Markdown 技能、无 API 锁定、支持 ZIP 导出、包成熟度可见	从包版本和社区规模看仍偏早期
SkillX	技能知识库框架	(+)	三层技能层级、自动从轨迹蒸馏、可迁移技能库	工作流研究味很重；离主流团队还早
AlphaProof Nexus	形式证明智能体	(+)	机器可检查的 Lean 证明和公开结果仓库让主张可验证	领域狭窄，形式化成本高
awesome-agent-harness	资源库	(+)	面向运行框架项目、基准测试和指南的大型公开地图	只是参考清单，不是执行系统
Pentest Agent Suite	安全智能体框架	(+/-)	专用智能体、slash commands、MCP 基础设施、跨工具安装器	这里的证据主要来自新闻稿和单条推文，而不是广泛操作反馈
Hermes Desktop	智能体控制界面	(+/-)	更容易管理设置、记忆、工具、提供商、计划和日志	UI 提高了可见性，但回复区仍质疑它能否解决更深的失效模式

整体情绪偏向文件式记忆、显式结构，以及能把自己在做什么展示出来的系统。只要工具能减少隐藏状态，或提升可复用性，人们就更满意；而当产品表面扩张快过可靠性证明时，评价就会变得更复杂。当天帖子反复指向的共享绕行方案也很一致：让工作集保持小、把可复用知识做成有版本的资产，并在输出周围加上一层 checker。

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
Acontext	@GithubProjects / memodb-io	把智能体学习结果存成可编辑的 Markdown 技能文件	用可读、可迁移的技能替代不透明记忆存储	JavaScript, PyPI/npm packages, file-based skills	已发布	仓库, 帖子
SkillX	@DanKornas / zjunlp	从智能体经验中构建可复用的规划、功能和原子技能库	避免智能体每次运行都重新摸索同样的工具使用模式	Python, trajectory distillation, hierarchical skill KB	Alpha	仓库, 帖子
AlphaProof Nexus results	@pushmeet / Google DeepMind	为已解公开数学问题发布 Lean 证明和文字证明	为智能体式证明搜索的主张提供公开、可检查的工件	Gemini-powered proof search, Lean, natural-language proof outputs	Alpha	仓库, 帖子
Pentest Agent Suite	@The_Cyber_News	横跨 7 种编程工具的开源漏洞赏金与安全智能体框架	把 offensive security 工作流打包成可复用的智能体栈	50 security agents, MCP infrastructure, 19 CLI tools	Beta	文章, 帖子
Hermes Desktop	@hasantoxr	围绕 Hermes Agent 的桌面界面，覆盖设置、聊天、记忆、技能、工具、计划和日志	让终端优先的开源智能体更容易操作与恢复	Desktop UI, provider setup, memory/tools control, scheduling	Beta	帖子

Acontext 和 SkillX 是最清晰的两种记忆层构建，但它们解决的是相邻问题。Acontext 把学习结果打包成人类可读的文件，并允许它们跨环境导出；SkillX 则把成功轨迹提炼成结构化、可复用的技能层级。贯穿这两者的共同触发点，就是第 1-4 节里反复出现的同一种挫败感：智能体总在重新学习团队已经知道的东西。

AlphaProof Nexus 和 Pentest Agent Suite，则把同样的打包冲动带进了重验证工作。一边是把证明搜索变成公开的 Lean 工件，另一边则把进攻型安全变成一套带 slash commands 和工具基础设施的多智能体框架。这里重复出现的构建模式，不是“又一个聊天机器人”，而是给那些输出必须被检查的领域包上一层可复用外壳。

Hermes Desktop 则代表了围绕同一趋势展开的可用性层。在这组数据里，它的重要性不在于原始新颖度，而在于开源智能体构建者终于开始把精力花在界面、计划、日志和恢复上，而不只是继续加自治能力。

6. 新动态与亮点¶

AlphaProof Nexus 让“可检查的智能体输出”变得可感¶

@pushmeet 报道称，AlphaProof Nexus 解决了 9 个开放的 Erdős 问题和 44 个 OEIS 问题；而公开的 results 仓库之所以重要，是因为它直接发布了 Lean 证明本身（696 次点赞、45 条回复、40,683 次浏览、181 次收藏）。这件事之所以值得注意，是因为它把可信度测试从“你信不信这个 demo？”变成了“你能不能检查这个形式化工件？”

运行框架工程资源正被打包成自学材料¶

@tom_doerr 分享了一份 200+ 项资源清单（55 次点赞、4 条回复、3,110 次浏览、69 次收藏）；@sjsandeep_jain 则分享了一张被广泛转发的图，把提示词、上下文和运行框架层拆得很清楚（97 次点赞、10 条回复、1,406 次浏览、45 次收藏）。两者放在一起，说明运行框架工程已经不再只是小圈子的内部概念，而正在被整理成公开课程。

7. 机会在哪里¶

[+++] 具备选择性加载的版本化智能体记忆 — 多个板块都收敛到这里。@EXM7777 推动了 Obsidian 支撑的冷存储（289 次点赞、15 条回复、16,368 次浏览、437 次收藏），Acontext 把技能打包成 Markdown，而 SkillX 则把轨迹提炼成可复用知识库。这个需求很强，因为构建者正从不同方向索要同一样东西：在不失去可复用知识的前提下，减少上下文膨胀。

[++] 验证优先的智能体工具 — AlphaProof Nexus、@getjonwithit（83 次点赞、4 条回复、7,220 次浏览、49 次收藏），以及 Pentest Agent Suite 都指向那种输出必须经过证明助手、代码规则或安全工作流检查的智能体系统。这个信号强度属于中等，而不是普适，但它是当天数据里最清晰的质量门槛之一。

[++] 智能体控制室与恢复界面 — @hasantoxr 提出了围绕 Hermes 的桌面外壳，因为隐藏状态和纯终端设置仍然阻碍采用（31 次点赞、6 条回复、1,757 次浏览、37 次收藏）。这个机会属中等强度，因为每个开源智能体现在都需要某种安装、日志、记忆检查和计划调度的 UX。

[+] 运行框架工程教育 — @tom_doerr 发布了一张大型资源图（55 次点赞、4 条回复、3,110 次浏览、69 次收藏），@sjsandeep_jain 则把概念拆分讲明白了（97 次点赞、10 条回复、1,406 次浏览、45 次收藏）。这个信号还在涌现，而不是主导主题，但其语言已经明显在固化成一种可教授的学科。

8. 要点总结¶

胜出的记忆模式是“冷档案，热执行”。 @EXM7777 说明了为什么构建者正把工具移出实时上下文、放进可搜索笔记里（289 次点赞、15 条回复、16,368 次浏览、437 次收藏）；而 Acontext 则把同样的思路打包成了 Markdown 技能。
运行框架工程正在被当成真正的系统工作，而不是提示词装饰。 @sjsandeep_jain 画出了提示词、上下文和运行框架层的分工（97 次点赞、10 条回复、1,406 次浏览、45 次收藏）；@bibryam 则认为，真正的杠杆点在环境设计和可观测性（101 次点赞、5 条回复、5,569 次浏览、134 次收藏）。
验证正在成为智能体系统的一等卖点。 @pushmeet 报道了形式化检查过的数学证明（696 次点赞、45 条回复、40,683 次浏览、181 次收藏）；@The_Cyber_News 则让人看到一套把审查打包进栈里的安全智能体框架（56 次点赞、3 条回复、2,815 次浏览、30 次收藏）。
可复用技能库正在成为原始轨迹之上的耐久层。 @DanKornas 分享了 SkillX 的分层知识库方法（34 次点赞、4 条回复、1,684 次浏览、44 次收藏）；@tom_doerr 则梳理了围绕同一思路的更广运行框架生态（55 次点赞、4 条回复、3,110 次浏览、69 次收藏）。
开源智能体终于开始拥有面向用户的控制界面。 @hasantoxr 认为，Hermes Desktop 之所以重要，是因为设置、记忆、工具、计划和日志，在终端优先工具里依然藏得太深（31 次点赞、6 条回复、1,757 次浏览、37 次收藏）。