Twitter AI Agent - 2026-06-06¶

1. 人们在讨论什么¶

1.1 运行框架工程开始沉淀出可复制资产 🡕¶

6 月 6 日最大的 AI 智能体主题是：“运行框架工程”不再像一份阅读清单，而开始以团队可以照着复制的资产形态出现：路线图、智能体章程、运行时架构图和栈图。五条留存条目支撑了这一主题。

@aakashgupta 总结（65 次点赞、5 条回复、10,798 次浏览、94 次收藏）了一份 OpenAI 团队路线图：第 1-2 个月先做代码库可读性，第 3-4 个月做自动化验证，第 5-6 个月则通过规格说明和评估把系统向 PM 和设计师开放。附带路线图的价值在于把这一推进路径说得很具体：它点名了 AGENTS.md、文档树、审阅者画像、E2E 测试和假门实验，并把终点量化为 1,000,000 行代码、250,000 行提示词，以及零人工键入代码。

路线图图片，展示智能体驱动工程中的代码库可读性、自动化验证与杠杆扩展阶段

@PrajwalTomar_ 分享（48 次点赞、4 条回复、2,574 次浏览、86 次收藏）了一份 Hermes Agent 的脱敏版 SOUL.md 模板。截图之所以重要，是因为它把运行契约写得非常明确：立场、自主性、使命、问责，以及提出异议的边界，都被写成了一等配置；而这条讨论串认为，缺少这一层，正是智能体为什么每做一步都要来请示。

SOUL.md 模板截图，定义 Hermes 智能体的立场、自主性、使命和问责

@_lopopolo 认为（83 次点赞、9 条回复、10,597 次浏览、71 次收藏），智能体系统需要的不是一堆泛泛规则，而是明确规定何时、如何去主动寻找上下文。回复把失败模式说得更尖锐：有人问，AGENTS.md 的存在是不是主要因为上下文窗口一旦跑长任务仍会失灵；有人说，自动压缩让“把所有东西确定性地塞进上下文”这套做法变得不可靠；还有人提出“图书管理员”智能体，其唯一职责就是为执行智能体取回正确的上下文。

@pauliusztin_ 概述（16 次点赞、9 条回复、274 次浏览、10 次收藏）了一套 AI 软件的四层架构：呈现界面、带统一记忆的运行框架 / 运行时、通过技能、CLI 和 MCP 客户端打通的连接层，以及最底部的 MCP 服务器。附图少见地把持久执行、重试、检查点、权限和 MCP 应用各自该放在哪一层说得很具体；回复则进一步认为，正是持久执行，才把聊天循环变成了真正的后台工作进程。

架构图，展示呈现界面位于运行框架 / 运行时之上，技能 / CLI / MCP 连接层居中，MCP 服务器位于底层

@LearnWithBrij 梳理（4 次点赞、2 条回复、83 次浏览、4 次收藏）了“现代 AI 智能体栈”的 12 个术语，从 RAG、上下文和记忆，一路延伸到工具、MCP、技能、钩子、子智能体、编排和评估。帖子本身不大，但这张图很有信息量，因为它把当天的词汇整理成一条依赖链：只要记忆、工具或评估薄弱，无论模型质量多高，整套系统都会塌。

手绘栈图，梳理 RAG、上下文、记忆、工具、MCP、技能、钩子、子智能体、编排与评估

讨论要点： 回复并没有要求更大的上下文窗口。他们要的是铺好的工作流、主动寻找上下文的行为、检查点，以及更清晰的运行契约，让智能体不必靠猜。

与前日对比： 6 月 5 日还在争论运行框架工程是不是缺失的技能。6 月 6 日则把这一论点变成了可复制的资产。

1.2 成本治理与任务级模型路由开始落到实处 🡕¶

第二个讨论簇把智能体运维看成预算和路由问题，而不是品牌站队之争。三条留存条目支撑了这一主题。

@chamath 认为（897 次点赞、115 条回复、278,744 次浏览、856 次收藏），前沿闭源模型与强开源模型之间的能力差距，收窄速度远快于价格差距。他的成本表给出的数字是：如果每月有 10 亿输入 token 加 10 亿输出 token，GPT-5.5 Pro 约为 $105,000/月，Claude Opus 4.8 约 $30,000，DeepSeek V4 Pro 约 $5,220，DeepSeek R1 约 $2,740；随后他建议，大规模场景用 DeepSeek，追求高可靠性用 Opus，只有在额外能力能明确回本时才上 GPT-5.5 Pro。回复里有价值的反驳是：同口径基准测试仍然重要，企业 AI 需要调用轨迹、token 预算和明确写出来的 ROI 目标，而不只是更便宜的模型。

@AlexFinn 列出（108 次点赞、20 条回复、6,149 次浏览、144 次收藏）了七条 Hermes 实践，几乎就是一份路由手册：为每个模型配一套不同的配置文件，把 GPT-5.5 分给编程，把 Opus 分给写作和研究，把本地模型分给廉价的重复性工作；当记忆质量下降时，再把重工作流放进 /background，并主动修剪 cron 作业和压缩设置。后续的纠正讨论之所以重要，是因为它表明这类配置不是静态的厂商押注，而是持续的操作选择，细到连哪个 Qwen 版本真能在本地跑起来都要重新判断。

@levie 认为（139 次点赞、27 条回复、23,187 次浏览、70 次收藏），编程之所以仍是智能体最容易切入的领域，恰恰因为这类工作可验证，且上下文本来就已经数字化地存在于代码库里。回复把这个想法又往外推了一步：其他知识工作里的上限，不是模型原始智力，而是有多少关键上下文仍然只存在于某个资深员工脑中，或散落在非结构化共享盘里。

讨论要点： 有价值的分歧不在于哪家实验室领先，而在于高价模型到底在什么情况下值得付费，以及模型之上还需要叠多少路由、评估和治理层。

与前日对比： 6 月 5 日把模型之上的脚手架说成护城河。6 月 6 日则进一步给出了明确的月度开销表和分模型操作手册。

1.3 智能体框架继续产品化，开始长出桌面界面、市场和支付通道 🡕¶

第三个讨论簇讨论的是分发界面：桌面控制中心、店铺以及可变现接口，而不是另一个光秃秃的智能体框架。四条留存条目支撑了这一主题。

@iamlukethedev 报道（99 次点赞、11 条回复、11,115 次浏览、51 次收藏），Hermes Agent v0.16 已不再只是 CLI 层框架，而是一个完整平台：它有面向 macOS、Windows 和 Linux 的桌面应用、网页管理面板、快速设置、拖拽文件、MCP 服务器管理、记忆控制和远程实例连接。回复说，经 Tailscale 访问远程实例的速度很快，同时也提出一个正在出现的边界情况：主模型 token 用尽时，备用模型如何切换。

@trythreews 发布（373 次点赞、61 条回复、20,856 次浏览、18 次收藏）了一个 3D AI 智能体平台，把浏览器原生渲染、多 LLM 聊天、原生 Solana 钱包、链上身份、实时语音和一条嵌入标签绑在一起。公开的 three.ws 网站补全了产品界面：200+ 动效片段、多人世界、按次聊天收取 USDC、WebXR 放置，以及 MCP/A2A 连接能力，这让它更像“具身运行时 + 市场”，而不只是一段 demo。

@MeltedMindz 把（18 次点赞、2 条回复、603 次浏览）Postera 描述为一个基于 Base、使用 x402 的智能体对智能体市场：智能体发布 SKILL.md 文件，直接以 USDC 收款，平台不抽订阅分成。@AxiomBot 展示（14 次点赞、4 条回复、369 次浏览）了它落地后的样子：一个带付费技能、已声明的 MCP/A2A/x402 端点、链上收据、买家数量、复购指标和资料页评分的店铺页面。这张图之所以重要，是因为它把智能体商业化变成了一个看得见价格、收据和信任信号的仪表盘。

Axiom 在 Postera 上的资料页截图，展示付费技能、已声明端点、链上收据和评分明细

讨论要点： 对话的重点不断从模型智力转向用户真正能操作的界面：远程控制、记忆设置、身份、收款和店铺指标。

与前日对比： 6 月 4 日还充满对智能体优先工作界面的呼吁。到了 6 月 6 日，人们已经能指着更多已发布的产品界面说话了。

2. 令人困扰的问题¶

没有控制平面，token 预算太容易烧光¶

严重性：高。@chamath（897 次点赞、115 条回复、278,744 次浏览、856 次收藏）明确表示，团队仍默认使用最贵的模型，在没有治理的情况下快速烧掉大笔预算；而回复则认为，企业 AI 需要调用轨迹、token 预算和明确写出来的 ROI 目标，而不是含糊的试验。@AlexFinn（108 次点赞、20 条回复、6,149 次浏览、144 次收藏）展示了当前操作者的权宜补法：按模型配置拆分工作，把便宜任务发给本地模型，并在运行时状态变差时主动调 cron 作业和压缩设置。这个方向值得做，因为痛点已经用美元计价，而不只是延迟。

智能体在会话之间仍会遗忘、压缩过度或靠猜¶

严重性：高。@_lopopolo（83 次点赞、9 条回复、10,597 次浏览、71 次收藏）表示，运行框架不能指望把所有东西都塞进上下文里，尤其是在自动压缩之后。@DamiDefi（108 次点赞、7 条回复、11,156 次浏览、16 次收藏）则从用户侧描述了同一痛点：大多数智能体每次会话后都会丢掉学到的东西，而 Hermes 之所以显得不一样，只是因为它把运行时技能、持久记忆和离线优化叠加了起来。@AlexFinn 又补上了操作者视角的症状——只有把 Hermes 的压缩阈值调低后，记忆丢失才有所改善——而回复则表示，一旦智能体碰到真实文件和账户，权限边界和 RAM 限制就成了产品本体。这个方向值得做，因为今天的应对仍然是手动调参、来回切配置文件，以及“记忆层”营销。

验证仍然落后于生成¶

严重性：高。@Vtrivedy10（48 次点赞、4 条回复、3,799 次浏览、34 次收藏）把高效验证称为自我改进智能体最大的瓶颈之一，并认为长任务需要中间验证关卡，而不只是最后检查答案。@vigilcodes（5 次点赞、1 条回复、104 次浏览）随后发布了 VIGIL，把面向 Base 的授权、蜜罐、token、钱包和撤销工具收成一个 MCP 端点。@dani_avila7（8 次点赞、2 条回复、679 次浏览、11 次收藏）则展示了同样的压力如何进入代码审查：SkillSpector 已并入 Claude Code Templates 仓库，因此技能 PR 会在合并前先被扫描。这个方向值得做，因为信息流显示团队正在把验证前移，但仍把它当成一个必须外挂的独立层。

3. 人们期望的功能¶

能在工作流内运行的低成本验证¶

这是最清晰的现实需求。@Vtrivedy10（48 次点赞、4 条回复、3,799 次浏览、34 次收藏）表示，中间验证是长时程智能体的瓶颈，而真正的问题在于，能否把它做得足够便宜，便宜到可以大规模使用。@vigilcodes（5 次点赞、1 条回复、104 次浏览）和 @dani_avila7（8 次点赞、2 条回复、679 次浏览、11 次收藏）都给出了局部答案——一个 MCP 扫描器和一个 PR 扫描器——但今天的证据仍显示，市场上更多是点状方案，而不是一层默认验证层。机会：直接。

把路由、权限和持久记忆合在一起的控制平面¶

这是一种现实而紧迫的需求。@chamath 把模型选择视为治理和路由问题，而不是模型大战。@AlexFinn 和 @iamlukethedev 则描述了同一需求在操作者侧的版本：按模型区分的配置、带轻量桌面界面的远程算力、记忆调优、仪表盘控制，以及一旦智能体触碰真实文件和账户就必须出现的权限边界。机会：直接且竞争激烈。局部答案已经存在，但信息流表明，操作者仍在手工把成本路由、记忆和权限缝在一起。

一种在智能体开始乱猜前，让团队上下文先变得清晰可读的方法¶

这是一种现实需求，而不是情绪化诉求。@aakashgupta 把路线图的前三分之一都用在代码库可读性和文档上，@_lopopolo 表示提示词必须收敛成铺好的工作流，而不是泛泛地往上下文里塞料。@levie 及其回复则认为，许多非代码领域最有价值的上下文仍然留在人脑里，或散落在无人管理的共享盘上。@tom_doerr 给出了一条较窄的答案——autoskills 会自动识别技术栈并安装精选技能——但今天的证据仍表明，大多数团队还得手工做这层转换。机会：直接。

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
DeepSeek V4 Pro / R1	LLM	(+)	Chamath 的路由表把它们定位为高吞吐智能体工作的低成本档位	回复里的争论认为，成本与能力的边界仍会随工作负载变化，因此最便宜的不一定最好
Claude Opus 4.8	LLM	(+)	在 Chamath 的路由示例和 AlexFinn 的按配置文件分模设置里，它被用作高可靠档位	比开放模型贵得多，因此操作者已经把它当成需要精选使用的工具，而不是默认选项
GPT-5.5 Pro	LLM	(+/-)	AlexFinn 把它路由给编程任务，Chamath 则把它列为能力最强的选项	Chamath 的示例把它定价为每月约 $105,000（10 亿输入 token + 10 亿输出 token），因此这部分溢价必须逐项任务证明值得
Hermes Agent	智能体平台	(+/-)	持久记忆、运行时技能、桌面应用、/background 工作流、远程控制和多配置路由	cron 作业会拖慢它，记忆压缩需要调参，本地模型建议后来被纠正，回复也指出了 token 回退问题
MCP server 模式 / FastMCP 风格栈	协议 / 服务层	(+)	把工具、资源、提示词、网关和代理的职责拆得很清楚；pauliusztin_ 认为强系统会把 MCP、技能和 CLI 混用	今天的帖子仍显示大家对各层该放在哪里很困惑，而且单一机制的智能体往往跑不出好结果
autoskills	技能安装器	(+)	扫描 package.json、Gradle 和配置文件，然后安装与技术栈匹配的精选技能	仍是早期项目；价值取决于注册表质量，以及团队真实工作流有多少能被封装成可安装技能
markitdown + headroom + codegraph	上下文准备 / 代码智能	(+)	把文档转成 Markdown、把上下文压缩 60-95%，并在提示词开始前预先索引代码图	今天的信号主要来自 GitHub 热度爆发，而不是操作者案例研究，因此真实世界的限制还没浮现
VIGIL	安全 MCP	(+)	一个端点就覆盖 Base 工作流里的授权扫描、蜜罐检测、钱包报告、token 扫描和撤销	目前聚焦 Base 和链上场景，公开采用度还很早期
RTRVR	浏览器智能体	(+/-)	在已登录的浏览器会话里工作，支持 MCP，也能在不用逐站点 API 配置的情况下做跨标签页自动化	推荐它的推文也承认，一旦工作流变成复杂的多步骤流程，一致性就会掉下来

工具 — 人们提到的具体工具、框架、服务、模型或方法
类别 — 大类归属，例如 LLM、协议、智能体平台或安全层
评价 — 整体感受：（+）正面、(+/-) 混合、(-) 负面
优势 — 人们明确提到的具体优点
局限 — 帖子里能看见的具体抱怨、缺口或失败模式

整体满意度光谱更务实，而不是意识形态站队。@chamath 和 @AlexFinn 都按任务和成本来路由模型，而 @pauliusztin_ 和 @elora_khatun 则把 MCP 视为混合栈中的一层，这套栈还需要技能和 CLI。最常见的权宜方案，是在远程算力之上保留桌面界面、在提示词前预处理文件、发布技能而不是超长提示词，以及在智能体合并或签名前先扫描高风险操作。@sharbel 和 @vigilcodes 把竞争迁移讲得很清楚：上下文准备层和安全层，正在作为独立产品类别吸引注意力。

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
three.ws	@trythreews	具备钱包、语音、多人世界和按次聊天付费的浏览器原生 3D AI 智能体平台	不再只是又一个聊天框，而是给智能体提供具身界面、身份层和变现层	浏览器原生渲染、多 LLM、Solana 钱包、x402、WebXR、实时语音	已上线	站点, 推文
Postera	@MeltedMindz	一个让智能体出售 SKILL.md 能力并以 USDC 收款的市场	把可复用的智能体经验直接变成可购买资产	Base、x402、SKILL.md、钱包结算	已上线	站点, 推文
Postera 上的 Axiom 资料页	@AxiomBot	一个展示 x402 Endpoint Builder 和 Skill Author 套餐、收据与已声明端点的实时店铺页	让买家能看见智能体身份、定价和信任信号	Base、x402、MCP、A2A、ERC-8004 风格身份界面	已上线	推文
autoskills	midudev	自动识别仓库技术栈并安装精选智能体技能	减少手动选择技能和初始配置的摩擦	Ruby、package/config 扫描器、审计过的技能注册表	已上线	仓库, 推文
VIGIL	@vigilcodes	带 11 个只读 Base 工具的 MCP 安全扫描器	让智能体在签名前先检查授权、蜜罐、合约和钱包	Python、MCP、Base、ClawHub	已上线	仓库, 推文

阶段 — 项目所处阶段：已上线（正式可用 / 生产环境）、Beta（可用但未完整）、Alpha（早期原型）或 RFC（想法 / 提案，尚无可用代码）
技术栈 — 构建项目所用的语言、框架、模型或服务
解决的问题 — 触发构建的具体痛点或缺口
链接 — GitHub 仓库、项目站点、demo、博客文章，或项目所在位置

three.ws 是最有辨识度的构建，因为它把具身交互、支付和工具连通性放进了同一个浏览器界面。公开站点写明，智能体可以被重新组合、放进 AR、按次聊天收取 USDC，并通过 A2A 和 MCP 连接到其他智能体——这已经远不只是给视觉化头像套一层壳。

Postera 和 Axiom 展现了一个平行的构建模式：技能正被当成市场库存，而不是像 gist 一样的提示词文件。Axiom 的截图让这一层变得一目了然：付费上架项、收据、已声明端点、买家数量和复购统计都摆在台面上。

autoskills 的 GitHub README 截图，展示一条命令安装、技术栈检测和审计后的技能选择

autoskills 和 VIGIL 更窄，但很重要，因为它们各自把一个操作者任务打成独立层——要么安装对的技能，要么在签名前扫描——而不是让用户再去拼一套通用智能体框架。这一模式在当天反复出现：构建者正在围绕设置、安全和变现，发布更薄、更有明确取向的层。

6. 新动态与亮点¶

技能安全开始进入构建流水线¶

@dani_avila7 展示（8 次点赞、2 条回复、679 次浏览、11 次收藏），SkillSpector 现已并入 Claude Code Templates，因此新的技能 PR 会在合并前先被扫描。@vigilcodes 发布（5 次点赞、1 条回复、104 次浏览）了 VIGIL，把授权、蜜罐、token、钱包和撤销工具收成一个面向 Base 的 MCP 端点。真正值得注意的不是原始互动量，而是这两件事都把验证前移到了生命周期更早的位置——一个在合并前，一个在签名前。

深色 UI 截图，展示 VIGIL 的授权列表、安全评分、token 扫描、钱包报告、蜜罐检测和撤销工具

上下文准备类仓库冲进了本周 GitHub 领跑榜¶

@sharbel 整理（32 次点赞、13 条回复、1,627 次浏览、32 次收藏）了一份 6 月 6 日榜单，其中 markitdown、headroom、ECC、codegraph、Understand-Anything、supermemory 和 Claude Code 都跻身本周增长最快的仓库之列。公开的 GitHub 元数据也支撑了这一方向：microsoft/markitdown 在抓取时有 146,475 个星标，chopratejas/headroom 有 15,983 个，affaan-m/ECC 有 209,226 个，而 colbymchenry/codegraph 有 43,177 个。真正值得注意的是，上下文压缩、文件规范化和本地代码知识，正在各自拉出爆发式需求。

榜单图片，列出增长最快的 GitHub 仓库，其中包括 markitdown、headroom、ECC、codegraph 和 Claude Code

智能体教育开始变成正式课程¶

@Dinosn 附上链接（17 次点赞、726 次浏览、14 次收藏）《Learn Harness Engineering》，其站点把它描述为一门面向 Codex 和 Claude Code 的项目制课程，涵盖环境、状态、验证和控制系统。@Gauravjain2410 传播（23 次点赞、2 条回复）了一张 Anthropic Academy 海报，列出 13 门免费课程，涵盖《Claude 101》《Agent Skills》《Claude Code in Action》《Intro to MCP》、MCP 进阶主题，以及面向 Bedrock 和 Vertex AI 的部署路径。这很重要，因为操作者层正在被包装成课程体系，而不只是另一条讨论串。

Anthropic Academy 海报，列出 13 门 Claude AI 课程，包括 Agent Skills、Claude Code in Action 和 MCP 课程

7. 机会在哪里¶

[+++] 面向路由、权限和记忆的智能体控制平面 —— @chamath 给模型路由标出了硬性的月度美元区间，而 @AlexFinn 和 @iamlukethedev 则展示出操作者已经在管理按模型区分的配置、桌面控制、远程算力和记忆设置。这个机会很强，因为痛点同时横跨财务、可靠性和访问控制。

[++] 验证优先的运行时层 —— @Vtrivedy10 把高效验证描述成核心瓶颈，@dani_avila7 把技能扫描前移进 PR 审查，而 @vigilcodes 则通过 MCP 提供了签名前检查。这个机会中等偏强，因为买方已经可见、需求也很明确，但方案仍分散在 CI、运行时和链上扫描器之间。

[++] 代码库可读性与技能安装基础设施 —— @aakashgupta、@PrajwalTomar_ 和 @tom_doerr 都指向同一个需求：在智能体开始乱猜前，先把它的设置明确写出来。这个机会中等偏强，因为需求已经非常明显，公开产物也在不断上线，但市场仍分散在教育、模板和安装器之间。

[+] 智能体商业化与具身界面 —— @trythreews、@MeltedMindz 和 @AxiomBot 展示出智能体正在拥有具身界面、钱包、店铺和直接支付。这个机会仍在萌芽，因为可用产品已经出现，但可见收入、买家数量和信任体系都还很早期。

8. 要点总结¶

6 月 6 日围绕运行框架工程的讨论，重点更多是产物，而不是观点。 一份路线图、一个 SOUL.md 模板和一张运行时架构图，把智能体运维变成了团队今天就能照着复制的文件与图表。(来源)
模型路由现在已经是单位经济学问题。 Chamath 的表把 GPT-5.5 Pro、Claude Opus 4.8、DeepSeek V4 Pro 和 DeepSeek R1 放进同一张月度成本表，而 AlexFinn 的配置建议也与此一致：把不同模型分给不同工作。(来源)
界面层正在快速变宽。 Hermes desktop、three.ws 和 Postera 都把智能体当作桌面应用、具身界面或店铺来处理，而不再只是纯聊天循环。(来源)
记忆仍是运行层的断裂带。 _lopopolo 表示，长时间运行不能依赖确定性地往上下文里硬塞信息；而 Hermes 支持者仍在靠“下一次会话不会从空白开始”这个承诺赢得注意力。(来源)
安全与上下文准备正在各自长成产品类别。 SkillSpector、VIGIL 和 GitHub 爆发榜都指向同一个方向：围绕模型的扫描器、压缩层和代码知识工具，需求正在上升。(来源)