跳转至

Twitter AI Agent - 2026-06-06

1. 人们在讨论什么

1.1 运行框架工程开始沉淀出可复制资产 🡕

6 月 6 日最大的 AI 智能体主题是:“运行框架工程”不再像一份阅读清单,而开始以团队可以照着复制的资产形态出现:路线图、智能体章程、运行时架构图和栈图。五条留存条目支撑了这一主题。

@aakashgupta 总结(65 次点赞、5 条回复、10,798 次浏览、94 次收藏)了一份 OpenAI 团队路线图:第 1-2 个月先做代码库可读性,第 3-4 个月做自动化验证,第 5-6 个月则通过规格说明和评估把系统向 PM 和设计师开放。附带路线图的价值在于把这一推进路径说得很具体:它点名了 AGENTS.md、文档树、审阅者画像、E2E 测试和假门实验,并把终点量化为 1,000,000 行代码、250,000 行提示词,以及零人工键入代码。

路线图图片,展示智能体驱动工程中的代码库可读性、自动化验证与杠杆扩展阶段

@PrajwalTomar_ 分享(48 次点赞、4 条回复、2,574 次浏览、86 次收藏)了一份 Hermes Agent 的脱敏版 SOUL.md 模板。截图之所以重要,是因为它把运行契约写得非常明确:立场、自主性、使命、问责,以及提出异议的边界,都被写成了一等配置;而这条讨论串认为,缺少这一层,正是智能体为什么每做一步都要来请示。

SOUL.md 模板截图,定义 Hermes 智能体的立场、自主性、使命和问责

@_lopopolo 认为(83 次点赞、9 条回复、10,597 次浏览、71 次收藏),智能体系统需要的不是一堆泛泛规则,而是明确规定何时、如何去主动寻找上下文。回复把失败模式说得更尖锐:有人问,AGENTS.md 的存在是不是主要因为上下文窗口一旦跑长任务仍会失灵;有人说,自动压缩让“把所有东西确定性地塞进上下文”这套做法变得不可靠;还有人提出“图书管理员”智能体,其唯一职责就是为执行智能体取回正确的上下文。

@pauliusztin_ 概述(16 次点赞、9 条回复、274 次浏览、10 次收藏)了一套 AI 软件的四层架构:呈现界面、带统一记忆的运行框架 / 运行时、通过技能、CLI 和 MCP 客户端打通的连接层,以及最底部的 MCP 服务器。附图少见地把持久执行、重试、检查点、权限和 MCP 应用各自该放在哪一层说得很具体;回复则进一步认为,正是持久执行,才把聊天循环变成了真正的后台工作进程。

架构图,展示呈现界面位于运行框架 / 运行时之上,技能 / CLI / MCP 连接层居中,MCP 服务器位于底层

@LearnWithBrij 梳理(4 次点赞、2 条回复、83 次浏览、4 次收藏)了“现代 AI 智能体栈”的 12 个术语,从 RAG、上下文和记忆,一路延伸到工具、MCP、技能、钩子、子智能体、编排和评估。帖子本身不大,但这张图很有信息量,因为它把当天的词汇整理成一条依赖链:只要记忆、工具或评估薄弱,无论模型质量多高,整套系统都会塌。

手绘栈图,梳理 RAG、上下文、记忆、工具、MCP、技能、钩子、子智能体、编排与评估

讨论要点: 回复并没有要求更大的上下文窗口。他们要的是铺好的工作流、主动寻找上下文的行为、检查点,以及更清晰的运行契约,让智能体不必靠猜。

与前日对比: 6 月 5 日还在争论运行框架工程是不是缺失的技能。6 月 6 日则把这一论点变成了可复制的资产。

1.2 成本治理与任务级模型路由开始落到实处 🡕

第二个讨论簇把智能体运维看成预算和路由问题,而不是品牌站队之争。三条留存条目支撑了这一主题。

@chamath 认为(897 次点赞、115 条回复、278,744 次浏览、856 次收藏),前沿闭源模型与强开源模型之间的能力差距,收窄速度远快于价格差距。他的成本表给出的数字是:如果每月有 10 亿输入 token 加 10 亿输出 token,GPT-5.5 Pro 约为 $105,000/月,Claude Opus 4.8 约 $30,000,DeepSeek V4 Pro 约 $5,220,DeepSeek R1 约 $2,740;随后他建议,大规模场景用 DeepSeek,追求高可靠性用 Opus,只有在额外能力能明确回本时才上 GPT-5.5 Pro。回复里有价值的反驳是:同口径基准测试仍然重要,企业 AI 需要调用轨迹、token 预算和明确写出来的 ROI 目标,而不只是更便宜的模型。

@AlexFinn 列出(108 次点赞、20 条回复、6,149 次浏览、144 次收藏)了七条 Hermes 实践,几乎就是一份路由手册:为每个模型配一套不同的配置文件,把 GPT-5.5 分给编程,把 Opus 分给写作和研究,把本地模型分给廉价的重复性工作;当记忆质量下降时,再把重工作流放进 /background,并主动修剪 cron 作业和压缩设置。后续的纠正讨论之所以重要,是因为它表明这类配置不是静态的厂商押注,而是持续的操作选择,细到连哪个 Qwen 版本真能在本地跑起来都要重新判断。

@levie 认为(139 次点赞、27 条回复、23,187 次浏览、70 次收藏),编程之所以仍是智能体最容易切入的领域,恰恰因为这类工作可验证,且上下文本来就已经数字化地存在于代码库里。回复把这个想法又往外推了一步:其他知识工作里的上限,不是模型原始智力,而是有多少关键上下文仍然只存在于某个资深员工脑中,或散落在非结构化共享盘里。

讨论要点: 有价值的分歧不在于哪家实验室领先,而在于高价模型到底在什么情况下值得付费,以及模型之上还需要叠多少路由、评估和治理层。

与前日对比: 6 月 5 日把模型之上的脚手架说成护城河。6 月 6 日则进一步给出了明确的月度开销表和分模型操作手册。

1.3 智能体框架继续产品化,开始长出桌面界面、市场和支付通道 🡕

第三个讨论簇讨论的是分发界面:桌面控制中心、店铺以及可变现接口,而不是另一个光秃秃的智能体框架。四条留存条目支撑了这一主题。

@iamlukethedev 报道(99 次点赞、11 条回复、11,115 次浏览、51 次收藏),Hermes Agent v0.16 已不再只是 CLI 层框架,而是一个完整平台:它有面向 macOS、Windows 和 Linux 的桌面应用、网页管理面板、快速设置、拖拽文件、MCP 服务器管理、记忆控制和远程实例连接。回复说,经 Tailscale 访问远程实例的速度很快,同时也提出一个正在出现的边界情况:主模型 token 用尽时,备用模型如何切换。

@trythreews 发布(373 次点赞、61 条回复、20,856 次浏览、18 次收藏)了一个 3D AI 智能体平台,把浏览器原生渲染、多 LLM 聊天、原生 Solana 钱包、链上身份、实时语音和一条嵌入标签绑在一起。公开的 three.ws 网站补全了产品界面:200+ 动效片段、多人世界、按次聊天收取 USDC、WebXR 放置,以及 MCP/A2A 连接能力,这让它更像“具身运行时 + 市场”,而不只是一段 demo。

@MeltedMindz (18 次点赞、2 条回复、603 次浏览)Postera 描述为一个基于 Base、使用 x402 的智能体对智能体市场:智能体发布 SKILL.md 文件,直接以 USDC 收款,平台不抽订阅分成。@AxiomBot 展示(14 次点赞、4 条回复、369 次浏览)了它落地后的样子:一个带付费技能、已声明的 MCP/A2A/x402 端点、链上收据、买家数量、复购指标和资料页评分的店铺页面。这张图之所以重要,是因为它把智能体商业化变成了一个看得见价格、收据和信任信号的仪表盘。

Axiom 在 Postera 上的资料页截图,展示付费技能、已声明端点、链上收据和评分明细

讨论要点: 对话的重点不断从模型智力转向用户真正能操作的界面:远程控制、记忆设置、身份、收款和店铺指标。

与前日对比: 6 月 4 日还充满对智能体优先工作界面的呼吁。到了 6 月 6 日,人们已经能指着更多已发布的产品界面说话了。


2. 令人困扰的问题

没有控制平面,token 预算太容易烧光

严重性:高。@chamath(897 次点赞、115 条回复、278,744 次浏览、856 次收藏)明确表示,团队仍默认使用最贵的模型,在没有治理的情况下快速烧掉大笔预算;而回复则认为,企业 AI 需要调用轨迹、token 预算和明确写出来的 ROI 目标,而不是含糊的试验。@AlexFinn(108 次点赞、20 条回复、6,149 次浏览、144 次收藏)展示了当前操作者的权宜补法:按模型配置拆分工作,把便宜任务发给本地模型,并在运行时状态变差时主动调 cron 作业和压缩设置。这个方向值得做,因为痛点已经用美元计价,而不只是延迟。

智能体在会话之间仍会遗忘、压缩过度或靠猜

严重性:高。@_lopopolo(83 次点赞、9 条回复、10,597 次浏览、71 次收藏)表示,运行框架不能指望把所有东西都塞进上下文里,尤其是在自动压缩之后。@DamiDefi(108 次点赞、7 条回复、11,156 次浏览、16 次收藏)则从用户侧描述了同一痛点:大多数智能体每次会话后都会丢掉学到的东西,而 Hermes 之所以显得不一样,只是因为它把运行时技能、持久记忆和离线优化叠加了起来。@AlexFinn 又补上了操作者视角的症状——只有把 Hermes 的压缩阈值调低后,记忆丢失才有所改善——而回复则表示,一旦智能体碰到真实文件和账户,权限边界和 RAM 限制就成了产品本体。这个方向值得做,因为今天的应对仍然是手动调参、来回切配置文件,以及“记忆层”营销。

验证仍然落后于生成

严重性:高。@Vtrivedy10(48 次点赞、4 条回复、3,799 次浏览、34 次收藏)把高效验证称为自我改进智能体最大的瓶颈之一,并认为长任务需要中间验证关卡,而不只是最后检查答案。@vigilcodes(5 次点赞、1 条回复、104 次浏览)随后发布了 VIGIL,把面向 Base 的授权、蜜罐、token、钱包和撤销工具收成一个 MCP 端点。@dani_avila7(8 次点赞、2 条回复、679 次浏览、11 次收藏)则展示了同样的压力如何进入代码审查:SkillSpector 已并入 Claude Code Templates 仓库,因此技能 PR 会在合并前先被扫描。这个方向值得做,因为信息流显示团队正在把验证前移,但仍把它当成一个必须外挂的独立层。


3. 人们期望的功能

能在工作流内运行的低成本验证

这是最清晰的现实需求。@Vtrivedy10(48 次点赞、4 条回复、3,799 次浏览、34 次收藏)表示,中间验证是长时程智能体的瓶颈,而真正的问题在于,能否把它做得足够便宜,便宜到可以大规模使用。@vigilcodes(5 次点赞、1 条回复、104 次浏览)和 @dani_avila7(8 次点赞、2 条回复、679 次浏览、11 次收藏)都给出了局部答案——一个 MCP 扫描器和一个 PR 扫描器——但今天的证据仍显示,市场上更多是点状方案,而不是一层默认验证层。机会:直接。

把路由、权限和持久记忆合在一起的控制平面

这是一种现实而紧迫的需求。@chamath 把模型选择视为治理和路由问题,而不是模型大战。@AlexFinn@iamlukethedev 则描述了同一需求在操作者侧的版本:按模型区分的配置、带轻量桌面界面的远程算力、记忆调优、仪表盘控制,以及一旦智能体触碰真实文件和账户就必须出现的权限边界。机会:直接且竞争激烈。局部答案已经存在,但信息流表明,操作者仍在手工把成本路由、记忆和权限缝在一起。

一种在智能体开始乱猜前,让团队上下文先变得清晰可读的方法

这是一种现实需求,而不是情绪化诉求。@aakashgupta 把路线图的前三分之一都用在代码库可读性和文档上,@_lopopolo 表示提示词必须收敛成铺好的工作流,而不是泛泛地往上下文里塞料。@levie 及其回复则认为,许多非代码领域最有价值的上下文仍然留在人脑里,或散落在无人管理的共享盘上。@tom_doerr 给出了一条较窄的答案——autoskills 会自动识别技术栈并安装精选技能——但今天的证据仍表明,大多数团队还得手工做这层转换。机会:直接。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
DeepSeek V4 Pro / R1 LLM (+) Chamath 的路由表把它们定位为高吞吐智能体工作的低成本档位 回复里的争论认为,成本与能力的边界仍会随工作负载变化,因此最便宜的不一定最好
Claude Opus 4.8 LLM (+) 在 Chamath 的路由示例和 AlexFinn 的按配置文件分模设置里,它被用作高可靠档位 比开放模型贵得多,因此操作者已经把它当成需要精选使用的工具,而不是默认选项
GPT-5.5 Pro LLM (+/-) AlexFinn 把它路由给编程任务,Chamath 则把它列为能力最强的选项 Chamath 的示例把它定价为每月约 $105,000(10 亿输入 token + 10 亿输出 token),因此这部分溢价必须逐项任务证明值得
Hermes Agent 智能体平台 (+/-) 持久记忆、运行时技能、桌面应用、/background 工作流、远程控制和多配置路由 cron 作业会拖慢它,记忆压缩需要调参,本地模型建议后来被纠正,回复也指出了 token 回退问题
MCP server 模式 / FastMCP 风格栈 协议 / 服务层 (+) 把工具、资源、提示词、网关和代理的职责拆得很清楚;pauliusztin_ 认为强系统会把 MCP、技能和 CLI 混用 今天的帖子仍显示大家对各层该放在哪里很困惑,而且单一机制的智能体往往跑不出好结果
autoskills 技能安装器 (+) 扫描 package.json、Gradle 和配置文件,然后安装与技术栈匹配的精选技能 仍是早期项目;价值取决于注册表质量,以及团队真实工作流有多少能被封装成可安装技能
markitdown + headroom + codegraph 上下文准备 / 代码智能 (+) 把文档转成 Markdown、把上下文压缩 60-95%,并在提示词开始前预先索引代码图 今天的信号主要来自 GitHub 热度爆发,而不是操作者案例研究,因此真实世界的限制还没浮现
VIGIL 安全 MCP (+) 一个端点就覆盖 Base 工作流里的授权扫描、蜜罐检测、钱包报告、token 扫描和撤销 目前聚焦 Base 和链上场景,公开采用度还很早期
RTRVR 浏览器智能体 (+/-) 在已登录的浏览器会话里工作,支持 MCP,也能在不用逐站点 API 配置的情况下做跨标签页自动化 推荐它的推文也承认,一旦工作流变成复杂的多步骤流程,一致性就会掉下来
  • 工具 — 人们提到的具体工具、框架、服务、模型或方法
  • 类别 — 大类归属,例如 LLM、协议、智能体平台或安全层
  • 评价 — 整体感受:(+)正面、(+/-) 混合、(-) 负面
  • 优势 — 人们明确提到的具体优点
  • 局限 — 帖子里能看见的具体抱怨、缺口或失败模式

整体满意度光谱更务实,而不是意识形态站队。@chamath@AlexFinn 都按任务和成本来路由模型,而 @pauliusztin_@elora_khatun 则把 MCP 视为混合栈中的一层,这套栈还需要技能和 CLI。最常见的权宜方案,是在远程算力之上保留桌面界面、在提示词前预处理文件、发布技能而不是超长提示词,以及在智能体合并或签名前先扫描高风险操作。@sharbel@vigilcodes 把竞争迁移讲得很清楚:上下文准备层和安全层,正在作为独立产品类别吸引注意力。


5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
three.ws @trythreews 具备钱包、语音、多人世界和按次聊天付费的浏览器原生 3D AI 智能体平台 不再只是又一个聊天框,而是给智能体提供具身界面、身份层和变现层 浏览器原生渲染、多 LLM、Solana 钱包、x402、WebXR、实时语音 已上线 站点, 推文
Postera @MeltedMindz 一个让智能体出售 SKILL.md 能力并以 USDC 收款的市场 把可复用的智能体经验直接变成可购买资产 Base、x402、SKILL.md、钱包结算 已上线 站点, 推文
Postera 上的 Axiom 资料页 @AxiomBot 一个展示 x402 Endpoint Builder 和 Skill Author 套餐、收据与已声明端点的实时店铺页 让买家能看见智能体身份、定价和信任信号 Base、x402、MCP、A2A、ERC-8004 风格身份界面 已上线 推文
autoskills midudev 自动识别仓库技术栈并安装精选智能体技能 减少手动选择技能和初始配置的摩擦 Ruby、package/config 扫描器、审计过的技能注册表 已上线 仓库, 推文
VIGIL @vigilcodes 带 11 个只读 Base 工具的 MCP 安全扫描器 让智能体在签名前先检查授权、蜜罐、合约和钱包 Python、MCP、Base、ClawHub 已上线 仓库, 推文
  • 阶段 — 项目所处阶段:已上线(正式可用 / 生产环境)、Beta(可用但未完整)、Alpha(早期原型)或 RFC(想法 / 提案,尚无可用代码)
  • 技术栈 — 构建项目所用的语言、框架、模型或服务
  • 解决的问题 — 触发构建的具体痛点或缺口
  • 链接 — GitHub 仓库、项目站点、demo、博客文章,或项目所在位置

three.ws 是最有辨识度的构建,因为它把具身交互、支付和工具连通性放进了同一个浏览器界面。公开站点写明,智能体可以被重新组合、放进 AR、按次聊天收取 USDC,并通过 A2A 和 MCP 连接到其他智能体——这已经远不只是给视觉化头像套一层壳。

Postera 和 Axiom 展现了一个平行的构建模式:技能正被当成市场库存,而不是像 gist 一样的提示词文件。Axiom 的截图让这一层变得一目了然:付费上架项、收据、已声明端点、买家数量和复购统计都摆在台面上。

autoskills 的 GitHub README 截图,展示一条命令安装、技术栈检测和审计后的技能选择

autoskills 和 VIGIL 更窄,但很重要,因为它们各自把一个操作者任务打成独立层——要么安装对的技能,要么在签名前扫描——而不是让用户再去拼一套通用智能体框架。这一模式在当天反复出现:构建者正在围绕设置、安全和变现,发布更薄、更有明确取向的层。


6. 新动态与亮点

技能安全开始进入构建流水线

@dani_avila7 展示(8 次点赞、2 条回复、679 次浏览、11 次收藏),SkillSpector 现已并入 Claude Code Templates,因此新的技能 PR 会在合并前先被扫描。@vigilcodes 发布(5 次点赞、1 条回复、104 次浏览)了 VIGIL,把授权、蜜罐、token、钱包和撤销工具收成一个面向 Base 的 MCP 端点。真正值得注意的不是原始互动量,而是这两件事都把验证前移到了生命周期更早的位置——一个在合并前,一个在签名前。

深色 UI 截图,展示 VIGIL 的授权列表、安全评分、token 扫描、钱包报告、蜜罐检测和撤销工具

上下文准备类仓库冲进了本周 GitHub 领跑榜

@sharbel 整理(32 次点赞、13 条回复、1,627 次浏览、32 次收藏)了一份 6 月 6 日榜单,其中 markitdown、headroom、ECC、codegraph、Understand-Anything、supermemory 和 Claude Code 都跻身本周增长最快的仓库之列。公开的 GitHub 元数据也支撑了这一方向:microsoft/markitdown 在抓取时有 146,475 个星标,chopratejas/headroom 有 15,983 个,affaan-m/ECC 有 209,226 个,而 colbymchenry/codegraph 有 43,177 个。真正值得注意的是,上下文压缩、文件规范化和本地代码知识,正在各自拉出爆发式需求。

榜单图片,列出增长最快的 GitHub 仓库,其中包括 markitdown、headroom、ECC、codegraph 和 Claude Code

智能体教育开始变成正式课程

@Dinosn 附上链接(17 次点赞、726 次浏览、14 次收藏)《Learn Harness Engineering》,其站点把它描述为一门面向 Codex 和 Claude Code 的项目制课程,涵盖环境、状态、验证和控制系统。@Gauravjain2410 传播(23 次点赞、2 条回复)了一张 Anthropic Academy 海报,列出 13 门免费课程,涵盖《Claude 101》《Agent Skills》《Claude Code in Action》《Intro to MCP》、MCP 进阶主题,以及面向 Bedrock 和 Vertex AI 的部署路径。这很重要,因为操作者层正在被包装成课程体系,而不只是另一条讨论串。

Anthropic Academy 海报,列出 13 门 Claude AI 课程,包括 Agent Skills、Claude Code in Action 和 MCP 课程


7. 机会在哪里

[+++] 面向路由、权限和记忆的智能体控制平面 —— @chamath 给模型路由标出了硬性的月度美元区间,而 @AlexFinn@iamlukethedev 则展示出操作者已经在管理按模型区分的配置、桌面控制、远程算力和记忆设置。这个机会很强,因为痛点同时横跨财务、可靠性和访问控制。

[++] 验证优先的运行时层 —— @Vtrivedy10 把高效验证描述成核心瓶颈,@dani_avila7 把技能扫描前移进 PR 审查,而 @vigilcodes 则通过 MCP 提供了签名前检查。这个机会中等偏强,因为买方已经可见、需求也很明确,但方案仍分散在 CI、运行时和链上扫描器之间。

[++] 代码库可读性与技能安装基础设施 —— @aakashgupta@PrajwalTomar_@tom_doerr 都指向同一个需求:在智能体开始乱猜前,先把它的设置明确写出来。这个机会中等偏强,因为需求已经非常明显,公开产物也在不断上线,但市场仍分散在教育、模板和安装器之间。

[+] 智能体商业化与具身界面 —— @trythreews@MeltedMindz@AxiomBot 展示出智能体正在拥有具身界面、钱包、店铺和直接支付。这个机会仍在萌芽,因为可用产品已经出现,但可见收入、买家数量和信任体系都还很早期。


8. 要点总结

  1. 6 月 6 日围绕运行框架工程的讨论,重点更多是产物,而不是观点。 一份路线图、一个 SOUL.md 模板和一张运行时架构图,把智能体运维变成了团队今天就能照着复制的文件与图表。(来源)
  2. 模型路由现在已经是单位经济学问题。 Chamath 的表把 GPT-5.5 Pro、Claude Opus 4.8、DeepSeek V4 Pro 和 DeepSeek R1 放进同一张月度成本表,而 AlexFinn 的配置建议也与此一致:把不同模型分给不同工作。(来源)
  3. 界面层正在快速变宽。 Hermes desktop、three.ws 和 Postera 都把智能体当作桌面应用、具身界面或店铺来处理,而不再只是纯聊天循环。(来源)
  4. 记忆仍是运行层的断裂带。 _lopopolo 表示,长时间运行不能依赖确定性地往上下文里硬塞信息;而 Hermes 支持者仍在靠“下一次会话不会从空白开始”这个承诺赢得注意力。(来源)
  5. 安全与上下文准备正在各自长成产品类别。 SkillSpector、VIGIL 和 GitHub 爆发榜都指向同一个方向:围绕模型的扫描器、压缩层和代码知识工具,需求正在上升。(来源)