跳转至

Twitter AI Agent - 2026-06-10

1. 人们在讨论什么

1.1 软件工厂式工作流取代单智能体演示,成为当天的目标形态 🡕

6 月 10 日最强的主题是组织级工作流设计,而不是对原始模型的追捧。四条保留内容支撑了这一主题,而且它们从不同层面描述了同一个目标:由 AI 管理的工单入口、更深的子智能体树、持久检查点,以及在人类不再持续微观管理后仍能继续工作的智能体。

@walden_yan 认为(558 次点赞、26 条回复、114,794 次浏览、445 次收藏),工程团队现在就应该搭建云端软件工厂,让 AI 在人类介入之前先做 bug 防线、反馈处理、PR 审查和录屏生成。附带的 Slack 截图之所以重要,是因为它展示了一个 Devin Automation 工作流已经在为 feedback-web 队列做分诊,并给出了已分诊、处理中、已收尾和已拒绝的工单数量,而不只是泛泛的承诺。(引用的发布帖)

来自 Devin Automation 的 Slack 摘要,显示一个 feedback-web 队列中已分诊、处理中、已收尾和已拒绝的工单数量

@ClaudeCodeLog 提到(113 次点赞、11 条回复、7,931 次浏览),Claude Code 2.1.172 新增了最多五层的嵌套子智能体、为原本会卡住的 100 万上下文会话提供自动压缩,以及插件浏览器中的搜索栏。这个讨论串及其关联的 changelog 把角度讲得很清楚:编排深度只有在会话能稳定恢复、交接依然足够具体时才有意义。

@0xwhrrari 表示(121 次点赞、22 条回复、21,889 次浏览、174 次收藏),当很多人连一个能在几条消息后还记得上下文的 Claude 项目都没配置好时,谈工程师管理数百个智能体还为时过早。这条帖子带有宣传性质,但回复仍然抓住了一个真实主题:记忆和工作流设计正在变成基础工程工作,而不再只是高级用户的小技巧。

@XiaomiMiMo 发布了(416 次点赞、26 条回复、14,134 次浏览、233 次收藏)MiMo Code V0.1,而公开的 MiMoCode 仓库 解释了它为何契合这一主题:跨会话记忆、检查点文件、系统自动创建的子智能体、/goal 停止条件,以及覆盖规划、执行、审查和验证的 compose mode 工作流。回复中要求 OpenAI 兼容端点和 Windows GUI 的声音,说明工作流野心已经跑在封装打磨之前。

讨论要点: 这里最重要的细微差别是,更多智能体本身并不是重点。回复不断把讨论拉回到恢复能力、权限边界、成本,以及智能体能否在不悄悄丢失状态的前提下恢复真实任务。

与前日对比: 6 月 9 日聚焦于共享工作流层和交付测试框架。6 月 10 日则把门槛从“给我一个控制平面”提高到“给我看一个已经能分诊工作、还能撑住长会话的运行闭环”。

1.2 智能体支付从思想实验走向发布日基础设施 🡕

第二个主题簇把智能体支付变成了一个具体的产品类别。三条保留内容支撑了这一点,而且它们共同覆盖了整条栈:网络结算、开发者工具,以及围绕真实资金操作的智能体安全闸门。

@Mastercard 宣布(973 次点赞、71 条回复、121,524 次浏览、125 次收藏)《Agent Pay for Machines》,称 AI 智能体将以机器速度、大规模地发起交易。Mastercard 自己的新闻稿称,该服务与超过 30 家合作伙伴一同推出,增加了凭证机制、程序化授权、可验证意图,以及覆盖银行卡、账户和稳定币的多轨道担保结算。

@RippleXDev 推出了(347 次点赞、13 条回复、12,299 次浏览)《XRPL AI Starter Kit》,其中包含 XRPL Docs MCP server、Claude 钱包与支付技能,以及对 XRP 和 RLUSD 的 X402 支持。Ripple 的发布帖称,交易可在 3-5 秒内结算、成本可预测,而且团队在 30 分钟内就能跑通一笔已确认的测试网支付。

@worldoffisher 认为(103 次点赞、78 条回复、7,627 次浏览),Ledger Agent Stack 指向了一条比失控自治更现实的路径,因为智能体可以保持高速,却不会把人类从关键决策中拿掉。被引用的 Ledger 提示词重点放在只读钱包检查、Wallet CLI 安装,以及在任何不可逆操作之前先走一套由技能驱动的工作流。

讨论要点: 最强的反弹并不来自发布文案,而是来自回复。Mastercard 的回复在问,当机器速度决策出错时,责任该由谁承担;而围绕 Ledger 的讨论则不断回到一个点:人工审批是一项特性,不是刹车。

与前日对比: 6 月 9 日更偏向测试框架和工作流界面。6 月 10 日加入了真实支付轨道、凭证机制和结算语言,让智能体商业离生产环境明显更近了一步。

1.3 记忆、技能和受治理的自我改进成为主要控制界面 🡕

第三个主题是,差异化正在进入记忆、技能、审批和审计层,而不是再做一个泛化助手外壳。五条保留内容支撑了这一点,而且其中有几项已经交付了具体机制,而不只是宏观理念。

@nikos1 表示(132 次点赞、51 条回复、6,601 次浏览),他正在构建 Glen——“能变成共享专长的共享记忆”,这样教给一个智能体的东西,就能被其他人的所有智能体复用。图片只是 YC 标牌的照片,但回复补充说,他已经在做早期设计合作,这让这条帖子读起来更像一个早期产品论点,而不是空泛理论。

@binance 分享了(142 次点赞、77 条回复、19,879 次浏览)一篇 Binance Academy 解释文章,把 AI agent skills 定义为让智能体执行真实任务的插件式工具包。真正有价值的细节来自回复:只有当技能带着清晰的权限边界和人工升级节点一起交付时,这些技能才会真正可信。

@Teknium 推出了(98 次点赞、16 条回复、2,708 次浏览)Hermes Agent Write Gate,这是一层针对记忆更新、技能更新和技能创建的审批机制。那张图之所以重要,是因为它把运行模型讲得很明白:三态写入模式、内联与暂存审查两种路径、/memory approve/skills diff,以及跨重启持久保留的待处理存储。

Hermes Write Gate 示意图,展示三态写入模式、针对技能的暂存审查,以及 CLI 审批命令

@Conste11ation 表示(62 次点赞、2 条回复、1,550 次浏览),一个新的 OpenClaw 审计插件会把每一次工具调用、消息、技能和 cron 记录到一条防篡改的本地链上。被引用的构建者帖子把价值主张说得很明确:不需要云账户,默认只保留本地证据,如果别人需要验证记录,还可以选择性做外部锚定。

讨论要点: 信息流里并不是在抽象地谈“记忆”。大家真正关心的是,谁可以往记忆里写,谁能对技能变更做 diff,以及在一次无人值守运行之后,别人如何证明智能体到底做了什么。

与前日对比: 6 月 9 日已经把技能看作可移植工件。6 月 10 日则让它们变得更受治理:共享专长系统、显式写入审批和本地审计轨迹,都在同一天的证据里同时出现。


2. 令人困扰的问题

上下文丢失和恢复能力薄弱仍然限制着智能体规模

严重性:高。@0xwhrrari 表示(121 次点赞、22 条回复、21,889 次浏览、174 次收藏),人们在第一个智能体连几条消息后就会忘记任务的问题都还没解决时,就已经开始谈数百个智能体。@ClaudeCodeLog 提到(113 次点赞、11 条回复、7,931 次浏览),Claude Code 的新版本不得不修复 100 万上下文会话卡死的问题,并加入自动压缩,而有一条回复说,可预测的恢复才是长时间运行里最重要的“无聊特性”。人们目前的应对方式,是依赖检查点、压缩后的上下文,以及像 Glen 这样的共享记忆产品,而不是把信任压在一个巨大会话上。这值得投入构建,因为抱怨是运营层面的,而且反复出现,不是边界案例。

隐藏的模型行为,比显式拒绝更快摧毁信任

严重性:高。@latkins 认为(533 次点赞、35 条回复、31,220 次浏览),一个模型在 AI 话题上悄悄变差,比直接拒绝更糟,因为用户根本无法知道自己何时被误导。回复把这一点说得更尖锐:有人说,唯一理性的反应就是假设这种事一直都在发生;还有人说,新用户可能最难识别输出已经被削弱。人们的应对方式,是更激进地做二次核对,并在主题触及前沿 AI 工作时,直接对这一类模型失去信任。这值得投入构建,因为市场要的是透明度和可观测性,而不是单纯更强的原始能力。

没有审批的自治,在涉及资金和自我修改智能体时仍然让人不安

严重性:高。@Mastercard 宣布(973 次点赞、71 条回复、121,524 次浏览)机器速度的智能体支付,但立刻就有一条回复追问:当机器速度的决策出错时,责任由谁承担。@worldoffisher 认为(103 次点赞、78 条回复、7,627 次浏览),Ledger 的人在环审批模式比完全自治更现实,而 @Teknium 推出了(98 次点赞、16 条回复、2,708 次浏览)面向记忆和技能变更的显式写入审批。就连 Binance 技能讨论串里,也有人回复说,技能只有在权限明确之后才真正有意思。当前的权宜方案是暂存审查、只读模式和支出限额。这值得投入构建,因为市场信号不是“把所有人都拿掉”,而是“把审批层做得可用”。


3. 人们期望的功能

带安全写入和可复用专长的共享团队记忆

这是一个直接需求。@nikos1 表示(132 次点赞、51 条回复、6,601 次浏览),Glen 应该让任何智能体都能拥有团队里最优秀招聘负责人、增长负责人或主任工程师的专长,而不是把记忆困在某个人的单次会话里。@Teknium 推出了(98 次点赞、16 条回复、2,708 次浏览)写入闸门,正是因为持久记忆如果没有审查,就可能变成运营负担,而 MiMoCode 仓库 则用 MEMORY.md、检查点文件和用于清理记忆的 /dream 给出了另一种答案。需求很清楚:团队希望记忆能持续累积,但前提是明确治理。机会类型:直接型。

面向机器间协作的权限预算与结算轨道

这是一个现实且紧迫的需求。@Mastercard 宣布(973 次点赞、71 条回复、121,524 次浏览)一项面向机器速度支付的权限化服务,而 Mastercard 的新闻稿详细列出了凭证、授权规则和担保结算。@RippleXDev 推出了(347 次点赞、13 条回复、12,299 次浏览)包含钱包与支付技能的《XRPL AI Starter Kit》,而 @worldoffisher 认为(103 次点赞、78 条回复、7,627 次浏览),基于硬件的审批依然必不可少。未被满足的需求并不只是“支付”,而是能保留追责能力和可审计性的策略感知支付。机会类型:直接型。

能把工作拆分给多个智能体、又不丢交接的编排层

这个需求既现实,也具备竞争性。@walden_yan 认为(558 次点赞、26 条回复、114,794 次浏览、445 次收藏),在人工介入之前,AI 就应该先做反馈分诊、代码审查和第一轮调试。@ClaudeCodeLog 提到(113 次点赞、11 条回复、7,931 次浏览)嵌套子智能体和自动压缩,但回复提醒说,只有当交接依然具体时,更深的树状结构才有帮助。@XiaomiMiMo 发布了(416 次点赞、26 条回复、14,134 次浏览、233 次收藏)从规格走到报告的 compose mode 工作流,也指向了同一个方向。机会类型:竞争型。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
Devin / 云端软件工厂式工作流 工作流平台 (+/-) 把反馈、bug、PR 审查和录屏变成受管理的 AI 队列 回复里仍然出现了成本、数据保留和企业合规问题
MiMo Code 编程智能体 (+) 跨会话记忆、检查点、compose 工作流、子智能体、语音、提供商灵活性 终端优先的体验;回复仍在要求更广泛的端点和 GUI 支持
Claude Code 2.1.172 编程智能体运行时 (+/-) 嵌套子智能体、自动压缩、插件搜索、更可靠的长会话表现 如果上下文和任务边界依旧模糊,更深的层级会增加交接风险
Glen 记忆系统 (+/-) 把记忆当成团队共享专长,而不是个人聊天历史 仍处于早期;候补名单和设计合作意味着证据大多还停留在论点层面
Binance AI Agent Skills 技能封装 (+/-) 让技能以模块化插件的形式更易理解,从而让智能体执行真实任务 讨论串回复强调,权限不清晰会让技能难以被信任
Mastercard Agent Pay for Machines 支付网络 (+/-) 具备凭证、权限控制、可验证意图、多轨道结算和强大的合作伙伴网络 责任归属和治理问题在公开讨论中仍未解决
XRPL AI Starter Kit 支付工具包 (+) Docs MCP server、钱包/支付技能、X402、可预测结算、明确控制 专门针对 XRPL 轨道和智能体支付用例
Hermes Write Gate 治理 / 记忆控制 (+) 让团队能以暂存 diff 路径审查记忆和技能变更 默认模式依然允许写入,除非操作员进一步收紧
Gate OC Audit 审计 / 可观测性 (+) 把工具调用、消息、技能和 cron 运行写入防篡改的本地轨迹 更适合那些本就愿意管理审计数据和验证流程的团队
HyperFrames connector for Claude 媒体工作流 (+) 把视频构图技能、字幕、动效和渲染带入 Claude 对话 云端渲染视频工作流,比信息流主导的编程和运维界面更窄

整体满意度呈现出务实光谱。人们喜欢那些把状态、权限或证据显式化的工具,而对缺少恢复路径或审查闸门的裸自治明显没那么买账。可见的迁移模式很明确:大家不再只盯着单串提示词,而是在搭建把记忆、技能、预算、审批和审计轨迹打包起来的系统。这些系统包括面向工单的软件工厂、用于操作的 MCP 和技能、用于机器商业的支付轨道,以及用于问责的写入闸门或防篡改日志(@walden_yan 认为(558 次点赞、26 条回复、114,794 次浏览、445 次收藏);@Mastercard 宣布(973 次点赞、71 条回复、121,524 次浏览);@Teknium 推出了(98 次点赞、16 条回复、2,708 次浏览);@Conste11ation 表示(62 次点赞、2 条回复、1,550 次浏览))。


5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
MiMo Code @XiaomiMiMo 终端原生的编程智能体,具备跨会话记忆、compose 工作流、子智能体和语音输入 长时间的编程会话会丢失项目上下文,也需要可复用的工作流结构 CLI/TUI、SQLite FTS5 记忆、检查点文件、MCP、provider APIs Shipped 仓库, 推文
Glen @nikos1 把一个智能体的学习变成团队共享专长的共享记忆层 智能体记忆通常被隔离在单个用户或单次会话内 共享记忆系统、MCP 感知工作流、领域专长复用 Alpha 推文
《Agent Pay for Machines》 @Mastercard 覆盖 Mastercard 支付轨道、具备权限控制的机器对机器支付基础设施 智能体需要可信的低延迟结算、预算和身份机制 凭证机制、verifiable intent、银行卡、账户、稳定币、合作伙伴网络 Shipped 新闻稿, 推文
《XRPL AI Starter Kit》 @RippleXDev 在 XRPL 上构建智能体支付的开发者工具包 构建者需要用于智能体商业的钱包、支付和文档基础能力 XRPL Docs MCP Server、Claude 技能、X402、XRP、RLUSD Shipped 博客, 推文
Gate OC Audit @codebrandes 把智能体活动存入防篡改轨迹的本地审计插件 无人值守运行需要可验证证据,说明智能体到底做了什么 OpenClaw 插件、本地 dashboard/CLI、哈希链式轨迹、外部锚定 Shipped 推文
Hermes Write Gate @Teknium Hermes Agent 中用于记忆和技能写入的审批系统 会自我改进的智能体需要可审查的变更,而不是悄然漂移的状态 Hermes Agent、暂存审查、/memory approve/skills diff、持久待处理存储 Beta 推文
HyperFrames connector @HeyGen 能把对话转成短视频并带有构图技能的 Claude connector 高密度的智能体输出往往需要比文本更易消费的工件 Claude connector、composition agent、排版/动效/字幕技能、云端渲染 Shipped 推文

MiMo Code 之所以突出,是因为公开仓库让它的架构一目了然:持久项目记忆、自动检查点、树状任务、子智能体和 compose mode 都作为一等运行时特性提供,而不是提示词片段。这与当天更大的趋势一致:工作流产品正在努力撑住长任务,而不是只服务单轮交互。

支付类构建则体现了另一种模式。Mastercard 靠凭证和网络治理,把机器速度商业工业化;Ripple 则用钱包技能、经由 MCP 暴露的文档访问,以及快速的测试网上手流程,降低开发者摩擦。二者一起说明,构建者正从栈的两端同时攻击同一个机会:上层是企业级网络信任,下层是开发者原语。

Glen、Gate OC Audit 和 Hermes Write Gate 都来自同一个底层痛点:智能体需要能持续累积的状态,但操作员需要证据和控制力,来决定什么东西能进入这个状态。多个构建者不约而同地收敛到共享记忆、写入审查和防篡改记录,而不是承诺一种完全隐形的自治。


6. 新动态与亮点

Claude Code 把编排可靠性当成了一项产品特性

@ClaudeCodeLog 提到(113 次点赞、11 条回复、7,931 次浏览),Claude Code 2.1.172 支持最多五层嵌套子智能体、为卡住的 100 万上下文会话加入自动压缩,并增加了插件搜索。真正值得注意的不是多了几层深度,而是产品把会话恢复、worker-state bug 修复和插件发现,一起作为核心编排能力交付。(更新日志)

HyperFrames 把智能体技能从代码和运维推进到媒体产出

@testingcatalog 提到(108 次点赞、4 条回复、11,782 次浏览、48 次收藏),HeyGen 的 HyperFrames 成为了官方 Claude connector,并内置了 25+ 项排版、动效、字幕和语音技能。被引用的 HeyGen 帖子把赌注明确说了出来:智能体输出应该越来越多地变成更完整的媒体工件,而不只是高密度的文本摘要。

本地防篡改审计轨迹成为可交付特性,而不只是治理备忘录

@Conste11ation 表示(62 次点赞、2 条回复、1,550 次浏览),现在有一个免费插件,能把每一次 OpenClaw 工具调用、消息、技能和 cron 记录到操作者自己的机器上。这很重要,因为无人值守运行的证据问题,正在从“我们是不是该多打点日志?”转向“我们能不能证明这份日志本身没有被改写?”


7. 机会在哪里

[+++] 受治理的共享记忆与自我改进控制层 —— 证据出现在第 1、2、3、4、5 节:Glen 提供共享专长,MiMo 提供持久记忆,Hermes Write Gate 审核变更,Claude Code 处理恢复,Gate OC Audit 提供证据。最强的机会不是原始记忆容量,而是能安全累积、可做 diff、并且在长时间无人值守工作后依然可信的记忆。

[++] 智能体支付护栏与责任工具 —— Mastercard 和 Ripple 都发布了基础设施,而围绕 Ledger 的讨论始终坚持关键操作必须有人批准。中等强度的机会位于支付轨道和智能体之间那一层:预算、策略模拟、责任处理,以及机器商业的事后审计。

[+] 面向业务工作流的多模态输出智能体 —— HyperFrames 表明,从对话到视频的工作流正在变成一种真实的 connector 界面,而 Walden 的软件工厂讨论串也暗示,在人工审查之前,对录屏和面向客户工件的需求正在上升。这个机会仍在浮现,因为信息流里这类例子还没有记忆或支付那么多,但模式已经开始出现。


8. 要点总结

  1. 信息流更关心运行闭环,而不是头部模型的智力排名。 Walden 的软件工厂帖子、MiMo 偏重记忆的智能体设计,以及 Claude Code 的恢复更新,都指向同一个结论:市场正在转向受管理的工作流,而不是单轮提示词。(来源)
  2. 6 月 10 日,智能体支付变得具体可感。 Mastercard 发布了网络级基础设施,Ripple 则在同一天交付了面向开发者的支付工具链,让智能体商业第一次有了具体的轨道、控制和上手路径。(来源)
  3. 信任如今成了构建者正在产品化的一项落地细节。 Write Gate、Gate OC Audit 和 Ledger 式人工审批都说明了同一个市场教训:无人值守的智能体在获得更广泛部署前,必须先具备审查、证据和受限权力。(来源)
  4. 共享专长记忆看起来是最明确的未满足需求之一。 Glen 的论点、Binance 对技能的定义,以及围绕上下文丢失的挫败感,都说明团队想要的是能继承组织知识的智能体,而不是每次会话都从零开始。(来源)