跳转至

Twitter AI Agent - 2026-05-26

1. 人们在讨论什么

1.1 技能成了可训练的产品和可复用的工程资产 🡕

5 月 26 日最强的变化,是“技能”不再像私藏的提示词包,而开始像可移植资产。在高信号样本里,它同时以 3 种形式出现:可售卖的市场产品、可供智能体训练的外部状态,以及能跨运行时安装的可复用工程习惯。相比 5 月 25 日强调记忆层和运行框架术语表,5 月 26 日把同一个想法推进到了变现、优化和分发。

@Capafyai 推出 了 Capafy,把它做成一个市场:在 Claude Code、Codex 或 OpenClaw 里构建的技能,可以在线运行,同时保持闭源(373 次点赞、227 条回复、254 次引用、119,630 次浏览)。在线的 Capafy 网站 已经列出用于电商广告、简历筛选、社媒文案、PDF 生成和数据分析的专家智能体,而 Capafy-skills 仓库 则说明了两条客户端流程——Capafy-Publisher 和 Capafy-User——以及一个关键的商业区分:闭源的 Run Online 模式,与普通 Download 模式。

@koylanai 认为,SkillOpt 能把 SKILL.md 文件变成可训练参数,配上留出验证闸门、有界编辑预算和跨运行框架可移植性(231 次点赞、502 次收藏、55,849 次浏览)。随附图表把这个论点讲得异常具体:被接受的编辑都很小、经过验证,而且可以复用,而不是大刀阔斧地重写。SkillOpt 仓库论文 也支撑了这一点:覆盖 6 项任务的基准测试,以及包括 GPT-5.5 在 Codex 风格运行框架中提升 24.8 分在内的结果。

SkillOpt 概览图,展示有界的技能编辑、留出选择闸门,以及面向智能体技能的文本空间优化

@daniel_mac8 这条研究思路翻成了可运行的 Codex 习惯:先读论文、进入 /goal 模式,再把这个循环接进本地配置里(281 次点赞、10 条回复、18,606 次浏览、343 次收藏)。这张截图之所以重要,是因为它一边放着论文、一边放着具体的脚本加目标工作流,把“可训练技能”变成了编程智能体可立即上手的模式,而不再只是另一个值得收藏的研究点。

并排展示的 Codex /goal 工作流与 SkillOpt 论文,说明本地技能编辑循环如何在实践中落地

@HiTw93 Waza 打包成了 8 项工程技能,覆盖规划、设计、调试、审查、阅读、写作、研究和健康检查(47 次点赞、9 条回复、10,160 次浏览)。Waza 仓库 展示了 Claude Code 和 Codex 的安装流程,以及手动串联技能的方式,因此这条帖子不只是关于习惯的口号,而是一套可复用工程行为如何跨智能体分发的具体故事。

Waza 技能图谱,展示 8 个可安装的工程技能:think、design、hunt、check、read、write、learn 和 health

讨论要点: 回复区并不奖励空泛的“自我改进智能体”说法。讨论反复回到单项技能的度量、有界 diff、安装入口,以及技能能否在不泄露底层诀窍的前提下被验证或售卖。

与前日对比: 5 月 25 日,技能更多被当成记忆层和可复用知识文件来谈。到了 5 月 26 日,同一底层材料被更激进地当成可以训练、安装和变现的对象。

1.2 运行框架设计从概念走向治理与可运维性 🡕

第二个大主题是,运行框架工程不再只是画图,而是落到控制点上:策略在哪里执行、状态放在哪里,以及当智能体拥有真实权限或不止一个用户时,系统会在哪里出问题。当日最强的帖子,都把研究语言和具体落地点配在一起,例如 YAML 策略内核、Postgres 支撑的状态,以及可组合的记忆层。

@_vmlops 重点介绍 了 Microsoft 的 Agent Governance Toolkit,把它说成一层确定性控制层:会在工具调用真正发到外部之前拦截它们,并提供 YAML 策略、身份、沙箱隔离和防篡改日志(215 次点赞、8 条回复、15,069 次浏览、364 次收藏)。AGT 仓库 的 README 明确把提示词层安全框定为非控制面,但最有分量的一条回复也补上了重要限制:工具调用强制执行看不到提示词里的恶意指令,也看不到输出中的敏感内容,所以团队仍需要单独的输入/输出防线。

@dair_ai 整个问题重新定义为“系统扩展”,认为智能体质量如今来自记忆、上下文构建、技能路由、编排、验证和治理,而不再仅仅取决于模型规模(59 次点赞、10 条回复、3,530 次浏览、54 次收藏)。随附论文首页之所以重要,是因为它直接点出了 3 个运行框架瓶颈——上下文治理、可信记忆和动态技能路由——并把它们系到一个名为 CheetahClaws 的参考运行框架上;项目页把它描述成原生支持 Python、且与模型无关。

《system-scaling》论文首页,点出了上下文治理、可信记忆和动态技能路由这 3 个核心运行框架瓶颈

@Hey_Amiko 表示,OpenHermit 存在的原因,是一旦智能体系统不再只服务一个用户,本地文件、密钥和会话状态就会迅速失控(9 次点赞、190 次浏览)。OpenHermit 网站仓库 把边界讲得很清楚:内部状态放在 PostgreSQL,外部状态放在每个智能体各自的沙箱里,再配上面向整支智能体队列的技能和 MCP server 发布命令。@mattapperson 发布 Noetic 也是同一路数:用 7 个可组合原语 和多层记忆模型,让上下文边界变得可读,而不是像魔法一样藏起来(94 次点赞、7 条回复、11,134 次浏览、120 次收藏)。

讨论要点: 回复区收敛到同一个边界条件:提示词不够。即便是乐观帖子,也会被要求给出带版本的策略、明确的回滚、集中式状态,以及模型之外的确定性执行。

与前日对比: 5 月 25 日的运行框架讨论,仍以解释贴、图示和资源图为主。5 月 26 日则把话题压到了运行时策略、集群运维,以及必须直接工程化的运行框架级瓶颈上。

1.3 实时智能体开始配上更快的语音闭环和可视化前端 🡕

一个规模较小但清晰的讨论簇,聚焦于当后端闭环足够快时,智能体该长什么样、听起来像什么。共同点不是某个新模型发布本身,而是套在现有智能体外面的封装:更低延迟的对话推理、替代固定聊天窗的动态画布,以及不用替换整套栈就能增加视觉存在感的 avatar 层。

@kwindla 报告 称,经 Cerebras 服务的 Kimi K2.6 能把带推理的语音智能体单轮压到 500 ms 内,这一点很关键,因为推理延迟通常会让对话型智能体显得不可用(88 次点赞、4 条回复、7,712 次浏览、56 次收藏)。链接的 Cerebras 博文 声称,其输出速度达到每秒 981 个输出 token,相比官方 Kimi endpoint 到最终答案的时间快 29 倍;Kwindla 在回复里还把实际栈写得很清楚:Pipecat Smart Turn、Nemotron 流式 ASR、Cerebras Kimi K2.6 和 Kyutai Pocket TTS。

@pika_labs 分享 了“Generative UI”,它是一种语音控制界面:智能体每一轮都直接产出新的 HTML 布局,而不是往一个静态外壳里填内容(128 次点赞、18 条回复、6,985 次浏览)。链接的 generative-ui README 说明,这只是一个基于 OpenAI Realtime、Pika MCP 和可选 Google Workspace 工具的本地原型;回复区也强调,它是刻意保持粗糙的实验品,而不是可直接生产落地的东西。

@AiwithYasir 放大了 LiveAvatar 面向 LiveKit、Pipecat、Agora 和 VisionAgent 的插件接入路径(59 次点赞、11,420 次浏览)。LiveKit LiveAvatar 文档 把它描述成一层嵌入现有语音应用里的 Python avatar 会话,这也强化了当天更大的模式:多模态存在感是作为现有智能体栈外的一层封装加上去的,而不是被当成另一套独立栈。

讨论要点: 这些帖子都默认底层智能体已经存在。工作重心正在转向延迟、视觉编排和存在感层,让同一个底层智能体更像对话对象,也不再像被关在终端里。

与前日对比: 5 月 26 日,语音和 UI 信号比 5 月 25 日更显眼。变化在于,讨论从泛泛的“语音智能体”热情,转向了 500 ms 以下闭环、动态画布和 avatar 插件这些具体主张。


2. 令人困扰的问题

只靠提示词的安全方案,总在最需要信任的那一刻失效

严重程度:高。@RoundtableSpace 推荐 用一条 Claude 提示词做安全审查,但回复区几乎都指向同一个结论:@Trish_DIntel 说,模型无法可靠识别那些自己就会上当的东西;@OraclesTech 认为,容易被提示注入攻击的同一个模型,不可能靠自己保护自己;@0xDawny 则主张做代码审计,而不是修补提示词。AGT 那条讨论串从反方向把同样的挫败感讲得更尖锐:@_vmlops 抛出了 确定性的工具调用治理(215 次点赞、8 条回复、15,069 次浏览、364 次收藏),但一条详细回复仍指出,团队还得单独补上提示词和输出防线。@tom_doerr 分享 了 Cisco 的 Skill Scanner,把它当成“尽力而为”的回应(17 次点赞、8 条回复、1,242 次浏览、22 次收藏),而那条讨论串马上又有人追问,它能不能抓住多步数据外泄。人们现在的应对方式,是在模型外层叠扫描器、策略内核和人工审查。值得做:是。

面向单用户的文件布局扛不到生产环境

严重程度:高。@Hey_Amiko 写道,一旦智能体框架不再只服务一个用户,本地文件会散落、密钥会泄露,扩展就变成了“SSH 上去再祈祷”(9 次点赞、190 次浏览)。@dair_ai 认为,上下文治理、可信记忆和动态技能路由才是真正的系统扩展瓶颈(59 次点赞、10 条回复、3,530 次浏览、54 次收藏);@mattapperson 则发布了 Noetic,用显式的记忆和控制流原语取代隐藏的框架行为(94 次点赞、7 条回复、11,134 次浏览、120 次收藏)。眼下可见的绕行方案,是集中内部状态、隔离工作区,并给技能、密钥和 MCP server 加上发布表面。值得做:是。

推理仍让语音智能体显得很慢

严重程度:中。@kwindla 指出,推理模式延迟对语音智能体是真实痛点,并把 Kimi K2.6 的速度当成它终于可用的原因(88 次点赞、4 条回复、7,712 次浏览、56 次收藏)。回复区里给出的实用绕行方案是栈级组合,而不是单模型升级:把 Pipecat Smart Turn、流式 ASR、快速推理和 TTS 一起调优,让用户不必干等模型思考。值得做:是——这个痛点具体、可度量,而且直接连着用户体验。

构建者正把时间耗在术语蔓延上

严重程度:中。@adithya_s_k 抱怨,像运行框架、脚手架、上下文工程和智能体式工作流这样的词,常被当成所有人都早已达成共识的术语来用,可实际上在不同场景里含义并不相同(55 次点赞、5 条回复、2,855 次浏览、28 次收藏)。回复区大多是在感谢那条术语表帖子帮大家搭起一个基础标准,而不是反驳抱怨本身。这个问题不像安全或扩展性那么硬,但它仍在给工具评估、入门流程和框架比较增加额外成本。值得做:也许。


3. 人们期望的功能

面向开放式智能体工作的验证器

数据里最清晰的需求,是有一道闸门,能像基准测试评判代码那样严格地评判写作、设计、策略和安全行为。@koylanai 写道,验证才是真正瓶颈,因为基准测试里的自动评分器无法迁移到开放式工作上(231 次点赞、502 次收藏、55,849 次浏览);AGT 和 Roundtable 两条讨论串则在安全领域暴露了同一个缺口:团队可以拦住工具调用,却仍然缺少可靠的提示词、输入和输出评估器。@tom_doerr 分享 了 Skill Scanner 作为部分答案(17 次点赞、8 条回复、1,242 次浏览、22 次收藏),但它自己的 README 就写着“尽力而为”,回复区也马上追问多步外泄问题。机会:直接。

面向智能体集群的生产控制平面,而不只是单兵智能体

人们想要的是:一旦涉及团队或客户,智能体还能把状态、密钥、调度和技能维持在可运维状态。@Hey_Amiko OpenHermit 描述成解决单用户文件蔓延的方法(9 次点赞、190 次浏览);@mattapperson Noetic 定位成带显式原语和记忆层的可定制运行框架(94 次点赞、7 条回复、11,134 次浏览、120 次收藏);@dair_ai 则认为,系统扩展如今才是真正瓶颈(59 次点赞、10 条回复、3,530 次浏览、54 次收藏)。这是一个已有可运行局部答案的现实需求,因此机会真实存在,但竞争很可能激烈。机会:直接且具竞争性。

面向专家技能的闭源分发与付费

Capafy 的发布之所以说得通,只因为底层需求早已存在:人们已经在 Claude Code、Codex 和 OpenClaw 里做出了有价值的技能,却不想把文件免费公开。@Capafyai 答案定义为闭源的 Run Online 技能,用户既可以直接调用,也可以通过另一个智能体接入(373 次点赞、227 条回复、254 次引用、119,630 次浏览)。这个需求不是愿景式的,而是非常现实,也直接指向变现:保护诀窍、暴露结果、再让别人为访问付费。机会:直接且具竞争性。

能接入现有语音栈的视觉呈现层

多模态帖子指向了一个具体的产品愿望:不用从头重建智能体,也能给它加上一张脸或一块画布。@AiwithYasir 放大了 LiveAvatar 作为 LiveKit、Pipecat、Agora 和 VisionAgent 之上的一层(59 次点赞、11,420 次浏览),而 @pika_labs 则展示了 由同一对话闭环驱动的动态 HTML 界面(128 次点赞、18 条回复、6,985 次浏览)。这个需求还在早期,但已经具体到构建者开始打包插件和实验,而不只是空谈多模态智能体。机会:具竞争性。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
SkillOpt 技能优化 (+) 有界编辑、留出验证、跨运行框架迁移、部署时无推理成本 需要可自动评分的任务;对开放式工作的验证仍然薄弱
Capafy 技能市场 (+/-) 闭源在线运行技能、浏览器访问、智能体到智能体调用、支持 Claude Code/Codex/OpenClaw 仍处在发布早期,市场信任和质量尚未验证
Agent Governance Toolkit 治理 / 安全 (+/-) 确定性工具调用强制执行、YAML 策略引擎、身份、沙箱隔离、审计日志 公开预览阶段;自身不会检查提示词、输入和输出内容
Noetic 运行框架 (+/-) 7 个可组合原语、可读的控制流、可插拔记忆、支持评估 仍是早期 alpha,公开声量小,文档也还粗糙
Waza 技能包 (+) 8 个聚焦的工程习惯、跨智能体安装、无遥测、显式审查/调试闭环 仍需手动串联,用户自律也依然重要
OpenHermit 智能体基础设施 (+) 基于 Postgres 的状态、按智能体隔离的沙箱、通道、调度、整队发布控制 需要数据库和沙箱运维,而这是单兵智能体工具通常会回避的
Pipecat + Cerebras Kimi K2.6 语音智能体栈 (+) 单轮低于 500 ms、推理对语音仍可用、从 ASR 到 TTS 的栈组合清晰 性能说法依赖调优后的基准栈,不是默认配置
LiveAvatar 虚拟形象插件 (+/-) 不用替换整栈,就能给现有语音应用加入实时虚拟形象会话 多一层插件/API key,讨论串里几乎没有运营者反馈
Pika Generative UI 实验性界面 (+/-) 动态 HTML 布局、实时画布、广泛的 Pika MCP 创作工具面 实验还很粗糙、仅限本地原型、依赖 Pika MCP 和 Realtime APIs
Skill Scanner 安全扫描器 (+/-) 静态、YARA、LLM 和行为分析,并支持 CI/CD 与 pre-commit 只是尽力而为;回复区质疑其对多步外泄的覆盖

整体满意度更偏向那些把结构说清楚,而不是藏起来的工具。@koylanai SkillOpt 讲成有纪律的技能训练(231 次点赞、502 次收藏、55,849 次浏览),@HiTw93 Waza 打包成显式的工程习惯(47 次点赞、9 条回复、10,160 次浏览),@Hey_Amiko 则在 OpenHermit 里把状态与工作区拆开(9 次点赞、190 次浏览)。复杂情绪则集中在安全和 UX 仍未补齐的地方:@_vmlops 推广 了确定性治理(215 次点赞、8 条回复、15,069 次浏览、364 次收藏),但回复区立刻追问提示词/输出覆盖;@pika_labs 直说 Generative UI 只是实验(128 次点赞、18 条回复、6,985 次浏览),而 @kwindla 也明确表示,语音可用性仍取决于端到端延迟够不够紧(88 次点赞、4 条回复、7,712 次浏览、56 次收藏)。当天反复出现的迁移模式很一致:从只靠提示词的行为,走向可安装的技能和评估闭环;从本地文件,走向集中式状态加沙箱;从纯文本智能体,走向语音和视觉包装层。


5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
Capafy @Capafyai 让专家技能作为闭源在线智能体运行,或直接作为下载内容出售的市场 在不立刻公开底层逻辑的情况下,分发并变现专有智能体技能 Python, web marketplace, Claude Code/Codex/OpenClaw clients Beta site, repo, post
Noetic @mattapperson 用 7 个可组合原语和可插拔记忆构建的 TypeScript 运行框架 让开发者在不依赖黑箱框架行为的前提下构建自定义运行框架 TypeScript, Bun, step primitives, memory layers, eval tooling Alpha site, repo, post
OpenHermit @Hey_Amiko 用于部署智能体集群的平台,带集中状态和按智能体隔离的沙箱 解决多用户扩展、密钥蔓延和整队技能 rollout TypeScript, Hono, PostgreSQL, Docker/E2B/Daytona Beta site, repo, post
Waza @HiTw93 面向规划、调试、设计、审查、研究和健康检查的跨智能体技能包 把隐性的工程习惯变成可复用的智能体命令 Markdown skills, helper scripts, npx skills, Claude Code/Codex/Cursor/Pi Shipped repo, post
Agent Governance Toolkit @_vmlops 在工具调用执行前强制规则的策略层 阻止不安全操作、增加来源追踪、加入人工审批闸口 Python package, YAML policy engine, TS/.NET/Rust/Go SDKs Beta repo, post
Pika Generative UI @pika_labs 用语音控制、每一轮都生成新 HTML 布局的界面 用与上下文匹配的可视化编排,替代僵硬的聊天面板 JavaScript, OpenAI Realtime, Pika MCP, optional Google Workspace Alpha repo, post
Skill Scanner @tom_doerr 扫描智能体技能中的提示注入、数据外泄和恶意代码模式 为技能包和智能体指令增加部署前安全审查 Python, YAML/YARA, LLM analysis, behavioral dataflow, SARIF Beta repo, post

Capafy、Waza 和 SkillOpt 从 3 个不同角度展示了同一种重复出现的构建模式:卖技能、装技能,或训练技能。@Capafyai 推出 了市场形态(373 次点赞、227 条回复、254 次引用、119,630 次浏览),@HiTw93 打包 了可复用的工程习惯形态(47 次点赞、9 条回复、10,160 次浏览),@koylanai 则描述了 可训练优化形态(231 次点赞、502 次收藏、55,849 次浏览)。共同触发点,是人们对通用智能体输出的不满,以及对耐久、可检查行为的渴望。

OpenHermit、Noetic 和 AGT 则覆盖了同一趋势的运维侧。它们都默认智能体闭环已经存在;真正难的是一旦系统离开单用户笔记本,状态、权限、发布和恢复该如何处理。Pika Generative UI 把这条模式延伸到前端,把布局视作另一种智能体输出表面;Skill Scanner 则说明,技能安全已经在变成独立的构建类别,而不是事后补丁。


6. 新动态与亮点

技能文件终于有了真正的训练闭环

@koylanai 认为,SkillOpt 把 SKILL.md 当成可训练的外部状态,靠有界编辑和留出验证去优化;@daniel_mac8 则展示了 如何把这套闭环直接拉进 Codex 的 /goal 模式(231 次点赞、502 次收藏、55,849 次浏览;281 次点赞、10 条回复、18,606 次浏览、343 次收藏)。两者搭在一起之所以重要,是因为它让一个研究结果在同一天就变成了可操作工作流。

提示词自审很快就失去了可信度

当天最尖锐的讨论模式,不是发布,而是反驳。@RoundtableSpace 提出 用一条提示词对 Claude 智能体做安全审查(50 次点赞、14 条回复、37,788 次浏览),回复区却立刻指出:模型无法可靠识别它自己也会漏掉的提示注入向量。这让 @_vmlops 分享 的确定性治理内核,比单独看时更显得重要(215 次点赞、8 条回复、15,069 次浏览、364 次收藏)。

智能体界面开始逃出聊天框

@pika_labs 推出 了一个每轮都变化布局的生成式 HTML 画布(128 次点赞、18 条回复、6,985 次浏览),@AiwithYasir 则放大了 LiveAvatar 作为现有语音栈的几行代码扩展(59 次点赞、11,420 次浏览)。再加上 @kwindla 展示 的 500 ms 以下语音轮次(88 次点赞、4 条回复、7,712 次浏览、56 次收藏),信号很明确:前端实验终于开始追上模型速度。


7. 机会在哪里

[+++] 面向智能体与技能的开放式验证层@koylanai 点出了 验证才是瓶颈(231 次点赞、502 次收藏、55,849 次浏览),@RoundtableSpace 则引发了 一条清楚说明为什么自审提示词无法赢得信任的讨论串(50 次点赞、14 条回复、37,788 次浏览),而 @tom_doerr 分享 的尽力而为扫描器,其回复区也立刻追问更深层覆盖(17 次点赞、8 条回复、1,242 次浏览、22 次收藏)。这个机会之所以强,是因为它同时出现在安全、技能优化和评估工具 3 个方向。

[+++] 可运维的多用户智能体基础设施@Hey_Amiko 直接写出了 单用户文件问题(9 次点赞、190 次浏览),@dair_ai 上下文治理、可信记忆和动态技能路由点名为瓶颈(59 次点赞、10 条回复、3,530 次浏览、54 次收藏),而 @mattapperson 发布 Noetic 时,也围绕显式原语和记忆边界来组织(94 次点赞、7 条回复、11,134 次浏览、120 次收藏)。这个信号之所以强,是因为痛点已经是运维层面的,不是愿景层面的。

[++] 闭源技能分发与变现@Capafyai 推出 了一个围绕闭源 Run Online 技能构建的市场(373 次点赞、227 条回复、254 次引用、119,630 次浏览),而 WazaSkillOpt 又显示出市场对可安装、可训练技能工件的邻近需求。这个机会是中等强度,因为需求很明显,但市场信任、质量控制和定价权仍未定型。

[+] 语音智能体的存在感层@kwindla 展示 了更快推理如何改变语音可用性(88 次点赞、4 条回复、7,712 次浏览、56 次收藏),@pika_labs 实验 了动态画布(128 次点赞、18 条回复、6,985 次浏览),而 @AiwithYasir 则指向 了现有栈可接入的 avatar 支持(59 次点赞、11,420 次浏览)。这个信号还在涌现、还不是主流,但 UX 表面显然已经在打开。


8. 要点总结

  1. 技能正在变成一等产品表面。 Capafy 的市场发布和 Waza 可安装的工程习惯,都把技能当成耐久资产,而不是个人提示词文件。(Capafy, Waza)
  2. 技能优化正从直觉走向有纪律的训练。 SkillOpt 的有界编辑与留出闸口,再加上 Codex /goal 的落地模式,都说明智能体行为开始像可复用工件一样被改进,而不是临时反复重写提示词。(SkillOpt discussion, Codex workflow)
  3. 如今决定质量与信任成败的,是运行框架。 CheetahClaws 论文明确把上下文治理、可信记忆和动态技能路由列为瓶颈,而 AGT 则把策略执行下沉到提示词层之下。(system scaling, AGT)
  4. 只靠提示词的安全建议正在失去公信力。 安全讨论串里最强烈的反应,不是兴奋,而是反驳:模型无法可靠审计自身的提示注入弱点,因此扫描器、策略内核和其他外部控制层的需求会继续维持高位。(security prompt thread, Skill Scanner)
  5. 随着延迟下降,智能体构建者把更多时间花在存在感和界面上。 500 ms 以下的语音轮次、动态 HTML 布局和 avatar 插件,都指向同一步:让同一个智能体显得更快、更可视,也更面向真人。(Kimi voice stack, Pika Generative UI, LiveAvatar)