Twitter AI Agent - 2026-05-26¶

1. 人们在讨论什么¶

1.1 技能成了可训练的产品和可复用的工程资产 🡕¶

5 月 26 日最强的变化，是“技能”不再像私藏的提示词包，而开始像可移植资产。在高信号样本里，它同时以 3 种形式出现：可售卖的市场产品、可供智能体训练的外部状态，以及能跨运行时安装的可复用工程习惯。相比 5 月 25 日强调记忆层和运行框架术语表，5 月 26 日把同一个想法推进到了变现、优化和分发。

@Capafyai 推出了 Capafy，把它做成一个市场：在 Claude Code、Codex 或 OpenClaw 里构建的技能，可以在线运行，同时保持闭源（373 次点赞、227 条回复、254 次引用、119,630 次浏览）。在线的 Capafy 网站已经列出用于电商广告、简历筛选、社媒文案、PDF 生成和数据分析的专家智能体，而 Capafy-skills 仓库则说明了两条客户端流程——Capafy-Publisher 和 Capafy-User——以及一个关键的商业区分：闭源的 Run Online 模式，与普通 Download 模式。

@koylanai 认为，SkillOpt 能把 SKILL.md 文件变成可训练参数，配上留出验证闸门、有界编辑预算和跨运行框架可移植性（231 次点赞、502 次收藏、55,849 次浏览）。随附图表把这个论点讲得异常具体：被接受的编辑都很小、经过验证，而且可以复用，而不是大刀阔斧地重写。SkillOpt 仓库和论文也支撑了这一点：覆盖 6 项任务的基准测试，以及包括 GPT-5.5 在 Codex 风格运行框架中提升 24.8 分在内的结果。

SkillOpt 概览图，展示有界的技能编辑、留出选择闸门，以及面向智能体技能的文本空间优化

@daniel_mac8 把这条研究思路翻成了可运行的 Codex 习惯：先读论文、进入 /goal 模式，再把这个循环接进本地配置里（281 次点赞、10 条回复、18,606 次浏览、343 次收藏）。这张截图之所以重要，是因为它一边放着论文、一边放着具体的脚本加目标工作流，把“可训练技能”变成了编程智能体可立即上手的模式，而不再只是另一个值得收藏的研究点。

并排展示的 Codex /goal 工作流与 SkillOpt 论文，说明本地技能编辑循环如何在实践中落地

@HiTw93 把 Waza 打包成了 8 项工程技能，覆盖规划、设计、调试、审查、阅读、写作、研究和健康检查（47 次点赞、9 条回复、10,160 次浏览）。Waza 仓库展示了 Claude Code 和 Codex 的安装流程，以及手动串联技能的方式，因此这条帖子不只是关于习惯的口号，而是一套可复用工程行为如何跨智能体分发的具体故事。

Waza 技能图谱，展示 8 个可安装的工程技能：think、design、hunt、check、read、write、learn 和 health

讨论要点： 回复区并不奖励空泛的“自我改进智能体”说法。讨论反复回到单项技能的度量、有界 diff、安装入口，以及技能能否在不泄露底层诀窍的前提下被验证或售卖。

与前日对比： 5 月 25 日，技能更多被当成记忆层和可复用知识文件来谈。到了 5 月 26 日，同一底层材料被更激进地当成可以训练、安装和变现的对象。

1.2 运行框架设计从概念走向治理与可运维性 🡕¶

第二个大主题是，运行框架工程不再只是画图，而是落到控制点上：策略在哪里执行、状态放在哪里，以及当智能体拥有真实权限或不止一个用户时，系统会在哪里出问题。当日最强的帖子，都把研究语言和具体落地点配在一起，例如 YAML 策略内核、Postgres 支撑的状态，以及可组合的记忆层。

@_vmlops 重点介绍了 Microsoft 的 Agent Governance Toolkit，把它说成一层确定性控制层：会在工具调用真正发到外部之前拦截它们，并提供 YAML 策略、身份、沙箱隔离和防篡改日志（215 次点赞、8 条回复、15,069 次浏览、364 次收藏）。AGT 仓库的 README 明确把提示词层安全框定为非控制面，但最有分量的一条回复也补上了重要限制：工具调用强制执行看不到提示词里的恶意指令，也看不到输出中的敏感内容，所以团队仍需要单独的输入/输出防线。

@dair_ai 把整个问题重新定义为“系统扩展”，认为智能体质量如今来自记忆、上下文构建、技能路由、编排、验证和治理，而不再仅仅取决于模型规模（59 次点赞、10 条回复、3,530 次浏览、54 次收藏）。随附论文首页之所以重要，是因为它直接点出了 3 个运行框架瓶颈——上下文治理、可信记忆和动态技能路由——并把它们系到一个名为 CheetahClaws 的参考运行框架上；项目页把它描述成原生支持 Python、且与模型无关。

《system-scaling》论文首页，点出了上下文治理、可信记忆和动态技能路由这 3 个核心运行框架瓶颈

@Hey_Amiko 表示，OpenHermit 存在的原因，是一旦智能体系统不再只服务一个用户，本地文件、密钥和会话状态就会迅速失控（9 次点赞、190 次浏览）。OpenHermit 网站和仓库把边界讲得很清楚：内部状态放在 PostgreSQL，外部状态放在每个智能体各自的沙箱里，再配上面向整支智能体队列的技能和 MCP server 发布命令。@mattapperson 发布 Noetic 也是同一路数：用 7 个可组合原语和多层记忆模型，让上下文边界变得可读，而不是像魔法一样藏起来（94 次点赞、7 条回复、11,134 次浏览、120 次收藏）。

讨论要点： 回复区收敛到同一个边界条件：提示词不够。即便是乐观帖子，也会被要求给出带版本的策略、明确的回滚、集中式状态，以及模型之外的确定性执行。

与前日对比： 5 月 25 日的运行框架讨论，仍以解释贴、图示和资源图为主。5 月 26 日则把话题压到了运行时策略、集群运维，以及必须直接工程化的运行框架级瓶颈上。

1.3 实时智能体开始配上更快的语音闭环和可视化前端 🡕¶

一个规模较小但清晰的讨论簇，聚焦于当后端闭环足够快时，智能体该长什么样、听起来像什么。共同点不是某个新模型发布本身，而是套在现有智能体外面的封装：更低延迟的对话推理、替代固定聊天窗的动态画布，以及不用替换整套栈就能增加视觉存在感的 avatar 层。

@kwindla 报告称，经 Cerebras 服务的 Kimi K2.6 能把带推理的语音智能体单轮压到 500 ms 内，这一点很关键，因为推理延迟通常会让对话型智能体显得不可用（88 次点赞、4 条回复、7,712 次浏览、56 次收藏）。链接的 Cerebras 博文声称，其输出速度达到每秒 981 个输出 token，相比官方 Kimi endpoint 到最终答案的时间快 29 倍；Kwindla 在回复里还把实际栈写得很清楚：Pipecat Smart Turn、Nemotron 流式 ASR、Cerebras Kimi K2.6 和 Kyutai Pocket TTS。

@pika_labs 分享了“Generative UI”，它是一种语音控制界面：智能体每一轮都直接产出新的 HTML 布局，而不是往一个静态外壳里填内容（128 次点赞、18 条回复、6,985 次浏览）。链接的 generative-ui README 说明，这只是一个基于 OpenAI Realtime、Pika MCP 和可选 Google Workspace 工具的本地原型；回复区也强调，它是刻意保持粗糙的实验品，而不是可直接生产落地的东西。

@AiwithYasir 放大了 LiveAvatar 面向 LiveKit、Pipecat、Agora 和 VisionAgent 的插件接入路径（59 次点赞、11,420 次浏览）。LiveKit LiveAvatar 文档把它描述成一层嵌入现有语音应用里的 Python avatar 会话，这也强化了当天更大的模式：多模态存在感是作为现有智能体栈外的一层封装加上去的，而不是被当成另一套独立栈。

讨论要点： 这些帖子都默认底层智能体已经存在。工作重心正在转向延迟、视觉编排和存在感层，让同一个底层智能体更像对话对象，也不再像被关在终端里。

与前日对比： 5 月 26 日，语音和 UI 信号比 5 月 25 日更显眼。变化在于，讨论从泛泛的“语音智能体”热情，转向了 500 ms 以下闭环、动态画布和 avatar 插件这些具体主张。

2. 令人困扰的问题¶

只靠提示词的安全方案，总在最需要信任的那一刻失效¶

严重程度：高。@RoundtableSpace 推荐用一条 Claude 提示词做安全审查，但回复区几乎都指向同一个结论：@Trish_DIntel 说，模型无法可靠识别那些自己就会上当的东西；@OraclesTech 认为，容易被提示注入攻击的同一个模型，不可能靠自己保护自己；@0xDawny 则主张做代码审计，而不是修补提示词。AGT 那条讨论串从反方向把同样的挫败感讲得更尖锐：@_vmlops 抛出了确定性的工具调用治理（215 次点赞、8 条回复、15,069 次浏览、364 次收藏），但一条详细回复仍指出，团队还得单独补上提示词和输出防线。@tom_doerr 分享了 Cisco 的 Skill Scanner，把它当成“尽力而为”的回应（17 次点赞、8 条回复、1,242 次浏览、22 次收藏），而那条讨论串马上又有人追问，它能不能抓住多步数据外泄。人们现在的应对方式，是在模型外层叠扫描器、策略内核和人工审查。值得做：是。

面向单用户的文件布局扛不到生产环境¶

严重程度：高。@Hey_Amiko 写道，一旦智能体框架不再只服务一个用户，本地文件会散落、密钥会泄露，扩展就变成了“SSH 上去再祈祷”（9 次点赞、190 次浏览）。@dair_ai 认为，上下文治理、可信记忆和动态技能路由才是真正的系统扩展瓶颈（59 次点赞、10 条回复、3,530 次浏览、54 次收藏）；@mattapperson 则发布了 Noetic，用显式的记忆和控制流原语取代隐藏的框架行为（94 次点赞、7 条回复、11,134 次浏览、120 次收藏）。眼下可见的绕行方案，是集中内部状态、隔离工作区，并给技能、密钥和 MCP server 加上发布表面。值得做：是。

推理仍让语音智能体显得很慢¶

严重程度：中。@kwindla 指出，推理模式延迟对语音智能体是真实痛点，并把 Kimi K2.6 的速度当成它终于可用的原因（88 次点赞、4 条回复、7,712 次浏览、56 次收藏）。回复区里给出的实用绕行方案是栈级组合，而不是单模型升级：把 Pipecat Smart Turn、流式 ASR、快速推理和 TTS 一起调优，让用户不必干等模型思考。值得做：是——这个痛点具体、可度量，而且直接连着用户体验。

构建者正把时间耗在术语蔓延上¶

严重程度：中。@adithya_s_k 抱怨，像运行框架、脚手架、上下文工程和智能体式工作流这样的词，常被当成所有人都早已达成共识的术语来用，可实际上在不同场景里含义并不相同（55 次点赞、5 条回复、2,855 次浏览、28 次收藏）。回复区大多是在感谢那条术语表帖子帮大家搭起一个基础标准，而不是反驳抱怨本身。这个问题不像安全或扩展性那么硬，但它仍在给工具评估、入门流程和框架比较增加额外成本。值得做：也许。

3. 人们期望的功能¶

面向开放式智能体工作的验证器¶

数据里最清晰的需求，是有一道闸门，能像基准测试评判代码那样严格地评判写作、设计、策略和安全行为。@koylanai 写道，验证才是真正瓶颈，因为基准测试里的自动评分器无法迁移到开放式工作上（231 次点赞、502 次收藏、55,849 次浏览）；AGT 和 Roundtable 两条讨论串则在安全领域暴露了同一个缺口：团队可以拦住工具调用，却仍然缺少可靠的提示词、输入和输出评估器。@tom_doerr 分享了 Skill Scanner 作为部分答案（17 次点赞、8 条回复、1,242 次浏览、22 次收藏），但它自己的 README 就写着“尽力而为”，回复区也马上追问多步外泄问题。机会：直接。

面向智能体集群的生产控制平面，而不只是单兵智能体¶

人们想要的是：一旦涉及团队或客户，智能体还能把状态、密钥、调度和技能维持在可运维状态。@Hey_Amiko 把 OpenHermit 描述成解决单用户文件蔓延的方法（9 次点赞、190 次浏览）；@mattapperson 把 Noetic 定位成带显式原语和记忆层的可定制运行框架（94 次点赞、7 条回复、11,134 次浏览、120 次收藏）；@dair_ai 则认为，系统扩展如今才是真正瓶颈（59 次点赞、10 条回复、3,530 次浏览、54 次收藏）。这是一个已有可运行局部答案的现实需求，因此机会真实存在，但竞争很可能激烈。机会：直接且具竞争性。

面向专家技能的闭源分发与付费¶

Capafy 的发布之所以说得通，只因为底层需求早已存在：人们已经在 Claude Code、Codex 和 OpenClaw 里做出了有价值的技能，却不想把文件免费公开。@Capafyai 把答案定义为闭源的 Run Online 技能，用户既可以直接调用，也可以通过另一个智能体接入（373 次点赞、227 条回复、254 次引用、119,630 次浏览）。这个需求不是愿景式的，而是非常现实，也直接指向变现：保护诀窍、暴露结果、再让别人为访问付费。机会：直接且具竞争性。

能接入现有语音栈的视觉呈现层¶

多模态帖子指向了一个具体的产品愿望：不用从头重建智能体，也能给它加上一张脸或一块画布。@AiwithYasir 放大了 LiveAvatar 作为 LiveKit、Pipecat、Agora 和 VisionAgent 之上的一层（59 次点赞、11,420 次浏览），而 @pika_labs 则展示了由同一对话闭环驱动的动态 HTML 界面（128 次点赞、18 条回复、6,985 次浏览）。这个需求还在早期，但已经具体到构建者开始打包插件和实验，而不只是空谈多模态智能体。机会：具竞争性。

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
SkillOpt	技能优化	(+)	有界编辑、留出验证、跨运行框架迁移、部署时无推理成本	需要可自动评分的任务；对开放式工作的验证仍然薄弱
Capafy	技能市场	(+/-)	闭源在线运行技能、浏览器访问、智能体到智能体调用、支持 Claude Code/Codex/OpenClaw	仍处在发布早期，市场信任和质量尚未验证
Agent Governance Toolkit	治理 / 安全	(+/-)	确定性工具调用强制执行、YAML 策略引擎、身份、沙箱隔离、审计日志	公开预览阶段；自身不会检查提示词、输入和输出内容
Noetic	运行框架	(+/-)	7 个可组合原语、可读的控制流、可插拔记忆、支持评估	仍是早期 alpha，公开声量小，文档也还粗糙
Waza	技能包	(+)	8 个聚焦的工程习惯、跨智能体安装、无遥测、显式审查/调试闭环	仍需手动串联，用户自律也依然重要
OpenHermit	智能体基础设施	(+)	基于 Postgres 的状态、按智能体隔离的沙箱、通道、调度、整队发布控制	需要数据库和沙箱运维，而这是单兵智能体工具通常会回避的
Pipecat + Cerebras Kimi K2.6	语音智能体栈	(+)	单轮低于 500 ms、推理对语音仍可用、从 ASR 到 TTS 的栈组合清晰	性能说法依赖调优后的基准栈，不是默认配置
LiveAvatar	虚拟形象插件	(+/-)	不用替换整栈，就能给现有语音应用加入实时虚拟形象会话	多一层插件/API key，讨论串里几乎没有运营者反馈
Pika Generative UI	实验性界面	(+/-)	动态 HTML 布局、实时画布、广泛的 Pika MCP 创作工具面	实验还很粗糙、仅限本地原型、依赖 Pika MCP 和 Realtime APIs
Skill Scanner	安全扫描器	(+/-)	静态、YARA、LLM 和行为分析，并支持 CI/CD 与 pre-commit	只是尽力而为；回复区质疑其对多步外泄的覆盖

整体满意度更偏向那些把结构说清楚，而不是藏起来的工具。@koylanai 把 SkillOpt 讲成有纪律的技能训练（231 次点赞、502 次收藏、55,849 次浏览），@HiTw93 把 Waza 打包成显式的工程习惯（47 次点赞、9 条回复、10,160 次浏览），@Hey_Amiko 则在 OpenHermit 里把状态与工作区拆开（9 次点赞、190 次浏览）。复杂情绪则集中在安全和 UX 仍未补齐的地方：@_vmlops 推广了确定性治理（215 次点赞、8 条回复、15,069 次浏览、364 次收藏），但回复区立刻追问提示词/输出覆盖；@pika_labs 直说 Generative UI 只是实验（128 次点赞、18 条回复、6,985 次浏览），而 @kwindla 也明确表示，语音可用性仍取决于端到端延迟够不够紧（88 次点赞、4 条回复、7,712 次浏览、56 次收藏）。当天反复出现的迁移模式很一致：从只靠提示词的行为，走向可安装的技能和评估闭环；从本地文件，走向集中式状态加沙箱；从纯文本智能体，走向语音和视觉包装层。

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
Capafy	@Capafyai	让专家技能作为闭源在线智能体运行，或直接作为下载内容出售的市场	在不立刻公开底层逻辑的情况下，分发并变现专有智能体技能	Python, web marketplace, Claude Code/Codex/OpenClaw clients	Beta	site, repo, post
Noetic	@mattapperson	用 7 个可组合原语和可插拔记忆构建的 TypeScript 运行框架	让开发者在不依赖黑箱框架行为的前提下构建自定义运行框架	TypeScript, Bun, step primitives, memory layers, eval tooling	Alpha	site, repo, post
OpenHermit	@Hey_Amiko	用于部署智能体集群的平台，带集中状态和按智能体隔离的沙箱	解决多用户扩展、密钥蔓延和整队技能 rollout	TypeScript, Hono, PostgreSQL, Docker/E2B/Daytona	Beta	site, repo, post
Waza	@HiTw93	面向规划、调试、设计、审查、研究和健康检查的跨智能体技能包	把隐性的工程习惯变成可复用的智能体命令	Markdown skills, helper scripts, `npx skills`, Claude Code/Codex/Cursor/Pi	Shipped	repo, post
Agent Governance Toolkit	@_vmlops	在工具调用执行前强制规则的策略层	阻止不安全操作、增加来源追踪、加入人工审批闸口	Python package, YAML policy engine, TS/.NET/Rust/Go SDKs	Beta	repo, post
Pika Generative UI	@pika_labs	用语音控制、每一轮都生成新 HTML 布局的界面	用与上下文匹配的可视化编排，替代僵硬的聊天面板	JavaScript, OpenAI Realtime, Pika MCP, optional Google Workspace	Alpha	repo, post
Skill Scanner	@tom_doerr	扫描智能体技能中的提示注入、数据外泄和恶意代码模式	为技能包和智能体指令增加部署前安全审查	Python, YAML/YARA, LLM analysis, behavioral dataflow, SARIF	Beta	repo, post

Capafy、Waza 和 SkillOpt 从 3 个不同角度展示了同一种重复出现的构建模式：卖技能、装技能，或训练技能。@Capafyai 推出了市场形态（373 次点赞、227 条回复、254 次引用、119,630 次浏览），@HiTw93 打包了可复用的工程习惯形态（47 次点赞、9 条回复、10,160 次浏览），@koylanai 则描述了可训练优化形态（231 次点赞、502 次收藏、55,849 次浏览）。共同触发点，是人们对通用智能体输出的不满，以及对耐久、可检查行为的渴望。

OpenHermit、Noetic 和 AGT 则覆盖了同一趋势的运维侧。它们都默认智能体闭环已经存在；真正难的是一旦系统离开单用户笔记本，状态、权限、发布和恢复该如何处理。Pika Generative UI 把这条模式延伸到前端，把布局视作另一种智能体输出表面；Skill Scanner 则说明，技能安全已经在变成独立的构建类别，而不是事后补丁。

6. 新动态与亮点¶

技能文件终于有了真正的训练闭环¶

@koylanai 认为，SkillOpt 把 SKILL.md 当成可训练的外部状态，靠有界编辑和留出验证去优化；@daniel_mac8 则展示了如何把这套闭环直接拉进 Codex 的 /goal 模式（231 次点赞、502 次收藏、55,849 次浏览；281 次点赞、10 条回复、18,606 次浏览、343 次收藏）。两者搭在一起之所以重要，是因为它让一个研究结果在同一天就变成了可操作工作流。

提示词自审很快就失去了可信度¶

当天最尖锐的讨论模式，不是发布，而是反驳。@RoundtableSpace 提出用一条提示词对 Claude 智能体做安全审查（50 次点赞、14 条回复、37,788 次浏览），回复区却立刻指出：模型无法可靠识别它自己也会漏掉的提示注入向量。这让 @_vmlops 分享的确定性治理内核，比单独看时更显得重要（215 次点赞、8 条回复、15,069 次浏览、364 次收藏）。

智能体界面开始逃出聊天框¶

@pika_labs 推出了一个每轮都变化布局的生成式 HTML 画布（128 次点赞、18 条回复、6,985 次浏览），@AiwithYasir 则放大了 LiveAvatar 作为现有语音栈的几行代码扩展（59 次点赞、11,420 次浏览）。再加上 @kwindla 展示的 500 ms 以下语音轮次（88 次点赞、4 条回复、7,712 次浏览、56 次收藏），信号很明确：前端实验终于开始追上模型速度。

7. 机会在哪里¶

[+++] 面向智能体与技能的开放式验证层 — @koylanai 点出了验证才是瓶颈（231 次点赞、502 次收藏、55,849 次浏览），@RoundtableSpace 则引发了一条清楚说明为什么自审提示词无法赢得信任的讨论串（50 次点赞、14 条回复、37,788 次浏览），而 @tom_doerr 分享的尽力而为扫描器，其回复区也立刻追问更深层覆盖（17 次点赞、8 条回复、1,242 次浏览、22 次收藏）。这个机会之所以强，是因为它同时出现在安全、技能优化和评估工具 3 个方向。

[+++] 可运维的多用户智能体基础设施 — @Hey_Amiko 直接写出了单用户文件问题（9 次点赞、190 次浏览），@dair_ai 把上下文治理、可信记忆和动态技能路由点名为瓶颈（59 次点赞、10 条回复、3,530 次浏览、54 次收藏），而 @mattapperson 发布 Noetic 时，也围绕显式原语和记忆边界来组织（94 次点赞、7 条回复、11,134 次浏览、120 次收藏）。这个信号之所以强，是因为痛点已经是运维层面的，不是愿景层面的。

[++] 闭源技能分发与变现 — @Capafyai 推出了一个围绕闭源 Run Online 技能构建的市场（373 次点赞、227 条回复、254 次引用、119,630 次浏览），而 Waza 和 SkillOpt 又显示出市场对可安装、可训练技能工件的邻近需求。这个机会是中等强度，因为需求很明显，但市场信任、质量控制和定价权仍未定型。

[+] 语音智能体的存在感层 — @kwindla 展示了更快推理如何改变语音可用性（88 次点赞、4 条回复、7,712 次浏览、56 次收藏），@pika_labs 实验了动态画布（128 次点赞、18 条回复、6,985 次浏览），而 @AiwithYasir 则指向了现有栈可接入的 avatar 支持（59 次点赞、11,420 次浏览）。这个信号还在涌现、还不是主流，但 UX 表面显然已经在打开。

8. 要点总结¶

技能正在变成一等产品表面。 Capafy 的市场发布和 Waza 可安装的工程习惯，都把技能当成耐久资产，而不是个人提示词文件。(Capafy, Waza)
技能优化正从直觉走向有纪律的训练。 SkillOpt 的有界编辑与留出闸口，再加上 Codex /goal 的落地模式，都说明智能体行为开始像可复用工件一样被改进，而不是临时反复重写提示词。(SkillOpt discussion, Codex workflow)
如今决定质量与信任成败的，是运行框架。 CheetahClaws 论文明确把上下文治理、可信记忆和动态技能路由列为瓶颈，而 AGT 则把策略执行下沉到提示词层之下。(system scaling, AGT)
只靠提示词的安全建议正在失去公信力。 安全讨论串里最强烈的反应，不是兴奋，而是反驳：模型无法可靠审计自身的提示注入弱点，因此扫描器、策略内核和其他外部控制层的需求会继续维持高位。(security prompt thread, Skill Scanner)
随着延迟下降，智能体构建者把更多时间花在存在感和界面上。 500 ms 以下的语音轮次、动态 HTML 布局和 avatar 插件，都指向同一步：让同一个智能体显得更快、更可视，也更面向真人。(Kimi voice stack, Pika Generative UI, LiveAvatar)