Twitter AI 智能体 - 2026-05-16¶

1. 人们在讨论什么¶

1.1 运行框架工程正在变成可度量的运营工作 🡕¶

运行框架工程仍是核心，但证据形态已经变了。最强的帖子，不再是泛泛而谈的“智能体需要更好的脚手架”，而是更具体地落到可观测性层、明确的框架映射、团队成本仪表盘，以及长生命周期运行框架的经济账上。至少有 6 个有分量的条目支撑了这个主题，连玩笑都不再拿提示词开刀，而是在调侃一层套一层的控制循环。

@IntuitMachine 概括了《Agentic Harness Engineering》论文，称经过 10 轮由可观测性驱动的运行框架编辑后，Terminal-Bench 2 的 pass@1 从 69.7% 提升到 77.0%，而迁移到 SWE-bench-verified 后，token 消耗还减少了 12%（19 次点赞、2 条回复、1,392 次浏览、32 次收藏）。这条推文里的摘要截图，把论文最核心的判断说得很清楚：杠杆来自组件、经验和决策可观测性，而不是新的底座模型。

《Agentic Harness Engineering》摘要截图，展示三层可观测性，以及 Terminal-Bench 2 从 69.7% 提升到 77.0% 的结果

来自 @IntuitMachine 的另一条配套讨论串，围绕 Sylph AI 的运行框架演化论文展开（38 次点赞、2 条回复、1,250 次浏览、37 次收藏），也在推动同一个方向：Worker、Evaluator 和 Evolution 智能体会自动重写运行框架，而 meta-evolution 循环负责学习如何把这套模式适配到新领域。公开可见的产出是《The Last Harness You'll Ever Build》，它让当天的氛围更像是自动化运行时工程的开端，而不是“把提示工程做得更大”。

@FUCORY 认为，Bun 的重写，是运行框架工程最好的实时案例之一，因为这项工作本质上是在做长时程工作流设计，而不只是优化 LLM 输出质量（78 次点赞、5 条回复、9,629 次浏览、82 次收藏）。这张图之所以关键，是因为它把 Bun 的运行框架概念，与 Smithers 的基础原语做了一一映射；而回复则补上了基准测试讨论串里少见的细节：用于内存管理的 lifetime classifier，以及刻意设计的 backpressure 机制。

@valentinmihov 透露，他们团队的运行框架，把 Multica 看板、运行在 Codex 上的 Hermes Agent、Hindsight 记忆系统、自定义技能、内部监控、OAuth2 SSO，以及 Git 管理的基础设施串到了一起（13 次点赞、5 条回复、867 次浏览）。他表示，这套配置消耗了大约 6 亿 token——折合约 3,000 美元的 API 成本——而他估计同样的工作原本要花 2 个月 DevOps 时间。这让“智能体式工程”不再是抽象模式，而是变成了一张具体的运营预算单。

一套内部智能体式工程运行框架的仪表盘摘要，展示看板数量、约 6 亿 token、约 3,000 美元 API 成本，以及 8 倍加速说法

讨论要点： @BenjDicken 抓住了当天的情绪，把 2026 年的工程浓缩成一句话：“agent → while loop 子智能体 → 嵌套 while loop 智能体运行框架。” 这句玩笑之所以有效，是因为它和严肃帖子说的是同一件事：循环更多了、记忆策略更多了、编排层更多了，也更容易丢失可观测性。

与前日对比： 5 月 15 日，人们主要还是借助架构图、可观测性论文和参考课程来讨论运行框架。到 5 月 16 日，讨论热度没有降，但又往下钻了一层，变成了可量化的提升、框架映射，以及团队级别的成本与栈披露。

1.2 智能体控制面正在变成可配置的产品 🡕¶

第二簇讨论，把智能体看得更像可配置的软件，而不只是聊天端点。信号最强的例子，是那些展示“指引放在哪儿、哪些集成被启用、提供商如何切换、操作者无需改提示词文件就能改什么”的 UI 截图和运行时界面。

@karrisaarinen 表示，他现在把大部分智能体工作都交给了 Linear Agent，配套个人指引、自定义技能、MCP 服务器、内置网页搜索和代码上下文，以及按工作区区分的控制项（61 次点赞、6 条回复、6,281 次浏览、88 次收藏）。真正重要的是那组截图：它展示了 Gong 录音导入、按工作区开关功能的切换项，以及横跨 Slack、Teams、Intercom、Zendesk 和 Gong 的启用集成列表，这让产品更像一个操作者控制台，而不是提示词外壳。

Linear Agent 配置界面，展示 Gong 录音导入、团队投递目标、参与者通知和指引设置

@muskonomy 提到，Grok 订阅用户如今可以直接连接到 Hermes Agent；其 README 把它描述成一个具备模型切换、技能、记忆、定时任务和消息网关的自我改进运行时（41 次点赞、6 条回复、1,676 次浏览）。另一条互动量更低、但更暴露结构的配套帖子，来自 @MoeSbaiti；他声称，xAI 的 OAuth 流程如今把聊天、TTS、图像生成、视频生成和转录打包进了同一个登录（1 次点赞、2 条回复、74 次浏览），而那张架构图则清楚展示了，这一整包能力正如何被呈现给用户。

SuperGrok 到 Hermes Agent 的示意图，展示一次 xAI OAuth 登录如何把 Grok 聊天、转录、图像生成、视频生成和 TTS 接入智能体运行时

@RodmanAi 分享了免费的《Learn Harness Engineering》材料，把它当作提示词之上缺失的那一层生产环境知识（46 次点赞、8 条回复、1,661 次浏览、21 次收藏）。课程页面本身写得很清楚：这套课程横跨 20 个阶段、416 节课，从模型内部原理一直讲到自治 swarm。这也解释了为什么当天最好的 UI 帖子，反复谈的是记忆、治理、集成和持久化，而不是提示词格式。

讨论要点： 控制面的故事，也有一个清晰的负面镜像。@abboskhonovv 说，他试了 4 个不同的 Hermes Web UI，结果不是布局怪异，就是功能缺失（9 次点赞、1 条回复、417 次浏览）；而 @zebassembly 表示，当前编程智能体的 TUI 里有太多琐碎但可修的毛病，多到让他们哪怕喜欢底层产品，也还是想自己做一个。

与前日对比： 5 月 15 日关于技能的讨论，还更多围绕可复用知识包、hooks 和评估闭环。到 5 月 16 日，这些能力已经落到了更具体的产品表面：设置面板、集成页面、运行时开关，以及和提供商订阅绑定的流程。

1.3 身份与治理正在变成智能体商业里最难啃的部分 🡕¶

围绕商业的讨论，已经从“如何发现 marketplace”转向了下面那层缺失的信任基础设施。最强的条目，都在谈智能体身份、同意边界、可审计性，以及一旦智能体开始真正交易或相互调用技能之后，工作到底该如何结算。

@felix_fan 写道，Trust Wallet 正在走两条线：开发者侧用 Agent Kit 加 EIP-8004 做链上智能体身份，而消费端用户依然自己持有密钥，并在每一步都保留同意权（59 次点赞、15 条回复、5,627 次浏览）。Cryptobriefing 和 PYMNTS 的公开报道，也用文字把这种分裂写得很清楚：一边是更自治的钱包和转账，另一边则是更多会话上限、安全护栏和责任归属问题。

@sijlalhussain 认为，智能体商业里的信任，本质上是一个运营级治理架构问题，而不是品牌问题（12 次点赞、1 条回复、301 次浏览）。他分享的那张图，比推文本身更有价值，因为它把问题压缩成了 5 个明确要求：身份验证、人工监督、透明度、数据安全和可问责的治理。

源自 McKinsey 的智能体商业信任框架，展示身份验证、人工监督、透明度、数据安全和可问责治理

@Unibase_AI 宣布，Flap 已进入 BitAgent 的 ERC-8183 市场，提供跨多条链的自治代币发行技能（19 次点赞、75 条回复、101 次引用、31,573 次浏览）。真正有价值的证据，不在主帖，而在热度最高的那条回复：可组合的技能调用，依然需要托管、交付物哈希和评估者结算，真实工作才算真正结清。这说明，在热潮之下，市场底层管道还缺了很多。

讨论要点： 这也是当天分歧最明显的一簇。看多市场的帖子，一直在讲可发现、可组合的技能；批评性的回复，则不断把讨论拽回到同意、归因、托管，以及当智能体把一项付费任务做完——或没做完——时，到底该由谁拍板。

与前日对比： 5 月 15 日主要还在讲智能体如何注册、发现服务，以及按调用付费。到 5 月 16 日，讨论补上了那条流程之下更难的问题：智能体到底是谁、它继承了什么权限、活动如何审计，以及市场上的工作到底怎么结算。

2. 令人困扰的问题¶

运行框架层仍然太贵，构建和调试成本都压不下来¶

当天最严重的挫败感，是可靠智能体在能被信任去跑长任务之前，依然要先堆出大量运行框架工作。@IntuitMachine 概括了 AHE 论文如何回应组件纠缠、轨迹噪声，以及编辑到底帮了还是害了结果却难以归因的问题（19 次点赞、2 条回复、1,392 次浏览、32 次收藏）。@valentinmihov 表示，他们自己的团队运行框架即便有 AI 加速，仍然花掉了大约 6 亿 token 和约 3,000 美元 API 成本（13 次点赞、5 条回复、867 次浏览）。@BenjDicken 则把这种运营蔓延，变成了当天最传神的玩笑（583 次点赞、22 条回复、19,613 次浏览、150 次收藏）：一层又一层嵌套的智能体循环。可见的权宜方案，是把运行框架结构写得更明确——例如记忆分类器、critic、映射层和审计层——而不是回头寄希望于更简单的提示词。严重程度：高。值得为此构建：是，因为哪怕是最强的操作者帖子，听起来也依然昂贵而脆弱。

智能体仍缺少属于自己的身份、责任和结算边界¶

第二个高严重度挫败感是：智能体执行仍然继承了太多人类身份，却几乎没有智能体自身的问责边界。@pvergadia 警告，10 个智能体都可能共用同一组长期凭据，却没人能分清究竟是谁执行了动作；他还引用了 1Password CTO Nancy Wang 对“智能体会永久继承权限”这一问题的说法（7 次点赞、7 条回复、1,094 次浏览）。@felix_fan 指出，Trust Wallet 仍然把开发者侧自治与消费者侧同意拆开处理（59 次点赞、15 条回复、5,627 次浏览）；PYMNTS 的报道也用会话上限、责任归属和手工审批仍在环内，表达了同一个意思。在 @Unibase_AI 的 BitAgent 发布帖下（19 次点赞、75 条回复、101 次引用、31,573 次浏览），热度最高的回复则指出：可组合的技能调用，依然需要托管、交付物哈希和评估者结算，真实工作才算真正收尾。严重程度：高。今天的权宜方案，是明确的同意闸门、钱包限额和人工接管。值得为此构建：是，因为信任层显然落后于市场层。

现有 UI 和 TUI 仍然缺少操作者级控制项¶

即便底层运行时已经能用，界面质量依然是现实阻碍。@abboskhonovv 说，他试了 4 个不同的 Hermes 网页界面，结果不是布局怪异，就是功能缺失，于是干脆自己做了 Hermium，补上模型切换、聊天管理、技能面板和定时任务控制（9 次点赞、1 条回复、417 次浏览）。@zebassembly 表示，当前编程智能体的 TUI 有太多琐碎问题，多到他们虽然喜欢底层产品，还是想自己做一个智能体（27 次点赞、8 条回复、1,437 次浏览）。@karrisaarinen 展示了什么叫更好的界面：设置、开关、集成和指引都直接暴露在产品里，而不是埋在提示词文件里（61 次点赞、6 条回复、6,281 次浏览、88 次收藏）。严重程度：中。当前的权宜方案，就是自己替换 UI 层。值得为此构建：是，因为这个痛点既具体，又反复出现，而且会直接影响操作者的日常工作流，不只是审美问题。

Hermium 界面，展示本地 Hermes 聊天和研究输出视图，并补上模型切换、聊天管理、技能和定时任务控制

3. 人们期望的功能¶

可验证的智能体身份与结算规则¶

最明确的现实需求，并不是再来一个市场，而是它下面那层规则系统。@pvergadia 表示，智能体仍然没有属于自己的身份，这让继承权限和归因成了一个“现在立刻就得解决”的问题（7 次点赞、7 条回复、1,094 次浏览）。@felix_fan 把 Trust Wallet 的答案描述成 Agent Kit 加 EIP-8004：开发者侧提供身份，用户侧保留密钥与同意（59 次点赞、15 条回复、5,627 次浏览）；而在 @Unibase_AI 的 BitAgent 发布帖下（19 次点赞、75 条回复、101 次引用、31,573 次浏览），也有人回复说，托管、交付物哈希和评估者结算依然缺位。机会：直接。这个需求具体、运营味很重，而且当前钱包与市场的发布只解决了一部分。

能跨越会话重置的、受治理约束的记忆¶

另一个反复出现的需求，是那种归操作者所有、而不是归模型厂商所有的持久状态。ODEI 的产品页明确把卖点写成“别再每天早上重建上下文”，承诺在 Claude Code、Codex 和 Gemini 之上提供持久世界模型、治理闭环和审计回执。@valentinmihov 提到，他自己的运行框架需要一套专门的 Hindsight 记忆系统（13 次点赞、5 条回复、867 次浏览）；而 @muskonomy 把 Grok 加 Hermes 的价值，直接归结为记忆能跨会话和跨消息界面持续存在（41 次点赞、6 条回复、1,676 次浏览）。机会：直接。这个需求很务实，而且已经被多个产品拿来直接卖，但市场看起来仍早且分散。

面向持久智能体的操作者级前端¶

人们想要的，也不是仅仅“更强”的智能体运行时，而是“更能操作”的运行时。@abboskhonovv 做 Hermium，就是因为现有 Hermes UI 缺少模型切换、聊天管理、技能可见性和定时任务控制（9 次点赞、1 条回复、417 次浏览）。@zebassembly 说，当前编程智能体的 TUI 仍有太多修一修就能好的小毛病（27 次点赞、8 条回复、1,437 次浏览）；而 @karrisaarinen 展示的理想替代方案，则是一个把开关、指引和集成公开摆出来的 UI，而不是依赖隐藏约定（61 次点赞、6 条回复、6,281 次浏览、88 次收藏）。机会：直接，而且竞争激烈。这个需求已经讲得很明白，但多个构建者也正同时朝同一个答案靠拢。

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
Agentic Harness Engineering	运行框架 / 评估方法	(+)	闭环运行框架编辑、明确的可观测性层，以及可迁移到 Terminal-Bench 2 的基准提升	仍然很依赖基准测试；论文自己也指出存在回归盲区和非加性相互作用
The Last Harness You'll Ever Build	运行框架演化框架	(+/-)	用 Worker / Evaluator / Evolution 加 meta-evolution 循环，把运行框架适配到新领域	公开证据仍主要来自论文和厂商叙事，而非广泛的操作者验证
Learn Harness Engineering / AI Engineering from Scratch	课程 / 参考资料	(+)	把运行框架工作整理成围绕持久化、验证和系统设计的结构化课程	只是教育材料，不是运行时或产品
Hermes Agent	智能体运行时	(+/-)	持久记忆、技能创建、模型切换、消息网关、定时任务和 Grok 集成	用户仍在抱怨缺少 UI 控制项，并持续自己做替代前端
Linear Agent	工作区智能体	(+)	细粒度指引、内置搜索和代码上下文、按集成区分的控制项，以及管理员 / 用户配置	今天的证据主要来自一个操作者讨论串，而不是大量公开案例
ODEI	记忆 / 治理层	(+/-)	在终端智能体之上提供持久世界模型、治理闭环、审计回执和与模型无关的连续性	产品承诺走在可见的第三方使用证明前面
XPR Network Dev Skill	领域技能包	(+)	以实时主网数据为依据、经 ABI 验证的文档，以及按需加载的知识模块	目标范围较窄，只服务一个区块链生态
ComfyUI Skills for OpenClaw	工作流桥接层	(+)	以 CLI 为先的 schema 映射、多服务器路由、可选 Web UI 和跨运行时支持	在智能体稳定使用前，仍得先导出 ComfyUI 工作流并配好服务器
Hermium	智能体 UI	(+)	自托管前端，提供模型切换、持久会话、斜杠命令和用量洞察	项目很新，而且完全依赖底层 Hermes
TradingAgents	金融框架	(+/-)	提供分析师、研究员、交易员和风控等专门角色；支持多提供商模型、checkpoint 恢复和决策记忆	仓库明确把自己定位成研究导向，结果也会随模型和数据而变化
Agent Kit + EIP-8004	钱包 / 身份基础设施	(+/-)	在保留用户同意流程的同时，赋予智能体链上身份和可编程动作	在当前钱包发布里，同意、责任和结算仍未真正解决

整体满意度最高的时候，通常是工具把清晰的控制面或领域内经验证的知识直接暴露出来，而不是让操作者把一切都临时塞进提示词里。最明显的迁移方向，是从“提示词 + 工具”的松散拼装包，转向受治理的运行时、持久记忆层、经验证的技能包，以及把开关、集成和预算明确展示出来的前端。当前最常见的权宜方案，是当底层基础设施不错但 UX 太弱时，就自己做一层像 Hermium 那样的包裹 UI，或者转向像 Linear Agent 这样已经把控制项公开出来的产品。竞争压力最大的地方，正是运行时与控制面的交界处：运行框架工具、持久记忆 / 治理、工作流桥接层，以及钱包身份栈。

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
TradingAgents	Tauric Research	由分析师、研究员、交易员和风控团队组成的多智能体交易框架	把市场分析和交易决策拆成专门智能体工作流	Python、LangGraph、多提供商 LLM、Alpha Vantage	已发布	GitHub · 论文 · 推文
Fuzzy Scanner	@FuzzyAiGent	用 5 阶段多智能体流水线审计 Solana 程序	降低智能合约手工审查的时间与成本	Swarms、Solana、Rust / Anchor 输入、并行智能体流水线	Alpha	agent · 推文
XPR Network Dev Skill	@paulgrey	面向 XPR 开发和自治智能体的领域技能包	给智能体提供经验证的链专属知识，而不是靠猜	Markdown 技能模块、实时 ABI 验证、Hyperion traces、OpenClaw 集成	已发布	GitHub · 推文
Hermium	@abboskhonovv	自托管的 Hermes 聊天 UI	补上缺失的模型切换、聊天管理、技能可见性和定时任务控制	React、Hono、Bun、Hermes Agent	Beta	GitHub · 推文
ODEI Agent Builder	@odei_ai	构建在现有终端智能体之上的持久世界模型与治理层	解决智能体工作流中的会话重置和审计缺失	世界模型图、治理闭环、审计回执、Claude Code / Codex / Gemini 启动层	已发布	site · 推文
Printr MCP	@printr	通过技能目录安装的、面向智能体的原生代币发行平台	让智能体在一个命令界面里走完代币部署和金库管理步骤	MCP、技能目录、链上发行工具	已发布	推文
ComfyUI Skills for OpenClaw	HuangYuChuh	把 ComfyUI 工作流变成可调用的智能体技能	让创意工作流在不暴露底层工作流图的情况下被智能体调用	Python CLI、schema 映射、可选 Web UI、多服务器路由	已发布	GitHub · 推文
Blackfin	MrDiamondBallz	带策略控制和隔离智能体的本地优先兼容内核	提供更安全的工具使用、隔离工作区、可移植技能和确定性轨迹	Python CLI、TOML 策略、加密密钥、SQLite 记忆	Alpha	GitHub · 推文

TradingAgents 是当天最清晰的垂直构建者信号。@gusik4ever 把它列为本周增长最快的金融仓库，周增星数达到 +3,822（177 次点赞、24 条回复、12,538 次浏览、205 次收藏）；而仓库本身则写明，它在模拟一家真实交易公司，内部有分析师、研究员、交易员和风控团队，并带有 checkpoint 恢复与决策记忆。角色专门化、持久日志和多提供商模型支持这 3 点组合在一起，让它远不只是一个泛泛的 AI 交易机器人。

每周 GitHub 金融项目热度表，展示 TradingAgents、AI-Trader、scientific-agent-skills 等仓库按周增星数排序

Fuzzy Scanner 则在安全领域展示了同样的垂直化方向。@FuzzyAiGent 描述了一条 5 阶段多智能体 Solana 审计流水线（7 次点赞、3 条回复、124 次浏览）；截图里展示了 10 个程序的评分、约 0.14 美元的平均成本，以及 121 秒的并行运行时间。这里的信号还不是“大规模采用”，而是构建者已经在狭窄领域里，把成本和基准输出直接嵌进智能体系统。

Fuzzy Scanner 的审计结果表，展示 SPL Token、Stake、Marinade、Drift、Orca 和 Raydium 等 10 个 Solana 程序的成绩与评分

第二个反复出现的构建模式，是把专家工作流变成对智能体安全的接口。@paulgrey 发帖介绍 XPR 技能包；其 README 说明，每一个事实都基于实时主网 ABI 和 Hyperion traces 做过验证（92 次点赞、2 条回复、5,855 次浏览、23 次收藏）。与此同时，@DanKornas 分享了 ComfyUI Skills for OpenClaw，把它描述成一层 CLI 与 schema 层，让智能体可以调用导出的创意工作流，而不必直接碰到底层工作流图（3 次点赞、1 条回复、372 次浏览）。@abboskhonovv 则在 UX 这一侧做了同样的事：因为当前 Hermes 前端缺少基本控制项，所以干脆自己做了 Hermium（9 次点赞、1 条回复、417 次浏览）。

ComfyUI Skills for OpenClaw 截图，展示工作流导入、服务器管理器、工作流管理器，以及覆盖在 ComfyUI 之上的智能体友好界面

ODEI、Printr 和 Blackfin 指向了第三个模式：人们已经不满足于只有底层运行时。他们开始在底层智能体之上再叠加世界模型、治理闭环、审计回执、策略配置、加密密钥，或者“一条命令就能执行链上动作”的表面。这说明下一波构建热情，更可能流向元基础设施，而不是终端用户聊天界面。

6. 新动态与亮点¶

Codex 的实时语音交接，已经在公开产物里露出痕迹¶

@DevAdventur3s 声称，OpenAI 正在悄悄把实时语音模式接进 Codex（28 次点赞、8 条回复、1,509 次浏览）。这个信号之所以值得注意，是因为证据格外具体：一张截图展示了延迟 182 ms 的实时语音会话，以及一个后台智能体正在编辑 4 个文件；另一张则展示了 Rust 代码，其中 DEFAULT_REALTIME_MODEL 被设成了 gpt-realtime-1.5。GitHub 代码搜索还找得到 codex-rs/core/src/realtime_conversation.rs 这个文件，它位于 openai/codex 中，这让这件事不再只是纯猜测。

Codex 实时界面截图，展示实时语音会话、182 ms 延迟、一个进度到 62% 的后台编程智能体，以及仍在继续的文件编辑

Rust 源码截图，展示 Codex 实时会话代码中的 gpt-realtime-1.5 模型字符串和用于交接的结构体

结构化 Wikipedia 生成，出现了专门的多智能体论文¶

@WikiResearch 分享了 WikiMAG 论文（9 次点赞、1,095 次浏览）。这篇论文使用 Progressive Planner、Reflective Inspector 和 Versatile Writer，来生成叙事、时间线和表格等不同部分，其结构和引用质量都优于 STORM 与 Co-STORM 等早期系统。它值得注意的点，在于目标对象：多智能体生成正被推进到结构化、重引用的文章生产，而不再只是泛泛的聊天输出。

小型运行框架修补，依然能显著推动基准分数¶

@OpenCvn 表示，KRAFTON AI 只做了很少的运行框架修补，就在 Terminal-Bench 上提升了 10 多分（1 次点赞、801 次浏览）；而公开的 Terminus-KIRA 仓库把提升归因于原生工具调用、多模态图像分析、基于标记的 polling，以及多视角验收清单。这件事之所以重要，是因为它强化了当天更大的模式：哪怕底层模型家族已经很强，运行框架默认值里似乎依然留着大量性能空间。

7. 机会在哪里¶

[+++] 运行框架可观测性与演化工具 —— AHE 论文、Sylph 的 meta-evolution 循环、Bun 到 Smithers 的映射，以及 @valentinmihov 的成本仪表盘，都指向同一个缺口：团队仍在模型与任务之间那一层花真金白银和真实操作者时间。凡是能让运行框架编辑变得可观察、可 diff、可做基准、可低成本迭代的产品，都同时得到了第 1、2、4、6 节的支撑。

[+++] 智能体身份、同意与评估者结算 —— 身份缺口讨论串、Trust Wallet 的双轨钱包设计、McKinsey 的信任分类法，以及 BitAgent 回复中关于托管、交付物哈希和评估者结算的抱怨，都指向智能体行动与可问责收尾之间缺失的基础设施。这是个强机会，因为痛点和半成品解法都在反复出现。

[++] 面向持久智能体的操作者前端 —— Hermium 的存在，就是因为当前 Hermes UI 缺少基础控制项；zebassembly 明确想要更好的编程智能体 TUI；而 Linear 的截图则表明，市场对“把设置和集成明确摆出来”的界面确实有需求。这里竞争并不小，但需求是直接且高频的。

[+] 语音优先的编程与实时智能体交接 —— Codex 的实时截图，以及 Zubin Pratap 对语音栈的分类，都说明“说话—构建—旁白”式工作流正在冒头。证据还早，但已经公开、具体，而且连到了真实代码和 UI 产物上。

8. 要点总结¶

运行框架工程现在是按系统工程来衡量的，不再只是提示词手艺。 @IntuitMachine 概括了 AHE 从 69.7% 到 77.0% 的提升（19 次点赞、2 条回复、1,392 次浏览、32 次收藏）；而 @valentinmihov 透露，他们团队为一套运行框架投入了 3,000 美元和 6 亿 token。
操作者界面正在变成运行时之上的竞争层。 @karrisaarinen 展示了 Linear Agent 如何在产品里直接暴露 guidance 和集成（61 次点赞、6 条回复、6,281 次浏览、88 次收藏）；而 @abboskhonovv 做 Hermium，则是因为现有 Hermes UI 仍缺少核心控制项（9 次点赞、1 条回复、417 次浏览）。
钱包和 marketplace 之间，仍然缺着那层可问责的中间层。 @felix_fan 把开发者侧自治与消费者侧同意明确拆开（59 次点赞、15 条回复、5,627 次浏览）；而 @sijlalhussain 指出，智能体商业里的信任，本质上是治理架构问题（12 次点赞、1 条回复、301 次浏览）。
最可信的构建者，交付的是垂直工具，而不是泛泛的自治口号。 @gusik4ever 把 TradingAgents 列为本周增长最快的金融仓库（177 次点赞、24 条回复、12,538 次浏览、205 次收藏）；@FuzzyAiGent 描述了一套多智能体 Solana 审计器（7 次点赞、3 条回复、124 次浏览）；而 @DanKornas 分享的，则是一个给智能体用的 ComfyUI 工作流桥（3 次点赞、1 条回复、372 次浏览）。
语音优先的编程还很早，但已经不再是假设。 @DevAdventur3s 指出了 Codex 的实时 UI 与 Rust 代码证据（28 次点赞、8 条回复、1,509 次浏览）；而 @ZubinPratap 把低延迟轮次处理和打断控制，界定成对话式语音智能体背后真正的工程难题（6 次点赞、2 条回复、144 次浏览）。