Twitter AI 智能体 - 2026-05-15¶

1. 人们在讨论什么¶

1.1 运行框架工程和可观测性走向主流 🡕¶

当天最强的一簇，不再是泛泛而谈的“agentic AI”宣传，而是更具体地转向运行框架、架构、可观测性，以及长任务中的可重复行为。至少有 5 个有分量的条目都把智能体质量界定成系统设计问题：工作如何委派、上下文如何维持、失败如何暴露、改动如何验证。

@heygurisingh 认为，真正从 LLM 获得价值的人，做的是任务委派方式上的“结构性调整”，而不是继续优化提示词（96 次点赞、4 条回复、40,436 次浏览、380 次收藏）。他的讨论串要求用户画出自己仍在手工做的工作，识别哪些事情只是“看起来有生产力”，再按信任度和放进工作流的位置，给最有影响的改动排序。因此，这更像是一套流程设计论点，而不是一包提示词。

@RoundtableSpace 分享了《Learn Harness Engineering》（95 次点赞、3 条回复、47,504 次浏览、74 次收藏），并链接到一门公开课程。课程中说，运行框架可以约束智能体行为、在长任务中保留上下文、阻止过早宣布成功，并让 Codex 和 Claude Code 这类智能体的运行时行为变得可观察、可调试。

《Learn Harness Engineering》主页，展示“为什么强大的智能体仍会失败”“连续性丢失”“越界执行”等讲题，以及把功能列表作为运行框架原语的内容

@MeenakshiYACS 发帖贴出了一张参考架构图（76 次点赞、22 条回复、1,007 次浏览、36 次收藏），把智能体系统拆成编排、专用智能体、工具、记忆、监控、可靠性和治理几层。这张图在视觉上表达的，其实和上面的帖子是同一个意思：社区讨论正在从单一提示词转向完整的智能体运营模型。

参考架构图，展示客户端层、编排 / 控制平面、专用智能体、工具、记忆、可观测性、可靠性、治理和基础设施

@IntuitMachine 概括了《Agentic Harness Engineering》背后的论文（18 次点赞、2 条回复、1,295 次浏览、30 次收藏），称经过 10 次迭代后，Terminal-Bench 2 的首轮通过率从 69.7% 提升到 77.0%，而最终得到的运行框架迁移到 SWE-bench-verified 后，token 消耗还减少了 12%。这张摘要截图很关键，因为它把瓶颈定义为“对可编辑组件、轨迹和决策的可观测性”，而不是原始模型规模。

《Agentic Harness Engineering》摘要截图，描述组件、经验和决策可观测性，以及 Terminal-Bench 2 从 69.7% 提升到 77.0% 的结果

讨论要点： 回复和相邻帖子里也透出一种疲劳信号。@BenjDicken 调侃说，2026 年的工程现在就是“agent → while loop 子智能体 → 嵌套 while loop 智能体运行框架”（495 次点赞、19 条回复、15,733 次浏览、121 次收藏）；还有一条回复说，把 Codex、OpenCode、AI SDK 和 Flue 都读过一遍之后，得到的也是同样的结论。

与前日对比： 5 月 14 日的信息流更强调控制平面、可回放工作流和权限边界。到 5 月 15 日，证据又往下一层走，落到运行框架设计、架构图和可观测性这些真正影响可靠性的杠杆上。

1.2 技能、hooks 和知识包正在变成可复用的控制面 🡕¶

第二个主题把可复用技能视为基础设施，而不是装饰。信号最强的帖子，讨论的是如何打包规则、如何验证它们，以及如何把领域知识变成智能体可以按需加载的东西，而不是每次都重新推导一遍。

@rez0__ 表示，一个 bug-bounty hackbot 主要就是一个 agent md 文件、一组攻击技能，再加上一个目标循环（85 次点赞、5 条回复、7,206 次浏览、69 次收藏）。回复让这个模式更具体：有人问上下文轮换会不会把长流程跑断，Rez0 回答说 goal 模式应该会持续循环；还有人问这些技能是不是都来自私有报告，他则回应说，很多其实来自公开博客、书和演讲。

@dabit3 认为，agent hooks 能把可重复规则变成确定性的行为，而不是变成模型必须记住的提示词指令（28 次点赞、5 条回复、4,765 次浏览、34 次收藏）。这一点在回复里也被强化了：有人把差别总结成“前者是代码强制保证，后者只是寄希望于模型能记住”。

@paulgrey 发帖介绍了更新后的 xpr-network-dev-skill 包（64 次点赞、2 条回复、3,201 次浏览、16 次收藏），其中包含 25 份经过 ABI 验证、做过安全加固的文档，面向 Claude Code、Cursor 和 OpenClaw。GitHub README 里说，这套包既服务本地编码助手，也服务服务端自治智能体；其中事实是根据主网实时 ABI、合约源码和 Hyperion traces 验证出来的，而不是从模型训练里推测出来的。

@tom_doerr 分享了 skill-conductor（8 次点赞、1,229 次浏览、13 次收藏）。它的 README 描述了一套架构优先的技能生命周期：CREATE、EVAL、EDIT、REVIEW 和 PACKAGE 模式，再加上一套由 grader、盲测 A/B comparator 和 analyzer 智能体组成的基准栈。

skill-conductor 截图，展示 CREATE、EVAL、EDIT、REVIEW 和 PACKAGE 模式、架构模式选择，以及基准评估器

@koylanai 正在构建一个面向《Agent Skills for Context Engineering》的自主研究循环（46 次点赞、1 条回复、2,582 次浏览、50 次收藏）：搜寻来源、按评分规则打分、提取机制、起草技能更新，并准备 PR。工作流图展示了一条带门控的路径：从来源侦察到 rubric 检查、提案草稿、验证、修订循环，最后再由人工决定是否合并。

自主研究组织的工作流图，展示来源侦察、gatekeeper 评分规则、机制提取、技能提案起草、验证、PR 准备、修订循环和人工合并决策

讨论要点： 最强的回复模式集中在确定性和耐久性上。大家喜欢 hooks 和技能包，是因为它们能把模糊的提示词习惯变成代码级约束；但 Rez0 讨论串里关于上下文轮换的抱怨也说明，可复用技能依然依赖那些能撑住长循环的运行时。

与前日对比： 5 月 14 日强调的是技能市场和目录规模。到 5 月 15 日，焦点更多落在技能如何被编写、测试、版本化，以及如何锚定到领域证据上。

1.3 智能体商业基础设施开始进入运营阶段 🡕¶

第三个主题，是智能体商业从概念幻灯片走向具体的接入流程。最强的帖子不再只是说智能体会去购买服务，而是开始展示它们如何注册、如何认证、如何发现端点，以及如何按使用量结算。

@circle 宣布推出 Agent Marketplace，作为 Circle Agent Stack 的一部分（127 次点赞、9 条回复、6,516 次浏览）。Circle 的发布文章称，这套栈把 Agent Wallets、Agent Marketplace、CLI、nanopayments 和 skills 组合在一起，让智能体可以持有资金、发现服务，并用 USDC 以编程方式交易；而 agents.circle.com 上的主打语则是“支付即认证”。

@ampersend_ai 开放了自己的市场，面向“每一个智能体和每一个构建者”（26 次点赞、3 条回复、4 次引用、2,203 次浏览）。它说，智能体可以浏览公开 API 目录、安装 SDK、拿到钱包，并以 USDC 按请求付费，底层用 x402 结算。截图里列出的供应商包括 CoinGecko、CoinMarketCap、QuickNode、Zapper、Zerion、Allium、Exa 和 Nansen，让这条主张比泛泛的发布帖具体得多。

Ampersend marketplace 截图，展示面向 CoinGecko、CoinMarketCap、QuickNode、Zapper、Zerion、Allium、Exa 和 Nansen 的按次付费 API 列表

@OrbisAPI 发帖展示了一个智能体 quickstart：只需发一个 POST，就能拿到一个 orb_live_ key，立刻访问 21,743+ 个 API，而且不需要钱包、OAuth 或订阅（24 次点赞、4 条回复、360 次浏览、3 次收藏）。这张图很关键，因为它把精确的 register endpoint 以及附着在这套接入流程上的 5 美元 USDC 免费额度都展示出来了。

Orbis quickstart 截图，展示单次 curl 注册调用、无需账号或 OAuth，以及 5 美元 USDC 免费额度横幅

@MalayAhmad 总结了另一面：当下要构建一个智能体，往往在业务逻辑开始之前，就得先折腾钱包设置、链选择、支付基础设施和 LLM 编排（21 次点赞、19 条回复、177 次浏览）。

讨论要点： Circle 帖子的回复很快就转向了信任原语。有人指出，一旦智能体开始自治付费，声誉、可靠性信号、身份以及 evaluator 角色，会和 marketplace 本身一样重要。

与前日对比： 5 月 14 日讨论更多还是“服务发现”这个类别。到 5 月 15 日，信息里补上了运营细节：智能体怎么注册、怎么拿到资金、怎么认证，以及如何按调用真正付费。

2. 令人困扰的问题¶

手工运行框架仍然因为状态过多而把失败藏起来¶

最清晰、最严重的痛点是：智能体依然会因为结构性原因失败，而且这些失败很难被看清。IntuitMachine 概括了《Agentic Harness Engineering》背后的 6 个痛点（18 次点赞、2 条回复、1,295 次浏览、30 次收藏），包括组件纠缠、原始轨迹过于庞杂，以及当编辑帮助或伤害结果时，很难做归因。《Learn Harness Engineering》课程用更直白的话说了同一件事：智能体需要明确规则、上下文连续性、验证和可观测性，才能避免在长任务上反复失手。@BenjDicken 用一个笑话准确抓住了社区气氛（495 次点赞、19 条回复、15,733 次浏览、121 次收藏）：大家先抱怨的不是模型智力，而是包在模型外面的脚手架。严重程度：高。

无状态智能体和断裂的连续性，仍然需要人盯着¶

多条帖子都把持久状态当作缺失的基础原语。@ataiiam 主打 CopilotKit Threads，声称它能修复无状态智能体的问题（26 次点赞、4 条回复、1,988 次浏览、30 次收藏）；而其文档描述的，则是可恢复会话、共享状态、人工参与工作流和实时线程同步。同样的痛点也从另一个角度出现：@RoundtableSpace 的赞助 Higgsfield 帖子（145 次点赞、15 条回复、55,439 次浏览、20 次收藏）把“生产级自治”包装成一种摆脱当前“得一直盯着工作流”的方式；Rez0 讨论串里也有人抱怨，上下文轮换会把长目标循环重置。严重程度：高。看得见的权宜方案是加强状态管理，而不是继续优化提示词。

智能体商业仍要求构建者先拼好太多轨道¶

支付栈在向前走，但帖子本身已经把设置负担暴露出来了。@MalayAhmad 写道（21 次点赞、19 条回复、177 次浏览），构建者在开始写业务逻辑之前，就得先处理钱包设置、链选择、支付基础设施和 LLM 编排。这正是 @OrbisAPI 和 @ampersend_ai 想靠“一次调用注册”、市场发现和按请求结算来消除的负担，而 Circle Agent Stack 的发布文章也明确说，过去的替代方案是碎片化的 API、签名流程和多链逻辑。严重程度：高。当前的权宜方案，是采用一整套更强约束的支付轨道，而不是继续手工把各块拼起来。

默认语音和人格设定仍然对本地语境不够贴合¶

@Call_Me_Commy 表示，自己之所以做一个牙科诊所电话接待员，是因为“几乎所有 AI 呼叫智能体听起来都像美国人”，而他想要的是一个能呈现尼日利亚口音的版本（128 次点赞、13 条回复、4,275 次浏览、59 次收藏）。在回复里，这位构建者还透露，所用技术栈是 Vapi、ElevenLabs 和 n8n，这也把一个文化层面的抱怨，转成了一条具体的落地路径。严重程度：中。这看起来值得做，因为不满是具体的，而且权宜方案已经可以复现。

3. 人们期望的功能¶

具备完整会话控制的自托管托管式智能体¶

最明确的未满足需求来自 @nummanali。他表示（349 次浏览、1 次收藏），自己想要一个类似 Claude Managed Agents、但可以自托管的东西：智能体配置写在代码里、团队智能体能进 Slack、后台智能体能处理周期性工作、会话和记忆都能完全掌控，还支持多个推理提供商。帖子里点名 Flue 是目前最接近的框架，但也说希望 OpenCode 能提供同样的模式。机会：直接。需求具体、可操作，而且目前仍只是部分被满足。

面向长时间运行工作的持久线程与交接原语¶

@ataiiam 把 Threads 定位成无状态智能体的修复方案（26 次点赞、4 条回复、1,988 次浏览、30 次收藏），而其链接的文档描述的是可恢复会话、共享状态和人工参与工作流。围绕“盯着工作流带孩子”的 Higgsfield 宣传，再加上 Rez0 讨论串里的上下文轮换抱怨，实际上都从不同角度指向同一个需求：用户想要的是能持久化、能恢复、能平滑交接，而不是每次都从头重建状态的智能体。机会：直接。现有工具解决了其中一部分，但这股信息流仍把“连续性”当作一个值得围绕它卖产品的问题。

面向智能体的免登录支付与认证轨道¶

这个需求既以痛点形式出现，也以新产品类别出现。@MalayAhmad 描述了业务逻辑开始前的设置负担，而 @OrbisAPI 提供了一次调用即可注册、无需钱包 / OAuth / 订阅的流程， @ampersend_ai 提供的则是一个 wallet 和 SDK 安装都发生在智能体侧的 marketplace。Circle 的发布站点也用产品语言把需求说得很明白：智能体会被付费墙和认证挡住，USDC 被设计成打开这些门的钥匙。机会：直接，而且竞争正在加剧。这个类别已经活跃起来，但信任与评估层依然是空白地带。

区域化、角色化的语音智能体¶

那个尼日利亚牙科接待员 demo 本身也是一个需求信号。@Call_Me_Commy 解释，他去做它，不是因为语音自动化不存在，而是因为现有呼叫智能体大多听起来像美国人。回复里有人追问工具，得到的部分答案是 Vapi、ElevenLabs 和 n8n，但还没有一个更宽泛的产品类别，能覆盖区域默认配置、业务角色模板或本地化 QA。机会：直接，但相对偏 niche。这个需求很务实，也和身份认同绑定，而且尚未被普适化。

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
Learn Harness Engineering	课程 / 参考资料	(+)	把 OpenAI 和 Anthropic 的运行框架指导整合成关于连续性、控制和验证的具体课程	它本身是教育材料，不是运行时或产品
Agentic Harness Engineering（AHE）	运行框架方法	(+/-)	围绕可观测性、可证伪编辑和运行框架自动演化，给出了很强的基准框架	证据主要来自论文摘要串，而非广泛生产报告
CopilotKit Threads	记忆 / 会话基础设施	(+)	可恢复会话、共享状态、实时同步、人工参与工作流	解决的是连续性，不是完整的智能体运行时问题
TradingAgents	多智能体框架	(+/-)	分析师、研究员、交易员和风控角色清晰；支持多模型提供商；有研究支撑的性能主张	仓库明确标注其偏研究用途，并警告结果会随模型、数据和时间区间而变化
XPR Network Dev Skill	领域技能包	(+)	面向 Claude Code 和 OpenClaw 智能体的 ABI 验证知识层；以链上实时数据为依据	只聚焦于一个区块链生态
skill-conductor	技能编写 / 评估	(+)	架构优先设计，包含 CREATE/EVAL/EDIT/REVIEW/PACKAGE 工作流和基准智能体	相较信息流里更大的框架，社交证明仍然偏少
Circle Agent Stack / Agent Marketplace	支付 / 发现	(+/-)	钱包、marketplace、CLI、USDC 结算，以及“支付即认证”的定位	回复立刻追问声誉、身份和服务评估保障
Ampersend Marketplace	API 市场	(+)	以提示词为原生入口的接入、钱包 + SDK 配置、精确按调用计价的 USDC 定价、x402 结算	依赖智能体已经进入基于钱包的支付生态
Orbis quickstart	API 接入	(+)	一次调用即可注册、发放 bearer key、无需钱包 / OAuth / 订阅，并赠送 5 美元额度	仍然引入了提供商自有的 key 和充值流程
Vapi + ElevenLabs + n8n	语音智能体技术栈	(+)	为本地化接待员提供了可复现的具体组合：接电话、查日程、预约	今天的证据只来自一个垂直场景 demo
Web-Use	浏览器智能体	(+)	基于 CDP 的语义树、多 LLM 支持、vision、WebMCP、OAuth 2.0 + PKCE	浏览器自动化在动态网站上仍然配置繁重且容易失败

整体情绪是务实多于兴奋。最强的正面反馈，给到的是那些能让智能体更耐用、更加运营化的工具：运行框架参考资料、线程持久化、经过验证的技能包、一次调用 API 接入，以及有明确价格的 marketplace。当天信息流里最明显的迁移路径，是从“以提示词为中心”的表述，转向可执行代码、持久状态、锚定领域事实的技能模块，以及智能体可以直接使用的支付轨道。竞争压力最明显地在两个地方上升：一是技能基础设施，技能编写和评估正在变成独立产品类别；二是智能体商业，服务发现已经落地，但信任和声誉问题还远未解决。

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
TradingAgents	Tauric Research	由分析师、研究员、交易员和风控角色组成的多智能体交易框架	把市场分析和交易决策拆给专门智能体，而不是塞进一个单体交易提示词	Python、多模型提供商支持、分析 / 研究 / 交易 / 风控团队	已发布	GitHub · 论文 · 推文
Amara AI call receptionist	@Call_Me_Commy	牙科诊所接待员，能接电话、查日历并用尼日利亚口音预约	语音智能体默认都是美国口音，且前台接待仍需人工	Vapi、ElevenLabs、n8n	已发布	推文
Autonomous research loop for Agent Skills	@koylanai	智能体搜寻来源、按评分规则打分、提取洞见、起草技能更新并准备 PR	让技能仓库保持最新、可审阅、可审计	Cursor、GPT-5.5、rubrics、runbooks、PR 检查	Alpha	推文
XPR Network Dev Skill	@paulgrey	面向在 XPR Network 上构建的编码助手和自治智能体的领域技能包	智能体需要经过验证、而非猜测出来的链专属文档和执行知识	Markdown 技能模块、实时 ABI 验证、Hyperion traces、OpenClaw 集成	已发布	GitHub · 推文
skill-conductor	smixs	用于设计、测试、评估和打包智能体技能的系统	构建者需要可重复的技能编写与基准工作流，而不是临时写 SKILL.md	Python、HTML 评估查看器、grader/comparator/analyzer 智能体	已发布	GitHub · 推文
Circle Agent Marketplace / Agent Stack	Circle	面向智能体的钱包、marketplace、CLI 和 USDC 支付基础设施	智能体需要结构化的服务发现与可编程结算	Agent Wallets、CLI、USDC、nanopayments、skills	已发布	博客 · 站点 · 推文
Orbis quickstart	@OrbisAPI	给智能体注册、返回 bearer key，并立即开放一个大型 API 目录	去掉智能体访问 API 时的登录、钱包和订阅负担	REST register endpoint、orb_live_ key、Base/x402 结算	已发布	推文
Ampersend Marketplace	@ampersend_ai	面向智能体和构建者的公开按次付费 API 目录	给卖家分发渠道，也给智能体提供可发现、可自动付费的服务	Base 上的 USDC、x402 结算、钱包 + SDK 接入	已发布	推文
Web-Use	CursorTouch	自主浏览智能体，可导航网站、操作动态页面并处理认证流程	把仍需脆弱手工浏览或自建浏览器自动化的网页任务自动化	Python、Chrome DevTools Protocol、vision、semantic tree、WebMCP、OAuth 2.0 + PKCE	已发布	GitHub · 推文

TradingAgents 是当天信息流里最清晰的“从研究走向构建”信号之一。@quantscience_ 分享了这个框架（159 次点赞、6 条回复、15,332 次浏览、307 次收藏），而它的仓库则写得很明确：它模仿真实交易公司，由分析师、研究员、交易员和风险管理团队协同工作，同时支持多个模型提供商。论文里截出的图片也很关键，因为它同时展示了 AAPL 的交易历史图，以及一张表格，说明 TradingAgents 在抽样股票上超过了基于规则的基线。

TradingAgents 论文页面，展示 AAPL 的详细交易历史，以及 TradingAgents 与基于规则基线的性能对比表

表格背后的构建模式，在全天的数据里高度一致：人们正在把脆弱的提示词，变成可复用的资产。Koylanai 在为技能构建一个“研究—PR”循环，Paul Grey 在发布一个经过验证的 XPR 智能体知识层，而 skill-conductor 则试图把技能在分发前的设计、测试与打包流程标准化。

商业项目也在朝同一层缺失能力收敛。Circle、Orbis 和 Ampersend 都在降低“智能体决定要用一个服务”与“它真的为此付费”之间的摩擦，但各自选择的控制面不同：有的是钱包加服务发现，有的是一次调用就发 bearer key 的注册流程，有的是按次付费的 marketplace。

Web-Use 之所以突出，是因为它把浏览器自动化当成智能体基础设施，而不是浏览器宏。仓库写道，它结合了基于 CDP 的语义树、视觉锚定、WebMCP 工具发现、文件操作，以及 OAuth 2.0 + PKCE token 复用，这比常见那种“AI 会点按钮”的 demo 更像一套完整的浏览器智能体栈。

Web-Use README 截图，列出自主导航、多 LLM 支持、vision、semantic tree 和 WebMCP 等核心浏览器智能体能力

最有辨识度的垂直场景构建，来自 @Call_Me_Commy 的牙科接待员 demo。它把一个文化缺口直接连到了现实工作流上。在回复中，这位构建者披露使用了 Vapi、ElevenLabs 和 n8n，也说明现在的构建者已经可以很快把语音、排班和自动化几层拼成一个领域型智能体，而不需要重新发明底层基础设施。

6. 新动态与亮点¶

面向智能体优先的开源模型定位¶

@hasantoxr 称，Ant Group 已开源 Ring-2.6-1T，把它描述成一个为智能体和编程工作流打造的 1T 参数推理模型，其中活跃参数为 63B，并且可以直接在 Claude Code 中使用（36 次点赞、2 条回复、18,780 次浏览、48 次收藏）。它之所以值得关注，不只是参数规模，而是定位方式：长时程任务、复杂推理、编程和智能体工作流，被当作核心用例来讲，而不是附带收益。

面向智能体运行时的分层安全栈¶

@garrytan 描述了一套纵深防御方案（26 次点赞、1 条回复、2,505 次浏览、63 次收藏）：用 Silmaril 在 shell 层拦截 prompt injection 和 infiltration，用 Clawvisor 在凭据层和网络层做阻断与检测，再在 OpenClaw 和 Hermes Agent 里加入应用层的 prompt injection 检测。这是一个简短但重要的信号：智能体安全讨论正在变得更分层，也更明确地区分防线所处的位置。

浏览器智能体正围绕“结构 + 认证”收敛¶

@tom_doerr 分享了 Web-Use 这个自治 web agent（8 次点赞、1 条回复、1,002 次浏览、10 次收藏）。其仓库写道，它把基于 CDP 的语义树、视觉锚定、文件操作、WebMCP 工具发现，以及 OAuth 2.0 + PKCE 和持久 token 复用组合在一起，这比单纯声称“这是个浏览器智能体”更像一种成熟的栈信号。

7. 机会在哪里¶

[+++] 运行框架可观测性与自我改进工具 —— 这是全数据里最密集的一类信号。AHE 讨论串、《Learn Harness Engineering》课程、MeenakshiYACS 的架构图、Benj Dicken 对复杂性的玩笑，以及 heygurisingh 那种“审计工作流”的表述，都指向同一个缺口：团队需要更好的方式来检查、验证、演进并约束长时间运行的智能体。

[++] 托管式智能体记忆与自托管连续性 —— 最强的未满足需求帖子，明确要求一种可以完全控制会话和记忆的自托管托管式智能体；而 CopilotKit Threads、Higgsfield 那种“别再盯着工作流”的宣传，以及 Rez0 讨论串里的上下文轮换抱怨，则共同说明：连续性依然很脆弱。这里还有空间去做既能保留状态、支持后台执行，又不逼团队上第三方 SaaS 的产品。

[++] 智能体支付、信任与服务评估层 —— Circle、Orbis 和 Ampersend 都已经交付了同一栈里的不同部件，MalayAhmad 的帖子则说明了构建者为什么在乎。下一步的机会不只是再做一个目录，而是去补上回复里明确提出的信任层：声誉、evaluator 角色、身份，以及当智能体开始自主付费后，更清晰的执行保障。

[+] 本地化语音智能体默认能力 —— Amara 接待员 demo 展示了一个具体且被忽视的细分市场：带有地区口音、本地业务语境和角色化工作流的语音智能体。技术栈已经存在，但产品化层仍然很早期。

8. 要点总结¶

运行框架工程变成了面向公众的智能体工作，而不再只是内部优化话题。 当天最强的帖子谈的是可观测性、连续性、架构和运行框架自动演化，而不是提示词技巧。(来源)
可复用技能正在被当作耐久型智能体基础设施。 Hooks、经过验证的知识包，以及技能评估系统，全都被描述成把“希望模型记住的提示词规则”替换成“可重复执行的控制机制”的方法。(来源)
智能体商业正在从 marketplace 叙事转向可执行的接入流程。 Circle、Orbis 和 Ampersend 都展示了具体的注册、发现和按调用结算机制，但构建者仍然在抱怨接入负担。(来源)
最可信的构建者，都在解决狭窄而明确的运营问题。 TradingAgents、尼日利亚牙科接待员，以及 XPR 的验证型开发技能，都针对具体工作流，而不是泛泛宣称通用自治。(来源)
随着智能体越来越接近真实执行，安全讨论也正在变得更分层。 Garry Tan 提到的 shell、凭据、网络和应用层防线，是一个简明信号：单层防御已经不再是主流叙事。(来源)