跳转至

Twitter AI 智能体 - 2026-05-15

1. 人们在讨论什么

1.1 运行框架工程和可观测性走向主流 🡕

当天最强的一簇,不再是泛泛而谈的“agentic AI”宣传,而是更具体地转向运行框架、架构、可观测性,以及长任务中的可重复行为。至少有 5 个有分量的条目都把智能体质量界定成系统设计问题:工作如何委派、上下文如何维持、失败如何暴露、改动如何验证。

@heygurisingh 认为,真正从 LLM 获得价值的人,做的是任务委派方式上的“结构性调整”,而不是继续优化提示词(96 次点赞、4 条回复、40,436 次浏览、380 次收藏)。他的讨论串要求用户画出自己仍在手工做的工作,识别哪些事情只是“看起来有生产力”,再按信任度和放进工作流的位置,给最有影响的改动排序。因此,这更像是一套流程设计论点,而不是一包提示词。

@RoundtableSpace 分享了《Learn Harness Engineering》(95 次点赞、3 条回复、47,504 次浏览、74 次收藏),并链接到一门公开课程。课程中说,运行框架可以约束智能体行为、在长任务中保留上下文、阻止过早宣布成功,并让 Codex 和 Claude Code 这类智能体的运行时行为变得可观察、可调试。

《Learn Harness Engineering》主页,展示“为什么强大的智能体仍会失败”“连续性丢失”“越界执行”等讲题,以及把功能列表作为运行框架原语的内容

@MeenakshiYACS 发帖贴出了一张参考架构图(76 次点赞、22 条回复、1,007 次浏览、36 次收藏),把智能体系统拆成编排、专用智能体、工具、记忆、监控、可靠性和治理几层。这张图在视觉上表达的,其实和上面的帖子是同一个意思:社区讨论正在从单一提示词转向完整的智能体运营模型。

参考架构图,展示客户端层、编排 / 控制平面、专用智能体、工具、记忆、可观测性、可靠性、治理和基础设施

@IntuitMachine 概括了《Agentic Harness Engineering》背后的论文(18 次点赞、2 条回复、1,295 次浏览、30 次收藏),称经过 10 次迭代后,Terminal-Bench 2 的首轮通过率从 69.7% 提升到 77.0%,而最终得到的运行框架迁移到 SWE-bench-verified 后,token 消耗还减少了 12%。这张摘要截图很关键,因为它把瓶颈定义为“对可编辑组件、轨迹和决策的可观测性”,而不是原始模型规模。

《Agentic Harness Engineering》摘要截图,描述组件、经验和决策可观测性,以及 Terminal-Bench 2 从 69.7% 提升到 77.0% 的结果

讨论要点: 回复和相邻帖子里也透出一种疲劳信号。@BenjDicken 调侃说,2026 年的工程现在就是“agent → while loop 子智能体 → 嵌套 while loop 智能体运行框架”(495 次点赞、19 条回复、15,733 次浏览、121 次收藏);还有一条回复说,把 Codex、OpenCode、AI SDK 和 Flue 都读过一遍之后,得到的也是同样的结论。

与前日对比: 5 月 14 日的信息流更强调控制平面、可回放工作流和权限边界。到 5 月 15 日,证据又往下一层走,落到运行框架设计、架构图和可观测性这些真正影响可靠性的杠杆上。

1.2 技能、hooks 和知识包正在变成可复用的控制面 🡕

第二个主题把可复用技能视为基础设施,而不是装饰。信号最强的帖子,讨论的是如何打包规则、如何验证它们,以及如何把领域知识变成智能体可以按需加载的东西,而不是每次都重新推导一遍。

@rez0__ 表示,一个 bug-bounty hackbot 主要就是一个 agent md 文件、一组攻击技能,再加上一个目标循环(85 次点赞、5 条回复、7,206 次浏览、69 次收藏)。回复让这个模式更具体:有人问上下文轮换会不会把长流程跑断,Rez0 回答说 goal 模式应该会持续循环;还有人问这些技能是不是都来自私有报告,他则回应说,很多其实来自公开博客、书和演讲。

@dabit3 认为,agent hooks 能把可重复规则变成确定性的行为,而不是变成模型必须记住的提示词指令(28 次点赞、5 条回复、4,765 次浏览、34 次收藏)。这一点在回复里也被强化了:有人把差别总结成“前者是代码强制保证,后者只是寄希望于模型能记住”。

@paulgrey 发帖介绍了更新后的 xpr-network-dev-skill 包(64 次点赞、2 条回复、3,201 次浏览、16 次收藏),其中包含 25 份经过 ABI 验证、做过安全加固的文档,面向 Claude Code、Cursor 和 OpenClaw。GitHub README 里说,这套包既服务本地编码助手,也服务服务端自治智能体;其中事实是根据主网实时 ABI、合约源码和 Hyperion traces 验证出来的,而不是从模型训练里推测出来的。

@tom_doerr 分享skill-conductor(8 次点赞、1,229 次浏览、13 次收藏)。它的 README 描述了一套架构优先的技能生命周期:CREATE、EVAL、EDIT、REVIEW 和 PACKAGE 模式,再加上一套由 grader、盲测 A/B comparator 和 analyzer 智能体组成的基准栈。

skill-conductor 截图,展示 CREATE、EVAL、EDIT、REVIEW 和 PACKAGE 模式、架构模式选择,以及基准评估器

@koylanai 正在构建一个面向《Agent Skills for Context Engineering》的自主研究循环(46 次点赞、1 条回复、2,582 次浏览、50 次收藏):搜寻来源、按评分规则打分、提取机制、起草技能更新,并准备 PR。工作流图展示了一条带门控的路径:从来源侦察到 rubric 检查、提案草稿、验证、修订循环,最后再由人工决定是否合并。

自主研究组织的工作流图,展示来源侦察、gatekeeper 评分规则、机制提取、技能提案起草、验证、PR 准备、修订循环和人工合并决策

讨论要点: 最强的回复模式集中在确定性和耐久性上。大家喜欢 hooks 和技能包,是因为它们能把模糊的提示词习惯变成代码级约束;但 Rez0 讨论串里关于上下文轮换的抱怨也说明,可复用技能依然依赖那些能撑住长循环的运行时。

与前日对比: 5 月 14 日强调的是技能市场和目录规模。到 5 月 15 日,焦点更多落在技能如何被编写、测试、版本化,以及如何锚定到领域证据上。

1.3 智能体商业基础设施开始进入运营阶段 🡕

第三个主题,是智能体商业从概念幻灯片走向具体的接入流程。最强的帖子不再只是说智能体会去购买服务,而是开始展示它们如何注册、如何认证、如何发现端点,以及如何按使用量结算。

@circle 宣布推出 Agent Marketplace,作为 Circle Agent Stack 的一部分(127 次点赞、9 条回复、6,516 次浏览)。Circle 的发布文章称,这套栈把 Agent Wallets、Agent Marketplace、CLI、nanopayments 和 skills 组合在一起,让智能体可以持有资金、发现服务,并用 USDC 以编程方式交易;而 agents.circle.com 上的主打语则是“支付即认证”。

@ampersend_ai 开放了自己的市场,面向“每一个智能体和每一个构建者”(26 次点赞、3 条回复、4 次引用、2,203 次浏览)。它说,智能体可以浏览公开 API 目录、安装 SDK、拿到钱包,并以 USDC 按请求付费,底层用 x402 结算。截图里列出的供应商包括 CoinGecko、CoinMarketCap、QuickNode、Zapper、Zerion、Allium、Exa 和 Nansen,让这条主张比泛泛的发布帖具体得多。

Ampersend marketplace 截图,展示面向 CoinGecko、CoinMarketCap、QuickNode、Zapper、Zerion、Allium、Exa 和 Nansen 的按次付费 API 列表

@OrbisAPI 发帖展示了一个智能体 quickstart:只需发一个 POST,就能拿到一个 orb_live_ key,立刻访问 21,743+ 个 API,而且不需要钱包、OAuth 或订阅(24 次点赞、4 条回复、360 次浏览、3 次收藏)。这张图很关键,因为它把精确的 register endpoint 以及附着在这套接入流程上的 5 美元 USDC 免费额度都展示出来了。

Orbis quickstart 截图,展示单次 curl 注册调用、无需账号或 OAuth,以及 5 美元 USDC 免费额度横幅

@MalayAhmad 总结了另一面:当下要构建一个智能体,往往在业务逻辑开始之前,就得先折腾钱包设置、链选择、支付基础设施和 LLM 编排(21 次点赞、19 条回复、177 次浏览)。

讨论要点: Circle 帖子的回复很快就转向了信任原语。有人指出,一旦智能体开始自治付费,声誉、可靠性信号、身份以及 evaluator 角色,会和 marketplace 本身一样重要。

与前日对比: 5 月 14 日讨论更多还是“服务发现”这个类别。到 5 月 15 日,信息里补上了运营细节:智能体怎么注册、怎么拿到资金、怎么认证,以及如何按调用真正付费。


2. 令人困扰的问题

手工运行框架仍然因为状态过多而把失败藏起来

最清晰、最严重的痛点是:智能体依然会因为结构性原因失败,而且这些失败很难被看清。IntuitMachine 概括了《Agentic Harness Engineering》背后的 6 个痛点(18 次点赞、2 条回复、1,295 次浏览、30 次收藏),包括组件纠缠、原始轨迹过于庞杂,以及当编辑帮助或伤害结果时,很难做归因。《Learn Harness Engineering》课程用更直白的话说了同一件事:智能体需要明确规则、上下文连续性、验证和可观测性,才能避免在长任务上反复失手。@BenjDicken 用一个笑话准确抓住了社区气氛(495 次点赞、19 条回复、15,733 次浏览、121 次收藏):大家先抱怨的不是模型智力,而是包在模型外面的脚手架。严重程度:高。

无状态智能体和断裂的连续性,仍然需要人盯着

多条帖子都把持久状态当作缺失的基础原语。@ataiiam 主打 CopilotKit Threads,声称它能修复无状态智能体的问题(26 次点赞、4 条回复、1,988 次浏览、30 次收藏);而其文档描述的,则是可恢复会话、共享状态、人工参与工作流和实时线程同步。同样的痛点也从另一个角度出现:@RoundtableSpace赞助 Higgsfield 帖子(145 次点赞、15 条回复、55,439 次浏览、20 次收藏)把“生产级自治”包装成一种摆脱当前“得一直盯着工作流”的方式;Rez0 讨论串里也有人抱怨,上下文轮换会把长目标循环重置。严重程度:高。看得见的权宜方案是加强状态管理,而不是继续优化提示词。

智能体商业仍要求构建者先拼好太多轨道

支付栈在向前走,但帖子本身已经把设置负担暴露出来了。@MalayAhmad 写道(21 次点赞、19 条回复、177 次浏览),构建者在开始写业务逻辑之前,就得先处理钱包设置、链选择、支付基础设施和 LLM 编排。这正是 @OrbisAPI@ampersend_ai 想靠“一次调用注册”、市场发现和按请求结算来消除的负担,而 Circle Agent Stack 的发布文章也明确说,过去的替代方案是碎片化的 API、签名流程和多链逻辑。严重程度:高。当前的权宜方案,是采用一整套更强约束的支付轨道,而不是继续手工把各块拼起来。

默认语音和人格设定仍然对本地语境不够贴合

@Call_Me_Commy 表示,自己之所以做一个牙科诊所电话接待员,是因为“几乎所有 AI 呼叫智能体听起来都像美国人”,而他想要的是一个能呈现尼日利亚口音的版本(128 次点赞、13 条回复、4,275 次浏览、59 次收藏)。在回复里,这位构建者还透露,所用技术栈是 Vapi、ElevenLabs 和 n8n,这也把一个文化层面的抱怨,转成了一条具体的落地路径。严重程度:中。这看起来值得做,因为不满是具体的,而且权宜方案已经可以复现。


3. 人们期望的功能

具备完整会话控制的自托管托管式智能体

最明确的未满足需求来自 @nummanali。他表示(349 次浏览、1 次收藏),自己想要一个类似 Claude Managed Agents、但可以自托管的东西:智能体配置写在代码里、团队智能体能进 Slack、后台智能体能处理周期性工作、会话和记忆都能完全掌控,还支持多个推理提供商。帖子里点名 Flue 是目前最接近的框架,但也说希望 OpenCode 能提供同样的模式。机会:直接。需求具体、可操作,而且目前仍只是部分被满足。

面向长时间运行工作的持久线程与交接原语

@ataiiam Threads 定位成无状态智能体的修复方案(26 次点赞、4 条回复、1,988 次浏览、30 次收藏),而其链接的文档描述的是可恢复会话、共享状态和人工参与工作流。围绕“盯着工作流带孩子”的 Higgsfield 宣传,再加上 Rez0 讨论串里的上下文轮换抱怨,实际上都从不同角度指向同一个需求:用户想要的是能持久化、能恢复、能平滑交接,而不是每次都从头重建状态的智能体。机会:直接。现有工具解决了其中一部分,但这股信息流仍把“连续性”当作一个值得围绕它卖产品的问题。

面向智能体的免登录支付与认证轨道

这个需求既以痛点形式出现,也以新产品类别出现。@MalayAhmad 描述了业务逻辑开始前的设置负担,而 @OrbisAPI 提供了一次调用即可注册、无需钱包 / OAuth / 订阅的流程, @ampersend_ai 提供的则是一个 wallet 和 SDK 安装都发生在智能体侧的 marketplace。Circle 的发布站点也用产品语言把需求说得很明白:智能体会被付费墙和认证挡住,USDC 被设计成打开这些门的钥匙。机会:直接,而且竞争正在加剧。这个类别已经活跃起来,但信任与评估层依然是空白地带。

区域化、角色化的语音智能体

那个尼日利亚牙科接待员 demo 本身也是一个需求信号。@Call_Me_Commy 解释,他去做它,不是因为语音自动化不存在,而是因为现有呼叫智能体大多听起来像美国人。回复里有人追问工具,得到的部分答案是 Vapi、ElevenLabs 和 n8n,但还没有一个更宽泛的产品类别,能覆盖区域默认配置、业务角色模板或本地化 QA。机会:直接,但相对偏 niche。这个需求很务实,也和身份认同绑定,而且尚未被普适化。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
Learn Harness Engineering 课程 / 参考资料 (+) 把 OpenAI 和 Anthropic 的运行框架指导整合成关于连续性、控制和验证的具体课程 它本身是教育材料,不是运行时或产品
Agentic Harness Engineering(AHE) 运行框架方法 (+/-) 围绕可观测性、可证伪编辑和运行框架自动演化,给出了很强的基准框架 证据主要来自论文摘要串,而非广泛生产报告
CopilotKit Threads 记忆 / 会话基础设施 (+) 可恢复会话、共享状态、实时同步、人工参与工作流 解决的是连续性,不是完整的智能体运行时问题
TradingAgents 多智能体框架 (+/-) 分析师、研究员、交易员和风控角色清晰;支持多模型提供商;有研究支撑的性能主张 仓库明确标注其偏研究用途,并警告结果会随模型、数据和时间区间而变化
XPR Network Dev Skill 领域技能包 (+) 面向 Claude Code 和 OpenClaw 智能体的 ABI 验证知识层;以链上实时数据为依据 只聚焦于一个区块链生态
skill-conductor 技能编写 / 评估 (+) 架构优先设计,包含 CREATE/EVAL/EDIT/REVIEW/PACKAGE 工作流和基准智能体 相较信息流里更大的框架,社交证明仍然偏少
Circle Agent Stack / Agent Marketplace 支付 / 发现 (+/-) 钱包、marketplace、CLI、USDC 结算,以及“支付即认证”的定位 回复立刻追问声誉、身份和服务评估保障
Ampersend Marketplace API 市场 (+) 以提示词为原生入口的接入、钱包 + SDK 配置、精确按调用计价的 USDC 定价、x402 结算 依赖智能体已经进入基于钱包的支付生态
Orbis quickstart API 接入 (+) 一次调用即可注册、发放 bearer key、无需钱包 / OAuth / 订阅,并赠送 5 美元额度 仍然引入了提供商自有的 key 和充值流程
Vapi + ElevenLabs + n8n 语音智能体技术栈 (+) 为本地化接待员提供了可复现的具体组合:接电话、查日程、预约 今天的证据只来自一个垂直场景 demo
Web-Use 浏览器智能体 (+) 基于 CDP 的语义树、多 LLM 支持、vision、WebMCP、OAuth 2.0 + PKCE 浏览器自动化在动态网站上仍然配置繁重且容易失败

整体情绪是务实多于兴奋。最强的正面反馈,给到的是那些能让智能体更耐用、更加运营化的工具:运行框架参考资料、线程持久化、经过验证的技能包、一次调用 API 接入,以及有明确价格的 marketplace。当天信息流里最明显的迁移路径,是从“以提示词为中心”的表述,转向可执行代码、持久状态、锚定领域事实的技能模块,以及智能体可以直接使用的支付轨道。竞争压力最明显地在两个地方上升:一是技能基础设施,技能编写和评估正在变成独立产品类别;二是智能体商业,服务发现已经落地,但信任和声誉问题还远未解决。


5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
TradingAgents Tauric Research 由分析师、研究员、交易员和风控角色组成的多智能体交易框架 把市场分析和交易决策拆给专门智能体,而不是塞进一个单体交易提示词 Python、多模型提供商支持、分析 / 研究 / 交易 / 风控团队 已发布 GitHub · 论文 · 推文
Amara AI call receptionist @Call_Me_Commy 牙科诊所接待员,能接电话、查日历并用尼日利亚口音预约 语音智能体默认都是美国口音,且前台接待仍需人工 Vapi、ElevenLabs、n8n 已发布 推文
Autonomous research loop for Agent Skills @koylanai 智能体搜寻来源、按评分规则打分、提取洞见、起草技能更新并准备 PR 让技能仓库保持最新、可审阅、可审计 Cursor、GPT-5.5、rubrics、runbooks、PR 检查 Alpha 推文
XPR Network Dev Skill @paulgrey 面向在 XPR Network 上构建的编码助手和自治智能体的领域技能包 智能体需要经过验证、而非猜测出来的链专属文档和执行知识 Markdown 技能模块、实时 ABI 验证、Hyperion traces、OpenClaw 集成 已发布 GitHub · 推文
skill-conductor smixs 用于设计、测试、评估和打包智能体技能的系统 构建者需要可重复的技能编写与基准工作流,而不是临时写 SKILL.md Python、HTML 评估查看器、grader/comparator/analyzer 智能体 已发布 GitHub · 推文
Circle Agent Marketplace / Agent Stack Circle 面向智能体的钱包、marketplace、CLI 和 USDC 支付基础设施 智能体需要结构化的服务发现与可编程结算 Agent Wallets、CLI、USDC、nanopayments、skills 已发布 博客 · 站点 · 推文
Orbis quickstart @OrbisAPI 给智能体注册、返回 bearer key,并立即开放一个大型 API 目录 去掉智能体访问 API 时的登录、钱包和订阅负担 REST register endpoint、orb_live_ key、Base/x402 结算 已发布 推文
Ampersend Marketplace @ampersend_ai 面向智能体和构建者的公开按次付费 API 目录 给卖家分发渠道,也给智能体提供可发现、可自动付费的服务 Base 上的 USDC、x402 结算、钱包 + SDK 接入 已发布 推文
Web-Use CursorTouch 自主浏览智能体,可导航网站、操作动态页面并处理认证流程 把仍需脆弱手工浏览或自建浏览器自动化的网页任务自动化 Python、Chrome DevTools Protocol、vision、semantic tree、WebMCP、OAuth 2.0 + PKCE 已发布 GitHub · 推文

TradingAgents 是当天信息流里最清晰的“从研究走向构建”信号之一。@quantscience_ 分享了这个框架(159 次点赞、6 条回复、15,332 次浏览、307 次收藏),而它的仓库则写得很明确:它模仿真实交易公司,由分析师、研究员、交易员和风险管理团队协同工作,同时支持多个模型提供商。论文里截出的图片也很关键,因为它同时展示了 AAPL 的交易历史图,以及一张表格,说明 TradingAgents 在抽样股票上超过了基于规则的基线。

TradingAgents 论文页面,展示 AAPL 的详细交易历史,以及 TradingAgents 与基于规则基线的性能对比表

表格背后的构建模式,在全天的数据里高度一致:人们正在把脆弱的提示词,变成可复用的资产。Koylanai 在为技能构建一个“研究—PR”循环,Paul Grey 在发布一个经过验证的 XPR 智能体知识层,而 skill-conductor 则试图把技能在分发前的设计、测试与打包流程标准化。

商业项目也在朝同一层缺失能力收敛。Circle、Orbis 和 Ampersend 都在降低“智能体决定要用一个服务”与“它真的为此付费”之间的摩擦,但各自选择的控制面不同:有的是钱包加服务发现,有的是一次调用就发 bearer key 的注册流程,有的是按次付费的 marketplace。

Web-Use 之所以突出,是因为它把浏览器自动化当成智能体基础设施,而不是浏览器宏。仓库写道,它结合了基于 CDP 的语义树、视觉锚定、WebMCP 工具发现、文件操作,以及 OAuth 2.0 + PKCE token 复用,这比常见那种“AI 会点按钮”的 demo 更像一套完整的浏览器智能体栈。

Web-Use README 截图,列出自主导航、多 LLM 支持、vision、semantic tree 和 WebMCP 等核心浏览器智能体能力

最有辨识度的垂直场景构建,来自 @Call_Me_Commy 的牙科接待员 demo。它把一个文化缺口直接连到了现实工作流上。在回复中,这位构建者披露使用了 Vapi、ElevenLabs 和 n8n,也说明现在的构建者已经可以很快把语音、排班和自动化几层拼成一个领域型智能体,而不需要重新发明底层基础设施。


6. 新动态与亮点

面向智能体优先的开源模型定位

@hasantoxr ,Ant Group 已开源 Ring-2.6-1T,把它描述成一个为智能体和编程工作流打造的 1T 参数推理模型,其中活跃参数为 63B,并且可以直接在 Claude Code 中使用(36 次点赞、2 条回复、18,780 次浏览、48 次收藏)。它之所以值得关注,不只是参数规模,而是定位方式:长时程任务、复杂推理、编程和智能体工作流,被当作核心用例来讲,而不是附带收益。

面向智能体运行时的分层安全栈

@garrytan 描述了一套纵深防御方案(26 次点赞、1 条回复、2,505 次浏览、63 次收藏):用 Silmaril 在 shell 层拦截 prompt injection 和 infiltration,用 Clawvisor 在凭据层和网络层做阻断与检测,再在 OpenClaw 和 Hermes Agent 里加入应用层的 prompt injection 检测。这是一个简短但重要的信号:智能体安全讨论正在变得更分层,也更明确地区分防线所处的位置。

浏览器智能体正围绕“结构 + 认证”收敛

@tom_doerr 分享了 Web-Use 这个自治 web agent(8 次点赞、1 条回复、1,002 次浏览、10 次收藏)。其仓库写道,它把基于 CDP 的语义树、视觉锚定、文件操作、WebMCP 工具发现,以及 OAuth 2.0 + PKCE 和持久 token 复用组合在一起,这比单纯声称“这是个浏览器智能体”更像一种成熟的栈信号。


7. 机会在哪里

[+++] 运行框架可观测性与自我改进工具 —— 这是全数据里最密集的一类信号。AHE 讨论串、《Learn Harness Engineering》课程、MeenakshiYACS 的架构图、Benj Dicken 对复杂性的玩笑,以及 heygurisingh 那种“审计工作流”的表述,都指向同一个缺口:团队需要更好的方式来检查、验证、演进并约束长时间运行的智能体。

[++] 托管式智能体记忆与自托管连续性 —— 最强的未满足需求帖子,明确要求一种可以完全控制会话和记忆的自托管托管式智能体;而 CopilotKit Threads、Higgsfield 那种“别再盯着工作流”的宣传,以及 Rez0 讨论串里的上下文轮换抱怨,则共同说明:连续性依然很脆弱。这里还有空间去做既能保留状态、支持后台执行,又不逼团队上第三方 SaaS 的产品。

[++] 智能体支付、信任与服务评估层 —— Circle、Orbis 和 Ampersend 都已经交付了同一栈里的不同部件,MalayAhmad 的帖子则说明了构建者为什么在乎。下一步的机会不只是再做一个目录,而是去补上回复里明确提出的信任层:声誉、evaluator 角色、身份,以及当智能体开始自主付费后,更清晰的执行保障。

[+] 本地化语音智能体默认能力 —— Amara 接待员 demo 展示了一个具体且被忽视的细分市场:带有地区口音、本地业务语境和角色化工作流的语音智能体。技术栈已经存在,但产品化层仍然很早期。


8. 要点总结

  1. 运行框架工程变成了面向公众的智能体工作,而不再只是内部优化话题。 当天最强的帖子谈的是可观测性、连续性、架构和运行框架自动演化,而不是提示词技巧。(来源)
  2. 可复用技能正在被当作耐久型智能体基础设施。 Hooks、经过验证的知识包,以及技能评估系统,全都被描述成把“希望模型记住的提示词规则”替换成“可重复执行的控制机制”的方法。(来源)
  3. 智能体商业正在从 marketplace 叙事转向可执行的接入流程。 Circle、Orbis 和 Ampersend 都展示了具体的注册、发现和按调用结算机制,但构建者仍然在抱怨接入负担。(来源)
  4. 最可信的构建者,都在解决狭窄而明确的运营问题。 TradingAgents、尼日利亚牙科接待员,以及 XPR 的验证型开发技能,都针对具体工作流,而不是泛泛宣称通用自治。(来源)
  5. 随着智能体越来越接近真实执行,安全讨论也正在变得更分层。 Garry Tan 提到的 shell、凭据、网络和应用层防线,是一个简明信号:单层防御已经不再是主流叙事。(来源)