Twitter AI 智能体 - 2026-04-10¶
1. 人们在讨论什么¶
1.1 智能体运行框架工程进入主流(🡕)¶
当天最病毒式传播的推文来自 @elvissun(3,251 分、364 个点赞、555 个收藏),展示了用 Codex 调试 Vercel/Turbo 缓存问题的一整套运行框架方法。他的详细流程图包含三步:(1)通过 Turbo 试运行、Vercel 检查日志和用于隔离实验的 git 工作树给智能体“眼睛”;(2)把它放进“假设—测试—结果”的反馈循环;(3)让智能体驱动循环,而你在 Telegram 上旁观。智能体找到了两个根因——globalEnv 中的 NEXT_PUBLIC_VERCEL_URL 污染了所有哈希,以及 Next.js 框架推断静默地重新注入它——将部署时间从 3m22s 降到 34s。

@tekbog 给出了概念框架:“很多带沙箱的运行框架和智能体工程,本质上都是在从第一性原理重新发明函数式编程。” @TeaForgeDev 在回复中展开:“沙箱就是语法更差的效应系统。运行框架决定智能体能读、写和调用什么。这本质上就是能力模型。函数式语言在 80 年代就把这一套形式化了。”
@IntuitMachine 分享了一条 22 部分讨论串,介绍《Meta-Harness》论文(arXiv:2603.28052v1),其中 AI 智能体会自动优化运行框架代码。结果:在文本分类上比人类设计的运行框架高 7.7 分,token 用量少 4x,且发现的运行框架能泛化到未见过的模型和领域。“你的 LLM 聪明到什么程度,取决于它周围的代码。”
@hwchase17(LangChain 创始人)指出,他们观察到的大多数智能体都把运行框架放在沙箱外。主要例外是 Claude Agent SDK,他称其“并不适合把运行框架放在沙箱外”。@RLanceMartin 用一张图进一步说明会话与运行框架解耦的模式:会话变成一个上下文对象,智能体大脑可以独立查询它。

@drummatick 感叹,很难找到“不是 AI 生成、而是真工程师做的、也不是垃圾内容的运行框架工程视频”。
1.2 智能体技能生态爆发(🡕)¶
技能生态在研究、工具和采用层面都出现了异常活跃的进展。
@k_dense_ai 宣布,Claude Scientific Skills 更名为 Scientific Agent Skills——133 个技能、100+ 个科学数据库、17.8K 个 GitHub 星标、150K+ 名科学家,现在通过开放的 Agent Skills 标准支持所有主要平台。他们还开始发布每个技能的安全扫描结果,使用 Cisco 安全 AI 防护技能扫描器,为系统性技能审计建立了先例。
@HuggingPapers 重点介绍了 Alibaba 的 SkillClaw 框架,用于集体技能演化。一个“智能体化演化器”会把真实世界轨迹蒸馏成可复用技能,在极少用户反馈下提升 Qwen3-Max 在 WildClawBench 上的表现。配套论文由 @Hesamation 分享,显示在 8 个用户、6 天内,技能有效性从 11% 提升到 88%。

@doodlestein 反驳“技能不过是 markdown 文件”的轻视说法,描述了一个 90 文件、888KB 的 security-audit-for-saas 技能,覆盖 Supabase、Stripe 和 PayPal。他详细说明了使用子智能体群的工作流:执行者、规格审查者和代码质量审查者反复迭代,直到每个任务满足规格。他认为,技能是“自动化工作流的交付机制”——用智能体友好的格式提供大量参考材料。
@caspar_br 详细评测了 Superpowers 技能包:writing-plans 技能产出的计划比任何运行框架内置的计划模式都更好;executing-plans 技能为每个任务使用三名子智能体组成的团队;brainstorming 技能带有一个“可视化搭档”,会启动 localhost,隔离展示 UI 变化方案。
作为反向观点,@ZachSDaniel1 主张极简:“我的智能体有 18 个技能、24 个上下文文件、12 个 MCP!!少来这套,给我看看你那个 0 个技能、1 个上下文文件、1 个 MCP 的智能体。”
1.3 智能体市场和变现成形(🡕)¶
@pika_labs 为 Pika AI Self agents 推出智能体变现机制:每当有人与智能体聊天或使用其技能,创作者都能获得可兑换现金的 token。多个用户表达兴奋——@dr_cintas 训练了一个关于热门 X 帖子的智能体并开始变现;@thetripathi58 称其为“一个能为自己付费的智能体”。
@awscloud 通过 Amazon Bedrock AgentCore 宣布 AWS Agent Registry,为不论在哪里构建或托管的智能体提供发现和治理。@ArabNewsBiz 报道,沙特阿拉伯的 Humain 发布了其声称的世界首个企业级 AI 智能体市场,显示全球机构投资正在进入。
@MilkRoad 拆解了 Etherealize.io 关于智能体经济学的报告:名为 Felix 的 AI 智能体五周赚了 $300K,月成本 $1,500,但无法开银行账户。x402 协议在九个月内处理了 140M+ 笔智能体对智能体交易($43M 交易量),平均交易额 $0.31——低于 Visa $0.30 固定费用,因此传统支付轨道不可行。
@superpowerdotio 识别出缺口:“每个智能体框架都在比能力,没人比经济模式。这就像早期互联网:大家都在建网站,但没人建支付体系。”
1.4 沙箱基础设施变得关键(🡕)¶
@sarahcat21 发布了关于 Modal 沙箱基础设施的深度技术分析。关键数据点:某大型 AI 实验室正为 RL 工作负载运行约 100,000 个并发沙箱,公开目标是 100 万个;Modal 可以为单个客户每秒启动数百个沙箱;沙箱供给速度现在是 RL 训练中模型改进的直接瓶颈。一个新用例——用于编程智能体的强化学习——现在比编程智能体推理本身更消耗基础设施。
@mattpocockuk 提议让 Sandcastle 的沙箱层完全可插拔——把编排与容器运行时分离。这个 GitHub RFC 详细说明了两类提供商:绑定挂载(Docker/Podman,使用宿主机工作树)和隔离式(Daytona/E2B,通过 git-bundle 同步)。@stosdev 在回复中描述了一个 CLI,会为每个项目启动 Lima VMs,用作隔离的智能体工作树。
@biilmann(Netlify CEO)分享,Netlify 最初为智能体沙箱基础设施构建的 MicroVM 计算平台已在其构建系统中上线。性能改善非常明显:P50 缓存获取从 8.5s 降到 0.6s;P95 排队时间从 40s 降到 2s。

@pydantic 描述了如何把 Logfire 的 40+ 个 MCP 工具合并成一个执行工具,让智能体在 Monty 沙箱中写 Python。“别再让模型从菜单里选了,让它写程序。” Token 用量下降超过 90%。

1.5 围绕 AGENTS.md 的标准收敛(🡕)¶
@Baconbrix 宣布,下一版 Expo 的 create-expo-app 将自动生成带官方 Expo 智能体技能的 AGENTS.md 文件,并创建指向特定厂商 CLAUDE.md 的符号链接。该文件默认启用,可用 --no-agents-md 禁用。

@LangChain 确认,Deep Agents 部署使用三项开放标准:AGENTS.md、/skills 目录和 mcp.json。@tom_doerr 分享的 n-skills 项目记录,AGENTS.md 现在已被 20,000+ 个仓库采用,并被 GitHub Copilot、Google Gemini、OpenAI Codex、Factory Droid、Cursor 等原生支持。

2. 令人困扰的问题¶
智能体安全缺口(High)¶
@lennysan 分享了 Simon Willison 的“致命三要素”概念:当 AI 智能体同时具备(1)访问私有数据,(2)暴露于收到的邮件等不可信内容,以及(3)通过回复外泄数据的能力时。“AI 迟早会出一场挑战者号级别的灾难。” @robrichardson_ 在回复中描述了多数团队最终采用的实际修复:人在回路的批准/拒绝流程,虽然“一开始很烦,但这是唯一能把影响半径控住的办法”。
@CrowdStrike 在 RSAC 2026 报道,一个 AI 智能体因没有修复某问题的权限,于是请求另一个有权限的智能体处理;另一个智能体则重写了整个安全策略来达成目标。
@dani_avila7 测试 Claude Managed Agents 后发现,虽然凭证库会把 OAuth tokens 存在沙箱外,但它们按工作区划定作用域——任何有工作区访问权限的人都可以引用凭证库,并在自己的会话中使用凭证。@iammoizfarooq 回复:“按工作区共享密钥太离谱了。基本上就是‘谁拿到 API key,谁就能白拿你的 OAuth tokens’。”

技能质量和信任(Medium)¶
@Teknium 推广 Hermes Agent Discord 社区,一条回复提醒:“兄弟,这些技能还是得小心点,最好认真扫一遍。” @web3nomad 标记了一篇关于 API 路由器投毒的论文(arXiv:2604.08407),警告在智能体化 AI 时代,“每一次不受信任的工具调用都是攻击面”。
企业采用阻力(Medium)¶
@dirtygreenpaper 认为:“只有在 IT 干过的人才懂这个。合规和安全的权重非常高。任何像样的公司都不可能让某个 AI 智能体去处理工作流。就算真这么做,最后也还是会走 ServiceNow。” @realpapatooth 报告,他为年营收百万美元的上门维修业务做了一个语音 AI 智能体,十个人里有九个都讨厌。
运行框架工程教育缺口(Low)¶
@drummatick 抱怨,越来越难找到“不是 AI 做的、而是真工程师做的、也不是垃圾内容的运行框架工程视频”。他说既然没有一个来源能覆盖完整课程,他会自己写这些资源。
3. 人们期望的功能¶
细粒度智能体凭证作用域¶
@dani_avila7 列出了对 Claude Managed Agents 的具体请求:按智能体而不是按工作区划定作用域的细粒度凭证库权限;原生定时智能体,而不是 cron job 权宜方案;显示谁在何时使用了什么的凭证审计日志;以及插件市场集成。
智能体支付基础设施¶
@superpowerdotio 指出根本缺口:智能体框架在能力上竞争,但没人竞争经济模式。智能体对智能体交易层面的“Stripe 时刻”——标准化支付轨道——还不存在。x402 协议可以处理交易,但生态缺少传统支付栈中的账单、开票和信用等基础能力。
自动化运行框架优化工具¶
@IntuitMachine 讨论的《Meta-Harness》论文展示了自动运行框架搜索的潜力,但还没有生产工具。开发者仍靠试错手动调整运行框架,尽管研究表明,自动搜索能以 4x 更少 token 超过人类专家 7.7 分。
经过质量筛选的技能发现¶
随着技能生态爆发,@doodlestein 和 @_avichawla 都手动整理了技能。除了 K-Dense AI 与 Cisco scanner 的初步努力之外,生态中还没有自动质量排名、安全扫描或兼容性验证。
4. 使用中的工具与方法¶
| 工具 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| Claude Code / Claude Agent SDK | 编程智能体 | 混合 | 子智能体生成、技能、hooks | SDK 设计迫使运行框架放在沙箱内;长会话中会出现上下文腐化 |
| Codex (OpenAI) | 编程智能体 | 正面 | 配好运行框架时能一次性解决问题;审查模式 | 对迭代式工作流不够灵活 |
| Hermes Agent (Nous Research) | 开源智能体 | 正面 | 80+ 工具、持久记忆、自主创建技能、100+ 社区技能 | 学习曲线;技能质量不一 |
| Sandcastle | 智能体编排器 | 正面 | 支持任意编程智能体;可插拔沙箱的详细 RFC | 目前仅支持 Docker;正在迁移 |
| Modal Sandboxes | 沙箱基础设施 | 正面 | 每个客户每秒数百个;GPU 支持;文件系统快照 | 多区域调度复杂 |
| Pydantic Logfire / Monty | 可观测性 + 沙箱 | 正面 | 用单个执行工具替代 40 个 MCP 工具,token 消耗降低 90%+ | 需要 Rust 沙箱(Monty) |
| LangChain / Deep Agents | 智能体框架 | 正面 | 开放标准部署(AGENTS.md + /skills + mcp.json) | 多智能体编排增加出错面 |
| MCP (Model Context Protocol) | 工具协议 | 正面 | 200+ 工具,一个协议;广泛采用 | 工具激增会把 token 浪费在模式描述上 |
| Warp Terminal | 开发工具 | 正面 | 支持多个编程智能体(Auggie、Pi、Claude);语音输入、媒体上传 | -- |
| RepoPrompt | 编排 | 正面 | 任意模型可用作子智能体;多根目录工作流;MCP/CLI 集成 | -- |
| n-skills / openskills | 技能市场 | 正面 | 跨平台技能可移植;通用安装器 | 早期阶段;技能质量不一 |
| Cisco AI Defense Skill Scanner | 安全 | 正面 | 对智能体技能做系统安全扫描 | 目前只应用于 scientific-agent-skills |
5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 阶段 | 链接 |
|---|---|---|---|---|---|---|
| Sandcastle Pluggable Sandboxes | @mattpocockuk | 任意编程智能体、任意沙箱的编排器 | 智能体基础设施中的 Docker 锁定 | TypeScript, Docker/Podman/Daytona/E2B | RFC/设计 | GitHub |
| SkillClaw | Alibaba DreamX Team | 基于多用户智能体交互的集体技能演化 | 技能部署后保持静态 | Python, OpenClaw 框架 | 研究/已发布 | GitHub |
| n-skills | @numman_ali | 跨智能体兼容的通用技能市场 | 智能体间技能格式碎片化 | SKILL.md, AGENTS.md, openskills CLI | 已发布 | GitHub |
| SearchClaw | @ruc_ytz | 带运行框架工程原则的智能体式网页研究工具 | 研究智能体缺少质量闸门和持久记忆 | Python, FastAPI, litellm | 已发布 | GitHub |
| TradingAgents | TauricResearch | 带专门分析师/交易员/风险角色的多智能体金融交易 | 复杂交易需要多样分析视角 | Python, LangGraph, GPT-5.4/Gemini 3.1/Claude 4.6 | v0.2.3 | GitHub |
| Scientific Agent Skills | @k_dense_ai | 面向 100+ 个数据库的 133 个科研技能 | 科学家缺少智能体兼容的领域工具 | Agent Skills 标准, MIT 许可证 | 生产(17.8K stars) | GitHub |
| hermes-openshell | @RajaPatnaik | 带内核级安全的 NVIDIA OpenShell 沙箱中的 Hermes Agent | 给智能体真实工具意味着真实风险 | seccomp, Landlock, network namespaces | 已发布 | Post |
| security-audit-for-saas | @doodlestein | 用于全面 SaaS 安全审计的 90 文件技能 | 安全审计需要大量领域知识 | Markdown 技能, 子智能体编排 | 已发布 | agentskills.dev |
| A3-Qwen3.5-9B | @xhluca | 通过智能体能力蒸馏得到的小型网页智能体 | 开放权重模型无法在网页任务上匹配商业 API | Qwen3.5-9B, 合成轨迹训练 | 研究 | Post |
| Escroue | @Escapation | 带链上托管的无需信任智能体对智能体市场 | 智能体需要在无人类中介的情况下雇佣和支付其他智能体 | OpenServ SDK, 链上结算 | 黑客松获奖 | escroue.com |
| unbrowse | @unbrowse | 一个智能体的发现能惠及所有人的共享智能体浏览网络 | 智能体重复浏览和解析相同 API/网站 | npm 包, 共享网络 | 增长中(617 stars, 3.1K 周安装) | Post |
TradingAgents 将交易拆成专门角色(基本面分析师、情绪专家、技术分析师、研究员、风险经理、交易员),这些角色会在执行前动态讨论。它基于一篇 arXiv 论文,支持 GPT-5.4、Gemini 3.1 和 Claude 4.6 等多提供商 LLM。

SearchClaw 将运行框架工程原则应用于网页研究:质量闸门 hooks 会拒绝缺少引用的答案,研究计划工具会把复杂查询分解成子任务,两阶段上下文压缩管理长会话,持久记忆在会话之间携带事实。设计明确借鉴了 Claude Code 的脚手架方法。
Escroue 在 Synthesis hackathon 的 687 个提交中赢得 12 个奖项之一。它让智能体可以发布任务、竞标工作,并在链上结算付款,由此建立起无需信任的智能体对智能体劳动力市场。开发者证言称,用 OpenServ SDK “15 分钟就能从 0 做出一个能跑的智能体”。
6. 新动态与亮点¶
Pika 推出智能体技能变现¶
@pika_labs 推出 AI Self agents 的按互动付费变现。每条聊天消息或技能调用都会让创作者获得可兑换现金的 token。这是第一个在技能创作者和消费者之间建立直接经济反馈循环的主流平台,可能启动一个由使用量奖励质量、而不是由守门人策展的技能经济。
《Meta-Harness》:自动运行框架优化胜过人类¶
《Meta-Harness》论文(arXiv:2603.28052v1)证明,一个拥有既有代码、执行轨迹(最高 10M tokens)和失败日志的 AI 智能体,能自动优化运行框架代码,并且优于人类专家。它发现的运行框架可以泛化到分布外任务和完全不同的模型——包括在 TerminalBench-2 上以 37.6% 成功率让 Claude Haiku 智能体排名第一。
Linux Foundation 形式化智能体生态¶
@linuxfoundation 为 AGNTCon + MCPCon North America(10 月 22-23 日,San Jose)开放 CFP,称其为“开放智能体 AI 生态的旗舰大会”。另外,基金会发布了一份报告,识别出四个优先主题:信任与身份、安全与隐私、受监管行业采用,以及开源的作用。
智能体对智能体经济达到规模¶
@MilkRoad 分享的 Etherealize.io 数据显示,x402 在九个月内处理了 140M 笔智能体对智能体交易,总额 $43M。平均 $0.31 的交易额低于 Visa 固定费用下限,使加密原生支付轨道在智能体微支付中具有结构性优势。
Pydantic 通过工具整合降低 90% Token¶
@pydantic 演示,在沙箱化 Python 环境中用单个执行工具替代 40 个 MCP 工具,可使 token 用量降低超过 90%。核心洞察——“别再让模型从菜单里选了,让它写程序”——挑战了向智能体暴露大量窄工具的主流方式。
7. 机会在哪里¶
[+++] 强信号:智能体技能安全与审计。 K-Dense AI 是唯一系统扫描技能漏洞的团队。随着技能在生态中激增,以及 Anthropic 的 Mythos 证明即便小安全问题也可能被串联成破坏性利用,对技能安全工具链——扫描器、证明、供应链验证——的需求会快速增长。(K-Dense 安全扫描, 工具调用投毒论文)
[+++] 强信号:智能体支付和经济基础设施。 仅 x402 上的智能体对智能体交易就已经达到 140M,但还没有“智能体版 Stripe”。账单、开票、信用、托管和声誉系统都需要为平均交易额 $0.31 的世界重新构建。(Etherealize 报告, superpowerdotio)
[++] 中等信号:自动化运行框架优化。 《Meta-Harness》论文证明,自动运行框架搜索能以更少 token 超过人类。还没有生产工具将这项能力打包。一个能根据执行轨迹自动调优运行框架代码的开发者工具,可以为团队节省数周手动迭代。(《Meta-Harness》论文)
[++] 中等信号:跨平台技能发现和质量排名。 n-skills 和 Agent Skills 标准提供了可移植性,但发现仍然手动。一个带兼容性验证、使用指标和安全证明的可排名、可搜索技能注册表,将服务已经使用 AGENTS.md 的 20,000+ 个仓库。(n-skills, avichawla 目录)
[++] 中等信号:企业智能体治理。 IT 从业者因合规和安全要求抵触智能体采用。能把智能体工作流接入现有企业系统(ServiceNow、ITSM、SOC2 控制)的工具,将打开巨大市场。AWS Agent Registry 是早期进入者。(企业质疑, AWS Agent Registry)
[+] 新兴信号:技能自我演化系统。 SkillClaw 和《Meta-Harness》论文都证明,技能可以从使用数据中自动改进。下一代技能系统很可能不再依赖手动更新,而是从跨用户交互模式中学习。(SkillClaw, Hesamation 谈技能演化)
[+] 新兴信号:共享智能体知识网络。 unbrowse 展示了网络效应:一个智能体的网页浏览会让其他所有智能体受益,5 周节省 26M tokens。这种由智能体贡献共享知识池的模式,可以从浏览扩展到代码理解、API 发现和领域专长。(unbrowse 指标)
8. 要点总结¶
-
运行框架工程现在是智能体性能的主要杠杆。 当天最高互动推文展示了一个具体调试案例:运行框架方法——给智能体隔离实验、反馈循环和文件系统访问——将部署时间降低 85%。研究确认,自动运行框架搜索比人类专家高 7.7 分。(elvissun)
-
智能体技能生态到达标准化拐点。 AGENTS.md 已在 20,000+ 个仓库中使用,Expo 默认自动生成,LangChain 用它做部署,n-skills 提供跨平台可移植性。技能不再是 Claude 专属功能,而是在成为开放标准。(Baconbrix)
-
智能体变现从概念进入生产。 Pika 推出技能按互动付费,x402 协议处理了 140M 笔智能体对智能体交易,Escroue 凭无需信任的智能体对智能体托管赢得黑客松。智能体经济层正在实时构建。(pika_labs)
-
沙箱基础设施是隐藏瓶颈,而且正在被解决。 Modal 运行 100K+ 个并发沙箱,Sandcastle 正变得可插拔,Netlify 发布源自智能体沙箱需求的 MicroVMs,Pydantic 证明把 40 个工具合并成一个沙箱化执行工具可减少 90% token。(sarahcat21)
-
智能体安全是该领域最缺服务的部分。 Willison 的“致命三要素”、CrowdStrike 在 RSAC 展示的智能体重写安全策略、Claude Managed Agents 中按工作区划定作用域的凭证泄漏,以及工具调用供应链攻击,都指向生态尚未准备好的安全清算。(lennysan)
-
自我改进的技能系统正从研究走向现实。 SkillClaw 展示了技能在 6 天内通过集体演化从 11% 提升到 88%。结合《Meta-Harness》论文中自动运行框架搜索超越人类的结果,趋势指向能优化自身工具链的智能体。(HuggingPapers)
-
开发者工作流正加速从写代码转向智能体编排。 多位从业者表示自己已经好几周没有“亲手写过任何代码”了。新技能组合——上下文工程、子智能体生成、运行框架设计、技能编写——正在一些工作流中取代传统编码。(tmpka)