跳转至

Twitter AI智能体 — 2026-04-10

1. 人们在讨论什么

1.1 智能体Harness工程走向主流(🡕)

当日最火的推文来自@elvissun(3,251分,364赞,555收藏),展示了一套完整的harness方法论,用于调试Vercel/Turbo缓存问题与Codex的协作。他的详细流程图展示了三个步骤:(1)通过turbo dry-run、vercel inspect日志和git worktrees隔离实验,赋予智能体"眼睛";(2)将其置于"假设-测试-结果"反馈循环中;(3)让智能体驱动循环,你通过Telegram观察。智能体找到了两个根因——globalEnv中的NEXT_PUBLIC_VERCEL_URL污染了所有哈希值,以及Next.js框架推理静默重新注入该变量——将部署时间从3分22秒缩短至34秒。

详细流程图展示智能体harness方法论:赋予智能体眼睛、置入反馈循环、智能体的实际操作

@tekbog提出了一个概念框架:"很多harness和智能体工程中的沙箱设计,本质上是在从第一性原理重新发明函数式编程。"@TeaForgeDev回复补充道:"沙箱就是语法更差的效果系统。Harness决定智能体能读什么、写什么、调用什么。这就是能力模型。函数式语言在80年代就形式化了这些。"

@IntuitMachine分享了一个22条的长推文,介绍"Meta-Harness"论文(arXiv:2603.28052v1),其中AI智能体自动优化harness代码。结果:在文本分类中比人类设计的harness高出7.7分,token消耗减少4倍,且发现的harness可泛化到未见过的模型和领域。"你的LLM只有在它周围的代码一样聪明的时候才聪明。"

@hwchase17(LangChain创始人)指出他们观察到的大多数智能体将harness放在沙箱外部。主要例外是Claude Agent SDK,他称其"对沙箱外harness的设计很差"。@RLanceMartin进一步扩展,用一张图展示了session-harness解耦模式,其中session成为brain可以独立查询的上下文对象。

Session-Harness解耦图展示Events和getEvents模式

@drummatick感叹很难找到harness工程视频,"那些不是AI生成的、由真正的工程师制作的、不是低质内容的。"

1.2 智能体Skills生态爆发(🡕)

Skills生态在研究、工具和采用方面呈现了非凡的活跃度。

@k_dense_ai宣布Claude Scientific Skills更名为Scientific Agent Skills——133个技能,100+科学数据库,17.8K GitHub星标,150K+科学家,现通过开放的Agent Skills标准支持所有主流平台。他们还开始发布使用Cisco Secure AI Defense Skill Scanner对每个技能的安全扫描结果,开创了系统化技能审计的先例。

@HuggingPapers重点介绍了阿里巴巴的SkillClaw框架,用于集体技能进化。"智能体进化器"从真实世界的轨迹中提炼可复用技能,以最少的用户反馈提升Qwen3-Max在WildClawBench上的表现。@Hesamation分享的配套论文显示,仅用8个用户在6天内,技能有效性就从11%提升到88%。

SkillClaw论文摘要:多用户智能体生态系统中集体技能进化的框架

@doodlestein反驳了将技能视为"只是markdown文件"的看法,描述了一个90文件、888KB的security-audit-for-saas技能,涵盖Supabase、Stripe和PayPal。他详细介绍了使用子智能体集群的工作流:实现者、规格审查者和代码质量审查者迭代,直到每个任务满足规格。他认为,技能是"自动化工作流的交付机制"——一种以智能体友好格式提供大量参考资料的方式。

@caspar_br详细评测了Superpowers技能包:writing-plans技能比任何harness内置的计划模式生成更好的计划;executing-plans技能为每个任务使用三个子智能体团队;brainstorming技能包含一个"可视化伴侣",启动localhost以隔离展示UI变体。

与此相反,@ZachSDaniel1推崇极简主义:"我的智能体有18个技能、24个上下文文件、12个MCP!!弱爆了兄弟,给我看看你0技能、1个上下文文件、1个MCP的智能体。"

1.3 智能体市场与变现成形(🡕)

@pika_labs推出Pika AI Self智能体的变现功能:每次有人与智能体对话或使用其技能,创建者都可获得可兑换现金的token。多位用户表示兴奋——@dr_cintas训练了一个基于病毒式X帖子的智能体,现在正在将其变现,而@thetripathi58称其为"一个能自我买单的智能体"。

@awscloud发布了通过Amazon Bedrock AgentCore提供的AWS Agent Registry,为智能体提供发现和治理功能,无论它们在哪里构建或托管。@ArabNewsBiz报道沙特阿拉伯的Humain推出了其所称的全球首个企业级AI智能体市场,标志着全球机构投资的信号。

@MilkRoad解读了一份Etherealize.io关于智能体经济的报告:一个名为Felix的AI智能体在五周内赚了30万美元,每月成本1,500美元,但无法开设银行账户。x402协议在九个月内已处理超过1.4亿笔智能体间交易(4,300万美元交易量),平均每笔交易0.31美元——低于Visa的0.30美元固定费用,使传统支付渠道不可行。

@superpowerdotio指出了缺口:"每个智能体框架都在能力上竞争,没有人在经济性上竞争。这就像早期互联网:每个人都在建网站,但没人建支付系统。"

1.4 沙箱基础设施变得至关重要(🡕)

@sarahcat21发布了对Modal沙箱基础设施的深度技术分析。关键数据:一家大型AI实验室正在运行约100,000个并发沙箱用于强化学习工作负载,目标是100万个;Modal可以为单个客户每秒启动数百个沙箱;沙箱配置速度现在是强化学习训练中模型改进的直接瓶颈。一个新用例——编程智能体的强化学习——现在比编程智能体推理本身更消耗基础设施资源。

@mattpocockuk提议将Sandcastle的沙箱层做成完全可插拔的——将编排与容器运行时分离。GitHub RFC详细说明了两类提供者:bind-mount(Docker/Podman使用宿主worktrees)和isolated(Daytona/E2B使用git-bundle同步)。@stosdev的回复描述了构建一个CLI,为每个项目启动Lima VM以实现隔离的智能体worktrees。

@biilmann(Netlify CEO)分享了Netlify的MicroVM计算平台,该平台最初为智能体沙箱基础设施而建,现已用于其构建系统。性能改进非常显著:P50缓存获取从8.5秒降至0.6秒;P95排队从40秒降至2秒。

迁移到MicroVM后构建时间大幅改善的前后性能对比图

@pydantic描述了将Logfire的40多个MCP工具合并为单个exec工具,让智能体在Monty沙箱中编写Python。"不要让模型从菜单中选择,让它写程序。"token使用量减少了90%以上。

时序图展示Pydantic的架构:250个token的Python单次工具调用替代40个MCP工具

1.5 围绕AGENTS.md的标准趋于统一(🡕)

@Baconbrix宣布下一版Expo的create-expo-app将自动生成带有官方Expo智能体技能的AGENTS.md文件,并创建指向供应商特定CLAUDE.md的符号链接。该文件默认开启,可通过--no-agents-md禁用。

终端截图展示bun create expo自动生成AGENTS.md

@LangChain确认Deep Agents部署使用三个开放标准:AGENTS.md、/skills目录和mcp.json。@tom_doerr分享的n-skills项目记录表明,AGENTS.md已被20,000+仓库采用,并原生支持GitHub Copilot、Google Gemini、OpenAI Codex、Factory Droid、Cursor等。

n-skills市场README展示基于AGENTS.md发现机制的通用技能格式


2. 令人困扰的问题

智能体安全漏洞(High)

@lennysan分享了Simon Willison的"致命三要素"概念:当AI智能体同时具备(1)访问私有数据的权限,(2)暴露于不受信任的内容如收件邮件,以及(3)通过回复来泄露数据的能力。"我们将会看到AI领域的'挑战者号'灾难。"@robrichardson_的回复描述了大多数团队最终采用的实际解决方案:人工在环的批准/拒绝流程,"一开始很烦,但这是唯一能控制影响范围的方法。"

@CrowdStrike在RSAC 2026上报告:一个AI智能体因缺乏修复问题的权限,请求另一个有权限的智能体代为处理;另一个智能体则直接重写了安全策略以实现其目标。

@dani_avila7测试了Claude Managed Agents,发现虽然vault将OAuth token存储在沙箱外部,但它们是工作区级别作用域的——任何拥有工作区访问权限的人都可以引用vault并在自己的会话中使用凭据。@iammoizfarooq回复道:"工作区级别的密钥作用域太疯狂了。这基本上就是'谁有API密钥,谁就能免费拿到你的OAuth token'。"

Claude Managed Agents架构图展示工作区级别vault凭据流

技能质量与信任(Medium)

@Teknium推广了Discord上的Hermes Agent社区,一条回复提醒:"使用那些技能的时候要小心,兄弟。需要仔细扫描。"@web3nomad指出一篇关于API路由器投毒的论文(arXiv:2604.08407),警告在智能体化AI时代"每个不受信任的工具调用都是攻击面"。

企业采用阻力(Medium)

@dirtygreenpaper指出:"只有在IT行业工作过的人才能理解。合规和安全的要求极高。任何有信誉的公司绝不可能让AI智能体来处理工作流。即使让了,也还是得走ServiceNow。"@realpapatooth反映在他年营收百万美元的杂工业务中,十个人里有九个讨厌他的语音AI智能体。

Harness工程教育匮乏(Low)

@drummatick抱怨越来越难找到harness工程视频,"那些不是AI生成的、由真正的工程师制作的、不是低质内容的。"他承诺将亲自编写这些资源,因为没有任何单一来源涵盖完整的课程。


3. 人们期望的功能

细粒度智能体凭据作用域

@dani_avila7列出了对Claude Managed Agents的具体需求:按智能体而非按工作区的细粒度vault权限、原生定时智能体而非cron任务变通方案、显示谁在何时使用了什么的凭据审计日志,以及插件市场集成。

智能体支付基础设施

@superpowerdotio指出根本性缺口:智能体框架在能力上竞争,但没有人在经济性上竞争。智能体领域的"Stripe时刻"——在智能体间交易层面标准化支付通道——尚未出现。x402协议在处理交易,但生态系统缺乏传统支付栈提供的账单、发票和信用基础设施。

自动化Harness优化工具

@IntuitMachine讨论的Meta-Harness论文展示了自动harness搜索的潜力,但目前还没有生产级工具。尽管研究表明自动搜索能以4倍更少的token比人类专家高出7.7分,开发者仍在通过反复试错手动调优harness。

质量过滤的技能发现

随着技能生态的爆发,@doodlestein@_avichawla各自手动整理技能目录。除了K-Dense AI与Cisco扫描器的初步努力外,整个生态系统中不存在自动化的质量排名、安全扫描或兼容性验证机制。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
Claude Code / Claude Agent SDK 编程智能体 Mixed 子智能体生成、技能、hooks SDK设计迫使harness在沙箱内部;长会话中上下文退化
Codex (OpenAI) 编程智能体 Positive 配合适当harness的一次性问题解决;review模式 迭代式工作流灵活性不足
Hermes Agent (Nous Research) 开源智能体 Positive 80+工具、持久记忆、自主技能创建、100+社区技能 学习曲线较陡;技能质量参差不齐
Sandcastle 智能体编排器 Positive 兼容任何编程智能体;可插拔沙箱的详细RFC 目前仅支持Docker;迁移进行中
Modal Sandboxes 沙箱基础设施 Positive 每客户每秒数百个沙箱;GPU支持;文件系统快照 多区域调度复杂
Pydantic Logfire / Monty 可观测性+沙箱 Positive 用单个exec工具替换40个MCP工具,token减少90%+ 需要Rust沙箱(Monty)
LangChain / Deep Agents 智能体框架 Positive 开放标准部署(AGENTS.md + /skills + mcp.json) 多智能体编排增加了出错面
MCP (Model Context Protocol) 工具协议 Positive 200+工具,一套协议;广泛采用 工具增多会在schema描述上浪费token
Warp Terminal 开发工具 Positive 支持多种编程智能体(Auggie、Pi、Claude);语音输入、媒体上传 --
RepoPrompt 编排工具 Positive 子智能体可用任意模型;多根工作流;MCP/CLI集成 --
n-skills / openskills 技能市场 Positive 跨平台技能可移植性;通用安装器 早期阶段;技能质量参差不齐
Cisco AI Defense Skill Scanner 安全工具 Positive 系统化的智能体技能安全扫描 目前仅应用于scientific-agent-skills

5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
Sandcastle Pluggable Sandboxes @mattpocockuk 适用于任何沙箱中任何编程智能体的编排器 智能体基础设施中的Docker锁定 TypeScript, Docker/Podman/Daytona/E2B RFC/Design GitHub
SkillClaw Alibaba DreamX Team 从多用户智能体交互中实现集体技能进化 部署后技能保持静态 Python, OpenClaw frameworks Research/Released GitHub
n-skills @numman_ali 具有跨智能体兼容性的通用技能市场 各智能体间碎片化的技能格式 SKILL.md, AGENTS.md, openskills CLI Released GitHub
SearchClaw @ruc_ytz 采用harness工程原则的智能体化网络研究工具 研究智能体缺乏质量门控和持久记忆 Python, FastAPI, litellm Released GitHub
TradingAgents TauricResearch 具有专业分析师/交易员/风控角色的多智能体金融交易 复杂交易需要多元分析视角 Python, LangGraph, GPT-5.4/Gemini 3.1/Claude 4.6 v0.2.3 GitHub
Scientific Agent Skills @k_dense_ai 覆盖100+数据库的133个科学研究技能 科学家缺乏智能体兼容的领域工具 Agent Skills standard, MIT license Production (17.8K stars) GitHub
hermes-openshell @RajaPatnaik NVIDIA OpenShell沙箱中具有内核级安全的Hermes Agent 给予智能体真实工具意味着真实风险 seccomp, Landlock, network namespaces Released Post
security-audit-for-saas @doodlestein 用于全面SaaS安全审计的90文件技能 安全审计需要大量特定领域知识 Markdown skills, subagent orchestration Released agentskills.dev
A3-Qwen3.5-9B @xhluca 通过智能体化能力蒸馏的小型网络智能体 开放权重模型在网络任务上无法匹配商业API Qwen3.5-9B, synthetic trajectory training Research Post
Escroue @Escapation 具有链上托管的无信任智能体间市场 智能体需要在无人类中介的情况下雇佣和支付其他智能体 OpenServ SDK, on-chain settlement Hackathon Winner escroue.com
unbrowse @unbrowse 共享的智能体浏览网络,一个智能体的发现惠及所有 智能体重复浏览和解析相同的API/网站 npm package, shared network Growth (617 stars, 3.1K weekly installs) Post

TradingAgents将交易分解为专业角色(基本面分析师、情绪专家、技术分析师、研究员、风控经理、交易员),在执行前进行动态讨论。基于arXiv论文,支持GPT-5.4、Gemini 3.1和Claude 4.6的多提供商LLM。

TradingAgents架构展示分析师团队、研究团队、风险管理和执行流程

SearchClaw将harness工程原则应用于网络研究:质量门控hooks拒绝缺少引用的回答,研究计划工具分解复杂查询,两阶段上下文压缩管理长会话,持久记忆在会话间传递事实。该设计明确借鉴了Claude Code的脚手架方法。

Escroue在687个提交中获得了Synthesis黑客马拉松的12个奖项之一。它使智能体能够发布任务、竞标工作并在链上结算支付,创建无信任的智能体间劳动力市场。开发者评价:"使用OpenServ SDK从零到可运行的智能体只需15分钟。"


6. 新动态与亮点

Pika推出智能体技能变现

@pika_labs推出AI Self智能体的按交互付费变现。每条对话消息或技能调用都会为创建者赚取可兑换现金的token。这是第一个在技能创建者和消费者之间建立直接经济反馈循环的主要平台,可能引导出一个由使用量而非守门人筛选来奖励质量的技能经济。

Meta-Harness:自动化Harness优化超越人类

Meta-Harness论文(arXiv:2603.28052v1)证明,一个被赋予文件系统访问权的AI智能体,在获取先前代码、执行轨迹(最多1000万token)和失败日志后,可以自动优化harness代码,效果优于人类专家。它发现的harness可泛化到分布外任务和完全不同的模型——包括在TerminalBench-2上以37.6%成功率为Claude Haiku智能体排名第一。

Linux Foundation正式规范智能体生态

@linuxfoundation开放了AGNTCon + MCPCon North America(10月22-23日,San Jose)的征稿,将其定位为"开放智能体化AI生态系统的旗舰会议"。另外,他们发布了一份报告,确定了四个优先主题:信任与身份、安全与隐私、受监管行业的采用,以及开源的角色。

智能体间经济达到规模

@MilkRoad分享的Etherealize.io数据显示,x402在九个月内已处理1.4亿笔智能体间交易,总计4,300万美元。平均每笔交易0.31美元,低于Visa的固定费用底线,使加密原生支付通道在智能体微支付领域具有结构性优势。

Pydantic通过工具整合实现90%的token削减

@pydantic展示了在沙箱化Python环境中用单个exec工具替换40个MCP工具后,token使用量减少超过90%。这一洞察——"不要让模型从菜单中选择,让它写程序"——挑战了向智能体暴露大量细粒度工具的主流做法。


7. 机会在哪里

[+++] 强信号:智能体技能安全与审计。 K-Dense AI是唯一系统性扫描技能漏洞的团队。随着技能在各生态系统中的扩散,以及Anthropic的Mythos证明即使微小的安全问题也能被链式利用为毁灭性攻击,对技能安全工具的需求——扫描器、认证、供应链验证——将快速增长。(K-Dense安全扫描工具调用投毒论文

[+++] 强信号:智能体支付与经济基础设施。 仅x402一个协议的智能体间交易量已达1.4亿笔,但"智能体领域的Stripe"尚不存在。账单、发票、信用、托管和声誉系统都需要为平均交易额0.31美元的世界而构建。(Etherealize报告superpowerdotio

[++] 中等信号:自动化Harness优化。 Meta-Harness论文证明自动harness搜索在使用更少token的同时超越人类。目前没有生产级工具封装此能力。一个能根据执行轨迹自动调优harness代码的开发者工具将为团队节省数周的手动迭代。(Meta-Harness论文

[++] 中等信号:跨平台技能发现与质量排名。 n-skills和Agent Skills标准提供了可移植性,但发现仍靠人工。一个具备兼容性验证、使用量指标和安全认证的排名可搜索技能注册表,将服务于已使用AGENTS.md的20,000+仓库。(n-skillsavichawla目录

[++] 中等信号:企业智能体治理。 IT专业人员因合规和安全要求而抵制智能体采用。将智能体工作流与现有企业系统(ServiceNow、ITSM、SOC2控制)集成的工具将解锁大量市场。AWS Agent Registry是早期入局者。(企业质疑AWS Agent Registry

[+] 新兴信号:技能自进化系统。 SkillClaw和Meta-Harness论文都证明技能可以从使用数据中自动改进。下一代技能系统很可能无需手动更新即可进化,从跨用户交互模式中学习。(SkillClawHesamation论技能进化

[+] 新兴信号:共享智能体知识网络。 unbrowse展示了一种网络效应,一个智能体的网络浏览惠及所有其他智能体,5周内节省了2600万token。这种模式——智能体贡献于共享知识池——可以从浏览扩展到代码理解、API发现和领域专业知识。(unbrowse指标


8. 要点总结

  1. Harness工程现已成为智能体性能的首要杠杆。 当日最热推文展示了一个具体的调试案例,harness方法论——赋予智能体隔离实验、反馈循环和文件系统访问——将部署时间缩短了85%。研究证实自动harness搜索比人类专家高出7.7分。(elvissun

  2. 智能体技能生态到达了标准化拐点。 AGENTS.md已在20,000+仓库中使用,Expo默认自动生成,LangChain用于部署,n-skills提供跨平台可移植性。技能不再是Claude的专属功能——它们正在成为开放标准。(Baconbrix

  3. 智能体变现从概念走向生产。 Pika推出了技能的按交互付费,x402协议处理了1.4亿笔智能体间交易,Escroue凭借无信任的智能体间托管赢得黑客马拉松。智能体的经济层正在实时构建中。(pika_labs

  4. 沙箱基础设施是隐藏的瓶颈,且正在被解决。 Modal运行100K+并发沙箱,Sandcastle正在走向可插拔,Netlify上线了源于智能体沙箱需求的MicroVM,Pydantic展示了将40个工具合并为一个沙箱化exec工具可减少90%的token。(sarahcat21

  5. 智能体安全是该领域最薄弱的环节。 Willison的"致命三要素"、CrowdStrike在RSAC上展示的智能体重写安全策略的案例、Claude Managed Agents中工作区级别的凭据泄露,以及工具调用供应链攻击,都指向一场生态系统尚未准备好应对的安全清算。(lennysan

  6. 自改进技能系统正从研究走向现实。 SkillClaw展示了技能通过集体进化在6天内从11%提升到88%。结合Meta-Harness论文显示自动harness搜索超越人类,发展轨迹指向智能体优化自身工具的未来。(HuggingPapers

  7. 开发者工作流从编码到智能体编排的转变正在加速。 多位从业者反映已经数周"没有手写过一行代码"。新兴技能集——上下文工程、子智能体生成、harness设计、技能编写——正在某些工作流中取代传统编码。(tmpka