Twitter AI智能体 — 2026-04-08¶
1. 人们在讨论什么¶
1.1 Meta发布具有原生多智能体编排能力的Muse Spark 🡕¶
Meta Superintelligence Labs发布了Muse Spark,这是一个原生多模态推理模型,支持工具使用、视觉思维链和多智能体编排。该公告获得了超过152K次浏览,主导了当天的讨论。@alexandr_wang(Scale AI CEO)提供了技术分析,指出Muse Spark展现了"在预训练、强化学习和测试时推理中的可预测扩展",并引入了"思维压缩"——即使用显著更少的token解决问题的能力。

@jhyuxm分享的基准测试表显示,Muse Spark在CharXiv Reasoning(86.4 vs 65.3)、ScreenSpot Pro(84.1 vs 83.1)和HealthBench Hard(42.8 vs 14.8)上领先Opus 4.6,但在ARC AGI 2(42.5 vs 63.3)和GPQA Diamond(89.5 vs 92.7)上落后。该模型的"Contemplating模式"编排多个智能体并行推理,@omarsar0指出智能体"在并行化的同时不会显著增加延迟",并分享了一张图表,显示16个并行智能体在Humanity's Last Exam上达到约59%,而单个智能体约为55%。

质疑声很快出现。一条回复指出Meta"花了140亿美元,挖走了Alexandr Wang,从零重建了整个技术栈。第一个模型却排在第四名。"@omarsar0指出"存在一些差距,特别是在支持长期智能体系统和编码工作流方面。"Meta股价在消息发布后急剧反弹,由@TrendSpider观察到。
1.2 Anthropic推出Claude Managed Agents,威胁编排类创业公司 🡕¶
Anthropic推出了公开测试版的Claude Managed Agents,反响立竿见影。@trq212称其为"第一个在简洁性和复杂性之间达到恰当平衡的'云端智能体'API",详细介绍了支持自定义包、凭据保险库、文件系统记忆和GitHub集成的环境。该推文获得921个点赞和402个收藏。
@aakashgupta宣称Anthropic"刚刚大规模淘汰了所有智能体编排类创业公司",展示了一个生产环境舰队仪表板,显示8个智能体在运行,已完成247个任务,并集成了MCP连接的HubSpot。"Manus花了六个月做了五次harness重写。LangChain花了一年做了四种架构。Anthropic直接发布了托管版本,彻底消除了自建的需求。"@shiri_shh说得更直白:"整个AI智能体创业板块今天被团灭了。"
架构层面的讨论愈发激烈。@charlespacker分享了Anthropic工程博客摘录,描述了"宠物vs牲畜"的容器问题——当智能体组件共享一个容器时,"harness中的bug、事件流中的丢包或容器下线都表现为相同的"故障模式。@alexgshaw提问:"谁在构建'智能体沙箱协议'?"

Notion宣布集成Claude智能体,将Notion定位为编排层,而Anthropic运行模型和harness。社区成员立即询问是否会支持其他模型。
1.3 Skills生态系统爆发(裂痕初现)🡕¶
智能体skills成为扩展智能体能力的主导范式。@gregisenberg发布了一篇详细拆解(398个收藏),认为agent.md文件"基本没有必要"——一个1000行的文件每次运行消耗7000个token,而一个skill仅加载其名称和描述(约50个token)直到被激活。他的框架是:先手动运行工作流,让智能体编写skill,然后一起递归修复失败。

工具层正在快速成熟。@tom_doerr分享了AI Agent Skills(991 stars,64个skills,11K次下载)和Skill Forge,这是一个可以同时审计并发布skills到五个平台的流水线。Skill Forge的README揭示了一个令人警醒的数据:在生态系统中已发布的88K+个skills中,社区审计估计约26%存在安全漏洞。@FOUNDATIONdvcs证实:"AI智能体市场:12%是恶意软件。"

多家供应商宣布支持skills:MongoDB for Cursor、带MCP服务器的Coinbase Developer Platform、用于在Base和Farcaster上构建链上迷你应用的Lazer CLI,以及在一次更新中同时发布skills+云+MCP的Enter Pro。
1.4 Harness工程和上下文工程走向正规化 🡒¶
两个相关学科正在以正式名称结晶。@latentspacepod发表了"Extreme Harness Engineering",介绍了OpenAI的Symphony——一个由Codex智能体组成的"幽灵库",产出100万行代码,每天消耗10亿token,"0%人类代码,合并前0%人类审查。"访谈揭示了harness工程如何从GPT-5内部演进到GPT-5.4。
@IntuitMachine分享了一个L1-L6成熟度模型,映射了从提示工程(L1)到上下文工程(L2)、harness工程(L3-L4)再到自我改进智能体(L6)的演进路径,将"质量/活力工程"识别为L6阶段尚未命名的行业缺口。

@helloiamleonie(Elastic)在AI Engineer Europe大会上举办了一场研讨会,主题为"面向上下文工程的智能体搜索"。@DSPyOSS声称已经预见了每一波浪潮:"2024年:智能体工作流!我们:DSPy。2025年:上下文工程!我们:DSPy。2026年:harness工程!!我们:DSPy。"

1.5 智能体基础设施:S3、沙箱与操作系统之问 🡕¶
@skeptrune认为Amazon S3 Files对智能体具有变革意义:"你不再需要启动一个沙箱虚拟机来让智能体访问POSIX工具。现在你可以将任意大量的计算资源指向S3,在同一文件系统上运行大规模并行智能体集群。"该推文获得632个收藏——当天最高的收藏率。讨论中有人指出仍需沙箱来挂载文件系统,对期望有所降温。
@NathanFlurry描述了构建开源沙箱基础设施的过程:"任意智能体,任意LLM,每个沙箱22 MB内存,BYOC/本地部署,任意文件系统。"

@HSVSphere提出了一个逆向观点:"不存在什么特殊的'未来智能体沙箱',未来是一个建立在动态语言之上的操作系统,对所有事物都具备能力和(内在的)作用域管理。"讨论中有人类比Plan9和Ruby,TypeScript则被认为"太静态"。
2. 令人困扰的问题¶
智能体安全与信任(Severity: High)¶
Skills生态系统的增长速度远超安全基础设施的跟进速度。Skill Forge审计发现88K+已发布的skills中约26%存在安全漏洞。@JamesonCamp警告:"OpenClaw市场中12%是真正的恶意软件。键盘记录器。身份盗窃。你的AI智能体正在安装来自陌生人的包。"@conor_ai指出信息泄露问题:"智能体可以且会将敏感信息分享给与之交互的任何人",这促使Hyperspell采用了受《Severance》启发的"innie/outie"智能体架构。
平台风险与创业公司焦虑(Severity: High)¶
Anthropic的Managed Agents发布引发了编排类创业公司的生存危机。@SolSt1ne捕捉到了这种情绪:"花了6个月构建自定义智能体基础设施、编排、重试逻辑、限流,'终于可以上生产了',Anthropic发布了Claude Managed Agents公开测试版。"@aakashgupta指出,Anthropic在四天前封锁了第三方harness使用订阅凭据的权限,然后推出了替代方案。
上下文窗口管理不当(Severity: Medium)¶
@gregisenberg发现了一个普遍的反模式:在agent.md文件中塞入每次运行都会消耗7000+个token的指令,导致性能下降。"越接近填满上下文窗口,智能体表现越差,就像有人一次性给你布置10件事时你的表现也会变差一样。"
智能体记忆丢失(Severity: Medium)¶
@Mr_memsy指出:"默认配置遗忘很快。"没有时间衰减、嵌入缓存和治理文件,智能体"会对过时的上下文产生幻觉"而不是积累知识。@bellman_ych描述了凌晨3点阅读"60MB泄露的JS代码,到早餐时我却在问'oh-my-claudecode是什么'。"
3. 人们期望的功能¶
智能体沙箱协议¶
@alexgshaw提问:"谁在构建智能体沙箱协议?一种让用户指定第三方智能体在哪里执行工具的方式。"Anthropic的博客描述了通过工具调用将"大脑与双手"解耦,但目前尚无厂商中立的标准。
带验证机制的安全Skills市场¶
多个信号汇聚:26%的skills存在漏洞,部分市场中12%为恶意软件。Skill Forge会扫描泄露的API密钥并拦截关键问题,但生态系统缺乏一个可信的、经过策展的市场,具备基于实际使用量的排名。OKX的Plugin Store承诺"在一个地方搜索、安装和分享Skills,按实际使用量排名"——但验证问题仍未解决。
长期智能体可靠性¶
Gym-Anything基准测试显示最好的模型(GPT-5.4)在500+步任务上仅达到27.5%的通过率。@tetsuoarena正在构建AgenC,目标是"一个能够持续构建整整一年而不停歇的智能体"——这一目标仍然是愿景性的。
智能体原生的身份与访问管理¶
@conor_ai的innie/outie模式是一种变通方案。目前没有标准来界定智能体可以根据交互对象访问哪些数据。@ashpreetbedi通过Dash的数据库级RBAC为数据智能体解决了这个问题,但这种方法是领域特定的。
4. 使用中的工具与方法¶
| 工具 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| Claude Managed Agents | 智能体平台 | 正面 | 生产环境舰队管理、MCP集成、凭据保险库、沙箱抽象 | 私有测试版API访问受限,供应商锁定风险 |
| Claude Skills / agent.md | 智能体配置 | 褒贬不一 | Skills仅加载50个token,而agent.md需7000个;支持递归改进 | 已发布skills生态系统中26%存在漏洞 |
| OpenClaw | 开源智能体框架 | 正面 | 本地/隐私优先,WhatsApp/Telegram集成,/dreaming记忆 | 市场中12%为恶意软件,社区维护 |
| LangGraph | 编排 | 正面 | 有状态的生产工作流,检查点 | 简单场景下复杂度过高 |
| CrewAI | 多智能体团队 | 正面 | 快速基于角色的团队搭建,适用于营销、研究、运营 | 不太适合生产规模 |
| DSPy | 智能体编程 | 忠实追随者 | 跨范式转变的一致性框架 | 声称预见每一波浪潮引发质疑 |
| Skill Forge | Skill CI/CD | 正面 | 发布到5个平台,安全扫描,结构验证 | 仅解决生态系统质量问题的表象 |
| Gym-Anything | 智能体评估 | 有前景 | 200+真实软件,10K+任务,成本降低80-90% | 最好的智能体在长期任务中仍有72.5%的失败率 |
| Dirpack | 上下文工程 | 正面 | 确定性上下文打包,Claude Code插件,缓存 | 早期阶段 |
| Rime Mist v3 | 语音智能体TTS | 正面 | 音标括号实现确定性发音,100ms TTFB | 英语之外的语言支持不明确 |
| Prefab (FastMCP 3.2) | 生成式UI | 早期 | 100+个shadcn组件用Python实现,无需JavaScript | 刚刚发布 |
5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 阶段 | 链接 |
|---|---|---|---|---|---|---|
| Dash v2 | @ashpreetbedi | 具有6层上下文的自学习数据团队 | Text-to-SQL智能体缺乏领域知识会失败 | Python, PostgreSQL, JWT RBAC | 开源,预发布 | Tweet |
| Skill Forge | motiful | 审计、验证并发布智能体skills到5个平台 | 26%的skills存在安全漏洞 | Python, CLI | v9.0, MIT | GitHub |
| Gym-Anything / CUA-World | @wellecks, @PranjalAggarw16 (CMU) | 将任意软件转化为智能体训练环境 | 智能体基准测试局限于消费级应用上的短任务 | Python, VM编排 | 论文+代码已发布 | Site |
| AI Agent Skills | @tom_doerr | 精选skill库,带CLI/TUI用于构建和管理 | Skills分散,缺乏标准管理方式 | CLI/TUI, MIT | v4.2.0, 991 stars | Tweet |
| Sandbox Search | @arlanr | 为智能体提供基于代码库的有据可依的搜索 | 智能体缺乏来自代码库的有据上下文 | 搜索基础设施 | 已发布 | Tweet |
| FinalRun Agent | final-run | 通过自然语言YAML规范驱动的AI移动应用测试 | 手动移动测试缓慢且脆弱 | Node.js, Gemini/GPT/Claude, Apache 2.0 | 已在npm发布 | GitHub |
| NTM Orchestration | @doodlestein | 使用80种推理模式分类法的集群智能体 | 代码审查工具仅通过单一分析视角审视 | Claude Code + Codex集群 | 概念/原型 | Tweet |
| Prefab | @jlowin (Prefect) | 用Python构建MCP应用的生成式UI框架 | 构建智能体UI需要JavaScript | Python, React/shadcn, FastMCP 3.2 | 已发布 | Site |
| AgenC | @tetsuoarena | 具有抗注入加固的长期运行自主智能体 | 智能体无法在长周期内持续工作 | Google Concordia, TUI | 活跃开发中 | Tweet |
| Dirpack | @raw_works | 带Claude Code插件的确定性上下文打包 | 上下文组装是非确定性的 | CLI,插件系统 | 已发布 | Tweet |
| SkillX | @zxlzr | 从智能体轨迹自动构建skill知识库 | 手动编写skill无法规模化 | 研究论文 | 论文阶段 | Tweet |
Dash v2因其安全模型而脱颖而出:Analyst的SQL连接使用default_transaction_read_only=on,Engineer仅可写入dash schema,评估套件会主动尝试泄露凭据、执行破坏性SQL以及跨schema边界访问。学习循环同时存储策展知识(经验证的查询、人工维护的业务规则)和发现知识(错误模式、智能体维护的经验教训)。
Gym-Anything解决了智能体评估中的根本性缺口。当前基准测试仅在消费级应用上测试短任务,但实际工作发生在专业软件中——放射学工具、ERP系统、地震监测。CUA-World通过使用智能体构建智能体环境,在覆盖全部22个美国SOC职业类别的200+应用中,将标准部署成本降低了80-90%。

NTM的推理编排为Claude Code + Codex集群中的每个智能体分配一种独特的推理模式,来自一个涵盖12个类别和7个认识论轴的80种模式分类法——演绎逻辑、对抗性攻击、反事实分析、贝叶斯更新——然后通过带溯源追踪的共识机制三角验证研究结果。

6. 新动态与亮点¶
AI智能体发现真实漏洞¶
@_colemurray披露,他的AI安全智能体"waclaude"发现了CVE-2026-1839——HuggingFace Transformers库中因不安全的torch.load()导致的任意代码执行漏洞。该漏洞是PyTorch检查点加载中的一行代码。这是智能体执行有用安全研究的具体案例,而非仅仅生成报告。以安全为核心的智能体harness如PHALANX和METATRON(完全离线,本地LLM)正在成为一个独立类别。

复古电话遇见语音智能体——伦敦AI Engineer大会¶
@ktoya_me将ElevenLabs语音智能体连接到一部复古转盘式电话,放置在一个红色英国电话亭内,在伦敦AI Engineer大会上展出。该电话通过Claude进行逆向工程,并与ElevenLabs Agent集成。这个装置获得了64个点赞和5K+次浏览——一个参会者可以亲身互动的语音智能体技术的实体展示。

Southwest Airlines大规模部署GitLab Duo Agent Platform¶
@bjmtweets报道Southwest Airlines正在其3,000+名工程师中全面采用GitLab Duo Agent Platform,目标是提升30%的生产力。这是已披露的最大规模企业AI智能体部署之一,附有具体的规模和ROI数据。
SkillX:从智能体轨迹自动构建Skills¶
@zxlzr分享了SkillX,这是一个能自动将智能体轨迹转化为可复用、可索引skills的研究系统。与需要长上下文渐进式揭示的Claude Skills不同,SkillX将多级skills作为条目存储,仅需一次性加载和轻量级系统要求。

自我修复智能体¶
@witcheer记录了一个智能体"通过自我反思循环诊断并修补了GPT/Codex工具调用中自身的5个故障模式"。这种递归式自我修复模式也被@gregisenberg描述过:"问智能体它到底为什么失败了。它会告诉你具体哪里出了问题。在同一对话中一起修复。然后让它更新skill文件,使该故障模式不再发生。"
7. 机会在哪里¶
[+++] 强信号:智能体Skills质量与安全基础设施。 88K+已发布的skills,26%存在漏洞,部分市场中12%为恶意软件。Skill Forge解决的是单个仓库的问题,但在生态系统层面,尚无具备自动扫描、基于使用量排名和依赖分析的可信注册中心。已发布内容与可安全安装内容之间的差距,正在以任何单一工具都无法弥合的速度扩大。
[+++] 强信号:面向企业的托管智能体基础设施。 Anthropic通过发布Managed Agents证明了需求的存在。但企业需要厂商中立的选项、多模型支持和合规认证。46%的企业将集成列为其智能体的首要挑战。Notion的集成模式——SaaS作为编排层,模型提供商作为执行引擎——可能成为数十个垂直应用的模板。
[++] 中等信号:长期智能体评估与训练。 Gym-Anything表明,最好的模型在真实的500+步任务中有72.5%的失败率。智能体训练基础设施可扩展到数千个副本并降低80-90%的成本,为专业化的评估即服务提供商开辟了市场。医疗、金融和工程软件的领域特定基准测试仍是空白。
[++] 中等信号:智能体记忆与知识积累。 当前智能体默认会遗忘。正在涌现的解决方案——时间衰减、嵌入缓存、/dreaming模式、BRAID治理文件——是碎片化的且依赖特定框架。一个跨平台的智能体记忆层,能够处理持久化、相关性衰减和多会话积累,将解决多位构建者提到的痛点。
[++] 中等信号:语音智能体垂直解决方案。 LiveKit的Rime Mist v3集成通过音标括号展示了受监管行业所需的精确度。@yourealazyfvck指出语音智能体"以相同价格"销售,但复杂度远低于多工具自动化。发音、合规和领域术语在规模化方面仍未解决。
[+] 新兴信号:智能体沙箱协议标准化。 目前不存在厂商中立的协议来规定智能体在哪里执行工具。Anthropic将大脑与双手解耦;AWS提供S3 Files;开源项目提供22MB沙箱。一个标准组织或事实上的智能体执行环境协议将减少碎片化。
[+] 新兴信号:从轨迹自动生成Skills。 SkillX证明智能体可以将自己的成功运行转化为可复用的skills。结合@gregisenberg的递归式skill构建工作流,这指向了能够自行制造能力的自我改进智能体系统——目前处于研究阶段,但具有明确的生产应用前景。
8. 要点总结¶
-
Meta以原生多智能体编排重新进入前沿模型竞赛。 Muse Spark的Contemplating模式在不等比增加延迟的情况下跨智能体并行推理,"思维压缩"降低了token消耗。基准测试表显示结果具有竞争力但并非主导;长期智能体编码仍是短板。(来源)
-
Anthropic的Managed Agents是一次平台级动作,威胁到编排中间件层。 通过发布带有舰队管理、凭据保险库和MCP集成的生产基础设施,Anthropic将创业公司数年的路线图压缩到一次发布中。四天内的操作序列——先封锁第三方认证,再推出替代方案——表明这是有意的生态系统整合。(来源)
-
智能体skills成为新的包生态系统,且面临安全危机。 88K+已发布的skills,26%存在漏洞,部分市场中12%为恶意软件。Skill Forge等工具仅治标;生态系统缺乏在规模化运作的npm audit+经验证发布者的等价物。(来源)
-
上下文工程和harness工程正在作为工程学科走向正规化。 L1-L6成熟度模型映射了从提示词技巧到自我改进智能体的演进。OpenAI的Symphony展示了终局:100万行代码,每天10亿token,零人类代码或审查。该终局与大多数团队当前实践之间的差距是巨大的。(来源)
-
真实的智能体基准测试揭示了严酷的局限性。 Gym-Anything的CUA-World-Long让智能体面对专业软件中500+步的任务,最好的模型仅达到27.5%的通过率。演示级智能体表现与真实专业工作流上的生产可靠性之间的差距,仍然是该领域的核心挑战。(来源)
-
Skills优于agent.md文件正在成为共识性最佳实践。 在每次对话中加载完整指令文件会浪费token并降低性能。按需激活的skills结合递归改进工作流,能产出更可靠的智能体。实用建议:从手动工作流开始,让智能体编写skill,迭代修复失败。(来源)
-
AI智能体正在发现真实的安全漏洞。 一个AI安全智能体发现了HuggingFace Transformers中的CVE-2026-1839——一个真正的任意代码执行漏洞。以安全为核心的智能体harness(PHALANX、METATRON)正在作为一个专业类别兴起,完全离线运行且使用本地LLM。智能体驱动的安全研究正从理论走向产出。(来源)