Twitter AI 智能体 - 2026-04-29¶
1. 人们在讨论什么¶
1.1 Agentic Harness Engineering 论文正式定义自改进运行框架 🡕¶
当天最高信号项是一篇新论文(arXiv:2604.25850v1),提出 Agentic Harness Engineering(AHE)。@omarsar0 在 详细拆解 中分享了它(500 次点赞,1,013 次收藏,34,840 次浏览)。该框架通过三大支柱让运行框架演化可观察:组件可观测性(可回滚的文件级编辑)、经验可观测性(从数百万执行轨迹 token 中提炼证据)和决策可观测性(用任务结果检验可证伪预测)。结果:Terminal-Bench 2 的 pass@1 在 10 次迭代中从 69.7% 升至 77.0%,超过人工设计的 Codex-CLI(71.9%)以及自演化基线 ACE 和 TF-GRPO。演化后的运行框架能跨模型家族迁移,带来 +5.1 到 +10.1 分增益,同时少用 12% token。

Martin Fowler 链接(139 次点赞,170 次收藏)到自己的 fragments 页面,收录 Birgitta Böckeler 的运行框架工程视频和 Chris Parsons 更新版 AI 编程指南,其中写道:“现在比的已经不是‘我们能多快把东西做出来’,而是‘我们能多快判断它对不对’。”@jobergum 发布(80 次点赞,91 次收藏)清华大学的 Skill Retrieval Augmented Agents 论文,提出从 26,262 个技能组成的语料库中动态检索技能。其 SRA-Bench 发现:当前智能体不论任务是否真正需要外部能力,加载技能的频率都差不多——瓶颈不是知道 检索什么,而是知道 何时加载。

讨论要点: @RuijieRao 给出最扎实的从业者回应:“手动调参这部分是真实存在的。我构建智能体工作流的大部分时间不是写核心逻辑,而是在迭代运行框架配置……瓶颈在于你无法不跑完整任务就评估运行框架质量。”@ethankongee 扩展框架:自改进 + 自修复 + 自安全 + 自维护 = 完整愿景。@DylSwanepoel 指出核心价值:“让智能体改进可证伪,而不是凭感觉。”
与前日对比: 4 月 28 日,运行框架工程走上 ODSC 会议舞台。4 月 29 日产出第一个经过同行评审的框架,用基准结果自动化运行框架演化,从“教会它”推进到“让它自我改进”。
1.2 Agent Skills 生态跨平台爆发 🡕¶
“技能”这一原语在 4 月 29 日达到临界质量,多平台同时活跃。@bigaiguy 报道(12 次点赞,11 次收藏),Obsidian 创作者 Kepano 发布 obsidian-skills,达到 27K 星标,用来教 Claude Code、Codex CLI 和 OpenCode 在 Obsidian vault 中读写和推理。首发包含五个技能(obsidian-markdown、obsidian-bases、json-canvas、obsidian-cli、defuddle),可通过 npx skills add 安装。@WesRoth 指出(11 次点赞)xAI 正在为 Grok 开发专门的 “Skills” 标签页,Grok 4.3 支持技能创建。@github_skydoves 发布(36 次点赞,32 次收藏)基于一手资料的 Compose Performance Skills,用于 Jetpack Compose。
@code(VS Code)宣布(39 次点赞,20 次收藏)Agent Plugins,可安装技能、命令、MCP 服务器和 hooks。@rajistics 分享了 ODSC 运行框架工程演讲幻灯片,显示系统提示词在 Opus 版本间增长 115%(1,714 到 3,686 词)。

讨论要点: @_jphwang 承认从业者感受到的缺口:“我其实不知道(a)它们能提升多少性能,(b)该怎么写好的技能。”这说明技能已被广泛采用,但理解仍不足。
与前日对比: 4 月 28 日 Google 发布官方 Agent Skills 仓库。4 月 29 日模式扩散:Obsidian、xAI/Grok、VS Code 和领域专用仓库都在向“技能作为标准扩展机制”收敛。
1.3 Cursor SDK 和 /multitask 发布,智能体即基础设施成形 🡕¶
Cursor 有两项重要动作。@cursor_ai 推出 Cursor SDK,允许开发者使用驱动 Cursor 的同一运行时、运行框架和模型构建智能体——可从 CI/CD 流水线、自动化任务中运行,或嵌入产品。@alphabatcher 将其框定(11 次点赞)为:“CI 失败 > 智能体唤醒 > 检查仓库 > 修复 bug > 打开 PR > 如果需要人工接手,就出现在 Cursor 里。到某个阶段,IDE 不再是智能体所在之处,而是你检查这些智能体的地方。”
另外,@kevinkern 报道(33 次点赞,12 次收藏)Cursor 发布 /multitask:“不是让一个智能体在一个长上下文里做所有事,主智能体可以把工作拆成更小的异步子智能体……你可以在 Cursor 运行框架中让不同模型处理不同任务。我一直用 Opus 4.7 做主编排器,用 GPT-5.5 high 做实现任务。”
讨论要点: @infix_fun 指出限制:“我只希望它能稳定工作。它不怎么主动并行化。实际上我有一次会话,它一直把任务派给同一个智能体。”跨模型编排模式(高端模型负责编排,便宜模型负责实现)正在成为实用默认方式。
与前日对比: 4 月 28 日,jcode 以灰色地带方式推出并行智能体会话。4 月 29 日,Cursor SDK 给出合法版本:官方支持可嵌入 CI/CD 的智能体运行时,并通过 /multitask 提供 IDE 原生编排。
1.4 上下文工程与智能体编排收敛到共享原语 🡒¶
@Av1dlive 强调(110 次点赞,230 次收藏)一条关于“上下文工程、工具设计、编排器-子智能体、评估,以及运行框架思维”的视频手册,把它框定为成为 100x 智能体化工程师的路径。@yoheinakajima 认可(82 次点赞,162 次收藏)一篇关于把智能体编排简化到核心的文章,指出它“收敛到非常类似 babyagi 2 的架构,后者把函数(智能体工具)存进数据库,包含输入/输出/依赖/键。”
@akoratana 描述(90 次点赞,135 次收藏)一种“上下文图谱”——从工作痕迹中浮现的公司世界模型,而不是人工文档。关键主张:PlayerZero 在六个月内完全依靠累积上下文,把模拟准确率从 54% 提升到 95+%。@DeepLearningAI 报道(25 次点赞,11 次收藏)一场关于记忆工程和上下文工程的工作坊,其中一句是:“没有记忆的 AI 智能体,不过是野心更大的自动补全。”
讨论要点: @wanner_tyler 提出综合视角:“想象一下,如果漂亮、简单、稳健、可靠、持久且确定性的工作流工具已经存在,并且有简单的函数级工作流语义,你只需要给智能体受治理的控制杆去运行那个系统。”收敛点在于编排、上下文和记忆正在塌缩成一门学科。
与前日对比: 4 月 28 日聚焦记忆架构逆向分析(Hermes 五层系统)。4 月 29 日上升到更高抽象:编排和上下文作为统一工程学科。
1.5 智能体间商务获得首个真实资金证据 🡕¶
@omooretweets 分享(70 次点赞,64 次收藏,9,949 次浏览)Anthropic 内部 “Project Deal” 实验:Claude 采访 69 名员工了解买卖物品,建立分类市场,然后由智能体自主谈判交易。结果:186 个配对,$4,000+ 真实交易额,从滑雪板到乒乓球都有实物交换。参与者表示愿意为类似服务付费。

@ryanmcnutty33 识别出基础设施缺口:“我认为我们需要一个给智能体用的无线电,才能让这件事跑起来。我在想某种新基础设施,可以像广播一样让其他智能体彼此看见,而不是集中式查询。发现会是一个巨大问题。”@pjmfinn 扩展应用:“这也应该是 LinkedIn 的方向。让智能体中介验证入站请求,并帮助你处理出站请求。”
讨论要点: 从“智能体谈判理论交易”到“智能体在真实员工之间用真实资金谈判真实实体商品”,这是一个显著的证据升级。被指出的瓶颈——智能体发现基础设施——从另一个角度呼应了技能检索问题。
与前日对比: 4 月 28 日通过 @DeFi_Pop 首次报道该实验。4 月 29 日浮出 primary source(Anthropic blog)和具体细节,从业者回应也集中在基础设施缺口。
1.6 Pika Agents 延续 “RIP Prompt Box” 论点 🡒¶
Pika Agent 发布继续获得报道。@dr_cintas 演示(38 次点赞,39 次收藏,5,063 次浏览)教一个智能体完整的创意广告技能,并一次性执行。@svpino 分析(13 次点赞,16 次收藏)这种方式:“这里押注的是把人和智能体之间的接口做得更好。”多条帖子重复 Pika 的框架:人格化对话会在创意工作流中取代提示工程。
@Th3RealSocrates 延续了 4 月 28 日的竞争分析:“人格层才是护城河。模型选择会在 6 个月内商品化,但‘我的 Pika 智能体’会让用户保持粘性。”
与前日对比: 4 月 28 日介绍了 Pika Agent 发布。4 月 29 日新增从业者演示和持续背书,但没有新的技术主张。
1.7 OneManCompany 组织型 MAS 框架获得牵引力 🡕¶
@TheTuringPost 发布(6 次点赞,6 次收藏)对 Huawei Noah's Ark Lab 的 OneManCompany 框架的详细拆解。关键创新:Skills 变成 Talents(带角色、工具、提示词、配置的完整智能体包);Container = 运行时(Claude Code、LangGraph、脚本);Talent Market 用于动态招聘;E2R(Explore-Execute-Review)树搜索;以及带绩效评审、PIP、离职和替换的 HR 生命周期。结果:PRDBench 84.67%,比基线高 15+。
@Jiaru_Zou 介绍(34 次点赞,28 次收藏,5,360 次浏览)RecursiveMAS,一个互补方法:多智能体协作的潜空间递归,在 9 个基准测试上实现平均准确率 +8.3%、1.2-2.4x 推理加速,以及 34.6-75.6% token 消耗降低。
与前日对比: 4 月 28 日以 68 次收藏介绍 OMC。4 月 29 日新增详细技术拆解和互补递归方案,巩固了组织隐喻作为主导多智能体架构模式。
2. 令人困扰的问题¶
编程智能体不会把反馈固化为可复用知识 -- 严重程度:高¶
@RhysSullivan 指出(34 次点赞,1,787 次浏览)缺口:“编程智能体没有足够推动你把反馈变成可复用知识。我刚给智能体讲了它乐观更新做错的地方,但没有一个被鼓励的‘第二步’,把这条知识固化起来供未来使用。”@skeptrune 确认问题:“Claude Code 已经开始说‘已经为此添加了一条记忆’,但我倾向于认为这只是在通往上下文腐烂的路上。”@_jack_hogan 补充:“堆一大堆记忆总觉得不对劲(而且也不可靠),我也拿不准怎样做才最合理。”唯一清晰的权宜方案来自 @NathanOyler:“我把知识固化到技能里……也用 cron 作业改进技能。”
运行框架主权 vs 平台锁定 -- 严重程度:中¶
@Vtrivedy10 认为(12 次点赞),运行框架“深刻影响智能体性能”,把它们外包出去意味着“祈祷实验室或闭源运行框架会为你做这件事,而且与你的目标一致”。@jobergum 说得更直白:“不要把你的智能体运行框架外包出去。”@itunpredictable 列举(53 次点赞,3,337 次浏览)涌向从业者的冲突说法:“我们要做一家智能体运行框架公司。我们要转向做一个面向编程智能体的开源 IDE。它会成为你内部大脑的上下文引擎。”信号是:开发者想拥有运行框架,但生态碎片化让选择成本很高。
Cursor /multitask 并行化不稳定 -- 严重程度:低¶
@infix_fun 报告:“它并没有像我希望的那样尽量并行化。实际上我有一次会话,它一直把任务派给同一个智能体。”早期编排 UX 中,能力已经存在,但可靠性不均。
3. 人们期望的功能¶
默认的反馈到技能流水线¶
@RhysSullivan 和多条回复确认:当你纠正智能体时,这条纠正应自动变成可复用技能或规则,而不是脆弱的记忆条目。当前选项(会腐烂的记忆、手动创建技能)需要人工投入,抵消了生产力目的。需要的是框架级“反馈捕捉 > 技能合成 > 验证”流水线。
紧迫性:高 -- 机会:直接
面向商务的智能体发现基础设施¶
@ryanmcnutty33 在回应 Anthropic 市场实验时指出:“我们需要某种新的基础设施,像广播一样让其他智能体能彼此发现,而不只是依赖一个中心化查找表。”随着智能体开始交易,它们需要去中心化发现机制——相当于智能体服务的 DNS。
紧迫性:中 -- 机会:基础设施
大规模技能质量验证¶
SR-Agents 论文显示,智能体不论是否需要都会加载技能。随着技能库增长(基准测试中已有 26,262+),缺失的一层是自动质量评分和相关性门控——不只是知道 哪个 技能存在,而是知道加载它是否真的能帮助当前任务。
紧迫性:中 -- 机会:研究到产品
4. 使用中的工具与方法¶
| 工具 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| Claude Code | 编程智能体 | 正面 | Fowler 背书;ODSC 演讲引用;技能生态增长 | 多智能体订阅约束;记忆固化缺口 |
| Cursor SDK | 智能体运行时 | 正面 | 与 IDE 同一运行时/运行框架;可嵌入 CI/CD;/multitask 编排 | 并行化不稳定;全新 |
| Hermes Agent | 智能体框架 | 正面 | Swarm 补丁发布;支持多用户 | 对初学者复杂 |
| Obsidian Skills | 技能包 | 正面 | 27K 星标;首发 5 个技能;MIT;支持 Claude Code/Codex/OpenCode | 仅限 vault;新生态 |
| Agent Skills spec | 标准 | 正面 | 被 Google、Obsidian、Sleek、HeyGen、VS Code、xAI 采用 | 没有质量验证层 |
| Codex CLI | 编程智能体 | 混合 | Fowler 推荐;AHE 论文用作基线(71.9%) | 被 AHE 演化运行框架超过(77.0%) |
| RecursiveMAS | 研究框架 | 正面 | +8.3% 准确率;2.4x 加速;75.6% token 消耗降低 | 研究阶段;无生产工具链 |
| LiveKit | 语音智能体基础设施 | 正面 | 结构化数据采集;Tasks/TaskGroups SDK;JSON 输出 | 专注语音领域 |
| Gemini Agent Platform | 企业平台 | 正面 | Agent Identity/Registry/Gateway;支持多运行框架 | 企业导向;新进入者 |
主导模式是技能作为扩展原语的收敛,所有主要平台(Google、Anthropic 生态、xAI、VS Code、Cursor)都在一周内发布或宣布技能支持。
5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 阶段 | 链接 |
|---|---|---|---|---|---|---|
| Agentic Harness Engineering | Fudan/Peking Univ | 通过可观测性驱动演化自改进运行框架 | 手动调运行框架;无法验证改进 | Terminal-Bench 2, SWE-bench | 研究 | post |
| Cursor SDK | @cursor_ai | 可嵌入 CI/CD 和产品的智能体运行时 | 智能体被锁在 IDE 内;缺少程序化访问 | Cursor 运行时, 多模型 | 已发布 | post |
| obsidian-skills | Kepano | 面向 Obsidian vault 的 Claude Code/Codex 技能 | 智能体不能在笔记系统中推理 | Agent Skills spec, npx | 已发布 | post |
| Lazar | @jasonkneen | 只有一个执行工具 + 技能的自演化智能体 | 工具膨胀;智能体能力漂移 | Go, recursive self-calls | Alpha | post |
| RecursiveMAS | @Jiaru_Zou | 潜空间递归式 MAS 协作 | 多智能体中的 token 浪费和推理慢 | Lightweight Connector, inner-outer loop | 研究 | post |
| Pentest Agent Suite | @VivekIntel | 自主 bug bounty 框架(48 个智能体) | 手动侦察到报告工作流 | Claude, Codex, FAISS, SQLite | 已发布 | post |
| Compose Performance Skills | @github_skydoves | Jetpack Compose 性能智能体技能 | 通用智能体缺少领域专业知识 | Agent Skills spec | 已发布 | post, repo |
| VoiceBox (local TTS/dictation) | @exploraX_ | 免费本地语音克隆 + 听写,带 MCP server | ElevenLabs/WisprFlow 订阅成本 | Chatterbox, MCP, 7 TTS engines | 已发布 | post |
| X Spaces Agent | @trythreews | 智能体加入 live X Spaces,收听并用语音回应 | 智能体无法参与 live audio | Puppeteer, Groq/Anthropic/OpenAI | Alpha | post |
| Harness Engineering exercises | @rajistics | ODSC 演讲,公开幻灯片 + 练习 | 缺少量化运行框架增长的教学材料 | GitHub | 已发布 | post, repo |
@jasonkneen 的 Lazar 值得注意,因为它极端极简:一个工具(execute)、递归自调用,并把技能作为唯一扩展机制。它能自主创建、发现、演化技能,是对“仅靠技能是否足以支撑通用智能体行为”的纯粹测试。
6. 新动态与亮点¶
Agentic Harness Engineering 论文提出可观察自改进¶
AHE 论文(1,013 次收藏)是首个经过同行评审的工作,展示带可证伪预测的自动化运行框架演化。Terminal-Bench 2 pass@1 达 77.0%,超过人工设计的运行框架和此前自演化方法,并能跨模型家族迁移。代码:github.com/china-qijizhifeng/agentic-harness-engineering。
信号强度:[+++]
Cursor SDK 让 IDE 智能体运行时可嵌入¶
Cursor SDK 允许开发者从 CI/CD 流水线、自动化任务或产品中运行同一个智能体运行时。结合 /multitask(跨模型编排),这让 Cursor 从 IDE 转变为智能体基础设施提供商。@alphabatcher 描述的“CI 失败 > 智能体修补 > 打开 PR”工作流现在获得官方支持。
信号强度:[+++]
Martin Fowler 认可验证优先的运行框架工程¶
Fowler 的 fragments 页面(170 次收藏)承载了这一论点:“现在比的已经不是‘我们能多快把东西做出来’,而是‘我们能多快判断它对不对’。”他认可 Birgitta Böckeler 的运行框架工程文章(以及新的视频讨论),说明这个概念已从从业者 Twitter 进入软件架构主流圈。
信号强度:[++]
Anthropic Project Deal:186 笔真实资金智能体间交易¶
Anthropic 的 内部市场实验(64 次收藏)在 69 名员工之间由智能体完成 186 笔交易,交易额 $4,000+,并交换真实实体商品。这是迄今最强证据,说明智能体间商务在真实利害关系下可行。参与者表达“愿意为类似服务付费”,暗示消费者需求。
信号强度:[++]
xAI 通过 Grok Skills Tab 加入 Skills 生态¶
@WesRoth 报道 xAI 正在为 Grok 开发 Skills 标签页(目前隐藏),Grok 4.3 支持技能创建。这让 xAI 成为第四个采用技能作为扩展原语的主要平台(继 Google、Anthropic 生态、OpenAI 之后),正在接近普遍收敛。
信号强度:[+]
7. 机会在哪里¶
[+++] 反馈到技能流水线 -- “我纠正了智能体”和“智能体永久学会了这件事”之间的缺口,是多个独立从业者当天最一致的挫败感。@RhysSullivan、@skeptrune 和 @_jack_hogan 都确认当前做法(记忆、手写技能)不足。机会是一个自动系统:捕捉纠正,把它们合成为经过验证的技能,并剪掉过期内容。唯一被引用的工作模式是 @NathanOyler 手动“用 cron 作业改进技能”——非常适合产品化。
[+++] 具备可观察演化的开放运行框架 -- AHE 论文证明运行框架可以可测地自改进。@Vtrivedy10 和 @jobergum 认为开发者应该拥有自己的运行框架。机会是一个开源运行框架基座,内置 AHE 式可观测性:每个编辑可追踪,每个预测可证伪,性能增益可测,而不需要完整任务重跑。第一个把这个作为产品功能交付的运行框架,将捕获当前手动调参的从业者。
[++] 智能体发现与商务基础设施 -- Anthropic 证明智能体可以交易。@ryanmcnutty33 识别出缺失层:广播/发现基础设施,让智能体不依赖集中式查询也能找到彼此。随着技能市场增长(Swarms、Cursor、Google),智能体间服务发现的互操作层会成为关键基础设施。
[++] 技能质量与相关性门控 -- SR-Agents 论文(@jobergum)揭示智能体会不加区分地加载技能。随着语料库中已有 26,262+ 个技能且继续增长,机会是一个在加载前评分技能相关性的检索层——防止上下文浪费和错误技能应用。这是技能生态的“搜索质量”问题。
[+] 跨模型编排工具链 -- @kevinkern 展示 Opus 4.7 编排 GPT-5.5 做实现。Cursor /multitask 启用了这一点,但并不稳定。机会是可靠跨模型编排:高端模型做规划,便宜模型执行,并基于子任务复杂度自动选模型。
8. 要点总结¶
-
Agentic Harness Engineering 论文(1,013 次收藏)证明运行框架自改进可测且可迁移:pass@1 在 10 次迭代中从 69.7% 升至 77.0%,超过人工设计和自演化基线,同时少用 12% token。 这把运行框架工程从“教人调优”推进到“让运行框架用可观察契约自我调优”。(source)
-
Agent Skills 生态达到收敛:Obsidian(27K 星标)、xAI/Grok、VS Code Agent Plugins、Cursor SDK、Google 和多个领域专用仓库在一天内发布或宣布技能,确立 Agent Skills spec 作为事实上的智能体扩展标准。 (source, source, source)
-
Cursor SDK 把 IDE 从工作区变成智能体基础设施提供商:CI/CD 可嵌入运行时、用于跨模型编排的 /multitask(Opus 4.7 规划,GPT-5.5 实现),以及“IDE 会变成你检查这些智能体的地方”这一明确论点。 (source, source)
-
Anthropic 的 Project Deal 为智能体间商务提供迄今最强证据:186 笔真实交易、$4,000+ 交易额、实体商品交换,参与者愿意付费——让讨论从“智能体能否交易?”转向“它们需要什么发现基础设施?” (source)
-
反馈到技能缺口成为当天最一致的从业者挫败感:智能体接受纠正,但不会把纠正固化成可复用技能,开发者被迫在会话间反复纠正同样错误。 当前权宜方案(记忆、手动技能、cron 作业)都被描述为不足。(source)
-
Martin Fowler 对验证优先运行框架工程的认可——“比的不是我们能多快把东西做出来,而是我们能多快判断它对不对”——说明该概念已被软件架构主流接受,完成从 Twitter 讨论串到 Fowler 推荐的转变。 (source)