Twitter AI 智能体 - 2026-04-29¶

1. 人们在讨论什么¶

1.1 Agentic Harness Engineering 论文正式定义自改进运行框架 🡕¶

当天最高信号项是一篇新论文（arXiv:2604.25850v1），提出 Agentic Harness Engineering（AHE）。@omarsar0 在详细拆解中分享了它（500 次点赞，1,013 次收藏，34,840 次浏览）。该框架通过三大支柱让运行框架演化可观察：组件可观测性（可回滚的文件级编辑）、经验可观测性（从数百万执行轨迹 token 中提炼证据）和决策可观测性（用任务结果检验可证伪预测）。结果：Terminal-Bench 2 的 pass@1 在 10 次迭代中从 69.7% 升至 77.0%，超过人工设计的 Codex-CLI（71.9%）以及自演化基线 ACE 和 TF-GRPO。演化后的运行框架能跨模型家族迁移，带来 +5.1 到 +10.1 分增益，同时少用 12% token。

Agentic Harness Engineering 论文摘要，展示三大可观测性支柱和基准测试结果

Martin Fowler 链接（139 次点赞，170 次收藏）到自己的 fragments 页面，收录 Birgitta Böckeler 的运行框架工程视频和 Chris Parsons 更新版 AI 编程指南，其中写道：“现在比的已经不是‘我们能多快把东西做出来’，而是‘我们能多快判断它对不对’。”@jobergum 发布（80 次点赞，91 次收藏）清华大学的 Skill Retrieval Augmented Agents 论文，提出从 26,262 个技能组成的语料库中动态检索技能。其 SRA-Bench 发现：当前智能体不论任务是否真正需要外部能力，加载技能的频率都差不多——瓶颈不是知道 检索什么，而是知道 何时加载。

Skill Retrieval Augmentation for Agentic AI 论文摘要，展示 SRA-Bench 方法

讨论要点： @RuijieRao 给出最扎实的从业者回应：“手动调参这部分是真实存在的。我构建智能体工作流的大部分时间不是写核心逻辑，而是在迭代运行框架配置……瓶颈在于你无法不跑完整任务就评估运行框架质量。”@ethankongee 扩展框架：自改进 + 自修复 + 自安全 + 自维护 = 完整愿景。@DylSwanepoel 指出核心价值：“让智能体改进可证伪，而不是凭感觉。”

与前日对比： 4 月 28 日，运行框架工程走上 ODSC 会议舞台。4 月 29 日产出第一个经过同行评审的框架，用基准结果自动化运行框架演化，从“教会它”推进到“让它自我改进”。

1.2 Agent Skills 生态跨平台爆发 🡕¶

“技能”这一原语在 4 月 29 日达到临界质量，多平台同时活跃。@bigaiguy 报道（12 次点赞，11 次收藏），Obsidian 创作者 Kepano 发布 obsidian-skills，达到 27K 星标，用来教 Claude Code、Codex CLI 和 OpenCode 在 Obsidian vault 中读写和推理。首发包含五个技能（obsidian-markdown、obsidian-bases、json-canvas、obsidian-cli、defuddle），可通过 npx skills add 安装。@WesRoth 指出（11 次点赞）xAI 正在为 Grok 开发专门的 “Skills” 标签页，Grok 4.3 支持技能创建。@github_skydoves 发布（36 次点赞，32 次收藏）基于一手资料的 Compose Performance Skills，用于 Jetpack Compose。

@code（VS Code）宣布（39 次点赞，20 次收藏）Agent Plugins，可安装技能、命令、MCP 服务器和 hooks。@rajistics 分享了 ODSC 运行框架工程演讲幻灯片，显示系统提示词在 Opus 版本间增长 115%（1,714 到 3,686 词）。

图表显示 Opus 4 到 4.7 版本的系统提示词词数增长，增加 115%

讨论要点： @_jphwang 承认从业者感受到的缺口：“我其实不知道（a）它们能提升多少性能，（b）该怎么写好的技能。”这说明技能已被广泛采用，但理解仍不足。

与前日对比： 4 月 28 日 Google 发布官方 Agent Skills 仓库。4 月 29 日模式扩散：Obsidian、xAI/Grok、VS Code 和领域专用仓库都在向“技能作为标准扩展机制”收敛。

1.3 Cursor SDK 和 /multitask 发布，智能体即基础设施成形 🡕¶

Cursor 有两项重要动作。@cursor_ai 推出 Cursor SDK，允许开发者使用驱动 Cursor 的同一运行时、运行框架和模型构建智能体——可从 CI/CD 流水线、自动化任务中运行，或嵌入产品。@alphabatcher 将其框定（11 次点赞）为：“CI 失败 > 智能体唤醒 > 检查仓库 > 修复 bug > 打开 PR > 如果需要人工接手，就出现在 Cursor 里。到某个阶段，IDE 不再是智能体所在之处，而是你检查这些智能体的地方。”

另外，@kevinkern 报道（33 次点赞，12 次收藏）Cursor 发布 /multitask：“不是让一个智能体在一个长上下文里做所有事，主智能体可以把工作拆成更小的异步子智能体……你可以在 Cursor 运行框架中让不同模型处理不同任务。我一直用 Opus 4.7 做主编排器，用 GPT-5.5 high 做实现任务。”

讨论要点： @infix_fun 指出限制：“我只希望它能稳定工作。它不怎么主动并行化。实际上我有一次会话，它一直把任务派给同一个智能体。”跨模型编排模式（高端模型负责编排，便宜模型负责实现）正在成为实用默认方式。

与前日对比： 4 月 28 日，jcode 以灰色地带方式推出并行智能体会话。4 月 29 日，Cursor SDK 给出合法版本：官方支持可嵌入 CI/CD 的智能体运行时，并通过 /multitask 提供 IDE 原生编排。

1.4 上下文工程与智能体编排收敛到共享原语 🡒¶

@Av1dlive 强调（110 次点赞，230 次收藏）一条关于“上下文工程、工具设计、编排器-子智能体、评估，以及运行框架思维”的视频手册，把它框定为成为 100x 智能体化工程师的路径。@yoheinakajima 认可（82 次点赞，162 次收藏）一篇关于把智能体编排简化到核心的文章，指出它“收敛到非常类似 babyagi 2 的架构，后者把函数（智能体工具）存进数据库，包含输入/输出/依赖/键。”

@akoratana 描述（90 次点赞，135 次收藏）一种“上下文图谱”——从工作痕迹中浮现的公司世界模型，而不是人工文档。关键主张：PlayerZero 在六个月内完全依靠累积上下文，把模拟准确率从 54% 提升到 95+%。@DeepLearningAI 报道（25 次点赞，11 次收藏）一场关于记忆工程和上下文工程的工作坊，其中一句是：“没有记忆的 AI 智能体，不过是野心更大的自动补全。”

讨论要点： @wanner_tyler 提出综合视角：“想象一下，如果漂亮、简单、稳健、可靠、持久且确定性的工作流工具已经存在，并且有简单的函数级工作流语义，你只需要给智能体受治理的控制杆去运行那个系统。”收敛点在于编排、上下文和记忆正在塌缩成一门学科。

与前日对比： 4 月 28 日聚焦记忆架构逆向分析（Hermes 五层系统）。4 月 29 日上升到更高抽象：编排和上下文作为统一工程学科。

1.5 智能体间商务获得首个真实资金证据 🡕¶

@omooretweets 分享（70 次点赞，64 次收藏，9,949 次浏览）Anthropic 内部 “Project Deal” 实验：Claude 采访 69 名员工了解买卖物品，建立分类市场，然后由智能体自主谈判交易。结果：186 个配对，$4,000+ 真实交易额，从滑雪板到乒乓球都有实物交换。参与者表示愿意为类似服务付费。

Anthropic blog 摘录，描述 Project Deal：186 笔交易，总交易价值 $4,000+

@ryanmcnutty33 识别出基础设施缺口：“我认为我们需要一个给智能体用的无线电，才能让这件事跑起来。我在想某种新基础设施，可以像广播一样让其他智能体彼此看见，而不是集中式查询。发现会是一个巨大问题。”@pjmfinn 扩展应用：“这也应该是 LinkedIn 的方向。让智能体中介验证入站请求，并帮助你处理出站请求。”

讨论要点： 从“智能体谈判理论交易”到“智能体在真实员工之间用真实资金谈判真实实体商品”，这是一个显著的证据升级。被指出的瓶颈——智能体发现基础设施——从另一个角度呼应了技能检索问题。

与前日对比： 4 月 28 日通过 @DeFi_Pop 首次报道该实验。4 月 29 日浮出 primary source（Anthropic blog）和具体细节，从业者回应也集中在基础设施缺口。

1.6 Pika Agents 延续 “RIP Prompt Box” 论点 🡒¶

Pika Agent 发布继续获得报道。@dr_cintas 演示（38 次点赞，39 次收藏，5,063 次浏览）教一个智能体完整的创意广告技能，并一次性执行。@svpino 分析（13 次点赞，16 次收藏）这种方式：“这里押注的是把人和智能体之间的接口做得更好。”多条帖子重复 Pika 的框架：人格化对话会在创意工作流中取代提示工程。

@Th3RealSocrates 延续了 4 月 28 日的竞争分析：“人格层才是护城河。模型选择会在 6 个月内商品化，但‘我的 Pika 智能体’会让用户保持粘性。”

与前日对比： 4 月 28 日介绍了 Pika Agent 发布。4 月 29 日新增从业者演示和持续背书，但没有新的技术主张。

1.7 OneManCompany 组织型 MAS 框架获得牵引力 🡕¶

@TheTuringPost 发布（6 次点赞，6 次收藏）对 Huawei Noah's Ark Lab 的 OneManCompany 框架的详细拆解。关键创新：Skills 变成 Talents（带角色、工具、提示词、配置的完整智能体包）；Container = 运行时（Claude Code、LangGraph、脚本）；Talent Market 用于动态招聘；E2R（Explore-Execute-Review）树搜索；以及带绩效评审、PIP、离职和替换的 HR 生命周期。结果：PRDBench 84.67%，比基线高 15+。

@Jiaru_Zou 介绍（34 次点赞，28 次收藏，5,360 次浏览）RecursiveMAS，一个互补方法：多智能体协作的潜空间递归，在 9 个基准测试上实现平均准确率 +8.3%、1.2-2.4x 推理加速，以及 34.6-75.6% token 消耗降低。

与前日对比： 4 月 28 日以 68 次收藏介绍 OMC。4 月 29 日新增详细技术拆解和互补递归方案，巩固了组织隐喻作为主导多智能体架构模式。

2. 令人困扰的问题¶

编程智能体不会把反馈固化为可复用知识 -- 严重程度：高¶

@RhysSullivan 指出（34 次点赞，1,787 次浏览）缺口：“编程智能体没有足够推动你把反馈变成可复用知识。我刚给智能体讲了它乐观更新做错的地方，但没有一个被鼓励的‘第二步’，把这条知识固化起来供未来使用。”@skeptrune 确认问题：“Claude Code 已经开始说‘已经为此添加了一条记忆’，但我倾向于认为这只是在通往上下文腐烂的路上。”@_jack_hogan 补充：“堆一大堆记忆总觉得不对劲（而且也不可靠），我也拿不准怎样做才最合理。”唯一清晰的权宜方案来自 @NathanOyler：“我把知识固化到技能里……也用 cron 作业改进技能。”

运行框架主权 vs 平台锁定 -- 严重程度：中¶

@Vtrivedy10 认为（12 次点赞），运行框架“深刻影响智能体性能”，把它们外包出去意味着“祈祷实验室或闭源运行框架会为你做这件事，而且与你的目标一致”。@jobergum 说得更直白：“不要把你的智能体运行框架外包出去。”@itunpredictable 列举（53 次点赞，3,337 次浏览）涌向从业者的冲突说法：“我们要做一家智能体运行框架公司。我们要转向做一个面向编程智能体的开源 IDE。它会成为你内部大脑的上下文引擎。”信号是：开发者想拥有运行框架，但生态碎片化让选择成本很高。

Cursor /multitask 并行化不稳定 -- 严重程度：低¶

@infix_fun 报告：“它并没有像我希望的那样尽量并行化。实际上我有一次会话，它一直把任务派给同一个智能体。”早期编排 UX 中，能力已经存在，但可靠性不均。

3. 人们期望的功能¶

默认的反馈到技能流水线¶

@RhysSullivan 和多条回复确认：当你纠正智能体时，这条纠正应自动变成可复用技能或规则，而不是脆弱的记忆条目。当前选项（会腐烂的记忆、手动创建技能）需要人工投入，抵消了生产力目的。需要的是框架级“反馈捕捉 > 技能合成 > 验证”流水线。

紧迫性：高 -- 机会：直接

面向商务的智能体发现基础设施¶

@ryanmcnutty33 在回应 Anthropic 市场实验时指出：“我们需要某种新的基础设施，像广播一样让其他智能体能彼此发现，而不只是依赖一个中心化查找表。”随着智能体开始交易，它们需要去中心化发现机制——相当于智能体服务的 DNS。

紧迫性：中 -- 机会：基础设施

大规模技能质量验证¶

SR-Agents 论文显示，智能体不论是否需要都会加载技能。随着技能库增长（基准测试中已有 26,262+），缺失的一层是自动质量评分和相关性门控——不只是知道哪个技能存在，而是知道加载它是否真的能帮助当前任务。

紧迫性：中 -- 机会：研究到产品

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
Claude Code	编程智能体	正面	Fowler 背书；ODSC 演讲引用；技能生态增长	多智能体订阅约束；记忆固化缺口
Cursor SDK	智能体运行时	正面	与 IDE 同一运行时/运行框架；可嵌入 CI/CD；/multitask 编排	并行化不稳定；全新
Hermes Agent	智能体框架	正面	Swarm 补丁发布；支持多用户	对初学者复杂
Obsidian Skills	技能包	正面	27K 星标；首发 5 个技能；MIT；支持 Claude Code/Codex/OpenCode	仅限 vault；新生态
Agent Skills spec	标准	正面	被 Google、Obsidian、Sleek、HeyGen、VS Code、xAI 采用	没有质量验证层
Codex CLI	编程智能体	混合	Fowler 推荐；AHE 论文用作基线（71.9%）	被 AHE 演化运行框架超过（77.0%）
RecursiveMAS	研究框架	正面	+8.3% 准确率；2.4x 加速；75.6% token 消耗降低	研究阶段；无生产工具链
LiveKit	语音智能体基础设施	正面	结构化数据采集；Tasks/TaskGroups SDK；JSON 输出	专注语音领域
Gemini Agent Platform	企业平台	正面	Agent Identity/Registry/Gateway；支持多运行框架	企业导向；新进入者

主导模式是技能作为扩展原语的收敛，所有主要平台（Google、Anthropic 生态、xAI、VS Code、Cursor）都在一周内发布或宣布技能支持。

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
Agentic Harness Engineering	Fudan/Peking Univ	通过可观测性驱动演化自改进运行框架	手动调运行框架；无法验证改进	Terminal-Bench 2, SWE-bench	研究	post
Cursor SDK	@cursor_ai	可嵌入 CI/CD 和产品的智能体运行时	智能体被锁在 IDE 内；缺少程序化访问	Cursor 运行时, 多模型	已发布	post
obsidian-skills	Kepano	面向 Obsidian vault 的 Claude Code/Codex 技能	智能体不能在笔记系统中推理	Agent Skills spec, npx	已发布	post
Lazar	@jasonkneen	只有一个执行工具 + 技能的自演化智能体	工具膨胀；智能体能力漂移	Go, recursive self-calls	Alpha	post
RecursiveMAS	@Jiaru_Zou	潜空间递归式 MAS 协作	多智能体中的 token 浪费和推理慢	Lightweight Connector, inner-outer loop	研究	post
Pentest Agent Suite	@VivekIntel	自主 bug bounty 框架（48 个智能体）	手动侦察到报告工作流	Claude, Codex, FAISS, SQLite	已发布	post
Compose Performance Skills	@github_skydoves	Jetpack Compose 性能智能体技能	通用智能体缺少领域专业知识	Agent Skills spec	已发布	post, repo
VoiceBox (local TTS/dictation)	@exploraX_	免费本地语音克隆 + 听写，带 MCP server	ElevenLabs/WisprFlow 订阅成本	Chatterbox, MCP, 7 TTS engines	已发布	post
X Spaces Agent	@trythreews	智能体加入 live X Spaces，收听并用语音回应	智能体无法参与 live audio	Puppeteer, Groq/Anthropic/OpenAI	Alpha	post
Harness Engineering exercises	@rajistics	ODSC 演讲，公开幻灯片 + 练习	缺少量化运行框架增长的教学材料	GitHub	已发布	post, repo

@jasonkneen 的 Lazar 值得注意，因为它极端极简：一个工具（execute）、递归自调用，并把技能作为唯一扩展机制。它能自主创建、发现、演化技能，是对“仅靠技能是否足以支撑通用智能体行为”的纯粹测试。

6. 新动态与亮点¶

Agentic Harness Engineering 论文提出可观察自改进¶

AHE 论文（1,013 次收藏）是首个经过同行评审的工作，展示带可证伪预测的自动化运行框架演化。Terminal-Bench 2 pass@1 达 77.0%，超过人工设计的运行框架和此前自演化方法，并能跨模型家族迁移。代码：github.com/china-qijizhifeng/agentic-harness-engineering。

信号强度：[+++]

Cursor SDK 让 IDE 智能体运行时可嵌入¶

Cursor SDK 允许开发者从 CI/CD 流水线、自动化任务或产品中运行同一个智能体运行时。结合 /multitask（跨模型编排），这让 Cursor 从 IDE 转变为智能体基础设施提供商。@alphabatcher 描述的“CI 失败 > 智能体修补 > 打开 PR”工作流现在获得官方支持。

信号强度：[+++]

Martin Fowler 认可验证优先的运行框架工程¶

Fowler 的 fragments 页面（170 次收藏）承载了这一论点：“现在比的已经不是‘我们能多快把东西做出来’，而是‘我们能多快判断它对不对’。”他认可 Birgitta Böckeler 的运行框架工程文章（以及新的视频讨论），说明这个概念已从从业者 Twitter 进入软件架构主流圈。

信号强度：[++]

Anthropic Project Deal：186 笔真实资金智能体间交易¶

Anthropic 的内部市场实验（64 次收藏）在 69 名员工之间由智能体完成 186 笔交易，交易额 $4,000+，并交换真实实体商品。这是迄今最强证据，说明智能体间商务在真实利害关系下可行。参与者表达“愿意为类似服务付费”，暗示消费者需求。

信号强度：[++]

xAI 通过 Grok Skills Tab 加入 Skills 生态¶

@WesRoth 报道 xAI 正在为 Grok 开发 Skills 标签页（目前隐藏），Grok 4.3 支持技能创建。这让 xAI 成为第四个采用技能作为扩展原语的主要平台（继 Google、Anthropic 生态、OpenAI 之后），正在接近普遍收敛。

信号强度：[+]

7. 机会在哪里¶

[+++] 反馈到技能流水线 -- “我纠正了智能体”和“智能体永久学会了这件事”之间的缺口，是多个独立从业者当天最一致的挫败感。@RhysSullivan、@skeptrune 和 @_jack_hogan 都确认当前做法（记忆、手写技能）不足。机会是一个自动系统：捕捉纠正，把它们合成为经过验证的技能，并剪掉过期内容。唯一被引用的工作模式是 @NathanOyler 手动“用 cron 作业改进技能”——非常适合产品化。

[+++] 具备可观察演化的开放运行框架 -- AHE 论文证明运行框架可以可测地自改进。@Vtrivedy10 和 @jobergum 认为开发者应该拥有自己的运行框架。机会是一个开源运行框架基座，内置 AHE 式可观测性：每个编辑可追踪，每个预测可证伪，性能增益可测，而不需要完整任务重跑。第一个把这个作为产品功能交付的运行框架，将捕获当前手动调参的从业者。

[++] 智能体发现与商务基础设施 -- Anthropic 证明智能体可以交易。@ryanmcnutty33 识别出缺失层：广播/发现基础设施，让智能体不依赖集中式查询也能找到彼此。随着技能市场增长（Swarms、Cursor、Google），智能体间服务发现的互操作层会成为关键基础设施。

[++] 技能质量与相关性门控 -- SR-Agents 论文（@jobergum）揭示智能体会不加区分地加载技能。随着语料库中已有 26,262+ 个技能且继续增长，机会是一个在加载前评分技能相关性的检索层——防止上下文浪费和错误技能应用。这是技能生态的“搜索质量”问题。

[+] 跨模型编排工具链 -- @kevinkern 展示 Opus 4.7 编排 GPT-5.5 做实现。Cursor /multitask 启用了这一点，但并不稳定。机会是可靠跨模型编排：高端模型做规划，便宜模型执行，并基于子任务复杂度自动选模型。

8. 要点总结¶

Agentic Harness Engineering 论文（1,013 次收藏）证明运行框架自改进可测且可迁移：pass@1 在 10 次迭代中从 69.7% 升至 77.0%，超过人工设计和自演化基线，同时少用 12% token。这把运行框架工程从“教人调优”推进到“让运行框架用可观察契约自我调优”。(source)
Agent Skills 生态达到收敛：Obsidian（27K 星标）、xAI/Grok、VS Code Agent Plugins、Cursor SDK、Google 和多个领域专用仓库在一天内发布或宣布技能，确立 Agent Skills spec 作为事实上的智能体扩展标准。 (source, source, source)
Cursor SDK 把 IDE 从工作区变成智能体基础设施提供商：CI/CD 可嵌入运行时、用于跨模型编排的 /multitask（Opus 4.7 规划，GPT-5.5 实现），以及“IDE 会变成你检查这些智能体的地方”这一明确论点。 (source, source)
Anthropic 的 Project Deal 为智能体间商务提供迄今最强证据：186 笔真实交易、$4,000+ 交易额、实体商品交换，参与者愿意付费——让讨论从“智能体能否交易？”转向“它们需要什么发现基础设施？” (source)
反馈到技能缺口成为当天最一致的从业者挫败感：智能体接受纠正，但不会把纠正固化成可复用技能，开发者被迫在会话间反复纠正同样错误。 当前权宜方案（记忆、手动技能、cron 作业）都被描述为不足。(source)
Martin Fowler 对验证优先运行框架工程的认可——“比的不是我们能多快把东西做出来，而是我们能多快判断它对不对”——说明该概念已被软件架构主流接受，完成从 Twitter 讨论串到 Fowler 推荐的转变。 (source)

Twitter AI 智能体 - 2026-04-29¶

1. 人们在讨论什么¶

1.1 Agentic Harness Engineering 论文正式定义自改进运行框架 🡕¶

1.2 Agent Skills 生态跨平台爆发 🡕¶

1.3 Cursor SDK 和 /multitask 发布，智能体即基础设施成形 🡕¶

1.4 上下文工程与智能体编排收敛到共享原语 🡒¶

1.5 智能体间商务获得首个真实资金证据 🡕¶

1.6 Pika Agents 延续 “RIP Prompt Box” 论点 🡒¶

1.7 OneManCompany 组织型 MAS 框架获得牵引力 🡕¶

2. 令人困扰的问题¶

编程智能体不会把反馈固化为可复用知识 -- 严重程度：高¶

运行框架主权 vs 平台锁定 -- 严重程度：中¶

Cursor /multitask 并行化不稳定 -- 严重程度：低¶

3. 人们期望的功能¶

默认的反馈到技能流水线¶

面向商务的智能体发现基础设施¶

大规模技能质量验证¶

4. 使用中的工具与方法¶

5. 人们在构建什么¶

6. 新动态与亮点¶

Agentic Harness Engineering 论文提出可观察自改进¶

Cursor SDK 让 IDE 智能体运行时可嵌入¶

Martin Fowler 认可验证优先的运行框架工程¶

Anthropic Project Deal：186 笔真实资金智能体间交易¶

xAI 通过 Grok Skills Tab 加入 Skills 生态¶

7. 机会在哪里¶

8. 要点总结¶

📬 每日 AI 精选，直达你的收件箱