跳转至

Twitter AI 智能体 - 2026-04-30

1. 人们在讨论什么

1.1 Hermes Curator 发布自动技能生命周期管理 🡕

当天技术含量最高的发布来自 @Teknium,他介绍了 Hermes Curator(333 次点赞,211 次收藏,17,585 次浏览)——这是一个内置系统,会自动合并并修剪智能体创建的技能。Curator 会跟踪使用频率,按周运行(可配置),并采用两阶段流程:先做确定性状态转换(30 天未使用的技能变为 stale;90 天触发归档),再让 LLM 审查,合并重叠技能,或把过于具体的技能转成更宽泛技能的参考。它绝不会自动删除,也不会触碰外部安装或置顶的技能;最坏结果也是可恢复的归档。

Hermes Curator 文档展示 active-stale-archived 生命周期和两阶段运行流程

@NousResearch宣布(546 次点赞,274 次收藏)Hermes Agent 现在可以使用 pretext 做无 DOM 文本布局,同时推广(193 次点赞,97 次收藏)即将在周日结束的 Hermes Agent Creative Hackathon,技能覆盖 Manim、TouchDesigner 和 ComfyUI。

讨论要点: @PaulGugAI 抓住了实践者的两难:“Holy!看起来很棒。把它加到 Hermes 那 1000 个我还没用上的技能列表里吧。” @LyraSongstress 问出了关键问题——“它如何决定该合并什么、归档什么?”——@Teknium 确认:“通过与技能的伞形类别比较。”

与前日对比: 4 月 29 日最大的挫败感是编程智能体不会把反馈固化成可复用内容。4 月 30 日的 Curator 是对反向问题给出的第一个已发布答案:当技能积累起来后,如何防止膨胀?这直接回应了 SR-Agents 论文指出的技能质量缺口。


1.2 Cursor 发布智能体测试框架工程方法论 🡕

@cursor_ai 发布了一篇详细博客,解释他们的智能体测试框架如何让模型更快、更聪明,也更节省 token。@jediahkatz 进一步展开(17 次点赞)六个层次:编排、上下文、路由、传输、状态和执行,并指出“有一种误解,认为实验室的一方测试框架永远会表现更好”。

@Vtrivedy10 (46 次点赞,48 次收藏)Cursor 博客与行业内正在收敛的模式联系起来:用定制工具/提示词调校不同模型,结合离线+在线评估,从智能体目标倒推,并把上下文窗口视为“计算发生的神圣边界”。

@ghumare64 给出了(36 次点赞,55 次收藏)最深入的实践者综合分析,解读 Tony Gentilcore 的 Glean 文章,其中把测试框架描述为“一个分布式上下文管理系统”。他的核心洞察是:PTC 沙箱、子智能体、压缩和 search-first 技能发现,本质上都是同一个原语的实例——“一个注册函数、通过 ID 暴露函数、隔离执行上下文,并只把结果返回给调用方的过程”。

讨论要点: @yoheinakajima 提出了(51 次点赞)一个反向视角:“开发者谈论智能体测试框架时像是在谈后端架构……但如果它更像个人/组织的决策流程和组织架构,需要不断反思和调整呢?” @psr_ai 提醒(41 次点赞):“LLM 天生是非确定性的。围绕 LLM 的工程应该被重视,而不是过度优化上下文。”

与前日对比: 4 月 29 日出现了 AHE 论文,对自我改进型测试框架做了形式化。4 月 30 日,Cursor 公开发布内部测试框架方法论,让这门实践变得具体,也更容易被实践者复现。


1.3 Context Engineering Playbook 经 Karpathy 背书走红 🡒

@Av1dlive 分享(767 次点赞,1,917 次收藏,120,045 次浏览)了一份关于上下文工程、工具设计、orchestrator-subagent 模式、评估和测试框架思维的视频手册,并把它描述为成为“100x 智能体化工程师”的路径。帖子引用了 Karpathy 的话:“10x engineers are normal. Real agentic engineers are 100x.” 多个账号放大了同一个视频:@RoundtableSpace 转发(51 次点赞,50,017 次浏览),@DivyanshT91162 则创建了一个总结串帖

@tom_doerr 分享(24 次点赞,35 次收藏)了 NeoLabHQ 的 context-engineering-kit GitHub repo,用于编程智能体中的高级上下文工程。

讨论要点: @Jmoon_174 指出一个实际缺口:“超过 70% 后,模型就开始悄悄丢上下文。你不知道哪些规则被略读了。” @sandraaasol 认为,“上下文工程、合理的工具设计和严格评估”是唯一能经受模型切换的技术栈。

与前日对比: 4 月 29 日关注的是上下文作为一门学术学科(论文、workshop)。4 月 30 日,它被包装成可观看的 playbook,并借 Karpathy 的信号放大触达了约 10 倍更广的受众。


1.4 Editframe 推出智能体原生视频格式 🡕

@yudDIDit 宣布(226 次点赞,213 次收藏,29,827 次浏览)Editframe 结束隐身期,作为一种智能体原生视频格式亮相:HTML/CSS 转 MP4,专为编程智能体构建。该技术栈与框架无关(HTML + CSS,可与 React 配合),使用真实浏览器渲染(DOM + Canvas),提供云端流式预览和 API 渲染,并为自定义编辑器提供 Lego 式组件。通过 npm create @editframe@latest 安装后,即可提示 Claude Code、Cursor 或 Codex 生成可用视频或交互式 GUI。

讨论要点: 这个定位值得注意——它不是带 AI 功能的视频编辑器,而是从零开始为智能体消费和生产而设计的视频格式。这填补了一个空白:智能体可以生成代码、图像和文本,但视频仍然主要依赖人工。

与前日对比: 前一天没有覆盖。这是一个瞄准“智能体需要媒体”缺口的新入场者。


1.5 Claude Code Hackathon 获奖项目展示多智能体架构模式 🡒

@ClaudeDevs 公布(295 次点赞,115 次收藏)“Built with Opus 4.7”黑客松结果,全球 500 名参与者参赛。获奖项目展示了不同的智能体架构模式:

  • MedKit(第 1 名):一个 Managed Agent 扮演患者、观察并给学员评分,提示词同时作为引用白名单
  • Wrench Board(第 2 名):一个带 4 层记忆和约 36 个工具的 Managed Agent,通过阅读自己的 notebook 在跨会话中重新定位
  • Maieutic(第 3 名):学生先写 spec 再写代码,然后解释 diff,暴露他们是否真正理解了自己的修改

Built with Opus 4.7 黑客松横幅,展示 4 月 21-28 日日期、500 名参与者和 100K 美元奖金池

讨论要点: 获奖模式都强调观察和验证,而不是原始生成能力——这与 4 月 29 日 Fowler 背书的 verification-first 论点一致。


1.6 Cline 以 SDK 和插件架构从头重写 🡕

@cline 宣布(51 次点赞)做了一次完整重写:“过去两个月,我们一直在从头重写 Cline。” 原有架构与 IDE 语义高度耦合。新版本构建了一个带插件架构的 SDK,覆盖提供商、模型、LSP、代码搜索和主题,并在其上重建 CLI 与扩展。Beta 版提供 20 美元 credit,并为贡献者提供赏金计划。

讨论要点: @Aqib__786Ai 指出:“这种大型重构通常决定智能体会变成‘demo 工具’还是真正的平台——插件架构 + 与 IDE 语义解耦是正确方向。” 这次重写呼应了 Cursor 自身将智能体运行时与编辑器 UI 分离的轨迹。


1.7 Codex 成为超越编程的通用工作界面 🡕

@aakashgupta 分析(10 次点赞,9 次收藏)了 OpenAI 的 Codex 更新:新增角色选择器,覆盖工程、产品、财务、营销、销售、运营、设计、数据科学和学生。他的论点是:“编程工具刚刚变成了工作工具。这是 OpenAI 在自己的模型之上构建测试框架层……测试框架正在成为真正的产品。”

@MindTheGapMTG 提出了反驳:“角色选择器只是我们用 markdown 文件做的事情的 UI。每个智能体都会拿到一个约束文件,把它限定在某个领域。区别在于:我们的文件把 500 行生产事故规则编码进去。一个下拉菜单捕捉不了‘周四永远不要碰 billing’。”

与前日对比: 4 月 29 日的 Cursor SDK 让智能体从 IDE 走向基础设施。4 月 30 日的 Codex 则从编程走向所有知识工作,印证了一个收敛论点:智能体正在成为界面层。


2. 令人困扰的问题

AI 语音智能体在不披露的情况下替代支持团队 -- 严重程度:High

@AbhinavXJ 报道(98 次点赞,4,302 次浏览),IndiaMart 用 AI 智能体替换了整个客户支持团队,造成数千个岗位流失。核心挫败感是:“作为客户,如果我遇到问题,我绝不想和 AI 说话,我需要人来回答我。AI 永远无法被问责。” @HrideshMg 分享了一段亲身经历:“接到了一个来自 shiprocket、说 hindi 的女人打来的电话……直到通话中途我才意识到自己是在和一个他妈的 AI 说话。完全没有任何免责声明。” @AbuKhadeejah 给出了构建者视角:“我正在为孟买一家健身房客户构建 AI agent calling solution,他每月在外呼上省下 40k。”

TypeScript 智能体框架疲劳 -- 严重程度:Medium

@samuelcolvin 提问(21 次点赞,26 条回复):“现在最好的(最不差、最潮的)智能体框架是什么?Vercel AI、Mastra、Langpain-js?” 回复暴露出明显挫败感:@MindTheGapMTG 运行“12 个生产智能体:没有框架。每个都是一个 Claude Code 会话,配一个 CLAUDE.md 约束文件。” @foundanand:“Vercel 的 AI SDK 很烂。坏得太多……更新多到离谱。” @Shoeboom:“tanstack/ai 有一些便利点,但还在 alpha。如果你的用例合适就用 Mastra;否则它太强约束了。” 最终没有达成共识。

技能数量增长快于技能质量 -- 严重程度:Medium

@aiedge_ 推广(40 次点赞,62 次收藏)SkillsMP,声称拥有“超过一百万个智能体技能”。立即出现反弹:@rugbist_:“一百万个技能,但其中到底有多少真正有用?得在一大堆垃圾里翻金子。” @coralflavorcom:“一百万个技能,却没有一个会像不受过滤的 LLM 那样自己思考。” 数量与质量的张力呼应了 4 月 29 日 SR-Agents 关于无差别加载技能的发现。


3. 人们期望的功能

可扩展到单个智能体之外的自动技能策展

Hermes Curator 解决了单个智能体的技能膨胀,但更大的问题仍然存在:在拥有 1M+ 技能的市场中,没有质量评分、没有匹配度门控,也没有跨智能体策展标准。@rugbist_@nonStopEon 都在问,随着市场增长,技能质量如何维持。Curator 的启发式方法(使用频率 + LLM 审查)在本地有效,但没有跨生态的等价机制。

紧迫性:高 -- 机会:基础设施

能经受模型切换的智能体框架

@samuelcolvin 的投票和 @sandraaasol 的帖子确认:实践者想要一个智能体框架,其中“上下文工程、合理的工具设计和严格评估”构成可迁移层,模型选择则只是一次配置切换。当前选项(Vercel AI SDK、Mastra、LangGraph)要么与特定模式耦合过紧,要么频繁破坏兼容。

紧迫性:高 -- 机会:直接产品

从智能体会话中演化个性化技能

@HenryYe19352122 演示了 VibeLens:把智能体会话转化为个性化生产力建议,推荐并创建定制技能,并随着习惯变化而演化。这直接瞄准 4 月 29 日的反馈到技能缺口,但目前尚未获得明显牵引力(9 次点赞)。需求已被确认;解决方案空间仍然开放。

紧迫性:中 -- 机会:产品


4. 使用中的工具与方法

工具 类别 评价 优势 局限
Hermes Agent + Curator 编程/通用智能体 正面 技能生命周期管理;pretext 支持;创意黑客松生态;降低成本的技巧 技能数量对新用户来说过于庞大
Cursor SDK + Harness 智能体运行时 正面 已发布测试框架方法论;六层架构;按模型定制调优 新;尚无社区测试框架贡献
Claude Code 编程智能体 正面 黑客松生态(500 名参与者);Claude Security public beta;技能持续增长 安全功能仅限企业版
Cline(重写) 编程智能体 谨慎 SDK-first;插件架构;与 IDE 解耦 Beta;预计会有破坏性变更
Codex 通用工作智能体 混合 角色选择器;超越编程的通用工作界面 “一个下拉菜单捕捉不了生产规则”
LiveKit 语音智能体基础设施 正面 结构化数据收集;Tasks/TaskGroups SDK;JSON 输出 语音领域专用
Editframe 智能体视频格式 正面 HTML/CSS 转 MP4;框架无关;浏览器渲染 全新;尚无生态
ElevenLabs(Stripe) 语音/TTS 正面 一行 Stripe Projects 集成 仅 TTS
SkillsMP 技能市场 混合 列出 1M+ 技能;支持多智能体 缺少质量策展
context-engineering-kit 开发工具包 正面 开源;高级模式 早期阶段

5. 人们在构建什么

项目 谁在构建 功能 解决的问题 技术栈 阶段 链接
Hermes Curator @Teknium 基于使用分析 + LLM 审查自动合并和修剪技能 自我改进循环带来的技能膨胀 Hermes Agent, config.yaml 已发布 post
Editframe @yudDIDit 智能体原生视频格式:HTML/CSS 转 MP4 智能体无法生成/编辑视频 HTML, CSS, React, DOM, Canvas Shipped post
SpatialMemory2 @stash_pomichter 面向机器人智能体的多模态潜空间记忆 视频/lidar/里程计对上下文来说太大 Latent embeddings, spatial search 已发布 post
Cline SDK Rewrite @cline 基于插件的智能体 SDK,与 IDE 解耦 原架构与 VS Code 语义高度耦合 TypeScript, plugin arch Beta post
OCR-Memory @dair_ai 长周期智能体的视觉模态记忆 摘要会丢失流程细节 Image rendering, locate-and-transcribe 研究 post
TradingAgents @quantscience_ 模拟对冲基金动态的多智能体 LLM 交易框架 单模型交易表现不足 Python, multi-agent, fundamental/sentiment/technical analysts 已发布 post
Kumo Coding Agent Skills @jure 让编程智能体成为预测模型专家的技能 智能体缺少 ML 流水线领域知识 Kumo SDK, Claude Code, Codex 已发布 post
Sandcastle @RoundtableSpace TypeScript 本地编程智能体编排库 多个智能体互相踩脚 TypeScript, multi-agent 已发布 post
tmux-IDE 2.0 @ThijsVerreck 通过 YAML 把任意项目变成自治多智能体 IDE 多智能体终端搭建复杂 npm, tmux, YAML config 已发布 post
VibeLens @HenryYe19352122 基于会话模式推荐个性化智能体技能 智能体重复犯错/忘记偏好 Cross-agent session analysis Alpha post
Ramp Inspect @zachbruggeman 内部编程智能体现在编写约 70% 已合并 PR 人工代码审查瓶颈 Internal agent platform 已发布 post
GBrain @garrytan 面向 Hermes/OpenClaw、含 75K+ markdown 文件的检索和记忆层 大规模智能体记忆 MIT, GitHub 已发布 post

6. 新动态与亮点

Hermes Curator 引入自动技能生命周期管理

Curator(211 次收藏)是对技能积累问题给出的第一个生产级答案:自我改进型智能体会创建几十个狭窄且近似重复的技能,污染上下文。两阶段方法(确定性 stale 状态转换 + LLM 驱动的合并)在技能创建和技能修剪之间建立了可维护的平衡,而且不需要人工介入。

信号强度:[+++]

Cursor 发布内部测试框架工程方法论

这篇博客文章让 Cursor 的测试框架方法可复现:按模型定制工具/提示词调优、离线+在线评估、dogfooding,并把测试框架变更当作可度量实验。结合昨天的 SDK 发布,Cursor 现在是在方法论披露上最透明的智能体基础设施提供商。

信号强度:[+++]

OCR-Memory 论文提出智能体记忆的视觉模态

OCR-Memory 论文(arXiv:2604.26622)把智能体轨迹渲染成带视觉锚点的图像,再通过 locate-and-transcribe 检索。在严格上下文限制下,它在 Mind2Web 和 AppWorld 上达到 SOTA。该方法消除了摘要引起的信息损失,同时通过旧记忆的缩略图压缩让 token 成本保持平稳。

信号强度:[++]

Ramp 的 Inspect 智能体现在编写 70% 已合并 PR

@zachbruggeman 报告称,Ramp 内部编程智能体在所有已合并 PR 中的占比从 30% 增长到约 70%,并扩展到工程团队之外。这是大型金融科技公司中,智能体代码贡献率达到生产规模的最强证据。

信号强度:[++]

Claude Security 面向企业进入 Public Beta

@claudeai(231 次点赞)宣布 Claude Security 面向 Enterprise 客户进入公开 Beta——支持定时扫描、目录级目标、CSV/Markdown 导出、webhook 通知和持久化忽略项。自 2 月研究预览以来,已有数百家组织使用它,“捕捉到现有扫描器遗漏的问题”。

信号强度:[+]

Sakana AI 与 SMBC 部署面向企业银行的多智能体系统

@hardmaru 宣布(41 次点赞)与 SMBC(日本最大银行之一)共建的多智能体系统,用于企业战略提案,把原本一到两周的工作流缩短到数小时。这是在机构银行规模上的企业多智能体部署。

信号强度:[+]


7. 机会在哪里

[+++] 市场规模的技能质量基础设施 -- 随着 SkillsMP 声称拥有 1M+ 技能,Hermes 生态也快速增长,技能可得性与技能质量之间的差距正在扩大。Hermes Curator 解决的是单智能体场景。市场场景——质量评分、匹配度门控、兼容性验证和跨智能体策展——仍然完全开放。第一个为技能构建“搜索质量”的团队,将占据智能体经济的中间件层。

[+++] 模型可移植的智能体框架 -- @samuelcolvin 的调研和实践者回复确认:没有 TypeScript 框架能让生产团队满意。缺口在于一个把模型选择做成配置而非架构的框架。Cursor 公开的六层模型(编排、上下文、路由、传输、状态、执行)提供了蓝图。第一个在不牺牲可靠性的前提下做到模型可移植的开源实现,将吸引那群正用 CLAUDE.md 文件跑 12 个智能体、却对“无框架”感到挫败的用户。

[++] 智能体原生媒体生产 -- Editframe 证明这个类别存在:为智能体创作而设计的视频格式。同样逻辑也适用于音频、交互内容和演示格式。当前创意工具默认人类操作;能与现有技能流水线组合的智能体原生创意格式,是一个全新的市场。

[++] 跨智能体会话智能 -- VibeLens 展示了这个概念:分析跨智能体会话的模式,推荐技能、暴露重复错误,并演化偏好。随着实践者同时运行多个智能体(Hermes、Claude Code、Cursor、Codex),观察所有会话并合成可执行模式的元层会成为有价值的基础设施。

[+] 语音智能体问责与披露标准 -- IndiaMart 悄悄替换人工支持、Shiprocket 未披露 AI 电话,暴露了监管和信任缺口。机会在于语音智能体的披露/合规基础设施:验证水印、实时“你正在与 AI 对话”披露,以及满足新兴监管要求的问责日志。


8. 要点总结

  1. Hermes Curator(211 次收藏)发布了第一个面向智能体技能膨胀的生产级方案:自动使用跟踪、过期状态转换和 LLM 驱动的合并,防止自我改进循环污染上下文。 这直接回应了 4 月 29 日指出的反馈到技能流水线缺口——不是通过改进技能创建,而是让技能维护自动化。(source)

  2. Cursor 公开记录其六层智能体运行框架方法论(编排、上下文、路由、传输、状态、执行),让运行框架工程能在自家产品之外复现。 结合昨天的 SDK 和 AHE 论文,运行框架工程在 48 小时内从部落知识变成了已发布学科。(source, source)

  3. 经 Karpathy 背书,上下文工程 playbook 视频达到 120K 浏览和 1,917 次收藏,把上下文工程 + 工具设计 + 编排器-子智能体 + 评估确立为标准的“100x agentic engineer”技术栈。 实践者共识正在硬化:这套栈能经受模型切换;框架选择不能。(source)

  4. Ramp 的 Inspect 编程智能体在所有已合并 PR 中的占比从 30% 增长到 70%,这是目前最强的生产证据,表明智能体编写的代码可以成为一家公司产出的多数。 问题因此从“智能体能写生产代码吗?”转向“当大多数代码由智能体编写时,工程会是什么样?” (source)

  5. 技能生态进入质量危机:SkillsMP 声称拥有 1M+ 技能,而实践者报告“要在一大堆垃圾里翻找”,Hermes 生态自己的 Curator 之所以存在,也正是因为自我改进循环会制造不可持续的积累。 质量基础设施——不是数量——现在成了技能采用的约束条件。(source, source)

  6. Codex、Cline 和 Cursor 同一天发布重大平台动作:Codex 从编程扩展到通用工作,Cline 以 SDK-first 插件架构重写,Cursor 公开测试框架内部机制。 编程智能体市场正在同时变宽(Codex 面向所有角色)、变深(Cursor 测试框架透明化)并重构(Cline 模块化重写)。(source, source)