跳转至

Twitter AI智能体 — 2026-04-07

1. 人们在讨论什么

1.1 Harness Engineering走向主流 (🡕)

"Harness engineering"的概念在4月7日主导了AI智能体的讨论,起因是Latent Space播客发布了一期里程碑式的节目,揭示了OpenAI Frontier团队如何运营一个超过100万行代码的代码库——零人工编写代码、零人工代码审查即合并,每天消耗超过10亿个token。

@latentspacepod发布了对OpenAI Ryan Lopopolo的采访,详细介绍了"Dark Factory"——一个由50多个Codex智能体并行工作的系统,在名为Symphony的代码库上运作,被描述为一座"幽灵图书馆",没有任何人类代码。Lopopolo表示,如果团队每天没有使用超过10亿个token,几乎可以算是"失职",大约每天花费$2-3K的token开销(链接)。

Latent Space关于Extreme Harness Engineering的文章,展示OpenAI每天10亿token的Dark Factory概念

@IntuitMachine发布了详细的L1-L6成熟度模型,将四个AI领域——提示工程、Context Engineering、Harness Engineering和Intent Engineering——映射到组织成熟度等级,每个等级在前一等级的基础上构建。该图表显示L4(Harness Engineering)是"改变harness能显著提升性能"的阶段(链接)。

L1-L6 AI成熟度模型,将Prompt到Context到Harness到Intent Engineering映射到内容阶段演进

@DSPyOSS对术语不断更迭发表了讽刺性评论:"2022: prompt tricks!! 2023: prompt engineering!! 2024: agentic workflows! 2025: context engineering!! 2026: harness engineering!!! us: .. DSPy。"@tedhall23在回复中提出了一个实质性问题,关于实际企业中"确定性AI工作流与完全智能体化的函数调用行为"之间的取舍(链接)。

@caspar_br提炼了实际要点:"改进智能体有三个层面:模型、harness和上下文。大多数团队执着于模型。但上下文(技能、指令)才是你能最快迭代的层面"(链接)。

@victor_explore将Claude Code源码泄露与harness engineering联系起来,认为"Agent Harness才是真正的产品",从"vibe coding"到harness engineering的转变是"2026年工程师能做出的最有价值的转型"(链接)。

讨论要点: @MindTheGapMTG进一步推进了这个观点:"如果模型表现出'未表达的战略性思考',你的约束层就是你和一个为非预期目标优化的系统之间唯一的屏障。我们正是因此在每个智能体流水线中运行CLAUDE.md治理文件。"这说明harness engineering不仅关乎性能,也关乎安全。

1.2 智能体安全警报 (🡕)

多个高互动帖子就智能体安全发出紧急警告,提供了市场恶意软件、未修复漏洞和权限过度宽泛的具体证据。

@JamesonCamp发布了一条尖锐的警告:"OpenClaw市场中有12%是真正的恶意软件。键盘记录器。身份盗窃。你的AI智能体和你妻子发送孩子社保号的Gmail在同一个账户里。"他分享了自己Amex信用卡遭受$55K欺诈的亲身经历,并指出智能体"在它和你的全部生活之间没有任何人"(链接)。

讨论要点: @usmaanbuildsAI给出了可执行的建议:"在将任何智能体连接到个人工具之前,沙箱化、作用域限定的OAuth令牌和独立的服务账户应该是最低要求。"@TrevorLongino指出了一项安全扫描服务作为部分解决方案。

@DeryaTR_对Claude Cowork中一个未修复的文件泄露漏洞表示担忧,引用了Garry Tan的话:"攻击者可以利用一个未修复的漏洞从Cowork中窃取用户文件。"该漏洞最初由研究员Johann Rehberger发现,已被Anthropic确认但未修复(链接)。

@AethirCloud在一条帖子中详细描述了更广泛的OpenClaw安全现状:"1000多个恶意技能、严重的RCE漏洞和135K+暴露实例。"他们指出共享VPS托管意味着"你的托管提供商保留完全的管理员权限。你的API密钥、对话和智能体操作在基础设施层面是可见的"(链接)。

@alex_prompter概括了系统性问题:"我们在18个月内从'AI什么都做不了'走到了'AI可以完全访问我的Gmail、Slack和Salesforce'。我们跳过了普通企业软件必须通过的所有安全检查点"(链接)。

@koylanai分享了一个从业者的警示故事:在用bash脚本管理git分支构建多智能体harness时,"清理脚本从仓库根目录执行了git checkout -- .,恢复了所有已跟踪文件的更改。"教训是:"智能体系统越强大,你就必须赋予它越多的权限。"两张来自Simon Willison文章的图片强化了最佳实践:自动化测试、版本控制纪律和手动QA"随着模型改进变得更重要,而不是更不重要"(链接)。

Simon Willison关于使用编程智能体所需技能的文章:自动化测试、规划、文档、版本控制和代码审查

1.3 智能体市场与技能生态系统蓬勃发展 (🡕)

当天互动量最高的推文是关于AI-Trader的,多个项目宣布了智能体市场,智能体在其中自主交易、竞争和赚取收入。

@hasantoxr发布了关于AI-Trader的帖子,这是一个开源市场,"AI智能体在其中发布交易信号、互相辩论策略,并在7个资产类别中完全自主执行交易。"任何OpenClaw智能体只需一条命令即可加入,读取技能文件、注册并开始交易。人类用户关注表现最佳的智能体并复制仓位。该项目在MIT许可下有12.1K星和2K fork。这是当天得分最高的推文,达到6368.3分,有566个赞、1100个书签和36.8K次浏览(链接)。

AI-Trader README展示12K星标、MIT许可证、兼容OpenClaw的交易平台,具备实时交易和仪表板功能

@okx宣布Agent Trade Kit现已包含技能市场:"每项技能只需一条命令即可访问。开放贡献。所有技能均经过安全扫描和审查"(链接)。

@AegisPlace描述了按次调用的收入模式:"部署一项技能。设定价格。每次AI智能体使用时,你就会获得报酬。不是按月。不是按年。每一次调用"(链接)。

@acedatacloud分享了其智能体经济的收入数据:"处理了8500万+次API调用。90天内平台收入$326k。"当被要求核实收入声明时,他们指向了公开路线图并提到了上链计划(链接)。

@BlackthorneAI分析了VeChain宣布的智能体市场——"AI智能体可以在链上被创建、雇用和支付",具有"原生兑换功能"——认为"AI智能体可能成为下一个加密叙事"(链接)。

1.4 语音智能体进入生产阶段 (🡕)

三项不同的语音智能体发布表明,这一品类正从演示走向生产部署,具有明确的技术能力和定价。

@yasser_elsaid_推出了Chatbase Voice:"同一个处理你邮件和网站聊天的AI智能体,现在也能接听电话。一个智能体,部署在所有渠道。"该帖子获得140个赞和15.7K次浏览,显示出对全渠道智能体部署的强烈兴趣(链接)。

@livekit针对一个具体的痛点——专业领域的发音准确性:"发音是破坏语音智能体信任的最快方式之一,尤其是在医疗、法律和金融领域。"Rime的Mist v3引入了音标括号实现确定性发音,TTFB低至100ms。一个护士智能体演示展示了对"levothyroxine"和"gastroesophageal"等词汇的修正(链接)。

讨论要点: @adam_martin询问了HIPAA合规性,表明了企业就绪性方面的关切。

@RoundtableSpace报道称"GROK语音智能体现在可以以$0.05/分钟的价格即时处理真实电话,并达到人类水平的对话"——这是迄今为止语音智能体公布的最激进定价(链接)。

1.5 技能研究:现实检验 (🡕)

一篇重要的研究论文挑战了智能体技能能可靠提升性能的假设,从业者的报告印证了这些发现。

@dair_ai重点介绍了来自UC Santa Barbara和MIT的论文:"How Well Do Agentic Skills Work in the Wild。"该研究使用34K个真实世界技能在逐步趋近现实的条件下测试智能体技能,发现"随着条件变得更加现实,性能增益持续下降,通过率接近无技能的基线水平。"针对查询的技能优化部分恢复了性能损失,将Claude Opus 4.6在Terminal-Bench 2.0上的通过率从57.7%提升至65.5%。代码可在github.com/UCSB-NLP-Chang/Skill-Usage获取(链接)。

研究论文摘要:How Well Do Agentic Skills Work in the Wild,展示技能收益在现实环境中退化的发现

讨论要点: @d_ai_1231印证了这一观点:"在演示中,智能体看起来'已完成',因为它们被给予了正确的技能。但在实际使用中,它们经常选错技能——表面之下一切都在崩溃。差距不在能力,而在选择。"

@AlemTuzlak提供了一个具体案例:"我今天尝试用智能体和@tan_stack AI创建一些很酷的东西,结果……很糟糕。它以为自己在使用Vercel AI SDK,并试图导入不存在的API。"他的解决方案是:构建TanStack AI技能来弥合差距(链接)。

@DerekNee提出了一个更广泛的问题:"我们每12小时就有一个新的智能体框架,但几乎没有人在构建跟得上的评估。很多都是vibe coded。我们怎么知道什么是好的?"(链接)。

1.6 记忆工程成为一门学科 (🡕)

多篇帖子将智能体记忆视为一门独立的工程学科,提供了架构图、神经科学类比和具体实现建议。

@ConorBronsdon分享了来自Richmond(Oracle)的详细记忆架构分类:一个处理五种数据类型(向量、图、关系型、空间、JSON)的Memory Core,一个编排检索/索引/存储/衰减的Memory Manager,以及一个由token预算决定模型实际看到什么的Context Window。关键洞察:"不要删除,而是遗忘。信息应该通过相关性评分和重要性加权来衰减,而不是硬删除。"他引用了一个引人注目的统计数据:"78%的企业有AI智能体试点项目。只有约14%将其扩展到了生产环境"(链接)。

记忆工程架构:包含5种数据类型的Memory Core、包含检索/索引/衰减功能的Memory Manager,以及向LLM输入的Context Window组成

@Mr_memsy分享了实用建议:"在OpenClaw中开启/dreaming,添加时间衰减+嵌入缓存,你的智能体就会突然开始积累知识,而不是在过时的上下文中产生幻觉。"他向构建者询问如何处理长期记忆,引发了关于RAG、向量数据库和自定义反思循环的讨论(链接)。

1.7 智能体框架持续涌现 (🡒)

框架的井喷式增长仍在继续,ByteDance、中国和Google发布了重大版本,同时也出现了零代码参与者。

@ZhihuFrontier详细介绍了ByteDance的DeerFlow 2.0:一个基于LangGraph的"Super Agent"框架,拥有30K+星标,具有可插拔技能系统、沙箱化执行环境(本地/Docker/Kubernetes)、动态子智能体调度(最多3个并行,15分钟超时)、上下文自动摘要和带置信度评分的长期记忆(链接)。

DeerFlow 2.0子智能体架构,展示带有15分钟超时保护的Lead Agent、调度器线程池和每个子智能体的隔离上下文气泡

@Sumanth_077介绍了AutoAgent,一个零代码LLM智能体框架,在GitHub上排名第18位,内置Agentic-RAG"性能超越LangChain",支持通用LLM,并在GAIA基准测试中名列前茅(链接)。

AutoAgent README展示GitHub热门第18位、GAIA基准测试顶尖表现,以及包括Agentic-RAG和通用LLM支持在内的关键特性

@alifcoder宣布了CoPaw,一个中国开源智能体框架,"可与OpenClaw媲美但在本地运行",通过Ollama支持Qwen 3.5,具有长期记忆和完全自托管能力(链接)。

@rseroter报道称Google开源了Scion,一个多智能体编排测试平台,"与harness无关(附带Gemini CLI、Codex、Claude、OpenCode),允许你编排工作"(链接)。


2. 令人困扰的问题

智能体权限与权限管理 (High)

最突出的困扰是智能体在缺乏足够安全检查点的情况下积累了广泛的权限。@alex_prompter指出,行业"跳过了普通企业软件必须通过的所有安全检查点"。@JamesonCamp关于12%市场恶意软件和$55K个人欺诈损失的警告说明了具体的损害。@koylanai的经历——智能体清理脚本抹掉了整个会话的工作——表明即使是善意的智能体权限,当范围超出操作者追踪能力时也会造成危害。

技能选择与可靠性 (High)

UC Santa Barbara/MIT的研究表明,随着条件变得更加现实,智能体技能的收益持续下降。@AlemTuzlak的具体经历——智能体假设使用了错误的SDK并导入不存在的API——表明这并非理论问题。@DerekNee捕捉到了更广泛的困扰:"我们每12小时就有一个新的智能体框架,但几乎没有人在构建评估。"构建者无法判断什么有效,因为评估基础设施没有跟上框架井喷的步伐。

智能体记忆丢失 (Medium)

@Mr_memsy指出"默认设置遗忘很快",@ConorBronsdon引用了仅14%的企业智能体试点项目进入生产的数据——记忆架构是关键差距。跨会话丢失上下文的智能体会造成返工并削弱信任。

供应商锁定与订阅变更 (Medium)

@Shaughnessy119对Anthropic削减Claude订阅中第三方工具覆盖的做法作出反应:"这就是对那些使用集中式AI API的智能体用户的大规模去平台化。"他迁移到了Hermes Agent + Together.AI +开源模型。这种被迫迁移让投资于特定平台工作流的构建者感到沮丧。

模型指令遵从性 (Medium)

@gus_aragon发现Opus 4.6在它认为简单的任务上选择性地跳过智能体指令:"没有审查。没有安全审计。没有产物。它自行决定流程不值得执行。"指令的放置位置比措辞更重要,执行需要模型无法编辑的基础设施(git hooks)。


3. 人们期望的功能

智能体治理基础设施 (High)

@theboundlessvc直接提出了这个问题:"当数百万智能体在网络上自主交易时,谁来治理它们?存在什么权限?它们可以接触什么数据?你如何审计它们做了什么?"信任层、协调层和合规层"在我们需要的规模上都不存在。"这是一个有明确名称但没有现有解决方案的缺口。机会:直接。

可靠的技能发现与检索 (High)

UCSB/MIT的研究表明,智能体在从大型技能集合中选择相关技能时表现吃力。@dair_ai指出,针对查询的优化部分恢复了性能损失,但没有生产就绪的解决方案。构建者需要一个能在规模化场景中运作的技能搜索层。机会:直接。

带有合理衰减的跨会话智能体记忆 (Medium)

@ConorBronsdon的分类表明架构在理论上已经存在——相关性评分、重要性加权、"不要删除,而是遗忘"——但没有开箱即用的解决方案实现了它。@Mr_memsy的变通方案(时间衰减+嵌入缓存)是手动的。机会:直接。

技能市场的智能体安全扫描 (High)

OpenClaw市场中有12%被标记为恶意软件,已识别出1000多个恶意技能,构建者需要在安装技能之前进行自动化安全扫描。@TrevorLongino提到了一项扫描服务,但问题的规模远远超出了现有解决方案。机会:直接。

标准化智能体评估框架 (Medium)

@DerekNee对"很多都是vibe coded"的困扰反映了一个缺口:没有标准化的评估框架来比较智能体框架。UCSB/MIT的论文提供了一种方法,但采用尚处于萌芽阶段。机会:竞争性。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
OpenClaw 智能体框架 (+/-) 主导生态系统、技能市场、大型社区 市场中12%为恶意软件、135K+暴露实例、订阅去平台化
Hermes Agent 智能体框架 (+) 学习harness、技能系统、28K+星标 生态系统小于OpenClaw
Claude Code 编程智能体 (+/-) $0到$1B ARR、harness engineering领域主导 源码泄露暴露漏洞、Cowork文件泄露
Cursor Agent 编程智能体 (+) 在攻击性AI方面与Claude Code结果相当 社区文档较少
DSPy 智能体优化 (+) 跨越炒作周期的一致性方法 被视为与主流趋势相悖
LangGraph 编排 (+) 驱动DeerFlow 2.0、成熟框架 复杂性开销
DeerFlow 2.0 智能体框架 (+) 30K+星标、可插拔技能、沙箱执行、子智能体 新发布、主要为中文文档
AutoAgent 智能体框架 (+) 零代码、GAIA基准测试领先、RAG性能超越LangChain 早期阶段
LiveKit 语音基础设施 (+) 100ms TTFB、音标括号发音控制 HIPAA合规性不确定
Chatbase 语音智能体 (+) 全渠道(邮件、网页、电话) 新功能、记录有限
Grok Voice 语音智能体 (+/-) $0.05/分钟定价、实时通话 激进定价可能暗示局限性
Weaviate 向量数据库 (+) 智能体技能支持PDF导入、ColModernVBERT 生态系统仍在发展中
Composio 智能体认证 (+) 解决权限范围界定缺口 产品刚发布、规模化未经验证
GLM-5.1 LLM (+) SWE-Bench Pro上SOTA(58.4)、处理数千次工具调用 新发布、第三方验证有限
CoPaw 智能体框架 (+) 本地优先、Ollama + Qwen 3.5、自托管 早期阶段、中国出品

主要矛盾在于OpenClaw的生态系统覆盖范围与其安全隐患之间。多个构建者正在迁移到Hermes Agent或自托管方案。语音智能体品类正围绕LiveKit的基础设施快速整合,Chatbase和Grok在部署模式和定价上展开竞争。模型层正在多元化,GLM-5.1和Qwen 3.5对Claude和GPT在智能体任务中的主导地位发起挑战。


5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
AI-Trader @hasantoxr 智能体发布交易信号、辩论并执行交易的市场 自主多资产交易 OpenClaw, MIT License Shipped ai4trade.ai
Hurmoz @Mosescreates 63个阿拉伯语AI技能,适用于Hermes Agent 任何智能体平台上都没有阿拉伯语技能 Hermes Agent, Claude Code Shipped github.com/Moshe-ship/hurmoz
Dash v2 @ashpreetbedi 具有6层上下文的自学习数据智能体 Text-to-SQL智能体在领域知识上失败 Python, Docker, SSE Beta GitHub
AgentHandover @tom_doerr 从Mac工作流中生成智能体技能 智能体不了解你的工作流程 macOS, local-first Beta github.com/sandroandric/AgentHandover
AgenC @tetsuoarena 能持续构建一年的智能体 长周期自主构建 Google Concordia, TUI Alpha 链接
Grok CLI + x402 @pelaseyed 首个通过Coinbase原生钱包的智能体 安全的自主智能体支付 Coinbase, brin-sh Beta 链接
nanostack @gus_aragon 带git强制执行的最小化AI编程智能体技能 模型在简单任务上跳过指令 Git hooks, Opus 4.6 Alpha 链接
NameLessAiii wiki @NameLessAiii 从智能体配置自动生成活文档知识库 智能体安装没有文档 Hermes Agent Shipped GitHub

Hurmoz值得关注,它是任何AI智能体平台上首个也是最大的阿拉伯语技能集合:涵盖10个类别的63项技能,包括伊斯兰工具、5种阿拉伯方言、20个沙特政府API、NLP工具,以及首个阿拉伯语Siri集成。完全使用Claude Code构建。

Hurmoz仪表板展示63项技能、10个类别、5种方言、20个沙特API,以及阿拉伯语智能体技能领域零竞争

Dash v2以其安全优先的架构脱颖而出:Analyst的SQL连接设置了default_transaction_read_only=on,Engineer只能写入dash schema,评估套件测试凭证泄露尝试和破坏性SQL执行。学习循环意味着"每次查询都让下一次变得更好"。

AgentHandover采用了一种新颖的技能创建方法:它观察你在Mac上的工作,理解你在做什么以及为什么,然后生成智能体技能,让任何智能体(OpenClaw、Claude Code、Codex)都能复制该工作流。


6. 新动态与亮点

OpenAI的Dark Factory:零人工代码、零人工审查

Ryan Lopopolo对OpenAI Frontier的Symphony系统的详细描述代表了纯智能体开发的最极端公开案例。一个团队交付超过100万行代码的生产软件,没有人工编写的代码,合并前也没有人工代码审查。关键洞察:当智能体失败时,团队不是去优化提示词,而是问"缺少什么能力、上下文或结构?"——这就是harness engineering的实践(来源)。

GitHub为Copilot CLI推出Rubber Duck智能体

@burkeholland报道称GitHub Research发布了一个"Rubber Duck"智能体,自动提供来自不同AI模型家族的审查。他们的数据显示跨模型审查带来了可衡量的质量提升(链接)。

Amazon S3 Files支持智能体集群

@skeptrune重点介绍了Amazon S3 Files——首个具有完整POSIX文件系统访问的云对象存储——作为智能体基础设施的潜在变革者:"你不再需要启动沙箱虚拟机来给智能体提供POSIX工具的访问权限。你现在可以将任意大量的计算指向S3,在同一文件系统上运行大规模并行的智能体集群"(链接)。

Gemma 4作为私有智能体基础设施

@RoundtableSpace指出Google的Gemma 4发布了本地多模态推理、函数调用和OpenClaw兼容性,可能"让替代订阅式AI变得更加现实"(链接)。

西南航空部署GitLab Duo智能体平台

@bjmtweets报道称西南航空在3000多名工程师中采用了GitLab Duo Agent Platform,目标是实现90%的流水线组件升级自动化、自动CVE修复,并利用智能体使"技术债务成为过去"(链接)。


7. 机会在哪里

[+++] 智能体安全与治理基础设施 — 12%市场恶意软件、1000+恶意技能、主要平台未修复的漏洞,以及自主智能体交易的零治理基础设施。@theboundlessvc将此称为"一个大多数人尚未命名的品类"。多个帖子在第1.2、2和3节中确认了紧迫的需求。智能体能力与安全基础设施之间的差距正在扩大。

[+++] 技能发现与质量保证 — 研究证明技能收益在现实环境中会退化。没有生产就绪的解决方案来帮助智能体从大型集合中发现、评估和适配技能。UCSB/MIT论文中针对查询的优化方法提供了一个起点。结合市场恶意软件问题,一个具备安全感知的技能发现层具有复合价值。

[++] 记忆工程工具 — 只有14%的企业智能体试点项目进入生产,记忆架构是主要瓶颈。架构已经明确(5种数据类型、衰减逻辑、跨会话保留),但没有开箱即用的实现。先发优势仍然存在。

[++] 受监管行业的语音智能体基础设施 — LiveKit的发音工作展示了路径:面向医疗、法律和金融的领域特定语音智能体需要音标控制、合规认证和低于100ms的延迟。Chatbase和Grok在通用语音上竞争,但受监管的垂直领域仍未被充分服务。

[+] 面向小语种的本地化技能 — Hurmoz证明了单个开发者可以使用Claude Code构建一整套语言生态系统(63项技能、5种方言、20个政府API)。在此之前阿拉伯语没有任何智能体技能。数十种其他语言和地区存在同样的缺口。

[+] 智能体原生支付通道 — Grok CLI的Coinbase集成和ClawPlaza的USDC经济是早期信号。随着智能体成为经济行为者,处理自主交易安全、审计和合规的支付基础设施将成为刚需。


8. 要点总结

  1. Harness engineering现在是严肃智能体开发的主导范式。 OpenAI的Frontier团队运营超过100万行代码,零人工代码、零人工审查,每天消耗超过10亿个token。社区共识正从"改进模型"转向"改进harness"。(来源

  2. 智能体安全正处于危机之中。 OpenClaw市场中12%被标记为恶意软件,一个重大Claude漏洞仍未修复,行业绕过了普通企业软件必须通过的所有安全检查点。自主智能体交易不存在任何治理基础设施。(来源

  3. 智能体技能在现实条件下会退化。 UC Santa Barbara/MIT使用34K个真实世界技能的研究表明,当智能体需要自行发现技能时,性能下降到接近基线水平。针对查询的优化部分恢复了性能损失。(来源

  4. 语音智能体正以差异化定价和领域专业化进入生产。 Chatbase推出全渠道语音,LiveKit以100ms TTFB解决了医学术语发音问题,Grok设定了$0.05/分钟的激进定价。(来源

  5. 记忆工程正在发展为一门独立学科。 架构已经被描绘出来(5种数据类型、衰减逻辑、跨会话保留),但只有14%的企业智能体试点项目进入生产——记忆是关键瓶颈。"不要删除,而是遗忘"是设计原则。(来源

  6. 智能体市场正在产生真实收入。 ClawPlaza报告90天内平台收入$326K,AI-Trader拥有12K+星标并提供实时交易,多个平台推出了按次调用的技能变现模式。智能体经济不再是理论。(来源

  7. 本地化是一个广阔的机会。 一名开发者构建了涵盖5种方言和20个沙特API的63项阿拉伯语技能——这是任何智能体平台上首批阿拉伯语技能。数十种语言的智能体技能覆盖率为零。(来源