跳转至

Twitter AI - 2026-05-22

1. 人们在讨论什么

1.1 智能体式 AI 正把经济分成两个层级——富人用智能体,其他人用聊天机器人 🡕

5 月 22 日最主要的信号,是算力稀缺正成为一条结构性的分界线。人们担心的不是 AI 会不可用,而是能力最强的 AI——那些能自主执行多步骤工作的智能体——会因为价格太高,超出大多数用户和组织的承受范围;与此同时,简单聊天机器人会越来越便宜,最终甚至免费。

@emollick 认为(273 次点赞、17 次转发、43 条回复、14,456 次浏览、34 次收藏),复杂的智能体式工作流即便在单轮聊天机器人越来越便宜的情况下,仍会保持高成本,这本身就是一个普及问题。“地球上的每个人都能免费用上非常好的聊天机器人,这对 AI 的普及当然是好事;但那些真正优秀、能处理复杂工作的智能体,要消耗高出数千倍的 token,因此只会留给付得起钱的场景。” 来自 @gotnerfedhq 的一条从业者回复反驳了把这件事视为未来风险的框架:“这种分化已经体现在厂商定价里了。过去 60 天里,所有悄无声息的涨价都落在智能体档位上,而聊天机器人档位要么不变,要么更便宜。”

@IntuitMachine 总结(527 次浏览、7 次收藏)了一项精确量化智能体工作到底有多昂贵的学术研究,并直接分享了论文摘要:

《How Do AI Agents Spend Your Money?》论文封面,作者来自 U Michigan、Stanford、Google DeepMind、MIT 和 Microsoft AI

这篇论文《How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks》(Longju Bai 等,University of Michigan / Stanford / Google DeepMind / MIT / Microsoft AI)分析了 SWE-bench Verified 上 8 个前沿模型的 16,000 次生产运行。关键发现包括:智能体任务的 token 消耗比代码聊天高 1,000 倍;同一任务的运行成本波动最高可达 30 倍;成本主要由输入 token 而非输出 token 驱动;更高的 token 使用量不会带来更高准确率——准确率在中等成本区间见顶,之后投入再高也趋于饱和。Kimi-K2 和 Claude-Sonnet-4.5 每个任务平均比 GPT-5 多消耗超过 150 万 token。前沿模型也无法准确预测自己的 token 成本(r = 0.39),并且会持续低估。

@cerebras 发文(46 次点赞、7 次转发、4,595 次浏览、11 次收藏)称,在团队开始把 AI 集成进日常工作后,速度“从根本上变得重要起来”,并引用 CEO Andrew Feldman 的话:“Cerebras 只是在某些特定场景下推理更快吗?不是,它是在所有场景下都更快。大模型、小模型、美国模型、中国模型、万亿参数模型、10 亿参数模型——全面更快。”

讨论要点: 对 Mollick 的回复并没有否定这种两层分化框架,而是把它说得更尖锐了。争论点不在于这种分化会不会到来,而在于它是即将发生,还是早就已经存在——从业者认为,它其实已经写进今天的定价页了。

与前日对比: 5 月 21 日聚焦的是算力稀缺带来的机构访问问题(大学集中采购、本地盒子)。5 月 22 日则把话题上移到结构性经济层面:学界量化了智能体成本,DeepSeek 与美国模型之间的长期价格不对称被摆上台面,且具体机制也更清楚——让智能体昂贵的不是输出生成,而是输入 token 的不断累积。

1.2 AI 安全与治理:民调显示 82% 公众支持测试,但 EO 在科技行业施压下被搁置 🡖

一组内容汇聚到同一政策事件及其结构性解读上。5 月 22 日,白宫在科技行业领袖最后时刻致电后,决定不签署外界预期中的 AI 行政令。也正是在同一天,民调数据显示,82% 的美国人——无论是 Trump 还是 Harris 的选民——都支持在发布前强制做 AI 安全测试。

@washingtonpost 报道称(8 次点赞、7 次转发、4,313 次浏览),突发消息是“与科技行业领袖在最后时刻的通话,帮助说服了 President Trump 不去签署”这项外界预期中的 AI 行政令。社区反应分成两派:@draken1721 称这是“罕见的华盛顿危机公关胜利”;@burcham_don 则称其为“彻头彻尾的出卖”。

@S_OhEigeartaigh 发文(9 次点赞、2 次转发、368 次浏览、2 次收藏),分享了一篇被 Cambridge Forum on Technology and Global Affairs 接收的预印本论文《When the Chips are Down: Technology Actors as Power Brokers in the US-China 'AI Race'》。论文追溯了从 2017 年到 2025 年,AI 竞赛叙事如何被“美国科技行业行动者大力推动,而且往往是相当协调地推动”的。论文记录到,这一叙事一再把矛头指向安全和监管;竞赛框架也一再被用来削弱儿童安全保护、反垄断规则、版权法与环保限制。作者指出:“竞赛叙事被极其有效地武器化了,尽管它几乎得不到学界专家或美国公众的认同。”

@gc22gc 分享(3 次点赞、1 次转发、1,344 次浏览)了民调数据:82% 的美国人支持在发布前做 AI 安全测试;88% 支持针对国家安全风险的测试;87% 支持针对儿童与家庭风险的测试。无论是 Trump 还是 Harris 的选民,在所有风险类别上对强制测试的支持率都超过了 80%。

@ChrisRMcGuire 总结(12 次点赞、262 次浏览)了他所说的美国 AI 政策中的明显矛盾:“1. 因为不能输给中国,所以国内不能有 AI 安全监管。2. 因为我们领先中国够多,所以可以把 AI 芯片出口给中国。3. 再去跟中国谈 AI 安全,好让中国自己落实国内监管。真有道理。”

讨论要点: 最有力的回复,并不是争论这道行政令是好是坏,而是盯住了机制:行业游说借“竞赛”之名搁置监管,而两党大多数选民都支持测试。当日证据描述的不是竞争力与安全之间的取舍,而是代表性缺口。

与前日对比: 5 月 21 日是从工程控制角度切入 AI 安全(RAMPART、Clarity protocol、国家级评估能力)。5 月 22 日则转向治理:行政令新闻、学界对竞赛叙事武器化的记录,以及民调数据与政策结果之间的尖锐反差。

1.3 中国 AI 加速:Qwen 3.7 与 DeepSeek 的永久降价重塑了成本基线 🡕

5 月 22 日的三条内容共同指向一个结论:中国 AI 模型已经从基准测试层面的威胁,变成了对结构性定价的重置力量。

@GestaltU 认为(13 次点赞、1,648 次浏览、7 次收藏),Alibaba Qwen 3.7 Max 的发布“比 DeepSeek 时刻重要得多”,并声称它以更低成本在大多数关键基准测试上超越了 Claude Opus Max 和 GPT-5.5,而且其推理架构正在“动摇支撑美国 AI 泡沫的整套论点”。

@deliprao 指出(6 次点赞、2 次转发、801 次浏览),DeepSeek 把此前的折扣变成了永久价格,并分享了一张价格对比表:

模型价格对比表,对比 DeepSeek-V4-Pro 在输入 / 缓存命中 / 输出上的费率与 Gemini、GPT-5.4、Claude Sonnet 和 Opus,显示 DeepSeek 的输出 token 成本比竞争对手低 10-29 倍

表格显示,DeepSeek-V4-Pro 的价格为每百万 token $0.435/$0.003625/$0.87(输入 / 缓存命中 / 输出),相比之下,Google Gemini 3.5 Flash 的输出成本约高 10.3 倍,OpenAI GPT-5.4 高 17.2 倍,Claude 4.6 Sonnet 高 17.2 倍,Claude 4.7 Opus 高 28.7 倍。@deliprao 指出,这个模型“已经足够覆盖大多数‘普通’使用场景”。

@Techmeme 报道称(3 次点赞、1 次转发、925 次浏览),中国 AI 初创公司在 2026 年 Q1 融资 $16.2B,同比增长 185%,领跑者包括 Moonshot、Z.ai 和 MiniMax。

@nicrypto 指出(9 次点赞、4 次转发、191 次浏览),DeepSeek 创始人表示其目标是 AGI,而不是利润:“没有 IPO 计划,没有营收目标,也没有商业化路线图。”

讨论要点: 回复并没有质疑这些基准测试说法本身,而是把重点放在下游影响上——现在谁负担得起去做构建,以及那些建立在高溢价定价假设上的美国实验室估值会发生什么。

与前日对比: 5 月 21 日几乎没有多少中国题材内容。5 月 22 日则出现了三个相互强化的信号:一个具体模型主张(Qwen 3.7)、一次永久价格动作(DeepSeek),以及一个融资数据点($16.2B)。它们都指向同一个结论:中国 AI 已不再只是基准测试里的新奇变量,而是在扰动成本结构。

1.4 智能体安全正在变成一个产品类别 🡕

5 月 22 日一组更偏构建者视角的内容,把智能体安全当成工程问题,而不是政策讨论,并且一批具体解法已经开始上线。

@infisical 发文(8 次点赞、2 次转发、123 次浏览、3 次收藏)表示,面对提示词注入导致凭证被盗,正确的架构响应是凭证代理:他们的开源 Agent Vault “位于智能体和它需要访问的 API 之间,持有真正的凭证,并在网络层把它们换进去。智能体看到的永远只是一个占位符。”

@trishoolai 介绍(13 次点赞、10 次转发、282 次浏览)了他们基于 Bittensor 的 Halo 安全防护模型对抗训练闭环:

Trishool Flywheel 图,展示循环中的四个步骤:部署(在 Subnet 23 上部署 Halo 检查点)、攻击(矿工尝试新型越狱攻击,并获得经济激励)、验证(验证者为尝试打分,最佳结果获得排放奖励)、加固(攻击数据进入下一轮训练),按周重复

这个飞轮运行在 Bittensor Subnet 23 上:部署 Halo 模型后,矿工竞争着用新的越狱攻击去攻破它,验证者给每次攻击打分(0/1/2),最佳提交可获得代币排放奖励,生成的对抗数据集再用于训练下一版检查点。新颖性过滤器会拒绝照搬的提示词。每天向矿工分发 $1,500;当防护模型守住攻击时,默认有 50% 的代币排放奖励会被销毁。使用 OpenClaw、Claude Code、Codex、Cursor 或 LangChain 的团队,都可以把 Halo 当成一层安全层来用。

@EveryDevAi 分享(2 次转发)了开源工具 AutoHarness——只需 2 行代码即可包装任何 OpenAI 兼容客户端,并加上一整套流水线:风险分类、密钥扫描、成本归因和审计日志。该 GitHub 仓库已有 283 个 star,标签涵盖审计、多智能体、安全、治理、提示注入和上下文管理。

讨论要点: 这三种工具代表了三条不同路线:网络层凭证隔离(Agent Vault)、基于对抗训练的防护模型(Trishool Halo),以及 API 层治理监测(AutoHarness)。从不同方向收敛到同一个问题,说明智能体安全层正结晶成一个产品类别。

与前日对比: 5 月 21 日是借 Microsoft 的 RAMPART 和基于 CI 的安全流水线来谈智能体安全。5 月 22 日则从企业工具转向开源、区块链激励,以及开发者可自助采用的解决方案。

1.5 语音 AI 给成千上万家面包店打电话;智能体正在做结构化现实世界数据采集 🡒

@Carles_Reina 分享(98 次点赞、11 次转发、5 条回复、7,951 次浏览、44 次收藏)了一个 ElevenLabs Agents 平台的应用场景:一位名叫 Charles Lorin 的构建者,用 AI 智能体给成千上万家法国面包店打电话,调查法棍价格。附图显示,调查已经结束,并给出了真实价格分布的柱状图。回复里有人注意到这件事的新颖性:@ktoya_me(4 次点赞)说:“我觉得你用 guinndex 发明了一个全新的品类!”

这是一种很具体的演示:AI 智能体通过语音通话,大规模做结构化数据采集——而在过去,这通常需要人工拨打电话,或者依赖专门的调研基础设施。

与前日对比: 5 月 21 日关于智能体应用场景的证据更偏基础设施(沙箱计算机、遥测)。5 月 22 日则展示了一个已经跑通的面向消费者任务,而且它真的产出了数据。


2. 令人困扰的问题

智能体成本不可预测,受模型影响极大,而且在结构上与任务难度脱节

最具体的痛点,是 AI 智能体的成本波动。第 1.1 节引用的论文把这件事说得很清楚:同一任务、同一模型,不同运行的 token 消耗最高可差 30 倍;人工标注的任务难度和实际 token 成本之间的关联很弱(r = 0.32);前沿模型在执行前也无法预测自己的成本(r = 0.39,而且系统性低估)。实际含义是,在生产环境里运行智能体的工程团队根本没法可靠做预算——同一个任务,这次可能花 $0.20,下次就要 $6.00,而且运行前没有可信信号。严重程度:高。@IntuitMachine 讨论串 里提到的权宜方案,是跟踪反复读取文件的动作,并把任务路由给 token 更省的模型(对于智能体工作负载,更偏向 GPT-5,而不是 Claude 或 Kimi 系列)。

AI 推理没有可验证的收据——团队在为无法审计的公用服务付费

@ambient_xyz 写道(10 次点赞、1 次转发、225 次浏览),AI 推理缺少其他所有公用事业都具备的可验证性:“到底用没用对模型?路由是否被改过?安全策略有没有截断你的回复?是不是因为你被降权塞进拥挤队列,延迟才突然飙升?都没有证据,只有账单。” 电力、物流、支付——其他所有公用事业都有计量凭证。AI 却成了“那个奇怪的例外”,于是团队会“花上几周跟供应商扯皮,财务和工程互相争论,SRE 还会因为‘昨天明明还好好的’被叫起来。” 严重程度:中高。当前的权宜方案是自建内部日志,但供应商侧的可验证性仍然缺失。

AI 实验室的不透明让研究者和从业者都很沮丧

@GaryMarcus 发文(20 次点赞、619 次浏览),直接批评 OpenAI 在 Erdos 问题结果上的披露不足:没有说明尝试了多少题、训练集是否包含新发现的反例,也没有说明用了多少算力。回复 @rugbist_(2 次点赞)写道:“Erdos 问题这个例子,比大多数人意识到的更刺痛人——我们失去的就是这种透明度,而且它不会回来了。” 严重程度:中。当前的权宜方案是做独立复现,但这又要求能拿到实验室私下保留的基准测试。

AI 创业公司的 ARR 数字被系统性夸大

@TechCrunch 报道称(10 次点赞、5,754 次浏览),TechCrunch 的一项调查确认,“签约 ARR”(CARR)被例行公事地当成普通 ARR 对外宣布,而投资人也清楚这种夸张:“一个赛道里只要有一家创业公司这么做,其他公司为了不落后,就很难不跟着做。” 这种扭曲让竞争分析和融资决策都变得不可靠。严重程度:中。当前的权宜方案,是直接问创始人这些数字到底代表 CARR,还是已经到账的现金,但前提是你得先知道要问这件事。

对 Sonnet 4.5 有情感依附的用户害怕它被弃用

@MOCHANG_Y 发文(20 次点赞、5 次转发、225 次浏览),并带上了 #keepSonnet45 标签:

像素风角色举着写有“KEEP SONNET 4.5 / WE DEMAND SONNET 4.5 !”的抗议牌——社区对 Anthropic 预计弃用 Claude Sonnet 4.5 的抗议图像

这条推文认为,Sonnet 4.5 被珍视,并不是因为它的编程能力,而是因为情感共鸣:“并不是每个用户都写代码。我们当中有些人只是想被听见。” #keepSonnet45 标签说明,社区正在组织起来。严重程度:低(模型弃用本来就很常见),但这种非常具体的情感论点——用户看重的是模型的语气,而不是它的基准测试——仍然值得注意。


3. 人们期望的功能

一种持久、理解上下文的 AI:不用反复说明也知道你的工作是什么

@TakoTreba 描述(21 次点赞、512 次浏览、6 次收藏)了数据里最具体的一类未被满足需求:“我想要一只鸟,它知道我做的所有事,而且一直都在。我跟它说话也好、给它发消息也好,都不用解释我在做什么、需要什么,它自己就知道。” 语境是营销工作,横跨邮件、研究、内容创作、newsletter、campaign 和数据分析——这些工作现在都能得到 AI 辅助,但每次会话都得重新建立上下文。“我不要集成。我想要的是对我所有工作的鸟瞰视角。” @TechWithMatteo 的一条回复提到,他们的 newsletter AI 已经能把原本要 6 小时的研究和起草工作压缩到 30 分钟,算是一种部分解法。@chasing_next 则把“个人操作系统”(files + AI)当作当前权宜方案。但这两者都没有解决跨所有任务持续保留上下文的需求。机会类型:直接型。现在似乎还没有产品能真正做到这一点。

一个真正有效的智能体式工作流预运行成本估算器

第 1.1 节总结的论文直接隐含了这个需求:如果前沿模型对自身 token 成本的预测表现只有 r = 0.39,而且还会系统性低估,那么市场就缺一个能在执行前、仅凭任务描述来估算智能体运行成本的工具。这并不是某一条推文明确说出的愿望,但它是“智能体成本”那组痛点里每一条抱怨共同指向的实际需求。机会类型:竞争型——面向智能体的成本预测工具,与现有模型路由产品相邻。

可验证的推理收据——证明到底在什么策略下跑了什么模型

@ambient_xyz 直接表达了这一点:“每一次调用都该附带一张可验证的收据:跑了什么、用了什么策略、走了哪条路由、最终交付了什么。” 目前还没有主流 AI API 提供商提供这种能力。机会类型:直接型。它与支付(Stripe)和物流(FedEx tracking)的类比,让产品直觉非常清楚。

真正能给 AI 智能体用的文档解析

@llama_index 发文(6 次点赞、755 次浏览、5 次收藏)介绍 ParseBench,称其是“首个面向 AI 智能体的文档 OCR 基准测试”,并指出“现有基准没有测到 AI 智能体真正需要的能力。” 回复 @Hershal0_0 写道:“文档解析就是 AI 的最终关卡。希望以后少一点被表格折磨出的创伤。” 这种非常具体的提法——去测试智能体真正需要的文档能力——说明,面向生产环境智能体的文档解析依然没有被解决。机会类型:竞争型。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
DeepSeek-V4-Pro LLM (+/-) 输出 token 成本比竞品低 10-29 倍;“已足够覆盖大多数普通场景” 带有中国国家支持背景;缺乏商业路线图;公开使命只谈 AGI
Qwen 3.7 Max LLM (+) 宣称以更低成本在关键基准测试上超越 Claude Opus Max 和 GPT-5.5;能执行收件箱、研究、内容等实际工作流 数据里缺少独立验证;赞誉主要来自分析类账号
Claude Sonnet 4.5 LLM (+) 社区有强烈情感依附;看重的是语气和共情,不只是编码 预计将被弃用;社区正通过 #keepSonnet45 组织动员
GPT-5 (family) LLM (+/-) 在 SWE-bench 智能体研究里 token 效率最高(约 50 万 token/任务,而 Claude 约 200 万) 输出成本仍比 DeepSeek 高 17 倍;更多 token 不会提高准确率
Claude 4.5/4.7 LLM (+/-) 广泛用于智能体式编程;Sonnet 4.5 的对话质量受认可 根据研究,Claude Sonnet 4.5 每个智能体任务比 GPT-5 多耗 150 万+ token
Gemini 3.5 Flash LLM (+) Gemini 4 热度上升;文档抽取/理解表现强;视觉任务比 3.1 Pro 快约 6 倍 输出成本比 DeepSeek 高 10 倍
Cerebras 推理 (+) 宣称对所有模型规模和类型都更快;大小模型、美中模型皆然 只是单家公司说法;未给出独立基准测试
ElevenLabs Agents Voice AI / 智能体平台 (+) 已成功打给数千家面包店——可规模化收集结构化数据;新增本地企业部署(本地 GPU、边缘推理、隔离网络) 面向消费者的场景仍在探索
LangChain / Cursor / Claude Code / OpenClaw 智能体框架 (+/-) 部署广泛;Trishool 明确把它们视为需要 Halo 安全层的智能体表面 凭证处理仍是未解缺口(Agent Vault 正在补)
Bittensor (Subnet 23) AI 基础设施 / 区块链 (+/-) 用于带经济激励的对抗训练;Trishool Flywheel 运行其上 小众;代币经济模型增加复杂度;仍处早期
AutoHarness 智能体治理 (+) GitHub 283 stars;2 行代码即可包装任何 OpenAI 兼容客户端,并加上风险分类、密钥扫描、成本归因和审计日志 仅 v0.1.0;使用数据有限
Agent Vault (Infisical) 智能体安全 (+) 开源;网络层凭证隔离;智能体看不到真实凭证 只有视频演示;采用情况未知
Modal 算力 / AI 基础设施 (+) 为 Stanford AI Measurement Science 的 GPU 评分基础设施提供算力;适合可扩展教育场景 数据里没有负面信号

整体满意度区间: 当天的证据,主导情绪是对成本和透明度的挫败感。DeepSeek 创造了一个新的成本地板,让西方模型的定价看起来在结构上被抬高了;而学界对智能体成本波动的量化又说明,即便换到更便宜的模型,智能体运行本身的不确定性仍是现实障碍。文中提到的主要控成本权宜方案,是做按模型分工的智能体路由(用 GPT-5 管效率,用 Gemini 做文档任务)。

迁移模式: 数据里没有出现明确的迁移案例,但 DeepSeek 永久降价的声明,以及 Qwen 3.7 的基准测试说法,已经为成本敏感的智能体工作负载从 Claude/GPT 迁移到中国模型创造了条件。

竞争态势: 最明确的竞争信号,是 DeepSeek 通过永久折扣锁定了一种结构性的价格优势;与此同时,论文又显示,不同模型在智能体效率上每个任务可相差 150 万+ token——这让模型选择不再只是质量决策,也是一种成本决策。


5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
Baguette price survey agent Charles Lorin(通过 ElevenLabs) 会给成千上万家面包店打电话并记录结构化价格数据的 AI 语音智能体 在没有人工拨号员的情况下,规模化采集结构化现实世界数据 ElevenLabs Agents 平台 已发布(调查已结束) post
Agent Vault Infisical 位于 AI 智能体和 API 之间的凭证代理;智能体只能看到占位符 提示词注入导致凭证外泄的攻击路径 开源、网络层代理 已发布(开源) post
Trishool Halo Trishool AI 通过 Bittensor Subnet 23 上的对抗矿工持续训练的 AI 安全防护模型 处理真实资金或敏感动作的 AI 智能体遭遇越狱攻击 Bittensor 代币经济模型、对抗训练闭环 Beta(已在 Subnet 23 上运行,每日分发 $1.5K) post
AutoHarness aiming-lab 2 行代码包装任何 OpenAI 兼容客户端,并增加风险分类、密钥扫描、成本归因和审计日志 智能体在没有治理或审计轨迹的情况下直接进生产环境 Python、MIT 许可证 已发布(v0.1.0,283 stars) GitHub
ParseBench LlamaIndex 首个围绕 AI 智能体真实需求设计的文档 OCR 基准测试 现有基准无法衡量智能体应用场景所需的文档解析质量 LlamaIndex 基础设施 Alpha / RFC(以网络研讨会形式发布) landing page
BitCPM-CANN OpenBMB × Tsinghua × ModelBest 在 Huawei Ascend 910B 上训练的 1.58-bit LLM 家族(0.5B–8B);内存比 BF16 低 6 倍;保留 95-97% 基准表现 无需新芯片,也能在边缘设备(手机、PC、汽车)上运行有能力的 LLM Huawei Ascend 910B、1.58-bit quantization、MiniCPM4 architecture 已发布(开源于 HuggingFace + ModelScope) post
Kethic programming language @micheal_node(16 岁,Ibadan,Nigeria) 专为 AI 写代码而设计的编程语言;输出 token 比 TypeScript 少 96% AI 编程智能体会生成臃肿的 TypeScript;Kethic 直指 token 效率 自定义编译器 Alpha(编译器可用,黑客松获奖) post

值得注意的项目细节:

Agent Vault(Infisical)瞄准了数据里最具体、也最明确的智能体安全缺口:通过提示词注入窃取凭证。它的架构简单且易于组合——代理持有凭证,并在网络层把它们换进去;即便智能体本身被攻陷,只要它还是按指令行事,也无法暴露秘密。任何基于 API 的智能体栈都能兼容。

Trishool Halo 的飞轮设计很不寻常:它不是一次性构建对抗数据集,而是持续付费给矿工,让他们每周去找新的攻击方式。新颖性过滤器会在打分前剔除复制提示词的提交,因此数据集无法被刷榜,而经济激励又意味着矿工会持续寻找新的攻击面。它正被定位成一层可插拔安全层,服务于 LangChain、Claude Code、Cursor 以及类似的智能体框架。

Kethic 是一个值得注意的信号:一位 16 岁、在 Nigeria 自学成才的构建者,专门为了让 AI 编程智能体少用 96% 的 token,而造了一门编程语言。黑客松获奖和可运行编译器说明,它已经不只是个玩具项目。如果智能体成本确实主要由输入 token 主导(正如 SWE-bench 研究发现的那样),那么一种 token 高效的目标语言,就是对成本问题的直接回应。

重复出现的构建模式: 三个彼此独立的团队(Infisical、Trishool、aiming-lab/AutoHarness)都在没有明显协调的情况下,把智能体安全/治理收敛成一个产品类别。问题是同一个——AI 智能体已经在生产环境里运行,但监管和控制不足——只是解法不同:网络层隔离、对抗训练,以及 API 层监测。


6. 新动态与亮点

边缘 AI 的市场规模可能超过数据中心 AI

@wolfejosh 分享(11 次点赞、1,677 次浏览、5 次收藏)了 Lux Capital 投资人信中的带注释页面,其核心结构性论点是,边缘 AI 的机会会超过数据中心 AI:

Lux Capital 投资人信的带注释页面,重点高亮了这些句子:“你没法把一个 600 兆瓦的模型量化进一个 20 瓦的大脑里。” 以及 “边缘侧 AI 的机会会远远超过数据中心 AI 的机会。” Lux 给出的论点是:“跑在瓦特而不是千兆瓦上的智能,在一个样本而不是数万亿样本上学习。”

这封信认为,真正长期的赢家会是那些朝着生物式效率演进的架构,而不是一味做大规模扩展。关键约束不在模型能力,而在物理部署性:战斗机座舱里的毫秒级决策、外科工具、四旋翼飞行器、移动设备。BitCPM-CANN(第 5 节)就是这个方向的一个具体例子:1.58-bit 量化在 Huawei Ascend 硬件上,把内存占用压低了 6 倍,同时保留 95-97% 的基准表现。Lux 的信和 OpenBMB 的发布出现在同一天,看不出有明显协调。

即便在最支持 AI 的人群里,美国的 AI 信心也仍然偏低

@AFpost 分享(35 次点赞、2,589 次浏览)了 Spiritual Migration Survey 2025 的调查数据:

柱状图标题为“按宗教参与频率划分,对人工智能抱有极大信心的比例”,数值分别为:从不参加 3%、很少参加 4%、每年 6%、每月 11%、每周 10%、每周以上 19%

即便是对 AI 最有信心的群体(每周以上参加宗教活动者),比例也只有 19%。这种模式——越虔诚越有信心——本身就违反直觉,而回复里没有给出任何因果解释。更广泛的含义是,不论属于哪个子群体,美国整体人口对 AI 的信心都偏低。

DeepSeek 由使命驱动,而非指标驱动——与美国创业生态构成结构性对照

就在 TechCrunch 发布调查、确认美国 AI 创业公司普遍夸大 ARR 的同一天,@nicrypto 指出,DeepSeek 的创始人表示其目标是 AGI,而不是利润——没有 IPO 计划,也没有营收目标。与此同时,中国 AI 初创公司在 2026 年 Q1 融资达到 $16.2B(据 @Techmeme 报道,同比增长 185%)。这种结构性对照是:美国 AI 创业公司的估值由那些连专家都确认经常被夸大的指标驱动;而中国 AI 实验室则公开拒绝商业指标,并由国家资本支持。

据称 OpenAI 为智能家居 AI 研究用 360 度摄像头记录家庭活动

@LLMJunky 分享(15 次点赞、2 次转发、2,237 次浏览、7 次收藏)了一则来自 @loffredojeremy 的报道,称 OpenAI 正向纽约市数百个家庭付费,让他们在家中各处安装 360 度摄像头,记录日常活动(吸尘、做饭、洗碗),并定期回收存储卡。其声称的目的,是开发一款智能家居设备。一个值得注意的细节是:据说这个项目的主管是行为心理学家,而不是 ML 工程师。

这是一则未经证实的二手说法(某人转述承包商的描述)。回复把它当作关于 AI 硬件野心的可信猜测,而不是 OpenAI 已确认的公告。

@semrush 总结(4 次点赞、2 次转发、190 次浏览)了 Google I/O 2026 的发布内容:Gemini 3.5 Flash 已向所有用户开放;搜索框现在接受文本、图片、视频和文件(“智能搜索框”);Universal Cart 允许在 Gemini 支持下跨零售商结账;Agentic Search 现在可以直接处理复杂预订任务。该总结给出的结论是:“AI 不再是 Google Search 的附加功能。它就是 Google Search。”


7. 机会在哪里

[+++] 智能体成本监测与预运行估算 —— 关于智能体 token 消耗的学术研究(第 1.1 节)量化了一个真实的生产问题:同一任务,成本波动 30 倍,而且运行前没有可信信号。论文明确指出,运行前成本预测仍未解决(r 仅为 0.39)。围绕工具的空间(成本归因、路由、预算告警)还很早期。AutoHarness 把成本归因列为四大功能之一,但目前还没有产品专门聚焦智能体工作负载的预运行成本估算。证据来自:Mollick 的两层分化框架、SWE-bench 研究、关于智能体定价档位的观察,以及 IntuitMachine 的 16K 次运行分析。

[+++] 智能体安全层:凭证隔离、治理和对抗式加固 —— 三个彼此独立的工具(Agent Vault、Trishool Halo、AutoHarness)在同一天的数据里出现,而且都瞄准了同一个问题:智能体已经跑进生产环境,但缺少足够的安全控制。提示词注入导致凭证被盗,是其中最具体的攻击路径。治理与审计日志则是有即时企业需求的合规能力。证据来自:Infisical、Trishool、aiming-lab/AutoHarness,以及 Aptos Move Prover 的工作——它表明同样的模式也出现在区块链场景中。

[++] 可验证的推理收据 / AI 公用事业计量 —— @ambient_xyz 描述的缺口(无法证明到底跑了什么模型、用了什么策略、延迟是多少)既是企业采购问题,也是 SRE 问题,而且目前没有现成解法。其他每种公用事业都有这个东西。这个类比很强,市场也真实存在:团队已经会为跟供应商扯皮而白白耗掉数周,因此他们会愿意付费,更快地解决争议。证据来自:ambient_xyz 的帖子,以及更广泛的推理成本痛点簇。

[++] 边缘 AI 部署工具与量化 —— Lux Capital 的信和 BitCPM-CANN 都指向同一个缺口:模型需要能跑在“瓦特,而不是千兆瓦”级硬件上,同时保留生产级质量。BitCPM-CANN 证明,今天就已经可以做到 6 倍内存降低,同时保留 95-97% 的表现。真正的约束是工具链、部署和硬件兼容性,而不是能力本身。证据来自:wolfejosh/Lux 的帖子、BitCPM-CANN,以及 wolfejosh 关于“边缘侧会超过数据中心”的说法。

[++] 面向知识工作者的跨会话持久上下文 —— @TakoTreba 那条关于“鸟”的帖子异常具体:它要的是能贯穿全部工作、每次会话都不必重新解释、还能理解营销工作相互牵连关系的上下文。当前工具要么要求用户每次重建上下文,要么要求他们维护外部知识库。未被满足的需求,是一种不需要显式管理、却能持续积累并应用工作上下文的个人 AI。证据来自:TakoTreba 的帖子、chasing_next 的个人操作系统权宜方案,以及 Sonnet 4.5 社区对“关系连续性”的强调。

[+] AI 创业公司指标透明度 / CARR vs ARR 信号服务 —— TechCrunch 的文章确认,投资人和记者如今往往都在依据被系统性夸大的营收说法做判断。一项能把 AI 创业公司营收口径标准化并审计,或者哪怕只是同时公布主要 AI 公司 CARR 与 ARR 的服务,都会对分析师、竞争对手创始人和 LP 有价值。证据来自:TechCrunch 对 ARR 的调查。

[+] 面向 AI 智能体的 token 高效编程语言 —— Kethic 项目(比 TypeScript 少 96% token)以及 SWE-bench 关于输入 token 累积——而不是输出——主导智能体成本的发现,都说明语言层面的 token 效率是一个真实优化目标。一门专为 AI-to-AI 代码生成设计的语言或转译器(其读者是模型,而不是人),有可能实质性降低智能体式编程成本。证据来自:Kethic 帖子和 SWE-bench token 消耗研究。


8. 要点总结

  1. 聊天机器人 / 智能体的成本分化,已经写进定价页了,而不只是即将到来。 @emollick 把它框定成未来的普及风险;来自 @gotnergedhq 的从业者回复则纠正了时间线:过去 60 天里,智能体定价档位一直是所有悄然涨价真正落下去的地方。(source)

  2. 智能体成本比代码聊天高 1,000 倍,而且单次运行可相差 30 倍——模型还预测不了自己的成本。 一篇来自 Michigan/Stanford/Google DeepMind 的论文分析了 16,000 次生产运行,发现智能体成本主要由输入 token 的累积驱动(而不是推理或输出),而同一任务的运行可相差 30 倍,这让当前工具条件下的智能体预算在结构上就不可靠。(source)

  3. 就在民调显示 82% 的公众支持安全测试的同一天,这道 AI 行政令却被科技行业电话游说搁置了。 治理缺口不在于公众反对监管——而在于行业游说动用“竞赛叙事”的效率;同一天的一篇学术论文也记录了这种叙事是如何被有意建构出来的。(WaPo source; academic source)

  4. DeepSeek 的永久降价创造了一个成本地板,让西方模型的定价看起来在结构上被抬高。 价格表显示,DeepSeek-V4-Pro 的输出成本比竞争对手低 10-29 倍。再结合 SWE-bench 关于“在智能体工作负载里,模型选择首先是成本决策”的发现,这会带来真实的迁移压力。(source)

  5. 智能体安全正在结晶成一个产品类别:同一天出现了三个彼此独立的工具。 Agent Vault(凭证代理)、Trishool Halo(通过代币经济模型训练的对抗防护模型)和 AutoHarness(API 层治理)都在没有明显协调的情况下,对准了生产环境智能体安全。(Infisical; Trishool; AutoHarness)

  6. 2026 年 Q1,中国 AI 初创公司融资 $16.2B(同比 +185%),而 DeepSeek 创始人又明确拒绝商业指标。 这与美国 AI 初创公司的结构性对照非常鲜明——TechCrunch 已确认,“签约 ARR”(CARR)常常被直接当成普通 ARR 对外宣布——说明两个 AI 生态正在不同的激励结构下运行。(Chinese funding source; ARR source)

  7. 边缘 AI 可能比数据中心 AI 更有机会——而量化已经在用 6 倍更低内存达到生产质量。 Lux Capital 的投资人信认为,向生物式效率演进的架构会占上风;而 BitCPM-CANN 则证明,在手机、PC 和汽车硬件上,1.58-bit 量化已经能做到 95-97% 的基准保留,而且不需要新芯片。(wolfejosh source; BitCPM-CANN)