Twitter AI - 2026-05-22¶
1. 人们在讨论什么¶
1.1 智能体式 AI 正把经济分成两个层级——富人用智能体,其他人用聊天机器人 🡕¶
5 月 22 日最主要的信号,是算力稀缺正成为一条结构性的分界线。人们担心的不是 AI 会不可用,而是能力最强的 AI——那些能自主执行多步骤工作的智能体——会因为价格太高,超出大多数用户和组织的承受范围;与此同时,简单聊天机器人会越来越便宜,最终甚至免费。
@emollick 认为(273 次点赞、17 次转发、43 条回复、14,456 次浏览、34 次收藏),复杂的智能体式工作流即便在单轮聊天机器人越来越便宜的情况下,仍会保持高成本,这本身就是一个普及问题。“地球上的每个人都能免费用上非常好的聊天机器人,这对 AI 的普及当然是好事;但那些真正优秀、能处理复杂工作的智能体,要消耗高出数千倍的 token,因此只会留给付得起钱的场景。” 来自 @gotnerfedhq 的一条从业者回复反驳了把这件事视为未来风险的框架:“这种分化已经体现在厂商定价里了。过去 60 天里,所有悄无声息的涨价都落在智能体档位上,而聊天机器人档位要么不变,要么更便宜。”
@IntuitMachine 总结(527 次浏览、7 次收藏)了一项精确量化智能体工作到底有多昂贵的学术研究,并直接分享了论文摘要:

这篇论文《How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks》(Longju Bai 等,University of Michigan / Stanford / Google DeepMind / MIT / Microsoft AI)分析了 SWE-bench Verified 上 8 个前沿模型的 16,000 次生产运行。关键发现包括:智能体任务的 token 消耗比代码聊天高 1,000 倍;同一任务的运行成本波动最高可达 30 倍;成本主要由输入 token 而非输出 token 驱动;更高的 token 使用量不会带来更高准确率——准确率在中等成本区间见顶,之后投入再高也趋于饱和。Kimi-K2 和 Claude-Sonnet-4.5 每个任务平均比 GPT-5 多消耗超过 150 万 token。前沿模型也无法准确预测自己的 token 成本(r = 0.39),并且会持续低估。
@cerebras 发文(46 次点赞、7 次转发、4,595 次浏览、11 次收藏)称,在团队开始把 AI 集成进日常工作后,速度“从根本上变得重要起来”,并引用 CEO Andrew Feldman 的话:“Cerebras 只是在某些特定场景下推理更快吗?不是,它是在所有场景下都更快。大模型、小模型、美国模型、中国模型、万亿参数模型、10 亿参数模型——全面更快。”
讨论要点: 对 Mollick 的回复并没有否定这种两层分化框架,而是把它说得更尖锐了。争论点不在于这种分化会不会到来,而在于它是即将发生,还是早就已经存在——从业者认为,它其实已经写进今天的定价页了。
与前日对比: 5 月 21 日聚焦的是算力稀缺带来的机构访问问题(大学集中采购、本地盒子)。5 月 22 日则把话题上移到结构性经济层面:学界量化了智能体成本,DeepSeek 与美国模型之间的长期价格不对称被摆上台面,且具体机制也更清楚——让智能体昂贵的不是输出生成,而是输入 token 的不断累积。
1.2 AI 安全与治理:民调显示 82% 公众支持测试,但 EO 在科技行业施压下被搁置 🡖¶
一组内容汇聚到同一政策事件及其结构性解读上。5 月 22 日,白宫在科技行业领袖最后时刻致电后,决定不签署外界预期中的 AI 行政令。也正是在同一天,民调数据显示,82% 的美国人——无论是 Trump 还是 Harris 的选民——都支持在发布前强制做 AI 安全测试。
@washingtonpost 报道称(8 次点赞、7 次转发、4,313 次浏览),突发消息是“与科技行业领袖在最后时刻的通话,帮助说服了 President Trump 不去签署”这项外界预期中的 AI 行政令。社区反应分成两派:@draken1721 称这是“罕见的华盛顿危机公关胜利”;@burcham_don 则称其为“彻头彻尾的出卖”。
@S_OhEigeartaigh 发文(9 次点赞、2 次转发、368 次浏览、2 次收藏),分享了一篇被 Cambridge Forum on Technology and Global Affairs 接收的预印本论文《When the Chips are Down: Technology Actors as Power Brokers in the US-China 'AI Race'》。论文追溯了从 2017 年到 2025 年,AI 竞赛叙事如何被“美国科技行业行动者大力推动,而且往往是相当协调地推动”的。论文记录到,这一叙事一再把矛头指向安全和监管;竞赛框架也一再被用来削弱儿童安全保护、反垄断规则、版权法与环保限制。作者指出:“竞赛叙事被极其有效地武器化了,尽管它几乎得不到学界专家或美国公众的认同。”
@gc22gc 分享(3 次点赞、1 次转发、1,344 次浏览)了民调数据:82% 的美国人支持在发布前做 AI 安全测试;88% 支持针对国家安全风险的测试;87% 支持针对儿童与家庭风险的测试。无论是 Trump 还是 Harris 的选民,在所有风险类别上对强制测试的支持率都超过了 80%。
@ChrisRMcGuire 总结(12 次点赞、262 次浏览)了他所说的美国 AI 政策中的明显矛盾:“1. 因为不能输给中国,所以国内不能有 AI 安全监管。2. 因为我们领先中国够多,所以可以把 AI 芯片出口给中国。3. 再去跟中国谈 AI 安全,好让中国自己落实国内监管。真有道理。”
讨论要点: 最有力的回复,并不是争论这道行政令是好是坏,而是盯住了机制:行业游说借“竞赛”之名搁置监管,而两党大多数选民都支持测试。当日证据描述的不是竞争力与安全之间的取舍,而是代表性缺口。
与前日对比: 5 月 21 日是从工程控制角度切入 AI 安全(RAMPART、Clarity protocol、国家级评估能力)。5 月 22 日则转向治理:行政令新闻、学界对竞赛叙事武器化的记录,以及民调数据与政策结果之间的尖锐反差。
1.3 中国 AI 加速:Qwen 3.7 与 DeepSeek 的永久降价重塑了成本基线 🡕¶
5 月 22 日的三条内容共同指向一个结论:中国 AI 模型已经从基准测试层面的威胁,变成了对结构性定价的重置力量。
@GestaltU 认为(13 次点赞、1,648 次浏览、7 次收藏),Alibaba Qwen 3.7 Max 的发布“比 DeepSeek 时刻重要得多”,并声称它以更低成本在大多数关键基准测试上超越了 Claude Opus Max 和 GPT-5.5,而且其推理架构正在“动摇支撑美国 AI 泡沫的整套论点”。
@deliprao 指出(6 次点赞、2 次转发、801 次浏览),DeepSeek 把此前的折扣变成了永久价格,并分享了一张价格对比表:

表格显示,DeepSeek-V4-Pro 的价格为每百万 token $0.435/$0.003625/$0.87(输入 / 缓存命中 / 输出),相比之下,Google Gemini 3.5 Flash 的输出成本约高 10.3 倍,OpenAI GPT-5.4 高 17.2 倍,Claude 4.6 Sonnet 高 17.2 倍,Claude 4.7 Opus 高 28.7 倍。@deliprao 指出,这个模型“已经足够覆盖大多数‘普通’使用场景”。
@Techmeme 报道称(3 次点赞、1 次转发、925 次浏览),中国 AI 初创公司在 2026 年 Q1 融资 $16.2B,同比增长 185%,领跑者包括 Moonshot、Z.ai 和 MiniMax。
@nicrypto 指出(9 次点赞、4 次转发、191 次浏览),DeepSeek 创始人表示其目标是 AGI,而不是利润:“没有 IPO 计划,没有营收目标,也没有商业化路线图。”
讨论要点: 回复并没有质疑这些基准测试说法本身,而是把重点放在下游影响上——现在谁负担得起去做构建,以及那些建立在高溢价定价假设上的美国实验室估值会发生什么。
与前日对比: 5 月 21 日几乎没有多少中国题材内容。5 月 22 日则出现了三个相互强化的信号:一个具体模型主张(Qwen 3.7)、一次永久价格动作(DeepSeek),以及一个融资数据点($16.2B)。它们都指向同一个结论:中国 AI 已不再只是基准测试里的新奇变量,而是在扰动成本结构。
1.4 智能体安全正在变成一个产品类别 🡕¶
5 月 22 日一组更偏构建者视角的内容,把智能体安全当成工程问题,而不是政策讨论,并且一批具体解法已经开始上线。
@infisical 发文(8 次点赞、2 次转发、123 次浏览、3 次收藏)表示,面对提示词注入导致凭证被盗,正确的架构响应是凭证代理:他们的开源 Agent Vault “位于智能体和它需要访问的 API 之间,持有真正的凭证,并在网络层把它们换进去。智能体看到的永远只是一个占位符。”
@trishoolai 介绍(13 次点赞、10 次转发、282 次浏览)了他们基于 Bittensor 的 Halo 安全防护模型对抗训练闭环:

这个飞轮运行在 Bittensor Subnet 23 上:部署 Halo 模型后,矿工竞争着用新的越狱攻击去攻破它,验证者给每次攻击打分(0/1/2),最佳提交可获得代币排放奖励,生成的对抗数据集再用于训练下一版检查点。新颖性过滤器会拒绝照搬的提示词。每天向矿工分发 $1,500;当防护模型守住攻击时,默认有 50% 的代币排放奖励会被销毁。使用 OpenClaw、Claude Code、Codex、Cursor 或 LangChain 的团队,都可以把 Halo 当成一层安全层来用。
@EveryDevAi 分享(2 次转发)了开源工具 AutoHarness——只需 2 行代码即可包装任何 OpenAI 兼容客户端,并加上一整套流水线:风险分类、密钥扫描、成本归因和审计日志。该 GitHub 仓库已有 283 个 star,标签涵盖审计、多智能体、安全、治理、提示注入和上下文管理。
讨论要点: 这三种工具代表了三条不同路线:网络层凭证隔离(Agent Vault)、基于对抗训练的防护模型(Trishool Halo),以及 API 层治理监测(AutoHarness)。从不同方向收敛到同一个问题,说明智能体安全层正结晶成一个产品类别。
与前日对比: 5 月 21 日是借 Microsoft 的 RAMPART 和基于 CI 的安全流水线来谈智能体安全。5 月 22 日则从企业工具转向开源、区块链激励,以及开发者可自助采用的解决方案。
1.5 语音 AI 给成千上万家面包店打电话;智能体正在做结构化现实世界数据采集 🡒¶
@Carles_Reina 分享(98 次点赞、11 次转发、5 条回复、7,951 次浏览、44 次收藏)了一个 ElevenLabs Agents 平台的应用场景:一位名叫 Charles Lorin 的构建者,用 AI 智能体给成千上万家法国面包店打电话,调查法棍价格。附图显示,调查已经结束,并给出了真实价格分布的柱状图。回复里有人注意到这件事的新颖性:@ktoya_me(4 次点赞)说:“我觉得你用 guinndex 发明了一个全新的品类!”
这是一种很具体的演示:AI 智能体通过语音通话,大规模做结构化数据采集——而在过去,这通常需要人工拨打电话,或者依赖专门的调研基础设施。
与前日对比: 5 月 21 日关于智能体应用场景的证据更偏基础设施(沙箱计算机、遥测)。5 月 22 日则展示了一个已经跑通的面向消费者任务,而且它真的产出了数据。
2. 令人困扰的问题¶
智能体成本不可预测,受模型影响极大,而且在结构上与任务难度脱节¶
最具体的痛点,是 AI 智能体的成本波动。第 1.1 节引用的论文把这件事说得很清楚:同一任务、同一模型,不同运行的 token 消耗最高可差 30 倍;人工标注的任务难度和实际 token 成本之间的关联很弱(r = 0.32);前沿模型在执行前也无法预测自己的成本(r = 0.39,而且系统性低估)。实际含义是,在生产环境里运行智能体的工程团队根本没法可靠做预算——同一个任务,这次可能花 $0.20,下次就要 $6.00,而且运行前没有可信信号。严重程度:高。@IntuitMachine 讨论串 里提到的权宜方案,是跟踪反复读取文件的动作,并把任务路由给 token 更省的模型(对于智能体工作负载,更偏向 GPT-5,而不是 Claude 或 Kimi 系列)。
AI 推理没有可验证的收据——团队在为无法审计的公用服务付费¶
@ambient_xyz 写道(10 次点赞、1 次转发、225 次浏览),AI 推理缺少其他所有公用事业都具备的可验证性:“到底用没用对模型?路由是否被改过?安全策略有没有截断你的回复?是不是因为你被降权塞进拥挤队列,延迟才突然飙升?都没有证据,只有账单。” 电力、物流、支付——其他所有公用事业都有计量凭证。AI 却成了“那个奇怪的例外”,于是团队会“花上几周跟供应商扯皮,财务和工程互相争论,SRE 还会因为‘昨天明明还好好的’被叫起来。” 严重程度:中高。当前的权宜方案是自建内部日志,但供应商侧的可验证性仍然缺失。
AI 实验室的不透明让研究者和从业者都很沮丧¶
@GaryMarcus 发文(20 次点赞、619 次浏览),直接批评 OpenAI 在 Erdos 问题结果上的披露不足:没有说明尝试了多少题、训练集是否包含新发现的反例,也没有说明用了多少算力。回复 @rugbist_(2 次点赞)写道:“Erdos 问题这个例子,比大多数人意识到的更刺痛人——我们失去的就是这种透明度,而且它不会回来了。” 严重程度:中。当前的权宜方案是做独立复现,但这又要求能拿到实验室私下保留的基准测试。
AI 创业公司的 ARR 数字被系统性夸大¶
@TechCrunch 报道称(10 次点赞、5,754 次浏览),TechCrunch 的一项调查确认,“签约 ARR”(CARR)被例行公事地当成普通 ARR 对外宣布,而投资人也清楚这种夸张:“一个赛道里只要有一家创业公司这么做,其他公司为了不落后,就很难不跟着做。” 这种扭曲让竞争分析和融资决策都变得不可靠。严重程度:中。当前的权宜方案,是直接问创始人这些数字到底代表 CARR,还是已经到账的现金,但前提是你得先知道要问这件事。
对 Sonnet 4.5 有情感依附的用户害怕它被弃用¶
@MOCHANG_Y 发文(20 次点赞、5 次转发、225 次浏览),并带上了 #keepSonnet45 标签:

这条推文认为,Sonnet 4.5 被珍视,并不是因为它的编程能力,而是因为情感共鸣:“并不是每个用户都写代码。我们当中有些人只是想被听见。” #keepSonnet45 标签说明,社区正在组织起来。严重程度:低(模型弃用本来就很常见),但这种非常具体的情感论点——用户看重的是模型的语气,而不是它的基准测试——仍然值得注意。
3. 人们期望的功能¶
一种持久、理解上下文的 AI:不用反复说明也知道你的工作是什么¶
@TakoTreba 描述(21 次点赞、512 次浏览、6 次收藏)了数据里最具体的一类未被满足需求:“我想要一只鸟,它知道我做的所有事,而且一直都在。我跟它说话也好、给它发消息也好,都不用解释我在做什么、需要什么,它自己就知道。” 语境是营销工作,横跨邮件、研究、内容创作、newsletter、campaign 和数据分析——这些工作现在都能得到 AI 辅助,但每次会话都得重新建立上下文。“我不要集成。我想要的是对我所有工作的鸟瞰视角。” @TechWithMatteo 的一条回复提到,他们的 newsletter AI 已经能把原本要 6 小时的研究和起草工作压缩到 30 分钟,算是一种部分解法。@chasing_next 则把“个人操作系统”(files + AI)当作当前权宜方案。但这两者都没有解决跨所有任务持续保留上下文的需求。机会类型:直接型。现在似乎还没有产品能真正做到这一点。
一个真正有效的智能体式工作流预运行成本估算器¶
第 1.1 节总结的论文直接隐含了这个需求:如果前沿模型对自身 token 成本的预测表现只有 r = 0.39,而且还会系统性低估,那么市场就缺一个能在执行前、仅凭任务描述来估算智能体运行成本的工具。这并不是某一条推文明确说出的愿望,但它是“智能体成本”那组痛点里每一条抱怨共同指向的实际需求。机会类型:竞争型——面向智能体的成本预测工具,与现有模型路由产品相邻。
可验证的推理收据——证明到底在什么策略下跑了什么模型¶
@ambient_xyz 直接表达了这一点:“每一次调用都该附带一张可验证的收据:跑了什么、用了什么策略、走了哪条路由、最终交付了什么。” 目前还没有主流 AI API 提供商提供这种能力。机会类型:直接型。它与支付(Stripe)和物流(FedEx tracking)的类比,让产品直觉非常清楚。
真正能给 AI 智能体用的文档解析¶
@llama_index 发文(6 次点赞、755 次浏览、5 次收藏)介绍 ParseBench,称其是“首个面向 AI 智能体的文档 OCR 基准测试”,并指出“现有基准没有测到 AI 智能体真正需要的能力。” 回复 @Hershal0_0 写道:“文档解析就是 AI 的最终关卡。希望以后少一点被表格折磨出的创伤。” 这种非常具体的提法——去测试智能体真正需要的文档能力——说明,面向生产环境智能体的文档解析依然没有被解决。机会类型:竞争型。
4. 使用中的工具与方法¶
| 工具 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| DeepSeek-V4-Pro | LLM | (+/-) | 输出 token 成本比竞品低 10-29 倍;“已足够覆盖大多数普通场景” | 带有中国国家支持背景;缺乏商业路线图;公开使命只谈 AGI |
| Qwen 3.7 Max | LLM | (+) | 宣称以更低成本在关键基准测试上超越 Claude Opus Max 和 GPT-5.5;能执行收件箱、研究、内容等实际工作流 | 数据里缺少独立验证;赞誉主要来自分析类账号 |
| Claude Sonnet 4.5 | LLM | (+) | 社区有强烈情感依附;看重的是语气和共情,不只是编码 | 预计将被弃用;社区正通过 #keepSonnet45 组织动员 |
| GPT-5 (family) | LLM | (+/-) | 在 SWE-bench 智能体研究里 token 效率最高(约 50 万 token/任务,而 Claude 约 200 万) | 输出成本仍比 DeepSeek 高 17 倍;更多 token 不会提高准确率 |
| Claude 4.5/4.7 | LLM | (+/-) | 广泛用于智能体式编程;Sonnet 4.5 的对话质量受认可 | 根据研究,Claude Sonnet 4.5 每个智能体任务比 GPT-5 多耗 150 万+ token |
| Gemini 3.5 Flash | LLM | (+) | Gemini 4 热度上升;文档抽取/理解表现强;视觉任务比 3.1 Pro 快约 6 倍 | 输出成本比 DeepSeek 高 10 倍 |
| Cerebras | 推理 | (+) | 宣称对所有模型规模和类型都更快;大小模型、美中模型皆然 | 只是单家公司说法;未给出独立基准测试 |
| ElevenLabs Agents | Voice AI / 智能体平台 | (+) | 已成功打给数千家面包店——可规模化收集结构化数据;新增本地企业部署(本地 GPU、边缘推理、隔离网络) | 面向消费者的场景仍在探索 |
| LangChain / Cursor / Claude Code / OpenClaw | 智能体框架 | (+/-) | 部署广泛;Trishool 明确把它们视为需要 Halo 安全层的智能体表面 | 凭证处理仍是未解缺口(Agent Vault 正在补) |
| Bittensor (Subnet 23) | AI 基础设施 / 区块链 | (+/-) | 用于带经济激励的对抗训练;Trishool Flywheel 运行其上 | 小众;代币经济模型增加复杂度;仍处早期 |
| AutoHarness | 智能体治理 | (+) | GitHub 283 stars;2 行代码即可包装任何 OpenAI 兼容客户端,并加上风险分类、密钥扫描、成本归因和审计日志 | 仅 v0.1.0;使用数据有限 |
| Agent Vault (Infisical) | 智能体安全 | (+) | 开源;网络层凭证隔离;智能体看不到真实凭证 | 只有视频演示;采用情况未知 |
| Modal | 算力 / AI 基础设施 | (+) | 为 Stanford AI Measurement Science 的 GPU 评分基础设施提供算力;适合可扩展教育场景 | 数据里没有负面信号 |
整体满意度区间: 当天的证据,主导情绪是对成本和透明度的挫败感。DeepSeek 创造了一个新的成本地板,让西方模型的定价看起来在结构上被抬高了;而学界对智能体成本波动的量化又说明,即便换到更便宜的模型,智能体运行本身的不确定性仍是现实障碍。文中提到的主要控成本权宜方案,是做按模型分工的智能体路由(用 GPT-5 管效率,用 Gemini 做文档任务)。
迁移模式: 数据里没有出现明确的迁移案例,但 DeepSeek 永久降价的声明,以及 Qwen 3.7 的基准测试说法,已经为成本敏感的智能体工作负载从 Claude/GPT 迁移到中国模型创造了条件。
竞争态势: 最明确的竞争信号,是 DeepSeek 通过永久折扣锁定了一种结构性的价格优势;与此同时,论文又显示,不同模型在智能体效率上每个任务可相差 150 万+ token——这让模型选择不再只是质量决策,也是一种成本决策。
5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 阶段 | 链接 |
|---|---|---|---|---|---|---|
| Baguette price survey agent | Charles Lorin(通过 ElevenLabs) | 会给成千上万家面包店打电话并记录结构化价格数据的 AI 语音智能体 | 在没有人工拨号员的情况下,规模化采集结构化现实世界数据 | ElevenLabs Agents 平台 | 已发布(调查已结束) | post |
| Agent Vault | Infisical | 位于 AI 智能体和 API 之间的凭证代理;智能体只能看到占位符 | 提示词注入导致凭证外泄的攻击路径 | 开源、网络层代理 | 已发布(开源) | post |
| Trishool Halo | Trishool AI | 通过 Bittensor Subnet 23 上的对抗矿工持续训练的 AI 安全防护模型 | 处理真实资金或敏感动作的 AI 智能体遭遇越狱攻击 | Bittensor 代币经济模型、对抗训练闭环 | Beta(已在 Subnet 23 上运行,每日分发 $1.5K) | post |
| AutoHarness | aiming-lab | 2 行代码包装任何 OpenAI 兼容客户端,并增加风险分类、密钥扫描、成本归因和审计日志 | 智能体在没有治理或审计轨迹的情况下直接进生产环境 | Python、MIT 许可证 | 已发布(v0.1.0,283 stars) | GitHub |
| ParseBench | LlamaIndex | 首个围绕 AI 智能体真实需求设计的文档 OCR 基准测试 | 现有基准无法衡量智能体应用场景所需的文档解析质量 | LlamaIndex 基础设施 | Alpha / RFC(以网络研讨会形式发布) | landing page |
| BitCPM-CANN | OpenBMB × Tsinghua × ModelBest | 在 Huawei Ascend 910B 上训练的 1.58-bit LLM 家族(0.5B–8B);内存比 BF16 低 6 倍;保留 95-97% 基准表现 | 无需新芯片,也能在边缘设备(手机、PC、汽车)上运行有能力的 LLM | Huawei Ascend 910B、1.58-bit quantization、MiniCPM4 architecture | 已发布(开源于 HuggingFace + ModelScope) | post |
| Kethic programming language | @micheal_node(16 岁,Ibadan,Nigeria) | 专为 AI 写代码而设计的编程语言;输出 token 比 TypeScript 少 96% | AI 编程智能体会生成臃肿的 TypeScript;Kethic 直指 token 效率 | 自定义编译器 | Alpha(编译器可用,黑客松获奖) | post |
值得注意的项目细节:
Agent Vault(Infisical)瞄准了数据里最具体、也最明确的智能体安全缺口:通过提示词注入窃取凭证。它的架构简单且易于组合——代理持有凭证,并在网络层把它们换进去;即便智能体本身被攻陷,只要它还是按指令行事,也无法暴露秘密。任何基于 API 的智能体栈都能兼容。
Trishool Halo 的飞轮设计很不寻常:它不是一次性构建对抗数据集,而是持续付费给矿工,让他们每周去找新的攻击方式。新颖性过滤器会在打分前剔除复制提示词的提交,因此数据集无法被刷榜,而经济激励又意味着矿工会持续寻找新的攻击面。它正被定位成一层可插拔安全层,服务于 LangChain、Claude Code、Cursor 以及类似的智能体框架。
Kethic 是一个值得注意的信号:一位 16 岁、在 Nigeria 自学成才的构建者,专门为了让 AI 编程智能体少用 96% 的 token,而造了一门编程语言。黑客松获奖和可运行编译器说明,它已经不只是个玩具项目。如果智能体成本确实主要由输入 token 主导(正如 SWE-bench 研究发现的那样),那么一种 token 高效的目标语言,就是对成本问题的直接回应。
重复出现的构建模式: 三个彼此独立的团队(Infisical、Trishool、aiming-lab/AutoHarness)都在没有明显协调的情况下,把智能体安全/治理收敛成一个产品类别。问题是同一个——AI 智能体已经在生产环境里运行,但监管和控制不足——只是解法不同:网络层隔离、对抗训练,以及 API 层监测。
6. 新动态与亮点¶
边缘 AI 的市场规模可能超过数据中心 AI¶
@wolfejosh 分享(11 次点赞、1,677 次浏览、5 次收藏)了 Lux Capital 投资人信中的带注释页面,其核心结构性论点是,边缘 AI 的机会会超过数据中心 AI:

这封信认为,真正长期的赢家会是那些朝着生物式效率演进的架构,而不是一味做大规模扩展。关键约束不在模型能力,而在物理部署性:战斗机座舱里的毫秒级决策、外科工具、四旋翼飞行器、移动设备。BitCPM-CANN(第 5 节)就是这个方向的一个具体例子:1.58-bit 量化在 Huawei Ascend 硬件上,把内存占用压低了 6 倍,同时保留 95-97% 的基准表现。Lux 的信和 OpenBMB 的发布出现在同一天,看不出有明显协调。
即便在最支持 AI 的人群里,美国的 AI 信心也仍然偏低¶
@AFpost 分享(35 次点赞、2,589 次浏览)了 Spiritual Migration Survey 2025 的调查数据:

即便是对 AI 最有信心的群体(每周以上参加宗教活动者),比例也只有 19%。这种模式——越虔诚越有信心——本身就违反直觉,而回复里没有给出任何因果解释。更广泛的含义是,不论属于哪个子群体,美国整体人口对 AI 的信心都偏低。
DeepSeek 由使命驱动,而非指标驱动——与美国创业生态构成结构性对照¶
就在 TechCrunch 发布调查、确认美国 AI 创业公司普遍夸大 ARR 的同一天,@nicrypto 指出,DeepSeek 的创始人表示其目标是 AGI,而不是利润——没有 IPO 计划,也没有营收目标。与此同时,中国 AI 初创公司在 2026 年 Q1 融资达到 $16.2B(据 @Techmeme 报道,同比增长 185%)。这种结构性对照是:美国 AI 创业公司的估值由那些连专家都确认经常被夸大的指标驱动;而中国 AI 实验室则公开拒绝商业指标,并由国家资本支持。
据称 OpenAI 为智能家居 AI 研究用 360 度摄像头记录家庭活动¶
@LLMJunky 分享(15 次点赞、2 次转发、2,237 次浏览、7 次收藏)了一则来自 @loffredojeremy 的报道,称 OpenAI 正向纽约市数百个家庭付费,让他们在家中各处安装 360 度摄像头,记录日常活动(吸尘、做饭、洗碗),并定期回收存储卡。其声称的目的,是开发一款智能家居设备。一个值得注意的细节是:据说这个项目的主管是行为心理学家,而不是 ML 工程师。
这是一则未经证实的二手说法(某人转述承包商的描述)。回复把它当作关于 AI 硬件野心的可信猜测,而不是 OpenAI 已确认的公告。
Google I/O 2026:AI 现在已经是 Google Search 的默认模式¶
@semrush 总结(4 次点赞、2 次转发、190 次浏览)了 Google I/O 2026 的发布内容:Gemini 3.5 Flash 已向所有用户开放;搜索框现在接受文本、图片、视频和文件(“智能搜索框”);Universal Cart 允许在 Gemini 支持下跨零售商结账;Agentic Search 现在可以直接处理复杂预订任务。该总结给出的结论是:“AI 不再是 Google Search 的附加功能。它就是 Google Search。”
7. 机会在哪里¶
[+++] 智能体成本监测与预运行估算 —— 关于智能体 token 消耗的学术研究(第 1.1 节)量化了一个真实的生产问题:同一任务,成本波动 30 倍,而且运行前没有可信信号。论文明确指出,运行前成本预测仍未解决(r 仅为 0.39)。围绕工具的空间(成本归因、路由、预算告警)还很早期。AutoHarness 把成本归因列为四大功能之一,但目前还没有产品专门聚焦智能体工作负载的预运行成本估算。证据来自:Mollick 的两层分化框架、SWE-bench 研究、关于智能体定价档位的观察,以及 IntuitMachine 的 16K 次运行分析。
[+++] 智能体安全层:凭证隔离、治理和对抗式加固 —— 三个彼此独立的工具(Agent Vault、Trishool Halo、AutoHarness)在同一天的数据里出现,而且都瞄准了同一个问题:智能体已经跑进生产环境,但缺少足够的安全控制。提示词注入导致凭证被盗,是其中最具体的攻击路径。治理与审计日志则是有即时企业需求的合规能力。证据来自:Infisical、Trishool、aiming-lab/AutoHarness,以及 Aptos Move Prover 的工作——它表明同样的模式也出现在区块链场景中。
[++] 可验证的推理收据 / AI 公用事业计量 —— @ambient_xyz 描述的缺口(无法证明到底跑了什么模型、用了什么策略、延迟是多少)既是企业采购问题,也是 SRE 问题,而且目前没有现成解法。其他每种公用事业都有这个东西。这个类比很强,市场也真实存在:团队已经会为跟供应商扯皮而白白耗掉数周,因此他们会愿意付费,更快地解决争议。证据来自:ambient_xyz 的帖子,以及更广泛的推理成本痛点簇。
[++] 边缘 AI 部署工具与量化 —— Lux Capital 的信和 BitCPM-CANN 都指向同一个缺口:模型需要能跑在“瓦特,而不是千兆瓦”级硬件上,同时保留生产级质量。BitCPM-CANN 证明,今天就已经可以做到 6 倍内存降低,同时保留 95-97% 的表现。真正的约束是工具链、部署和硬件兼容性,而不是能力本身。证据来自:wolfejosh/Lux 的帖子、BitCPM-CANN,以及 wolfejosh 关于“边缘侧会超过数据中心”的说法。
[++] 面向知识工作者的跨会话持久上下文 —— @TakoTreba 那条关于“鸟”的帖子异常具体:它要的是能贯穿全部工作、每次会话都不必重新解释、还能理解营销工作相互牵连关系的上下文。当前工具要么要求用户每次重建上下文,要么要求他们维护外部知识库。未被满足的需求,是一种不需要显式管理、却能持续积累并应用工作上下文的个人 AI。证据来自:TakoTreba 的帖子、chasing_next 的个人操作系统权宜方案,以及 Sonnet 4.5 社区对“关系连续性”的强调。
[+] AI 创业公司指标透明度 / CARR vs ARR 信号服务 —— TechCrunch 的文章确认,投资人和记者如今往往都在依据被系统性夸大的营收说法做判断。一项能把 AI 创业公司营收口径标准化并审计,或者哪怕只是同时公布主要 AI 公司 CARR 与 ARR 的服务,都会对分析师、竞争对手创始人和 LP 有价值。证据来自:TechCrunch 对 ARR 的调查。
[+] 面向 AI 智能体的 token 高效编程语言 —— Kethic 项目(比 TypeScript 少 96% token)以及 SWE-bench 关于输入 token 累积——而不是输出——主导智能体成本的发现,都说明语言层面的 token 效率是一个真实优化目标。一门专为 AI-to-AI 代码生成设计的语言或转译器(其读者是模型,而不是人),有可能实质性降低智能体式编程成本。证据来自:Kethic 帖子和 SWE-bench token 消耗研究。
8. 要点总结¶
-
聊天机器人 / 智能体的成本分化,已经写进定价页了,而不只是即将到来。 @emollick 把它框定成未来的普及风险;来自 @gotnergedhq 的从业者回复则纠正了时间线:过去 60 天里,智能体定价档位一直是所有悄然涨价真正落下去的地方。(source)
-
智能体成本比代码聊天高 1,000 倍,而且单次运行可相差 30 倍——模型还预测不了自己的成本。 一篇来自 Michigan/Stanford/Google DeepMind 的论文分析了 16,000 次生产运行,发现智能体成本主要由输入 token 的累积驱动(而不是推理或输出),而同一任务的运行可相差 30 倍,这让当前工具条件下的智能体预算在结构上就不可靠。(source)
-
就在民调显示 82% 的公众支持安全测试的同一天,这道 AI 行政令却被科技行业电话游说搁置了。 治理缺口不在于公众反对监管——而在于行业游说动用“竞赛叙事”的效率;同一天的一篇学术论文也记录了这种叙事是如何被有意建构出来的。(WaPo source; academic source)
-
DeepSeek 的永久降价创造了一个成本地板,让西方模型的定价看起来在结构上被抬高。 价格表显示,DeepSeek-V4-Pro 的输出成本比竞争对手低 10-29 倍。再结合 SWE-bench 关于“在智能体工作负载里,模型选择首先是成本决策”的发现,这会带来真实的迁移压力。(source)
-
智能体安全正在结晶成一个产品类别:同一天出现了三个彼此独立的工具。 Agent Vault(凭证代理)、Trishool Halo(通过代币经济模型训练的对抗防护模型)和 AutoHarness(API 层治理)都在没有明显协调的情况下,对准了生产环境智能体安全。(Infisical; Trishool; AutoHarness)
-
2026 年 Q1,中国 AI 初创公司融资 $16.2B(同比 +185%),而 DeepSeek 创始人又明确拒绝商业指标。 这与美国 AI 初创公司的结构性对照非常鲜明——TechCrunch 已确认,“签约 ARR”(CARR)常常被直接当成普通 ARR 对外宣布——说明两个 AI 生态正在不同的激励结构下运行。(Chinese funding source; ARR source)
-
边缘 AI 可能比数据中心 AI 更有机会——而量化已经在用 6 倍更低内存达到生产质量。 Lux Capital 的投资人信认为,向生物式效率演进的架构会占上风;而 BitCPM-CANN 则证明,在手机、PC 和汽车硬件上,1.58-bit 量化已经能做到 95-97% 的基准保留,而且不需要新芯片。(wolfejosh source; BitCPM-CANN)