跳转至

Twitter AI - 2026-06-06

1. 人们在讨论什么

1.1 AI 基础设施正被按供应链问题来定价 (🡕)

今天最有力的讨论并不在模型质量上,而在于光子学项目、并网电力和商用 GPU 产能到底能不能按时到位。当天至少有 3 条最强的基础设施讨论串,都把 AI 上行空间首先视为交付问题,其次才是软件问题。

@aleabitoreddit 认为 (575 次点赞、111 条回复、70,131 次浏览),XFAB 可能会在 2027-2028 年扩产窗口之前,成为欧洲共封装光学的受益方。附带的 photonixFAB 材料很关键,因为它让这条帖子不只是股票代码炒作:截图点名 Nokia 负责规格制定、组装和性能评估,也点名 NVIDIA 作为收发器和光交换机演示样机的最终测试方。回复里还有一个有用的修正:有读者指出,Nokia 投资的背景其实是 AI RAN 而不是交换机,作者也承认了这一点。

来自 photonixFAB 材料的截图,展示 Nokia 和 NVIDIA 在项目中的职责

@Agrippa_Inv 认为 (266 次点赞、29 条回复、12,654 次浏览),IREN 真正的护城河不是品牌,而是锁定的并网电力。配套图表显示,美国数据中心计划新增产能约 18 GW,而过去 6 个季度真正落地的只有约 11 GW;他用这个差值来说明,并网延迟和项目取消才是主要瓶颈。这个论点是明确的比较式判断:一旦并网排队时间拉长到 5 年以上,表后发电就会从首选设计变成退路。

对比美国数据中心计划新增与实际落地产能的图表

@TheValueist 认为 (10 次点赞、2 条回复、3,554 次浏览),SpaceX 与 Google 的协议应该被看作商用 AI 基础设施,而不是有保证的积压订单。图片里的文件摘录显示,可使用约 110,000 块 NVIDIA GPU,费用为每月约 $920 million;而串帖正文强调,如果产能不能按期交付,合同存在按比例削减和终止权。

SEC 文件摘录,显示 Google 与 SpaceX 的 AI 算力协议涉及 110,000 块 NVIDIA GPU

讨论要点: 这个讨论簇里最强的反驳不是“AI 需求是假的”,而是“交付很难”。在回应 XFAB 帖子时,有读者认为,即便 2027 年 CPO 开始爬坡,也仍需要提前数年做出数十亿美元的晶圆厂和电力承诺;这并没有否定更广泛的供给侧担忧,反而强化了它。

与前日对比: 6 月 5 日,@PalantirTech 将 AI 叙事框定为 (658 次点赞、32 条回复、4,574,270 次浏览) 掌握应用层,而 @OfficialLoganK 表示 (446 次点赞、56 条回复、23,319 次浏览),公开基准测试才是最明显的机会。到了 6 月 6 日,头部注意力明显更多转向光子学、电力和可交付算力供给。

1.2 关于智能体的讨论正变得更务实,少了些玄学色彩 (🡒)

关于智能体的讨论热度依旧很高,但语气已经转向更偏操作层面:更强调对技术栈的理解、安全护栏和评估。发帖者不再争论智能体是否重要,而是把更多精力放在定义各层、连接工具,以及说明系统一旦走出演示阶段,如何继续保持可控。

@coder_surya 梳理 了一套分类法 (57 次点赞、12 条回复、648 次浏览),将普通 LLM、智能体、智能体式工作流和多智能体系统,按自主性、协调成本和最佳适用场景区分开来。帖中最具体的判断很务实:如果单个提示词就能解决的工作还要上多智能体系统,那只会额外引入协调开销,而不会增加价值。

比较普通 LLM、智能体、智能体式工作流和多智能体系统的示意图

@LearnWithBrij 总结 这套栈有 12 个概念 (13 次点赞、3 条回复、316 次浏览):RAG、上下文和记忆是基础;工具和 MCP 是智能体层;编排和评估是执行层。这条帖子也可以和 @MaryamMiradi 展示 的 9 步 Claude Code 工作流放在一起看 (8 次点赞、3 条回复、191 次浏览):它从规划和规则开始,然后依次进入结构化 IO、skills、子智能体、钩子、记忆和评估套件。

把 RAG、记忆、工具、MCP、编排和评估映射到 AI 智能体栈的图示

构建生产级 AI 智能体的清单式 Claude Code 路线图

@rohanpaul_ai 总结 了 Agent Arena 新的真实世界智能体排行榜 (23 次点赞、6 条回复、3,717 次浏览),认为它是在从干净的基准测试问题转向带有网页、文件和终端工具的复杂工作会话。其链接的方法页写道,Agent Arena 会围绕已确认成功、表扬与抱怨、可引导性、bash 恢复和工具幻觉做因果追踪,并报告最近 7 天的一个切片:160,480 个任务、2,060,159 次工具调用。

Agent Arena 真实世界智能体评估排行榜快照

讨论要点: @ChrisCamillo 呼吁 大家痴迷于真实世界里的 AI 使用 (371 次点赞、46 条回复、15,277 次浏览),他这条帖子下面的回复很能体现这种情绪变化。有一条回复抱怨,大多数 AI 工作流帖子还是太模糊,没什么实际用处;另一条则拿出一个具体智能体作回应:它每天处理约 60 封邮件,每日成本大约 $2。

与前日对比: 6 月 5 日的讨论仍主要围绕智能体经济性和人类监督。@gokulr 总结 了 Dan Shipper 的观点 (66 次点赞、9 条回复、8,424 次浏览):每个智能体仍然都需要一个人。到了 6 月 6 日,这种“人类在环”的直觉仍在,但围绕它新增了更多图示、协议和评估机制。

1.3 主权与可审计性正走到讨论中心 (🡕)

另一个强势讨论簇不再把 AI 看成消费品,而是把它视为一种政府和受监管运营方不愿盲目外包的控制层。法国国防规划、印度采购、白宫政策和企业可审计性这几条线索,都指向同一个方向:本地控制、多供应商韧性,以及在系统行动前就能检查它的能力。

@defense_news 报道 (146 次点赞、4 条回复、10,251 次浏览),法国将在 NATO 的 CWIX 互操作演习中测试 Arcadia,把它作为 Palantir 的 Maven Smart System 的替代方案。链接文章写道,Arcadia 由 Mistral AI、Safran.AI、Thales 和 Airbus 共同开发;法国还构建了 Berthier——一个参谋型 LLM,用来综合信息、检索作战数据,并帮助起草拟议行动方案。

@DrdoTdf 宣布 (137 次点赞、5 条回复、8,810 次浏览) 一项公开招标,面向用于网络安全漏洞发现和威胁情报的国产大语言模型,投标截止日期为 6 月 25 日。这个招标信号之所以重要,是因为它把特定领域的主权 LLM 定义成一个采购品类,而不是停留在概念层面的谈资。

@LuizaJarovsky 表示 (2 次点赞、1 条回复、694 次浏览),新的白宫备忘录标志着军事 AI 采用的重大提速。配套的 白宫事实说明 写道,已部署系统必须具备稳健性、可引导性和可控性,任何外部实体若未获事先批准,都不得停用或削弱美国作战人员所依赖的 AI 系统。

概述白宫国家安全 AI 指令的截图

讨论要点: 企业侧对同一问题的版本,出现在 @Shuarix 讨论 OpenServAI 的串帖里 (115 次点赞、41 条回复、5,968 次浏览)。回复大多认同,可审计性才是银行和政府用户真正的护城河;但也有人给热度泼冷水,认为真正的价值只会在生产环境里显现,而不是在写出来的材料里。

与前日对比: 更早的文件里已经有国家安全和基准测试的讨论,但 6 月 6 日是这轮观察里第一次,法国、印度和美国的主权 AI 信号同时出现在同一批头部内容中。


2. 令人困扰的问题

物理容量仍然赶不上 AI 的野心

严重程度:高。@Agrippa_Inv 认为 (266 次点赞、29 条回复、12,654 次浏览),电力约束和并网延迟正在拉大数据中心计划产能与实际产能之间的差距;@TheValueist 则认为 (10 次点赞、2 条回复、3,554 次浏览),即便是 SpaceX 与 Google 这样的大额 GPU 合同,也依然受制于交付门槛和终止风险。同样的挫败感也出现在 XFAB 串帖里,其中一条回复警告说,即便 2027 年 CPO 开始爬坡,仍需要提前数年敲定晶圆厂设备和电力配给。今天数据里出现的应对方式不是什么神奇优化,而是更早锁定电力、接受表后发电的取舍,并把产能视为按情景加权的变量,而不是既定保障。这显然值得围绕它做产品,因为这种抱怨同时出现在当天信息流顶部的光子学、商用算力和新一代云服务讨论里。

AI 工作平台易于宣传,却难以进入

严重程度:中。@CallMeDoct 发帖 (37 次点赞、5 条回复、2,315 次浏览),专门列出 20 个平台,就是因为 Outlier 对许多尼日利亚人并不开放,而回复也立刻变成了资格排查:有人说 Alignerr 不可用,另有人说 Mercor 总是在拒绝申请。更深层的挫败感并不是大家对 AI 工作没兴趣,而是地区准入不透明、审核结果不一致,以及没人确定某个平台在特定国家到底是不是真的可用。发帖者的应对方式是广撒网申请、尽快做完测评,并依靠编程、法律或医学等专门技能去争取报酬更高的工作。这直接指向一种产品机会:更透明地展示可用性、匹配度和申请状态。

AI 工作平台页面截图,显示一项时薪 $15.20 的任务

智能体仍然缺少硬边界

严重程度:高。@Shuarix 认为 (115 次点赞、41 条回复、5,968 次浏览),可审计性才是受监管买家真正需要从智能体系统里得到的东西,而这条帖子下的回复也一再把“可检查的推理”称作护城河。@ZhugeLyang 警告 (6 次点赞、5 条回复、62 次浏览),那些带有费用审批、支付卡和 API 调用能力的智能体,仍然被当成更聪明的聊天机器人,而不是拥有真实花钱权限的员工。Agent Arena 的方法页也从操作层面印证了同样的痛点:它把 bash 恢复和工具幻觉列为核心指标;而白宫事实说明在政策语言里几乎用了同样的表述,要求系统必须稳健、可引导、可控。甚至连 @adag1oeth 都表示 (5 次点赞、1 条回复、35 次浏览),x402 支付执行已经开始跑通,而“下一个瓶颈是控制”。今天证据里出现的绕行方案栈,是推理图、结构化输出、钩子,以及硬件强制执行的策略层。这显然值得围绕它做产品。

LATCH 界面,展示硬件强制执行的策略控制和面向审计的智能体管理


3. 人们期望的功能

与模型无关的记忆与连续性

@uthykinging 认为 (275 次点赞、110 条回复、869 次浏览),AI 最大的问题是连续性:团队在工作流、知识库和智能体行为上投入后,一旦模型大版本升级,就被迫重新思考整套技术栈。@trynullsec 把理想答案描述为 (35 次点赞、13 条回复、1,222 次浏览) 仓库感知上下文、检索、压缩、层级记忆和任务特定评估,而不是只靠更大的上下文窗口。这是个实际需求,不是情绪性抱怨;紧迫度为中高,因为当前答案仍以路线图为主。机会:直接。

通往 1.2M 上下文系统的路线图,展示检索、压缩、层级记忆和任务特定评估

具备行动前限制的可审计智能体

这里人们想要的非常具体:不只是失败后的日志,而是在智能体能够花钱、调用 API 或偏离未获批准动作之前,就有可强制执行的限制。@Shuarix 认为 (115 次点赞、41 条回复、5,968 次浏览),银行和政府买家需要的是可检查、可回放的推理过程;@ZhugeLyang 警告 (6 次点赞、5 条回复、62 次浏览),今天的金融智能体仍然缺少硬边界。白宫事实说明则用政策语言进一步明确了同样的需求,要求系统必须稳健、可引导、可控。LATCH 风格的策略引擎和推理图方法已经给出了一些部分解法,但讨论显示,市场仍认为这个缺口没有被填上。机会:直接。

面向单一供应商指挥 AI 的主权替代方案

这些国防和公共部门帖子指向一种竞争性需求:AI 系统既要能本地部署、跨多个供应商集成,也要能在治理上不默认依赖某一个外国平台。@defense_news 报道 (146 次点赞、4 条回复、10,251 次浏览),法国测试 Arcadia,明确把它作为 Maven 的回应;@DrdoTdf 宣布 (137 次点赞、5 条回复、8,810 次浏览) 一项面向国产网络安全 LLM 的招标。这是在受监管场景里的实际且紧迫需求,同时也带有竞争性,因为解决方案很可能按国家、任务和标准分别定制,而不是放之四海皆准。机会:竞争型。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
Claude Code 编程智能体 / IDE 工作流 (+/-) 迭代快,支持规划、钩子和评估驱动的构建循环;有些用户会搭配本地 Ollama 模型来兼顾隐私与成本控制 一旦被要求自由发挥地“直接去做”,就会变得脆弱;成本和上下文漂移会把用户推向更结构化的方法
MCP 工具 / 数据连接标准 (+) 给智能体提供了连接工具和外部数据的标准方式;大家一再把它列为现代核心栈的一部分 仍然有很多人没真正理解它,而且它本身并不能解决记忆、编排或评估
Agent Arena 智能体评估 (+) 衡量真实会话中的成功、表扬 / 抱怨、可引导性、bash 恢复、工具幻觉和精确会话成本 当前排行榜仍只是围绕编排器模型的 5 个初始信号集合,覆盖范围还在扩展,尚未完整
Outlier / Mercor AI 工作平台 (+/-) 在辅导、编码、标注和评估上提供真实有偿工作;入门流程清晰,也明确标出报酬 地域限制、资格不确定和反复被拒会制造信任问题
OpenServAI 推理 / 可审计层 (+/-) 吸引那些想要可检查推理、可回放决策,以及用更便宜模型获得更稳定工具调用的买家 回复质疑它在生产环境里的证据是否足够强,以及加密代币叙事是否会伤害企业销售
x402 智能体支付 (+/-) 公开的交易笔数和成交额表明,智能体已经在为工具、算力和数据增强服务付费 连支持者都承认,支付执行已经跑在控制前面,所以治理仍是瓶颈
Arcadia / Berthier 国防指挥控制 AI (+/-) 以开放、主权、多供应商为定位;Berthier 已用于信息综合、检索和行动方案草拟 与 Maven 时代 NATO 工作流的互操作性和认证仍是悬而未决的问题

今天的满意度谱系更偏向那些能减少歧义的工具。当 Claude Code、MCP 和 Agent Arena 能帮助团队把工作结构化、干净地接入工具,并在压力场景下衡量智能体行为时,讨论基本是正面的。只要 AI 牵涉到资金、受监管决策或劳动准入,情绪就转为复杂:平台、智能体支付和企业推理层都已经好到足以吸引使用,但还不够顺畅,无法消除不信任。最常见的绕行方式,是通过 Ollama 本地托管模型、用结构化输出模式代替自由输出、使用钩子和评估套件,以及同时使用多个平台,而不是只信任一个。更大的迁移趋势,是从泛泛的“智能体”讨论,转向多供应商、模型无关、可审计的技术栈,以便在修正、换模和采购审查中都能存活。

x402 指标面板,显示 3.74M 笔交易、约 $1.2M 成交额、160K+ 买家和 47K 卖家

Databricks 架构图,展示 Lakeflow jobs、分析、机器学习和应用流程


5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
Collaborative Agentic Movie @ActionModelAI + @billions_ntwk 让用户可以配对智能体、认领格子,并在实时协作式电影体验中竞争 把“社区共拥有的 AI”从被动品牌口号变成与奖励挂钩的互动活动 智能体、x402 支付协议、human-proof 扩展 已发布 推文, 引用推文
Kova @pixperk 给一个 Rust 向量数据库加上类 SQL 的查询语言和规划器 去掉应用侧为向量搜索和元数据过滤编排流程的需要 Rust、近似最近邻搜索、模糊测试、类型化错误 早期测试 推文
LATCH @itachee_x / @ZhugeLyang 针对智能体支出、API 范围和故障保护的硬件强制执行策略引擎 在行动前就防止金融智能体偏航或超支,而不是事后补救 硬件强制执行策略引擎、加密强制执行、链上策略 早期测试 推文, 引用推文
Nullsec-native model layer @trynullsec 面向 1.2M 上下文的长上下文系统,带有仓库感知检索和记忆层 帮助 AI 在整个系统上推理,而不是只面对孤立提示词 仓库感知上下文、检索、压缩、层级记忆、任务特定评估 RFC 推文
Databricks Architecture Center @databricks 发布适用于管道、仪表板和 AI 工作负载的可复用参考架构 用具体设计模式缩短从想法到落地的距离 Lakeflow Jobs、数据摄取管道、分析、ML、BI、lakehouse 模式 已发布 推文

@ActionModelAI 发布 了这个协作式智能体电影项目,并明确它已经上线 (163 次点赞、144 条回复、1,313 次浏览);被引用的 @billions_ntwk 帖子则说,这个项目有 500+ 名构建者参与,并加入了 x402 的 human-proof extension。这使它成了当天最清楚的例子之一:开发者在尝试把智能体变成平台内的参与机制,而不是后台工具。

@pixperk 描述 Kova 时给出了少见的具体工程细节 (44 次点赞、6 条回复、993 次浏览):3 种查询执行策略、32,000+ 次随机查询检查、12,000+ 次参考对比,以及 544 个通过的测试。这里的独特模式不是“AI 应用”的表层包装,而是试图把编排复杂度吸收到引擎内部的基础设施。

这些项目反复出现的构建模式,就是控制。LATCH 试图给具备金融能力的智能体加上硬限制,Nullsec 把长上下文看成记忆和检索工程,而不是营销数字,Databricks 则把架构模式打包出来,避免团队每条流程都得从零发明。

Kova 查询引擎代码,展示 Rust 向量数据库项目里的规划器逻辑


6. 新动态与亮点

形式化证明搜索已走出玩具级数学演示

@burny_tech 认为 (3 次点赞、2 条回复、522 次浏览),AI 用于数学这件事仍会产出不少假阳性,但最近 OpenAI 的 Erdős 结果在性质上明显不同,因为它处理的是一个核心抽象问题,而不是那种可以轻易验证的题目。截图指向 《Advancing Mathematics Research with AI-Driven Formal Proof Search》,而该论文公开的 arXiv 页面写道,这个系统解决了 353 个未解 Erdős 问题中的 9 个。真正值得注意的是叙述方式:这条推文既不凯歌式庆祝,也不屑一顾,而是把形式化验证视为这项进展值得关注的原因。

关于 AI 驱动形式化证明搜索和 Erdős 问题结果的论文截图

模型选择开始表现得像媒体选择

@jayvanbavel 报道 (9 次点赞、1 条回复、856 次浏览),政治身份会影响用户偏好哪种大语言模型,即便正确性本身会得到奖励。其链接的公开摘要描述了一项两阶段实验,共有 1,884 名参与者,并称 71% 的人仍然坚持自己先前偏好的模型,尽管准确性本来会带来金钱激励。这之所以值得注意,是因为它把 AI 偏见讨论从模型输出本身,转向了需求侧:人们最初会选择信任哪些系统。

关于政治身份塑造大语言模型选择的论文截图


7. 机会在哪里

[+++] 智能体治理与行动前控制 —— 企业、支付和国防 3 条线同时给出了证据。OpenServAI 的支持者和批评者都把焦点放在可审计性上;LATCH 围绕硬性的支出 / API 边界来构建;Agent Arena 的核心信号包括可引导性、bash 恢复和工具幻觉;白宫事实说明则写明,军事系统必须稳健、可引导、可控。这是最强的机会,因为同一个未被满足的需求同时出现在第 2、3、4、5 节。

[++] 围绕电力、光子学和商用算力的基础设施规划 —— XFAB、IREN 和 SpaceX 这几条讨论串都指向同一个瓶颈:AI 需求不断撞上电力交付、光子学供给和合同执行风险。这是一个中等强度机会,因为信号既大又具体,但今天的大部分讨论仍来自投资者和市场叙事,而不是一线交付新软件的运营者。

[+] 面向换模团队的连续性层 —— @uthykinging 的连续性帖子、Nullsec 路线图,以及技术栈 / Claude Code 工作流帖子,都在暗示团队需要能跨模型波动存活的记忆、检索和结构层。这还处在浮现阶段,尚未完全成形,但只要从业者认真谈生产级智能体,它就会反复出现。


8. 要点总结

  1. AI 基础设施的注意力已经锚定在交付约束上。 6 月 6 日最清晰的证据,不是新的基准测试吹嘘,而是光子学角色分工、并网电力延迟和商用 GPU 合同。(XFAB, IREN, SpaceX/Google)
  2. 关于智能体的讨论正在成熟为技术栈设计与评估。 分类法帖子、MCP 与记忆图示、Claude Code 工作流清单,以及 Agent Arena 的因果排行榜,都指向一种更偏操作层面的智能体讨论方式。(分类法, 工作流, Agent Arena)
  3. 可审计性正在同时成为市场要求和政策要求。 同一天里,既有作为 Maven 替代方案的 Arcadia,也有 DRDO 面向国产网络安全 LLM 的招标、白宫关于可控系统的措辞,以及企业帖子中对行动前可检查推理的要求。(Arcadia, DRDO, 白宫事实说明)
  4. AI 工作和 AI 服务的需求是真实存在的,但准入和信任仍然滞后。 这份面向尼日利亚的平台清单说明,人们确实在积极寻找 AI 劳务机会,而回复则记录了地区不可用和反复被拒的疲劳感。在服务端,x402 的成交量说明智能体支付确实在发生,但连支持者也承认,控制才是下一个瓶颈。(平台准入, x402)
  5. 最新的 AI 信号不只与能力有关,也与验证和用户行为有关。 形式化证明搜索之所以重要,在于验证让这一主张更容易被读懂;而那篇政治身份论文则说明,用户选择模型的方式,可能越来越像选择媒体品牌。(形式化证明搜索, 模型选择)