Twitter AI - 2026-05-21¶

1. 人们在讨论什么¶

1.1 只有映射到真实工作流或可用产品时，基准测试才还有说服力 🡕¶

最强的一簇内容把基准测试讨论视为不完整，而不是决定性证据。保留下来的帖子认为，交互式评估需要明确的设计原则，科学智能体评估应建立在带程序化验证的真实工作流上，变化的推理时间让单一分数卡失效，而用户更在乎 AI 能不能修好邮件或 app，而不是它又赢了哪个榜单。至少有 4 条高信号内容支撑这一主题。

@keyang_xuan 认为（27 次点赞、9 条回复、2,282 次浏览、15 次收藏）交互式评估需要一门设计科学，而不只是更长的轨迹或更多工具调用。该讨论串表示，评估问题必须先说明：哪些轨迹证据算数，以及这些轨迹应如何映射到鲁棒性、可恢复性、安全性或社会能力之类的判断。附带的论文首页把这件事说得更具体：它把交互式评估定义成一种带报告标准的原则性范式，而不是一个松散的 benchmark 标签。

《Interactive Evaluation Requires a Design Science》论文首页，列出这篇立场论文的摘要和 GitHub 仓库

@sanmikoyejo 表示（8 次点赞、405 次浏览、3 次收藏）“面向科学的 AI” 基准测试现在大多仍在考课本记忆，并指向了 Terminal-Bench Science。这个项目正在容器化环境里收集真实科学工作流，并用基于 pytest 的方式做验证。它的重要性在于，它把基准构建变成了在岗科学家可以参与贡献的流程，而不是一组封闭的玩具任务。

@haider1 报道称（53 次点赞、8 条回复、3,433 次浏览、10 次收藏）Noam Brown 说，对于推理模型而言，单一数字基准已经不再合理，因为性能如今取决于系统被给了多少推理时间。有条回复又把这种怀疑往前推了一步：当同一家实验室恰好在最难衡量的模型上领先时，批评 benchmark 听起来就显得很方便。

@boneGPT 认为（76 次点赞、16 条回复、3,639 次浏览、9 次收藏）团队该停止只追 benchmark 分数，开始把重心放到产品上，并拿 Gmail 举例：用户想要的是记忆、规则和可靠的回复模板，而不是又一个零点几的 benchmark 提升。回复很快就从理论转向执行缺口，抱怨手机和 app 助手在简单的跨 app 动作上仍然会失败。

讨论要点： 回复并不是在否定评估本身，而是否定那种解释不了工作流质量、产品可用性，以及模型是在什么条件下被额外给了更多推理时间的评估。

与前日对比： 5 月 20 日已经通过 METR、STAC 和上下文溯源类帖子，把评估当成基础设施来谈。5 月 21 日则更明确地反对排行榜式抽象，转向立足工作流的任务、可变算力评估和产品可用性。

1.2 算力获取与本地执行正在成为聊天机器人和智能体之间的真正分水岭 🡕¶

第二个主题是，把算力看作一种访问控制。证据横跨无法集中预算的学术机构、想用本地机器而不是云调用的构建者，以及展示小型 GPU 究竟能撑到什么程度的 benchmark 截图。至少有 5 条保留内容支撑这一主题。

@emollick 写道（96 次点赞、19 条回复、5,902 次浏览、12 次收藏）即便单轮聊天机器人越来越便宜，复杂的智能体式工作流仍会因为算力稀缺而变得昂贵。他在后续回复里进一步说，人人也许都能拿到强大的免费聊天机器人，但最好的智能体可能仍只属于那些愿意为高出数千倍 token 消耗买单的工作负载；这样一来，分化就不只是定价问题，而成了普及问题。

@MilkRoadAI 表示（36 次点赞、6 条回复、4,427 次浏览、12 次收藏）Jensen Huang 给大学 AI 资源获取开的药方，是集中采购，而不是继续抱怨短缺。该讨论串认为，像 Stanford 这样的机构需要集中共享算力，因为各个院系不可能靠一次次 grant，逐块买出十亿美元级基础设施。

@ClementDelangue 表示（43 次点赞、5 条回复、1,964 次浏览、3 次收藏）AI 构建者需要更多本地硬件，并在 AMD 发布 Ryzen AI Halo 后提出了 Hugging Face box 的想法。回复立刻追问是否会预装模型，以及硬件打包能不能更清楚，这说明需求并不只是理念上的“本地优先”，而是真正的产品要求。

@TheAhmadOsman 展示（92 次点赞、10 条回复、8,492 次浏览、148 次收藏）一套跑在 RTX 3070 8 GB 显卡上的本地 Qwen3.5-9B 配置，可以在 180,224 上下文下稳定跑到 q8_0 配置，速度为每秒 54.45 个 token。截图把原本模糊的“本地 AI 很容易”说法，变成了围绕 KV cache、batch size，以及 VRAM 边缘失效点的具体取舍。

本地 Qwen3.5 基准表，展示 RTX 3070 8 GB 配置下稳定与失败的上下文窗口档位

@latentspacepod 重点提到（16 次点赞、1 条回复、2,711 次浏览、4 次收藏）一篇 Daytona 访谈，其核心论点是：智能体需要的是有状态的计算机，而不是一次性代码执行盒子。链接文章声称沙箱启动约需 60 ms、75 秒内可拉起 50,000 个沙箱，而且有客户每天运行约 850,000 个沙箱；这让面向智能体的原生算力看起来更像一种新的基础设施类别，而不只是另一个 devtools 包装层。

讨论要点： 回复重点都落在打包和获取上：谁能拿到集中式算力、什么样的本地盒子才够用、什么该预装，以及哪些工作负载会把“只上云就够了”的假设打破。

与前日对比： 5 月 20 日的算力讨论主要围绕遥测和有 benchmark 支撑的服务部署。5 月 21 日则把它翻译成稀缺性、集中采购、本地盒子和面向智能体的原生计算机。

1.3 安全与治理的讨论继续转向控制、协议和公开审查 🡕¶

第三个主题是运维化：可落地的安全工具、由仓库管理的决策记录、国家级评估能力，以及发布前的政府审查。与算力话题相比，这组内容的互动量更低，但对“控制层到底该做什么”却讲得格外具体。

@TheTuringPost 表示（5 次点赞、2 条回复、399 次浏览、3 次收藏）Microsoft 新发布的 RAMPART 和 Clarity，面向的是可重复的 CI 攻击场景，以及代码发布前的结构化系统设计。配图之所以关键，是因为它把整套栈都摆了出来：工具、外部数据源、LLM engine、agent adapter、pytest 套件、攻击和探针层、评估器、报告层，以及底层的 PyRIT。

RAMPART 架构图，展示被测智能体层、pytest 集成、攻击探针、评估器，以及用于持续智能体安全测试的 PyRIT 组件

@CSOonline 报道称（3 次点赞、48 次浏览、1 次收藏）同样这波 Microsoft 动作，本质上是在把安全变成一门持续性的工程纪律。链接的文章提到，RAMPART 会把 red-team 发现转成 CI/CD 测试，而 Clarity 会把结构化假设和失效分析写进 .clarity-protocol/ 目录，让这些内容能像代码一样被审查。

@washingtonpost 报道称（18 次点赞、14 条回复、7,910 次浏览）美国政府预计会建立一套机制，在强大新 AI 模型公开发布前先做审查。@Rudra_81 认为（14 次点赞、2 条回复、5,129 次浏览、7 次收藏）印度也需要自己的 AI 监管、安全研究所和评估能力，而不是被动跟着别国的治理动作走。

讨论要点： 最大的分歧，不是要不要控制，而是该由谁来拥有它：厂商、开源工具链、国家政府，还是新的公共评估机构。

与前日对比： 5 月 20 日把智能体安全更明确地拉向工程控制。5 月 21 日则进一步延展到经 CI 测试的安全栈、仓库级决策协议，以及政府审查机制。

1.4 AI 经济讨论看起来不再只是定价，而更像资本配置与劳动力适应 🡕¶

第四个讨论簇，把资本密度、劳动力解读和企业适应放在了一起。这些帖子并没有就 AI 是否泡沫达成一致，但至少在一点上很一致：如今已经不能只靠模型定价来理解 AI 经济。

@scottlincicome 分享（9 次点赞、2 条回复、3,967 次浏览）了一条 Bloomberg 观点，称 AI 硬件带来的亚洲出口顺差，正在反过来推动美国的 AI 资本开支。附图写得很直白：4 家领先 hyperscaler 已把 2026 年 AI 资本开支计划推高到 $700 billion 以上，这让资本周期本身也成了当天 AI 讨论的一部分。

Bloomberg 图表，显示 Amazon、Google、Meta 和 Microsoft 的 2026 年 AI 资本开支计划已升至 $700 billion 以上

@1CoastalJournal 警告（8 次点赞、3 次引用、1,958 次浏览）存在“AI LLM ROI 问题”，并附上一张幻灯片，称某 AI 业务板块 2025 年收入为 $3.201 billion，而 AI 资本开支为 $12.727 billion，也就是每 $1 的 AI 销售额，大约对应 $4 的资本开支。@cremieuxrecueil 补充（43 次点赞、3 条回复、5,344 次浏览）了一条劳动力市场修正意见：初级岗位招聘下降，也许被过度归因于 GenAI，而忽视了远程办公趋势等其他因素。

@binance 表示（209 次点赞、93 条回复、37,801 次浏览）面对 AI 驱动的就业市场变化，它们的应对方式是培训员工、分享内部 use cases，并继续招聘 380 多个岗位。回复则大致分成两派：一派说 AI 只是提高效率的工具，另一派则讽刺员工正在被训练得更好，以便跟上那些最终会替代他们的系统。

讨论要点： 这一天没有出现一条清晰统一的 AI 就业叙事。它展示的是：企业仍在培训和招聘，批评者在质疑资本开支燃烧速度，而另一些人则认为，AI 正在替其他就业变化背锅。

与前日对比： 5 月 20 日主要关注工资、订阅 ROI 和劳动力市场筛选。5 月 21 日则把镜头拉远，转向 hyperscaler 资本开支循环、ROI 怀疑，以及雇主如何围绕 AI 采用重组自身。

2. 令人困扰的问题¶

基准测试的胜利仍然解释不了产品到底好不好¶

人们已经明显厌倦了那种无法预测助手是否真能处理真实工作流的抽象 benchmark 讨论。@boneGPT 认为（76 次点赞、16 条回复、3,639 次浏览、9 次收藏）Gmail 明明还没有记忆、规则和稳定的回复模板，外界却还在不停讨论 benchmark；@haider1 报道称（53 次点赞、8 条回复、3,433 次浏览、10 次收藏）推理模型会随着分配到的算力而变化；@keyang_xuan 认为（27 次点赞、9 条回复、2,282 次浏览、15 次收藏）如果没有从轨迹到结论的原则性映射，交互式评估就会变得松散且难以解释。严重程度：高。当前的权宜方案，是去构建像 Terminal-Bench Science 这样的领域任务集，或者干脆忽略排行榜上的细小差距。

高级智能体看起来像是预算门槛产品¶

反复出现的经济挫败感，是那些真正强的智能体，也许只会属于付得起长时程算力的人。@emollick 把这种分化说得很直白（96 次点赞、19 条回复、5,902 次浏览、12 次收藏），@MilkRoadAI 把大学的获取问题框成（36 次点赞、6 条回复、4,427 次浏览、12 次收藏）集中预算问题，而围绕 @ClementDelangue 的帖子和 @TheAhmadOsman 的本地 benchmark 帖子的回复，则把讨论具体化成 VRAM 上限、预装模型，以及什么样的硬件才算够用。严重程度：高。人们现在的应对方式，是改用更小的本地模型、手工调 inference 配置，或者转向像 Daytona 这样的新型智能体算力提供商。

智能体外围的控制层仍然太薄¶

围绕 RAMPART / Clarity 的帖子、Washington Post 关于审查的报道，以及 @Rudra_81 呼吁（14 次点赞、2 条回复、5,129 次浏览、7 次收藏）建立印度安全研究所的说法，其实都在抱怨同一个缺口：许多组织仍然没有可重复的流程，去测试工具使用、记录假设，以及在强大系统发布前完成审查。@CSOonline 报道称（3 次点赞、48 次浏览、1 次收藏）提示词注入、不安全的工具使用、权限提升，以及意料之外的自主行动，并不能被传统 app-sec 工作流很好吸纳。严重程度：高。当前的应对方式非常临时：CI 安全测试、Markdown 协议文件，或者呼吁公共审查。

AI 经济正在发出相互矛盾的信号¶

同一天里，既有 @binance 培训员工并继续招聘（209 次点赞、93 条回复、37,801 次浏览），也有 @scottlincicome 分享（9 次点赞、2 条回复、3,967 次浏览）hyperscaler 资本开支飙升图，还有 @1CoastalJournal 警告（8 次点赞、3 次引用、1,958 次浏览）AI 资本开支正在跑赢 AI 收入，以及 @cremieuxrecueil 认为（43 次点赞、3 条回复、5,344 次浏览）初级岗位招聘下滑也许被错怪到了 GenAI 头上。严重程度：中高。这里令人困扰的，不只是对 AI 的恐惧，而是买方、劳动者和运营者都很难判断，自己看到的是持久生产力，还是一个昂贵的过渡期。

3. 人们期望的功能¶

面向工作流的产品级 AI，而不是基准秀场¶

人们真正想要的，不是又一个基准冠军，而是能在真实工作流里稳定行事的助手。@boneGPT 想要（76 次点赞、16 条回复、3,639 次浏览、9 次收藏）的是 Gmail 的记忆、规则和回复模板，而 @haider1 放大了（53 次点赞、8 条回复、3,433 次浏览、10 次收藏）另一个事实：推理模型本来就没有单一稳定分数。这是一个务实且紧迫的需求。今天 Flash 模型和更窄的助手能部分缓解它，但整条信息流仍把那个“理应早就存在”的邮件与 app 控制层视为尚未解决。机会：直接。

共享算力池和封装好的本地 AI 盒子¶

关于算力的帖子描述的是一层仍未真正存在的中间层：它要比自己动手调参更容易，又比长期依赖云更便宜、更私密。@MilkRoadAI 主张（36 次点赞、6 条回复、4,427 次浏览、12 次收藏）机构应建立集中算力池，@ClementDelangue 追问（43 次点赞、5 条回复、1,964 次浏览、3 次收藏）构建者是否想要封装好的本地硬件，而 @TheAhmadOsman 展示（92 次点赞、10 条回复、8,492 次浏览、148 次收藏）消费级 GPU 上的本地推理已经可行，但仍然很拧巴。这是务实、紧迫、但目前只被本地推理指南、AI PC 和 neocloud 部分满足的需求。机会：直接。

可像代码一样审查的安全与评估工作流¶

Microsoft 的工具帖子、联邦审查报道，以及 @Rudra_81 呼吁（14 次点赞、2 条回复、5,129 次浏览、7 次收藏）建立本土评估能力的说法，都指向同一个愿望：安全工作应该可测试、可审计，而且对机构来说可理解。@CSOonline 报道称（3 次点赞、48 次浏览、1 次收藏）Clarity 已经会把协议写进仓库，而 @TheTuringPost 展示（5 次点赞、2 条回复、399 次浏览、3 次收藏）了围绕 RAMPART 的安全测试栈。对实验室、企业和政府来说，这都是务实且紧迫的需求，但今天的部分解法仍分散在开源工具和政策草案里。机会：直接。

面向敏感个人数据的本地优先 Copilot¶

@SimonAubury 展示（3 次点赞、3 条回复、100 次浏览、1 次收藏）了一套完全本地的支出分析栈，由 Moneydance、DuckDB、MCP、Claude Desktop 和 Ollama 组成。这个需求很务实，也带有明显的情感成分：人们想获得有用的 AI 帮助，但不想把私密财务数据交给一个自己并不信任的托管模型。今天的部分答案存在于本地模型和 MCP 拼装里，但主流产品层面，答案仍更像一张 DIY 架构图，而不是一款成熟产品。机会：竞争激烈。

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
Terminal-Bench Science	基准测试	(+)	真实科学工作流、容器化任务、pytest 验证	仍在搭建中；只有可确定打分的任务才适用
Interactive evaluation design science	评估方法	(+)	把轨迹与鲁棒性、安全性和可恢复性等判断连起来	是框架论文，不是开箱即用产品
RAMPART	安全测试框架	(+)	在 CI 中复现攻击和安全场景，底层基于 PyRIT	需要适配器，也要持续维护测试
Clarity	治理 / 设计工具	(+/-)	结构化假设审查和仓库托管的协议文档	对构建前有帮助，不是运行时强制层
Daytona	智能体算力基础设施	(+)	有状态沙箱、突发扩展，以及面向智能体和评估的快速启动	面向高级工作负载的专用基础设施
llama.cpp 加本地 Qwen 调优	本地推理栈	(+/-)	避免 API 依赖，并可在消费级 GPU 上运行	设置复杂，而且 VRAM 上限很硬
DuckDB + MCP + Claude/Ollama	本地分析工作流	(+)	让私有数据保留在本地，并暴露只读查询路径	仍是 DIY 架构，主流打包很少
ERA	科学软件生成	(+)	搜索数千个代码变体，并超越旧基线	需要可评分任务和人工 framing
Cognitive Broadband	网络运维 AI	(+/-)	对问题检测和客户服务给出具体 ROI 声称	证据主要由厂商自己提供，而且范围局限在电信场景

整体满意度最高的，是那些能拿掉具体模糊性的工具。@sanmikoyejo 指向（8 次点赞、405 次浏览、3 次收藏）Terminal-Bench Science，因为它把“AI for science” 变成了带程序化验证的真实工作流；@TheTuringPost 展示（5 次点赞、2 条回复、399 次浏览、3 次收藏）而 @CSOonline 报道称（3 次点赞、48 次浏览、1 次收藏），RAMPART 和 Clarity 正把安全工作变成 CI 与仓库协议流程；@latentspacepod 重点提到（16 次点赞、1 条回复、2,711 次浏览、4 次收藏）Daytona 的有状态沙箱模式；而 @SimonAubury 展示（3 次点赞、3 条回复、100 次浏览、1 次收藏）了 DuckDB、MCP、Claude Desktop 和 Ollama 如何被组合成一套本地私有数据 Copilot。

情绪更复杂的部分，主要集中在那些仍需要大量解释或调参的工具上。@TheAhmadOsman 展示（92 次点赞、10 条回复、8,492 次浏览、148 次收藏）本地推理在 8 GB GPU 上可以跑得不错，但同一张图也展示了接近上限时的不稳定配置。@nokianetworks 链接（2 次点赞、106 次浏览、1 次收藏）到一页 Cognitive Broadband 页面，声称首联解决率超过 50%、事件定级低于 5 分钟、主动问题检测提高 40%，但证据仍明显带着厂商叙事色彩。最明显的迁移趋势，是从单分数排行榜和 localhost 假设，转向工作流专用 benchmark、有状态智能体计算机、CI 安全测试，以及本地 / 本地机房的数据路径。

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
Terminal-Bench Science	@sanmikoyejo / Harbor	由研究者贡献真实科学工作流的 benchmark	缩小课本记忆与真实实验室任务之间的差距	Harbor Task Format、containers、pytest verification	Beta	site, GitHub, tweet
Daytona	@daytonaio via @latentspacepod	面向 AI 智能体的智能体原生计算机和有状态沙箱	给智能体持久、可扩展的机器，而不是一次性代码运行器	Bare metal、stateful snapshots、custom scheduler、CLI/API	已发布	site, article, tweet
RAMPART	Microsoft	面向智能体化 AI 的持续安全测试	把提示词注入和不安全工具使用等发现变成可重复测试	Python、pytest、PyRIT	已发布	repo, tweet
Clarity	Microsoft	面向智能体系统的结构化设计与失效分析协议	让假设和决策取舍能像代码一样被审查	Desktop app、web UI、coding-agent integration、markdown protocol	已发布	repo, article
Local personal-finance AI stack	@SimonAubury	基于 DuckDB 和 MCP，对 Moneydance 数据做本地支出分析	在不把原始数据发给不受信任托管模型的前提下回答私人财务问题	CPython 3.14 + uv、DuckDB、MCP、Claude Desktop、Ollama qwen3.5	Alpha	tweet
ERA	Google Research / Harvard SEAS	能写出专家级实证软件的 AI 系统	把面向科学任务的代码搜索和调优从数月压缩下来	Gemini、tree search	Alpha	article, tweet

反复出现的构建模式，是围绕 AI 做基础设施，而不是再造一个通用助手。Terminal-Bench Science 在定义更难的工作流任务，Daytona 在提供智能体的计算机底座，Microsoft 则通过 RAMPART 和 Clarity 提供安全脚手架，而 @SimonAubury 展示（3 次点赞、3 条回复、100 次浏览、1 次收藏）了单用户、本地优先栈在现实里到底长什么样。

架构图展示 Moneydance 导出数据流入 DuckDB、本地 MCP server，以及本地笔记本上的 Claude Desktop / Ollama

AI for science 这组内容尤其值得注意，因为构建者正在同时从循环两端发力。Terminal-Bench Science 让科学家贡献能暴露当前智能体失效点的确定性工作流，而 ERA 则使用 Gemini 和 tree search，在数千个代码变体上搜索，并打破疫情时期住院建模的顶级基线。合起来看，科学已经成了评估、基础设施和自动化编程最明显正在汇合的场景之一。

6. 新动态与亮点¶

AI for science 在同一天同时补上了 benchmark 层和求解器层¶

@sanmikoyejo 表示（8 次点赞、405 次浏览、3 次收藏）Terminal-Bench Science 正在寻找真实的科学工作流，而不是课本式 recall 任务；项目页面称，它的目标是 100 多个带确定性验证的自然科学任务。就在同一天， @TechXplore_com 报道称（7 次点赞、2 条回复、1,692 次浏览、4 次收藏）Google 的 ERA 系统在数千个代码变体上做搜索，产出了 14 个 COVID-19 住院模型，并超过了疫情时期的顶级基线。一个项目在定义更难的任务，另一个项目则已经在自动搜索更好的解法。

治理能力正在变成一种被绘制出来的对象，而不只是口号¶

@CecilYongo 分享（10 次点赞、2 条回复、410 次浏览）了一张矩阵，覆盖 22 个 Global South 政策工具，横跨人权影响评估、AI 安全评估与测试，以及第三方评估生态。再加上 @washingtonpost 报道称和 @Rudra_81 提出的观点，值得注意的信号是：评估能力本身正在成为公共政策对象，而不再只是实验室内部事务。

矩阵图比较 22 个国家级 AI 政策工具在人权影响评估、AI 安全评估，以及第三方评估生态覆盖上的差异

本地优先 AI 看起来不再像怀旧的发烧友情结¶

@TheAhmadOsman 发布（92 次点赞、10 条回复、8,492 次浏览、148 次收藏）了具体的消费级 GPU benchmark 表，@SimonAubury 画出了（3 次点赞、3 条回复、100 次浏览、1 次收藏）完整的本地私有数据 Copilot 架构，而 @ClementDelangue 追问（43 次点赞、5 条回复、1,964 次浏览、3 次收藏）构建者是否想要封装好的本地硬件。这样的组合，让本地优先 AI 看起来更像一个打包和产品问题，而不是一种意识形态姿态。

7. 机会在哪里¶

[+++] 立足工作流的评估与溯源层 — 来自 @keyang_xuan 的讨论串、@sanmikoyejo 的 Terminal-Bench Science 帖子、@haider1 的 Noam Brown 片段，以及 @boneGPT 的 productmaxxing 帖子都指向同一个缺口：团队需要的是能把轨迹、推理预算和产品结果连起来的评估，而不是只看一个最终分数。

[+++] 面向严肃智能体的算力获取产品 — @emollick 的算力稀缺帖子、@MilkRoadAI 的 Jensen 讨论串、@ClementDelangue 的本地硬件帖子、@TheAhmadOsman 的 benchmark 截图，以及 Daytona 讨论都说明，集中算力、本地 AI 设备和面向智能体的原生计算机存在强劲市场。

[++] 智能体安全控制平面与公共评估能力 — @TheTuringPost 的 RAMPART 解读、@CSOonline 的文章帖子、@washingtonpost 的审查报道、@Rudra_81 的 India 讨论串，以及 @CecilYongo 的政策矩阵都显示出对可重复测试、决策日志，以及第三方或国家级审查基础设施的需求。

[++] 本地优先的私有 AI 工作流 — @SimonAubury 的本地财务栈、@TheAhmadOsman 的消费级 GPU benchmark，以及 @ClementDelangue 的本地构建者硬件帖子都指向一个直接市场：助手既要把敏感数据、日志和媒体留在本地或本地机房系统里，又要保持足够易用。

8. 要点总结¶

只要不能连到工作流，benchmark 讨论就会继续失去公信力。 这一天最强的评估帖子，谈的都是轨迹设计、推理预算依赖，以及像邮件记忆这样的明显产品缺口，而不是抽象分数胜利。(source)
算力稀缺正在成为大众聊天机器人与高端智能体之间的分界线。 最明确的表述来自 @emollick，他认为即便强聊天机器人变便宜，重算力智能体也可能仍然只服务于最有预算的场景。(source)
应对算力稀缺的路径，正在分裂为共享基础设施与本地硬件两条线。 Jensen 式集中算力、Hugging Face 式本地盒子，以及消费级 GPU benchmark 表，都是对同一获取问题的不同回答。(source)
安全工作正在程序化。 Microsoft 的 RAMPART 和 Clarity 发布，再加上联邦和国家级评估提案，都说明行业正转向可重复测试、协议文件和公开审查，而不是非正式人工 review。(source)
AI for science 正在 benchmark 层和求解器层两头同时变得可操作。 Terminal-Bench Science 正在定义更难的真实工作流，而 ERA 已经能在科学代码空间里快速搜索到优于旧基线的方案。(source)
资本密度已进入主流 AI 讨论。 Bloomberg 的 hyperscaler 图表和“AI Capex Furnace”警告，都把 AI 经济讨论从模型定价推向了资本开支可持续性。(source)