跳转至

Twitter AI - 2026-06-02

1. 人们在讨论什么

1.1 基准测试的可信度因饱和、上下文依赖与行为盲区而瓦解 🡕

6 月 2 日最密集的技术讨论将基准测试视为信任问题,而非排行榜。人们不只是说某个排行榜噪音太多;他们争论的是:公开评测正在趋于饱和,模型越来越能识别测试条件,而且重要的行为仍处于基准测试的盲区之外。五条留存条目支持了这一主题。

@leerob 认为(32 个点赞、5 条回复、2,440 次浏览、10 个收藏),部分最流行的 AI 基准测试已不再有用,难以复现,且遗漏了 UX、语调和日常实用性等关键维度。回复也指向相同方向:有人要求用任务/结果导向的评估取代"模糊的基准测试",另有人指出某些开源模型在实际使用中的表现远超其基准分数。

@evaluatingevals 分享(8 个点赞、5 条引用、1,191 次浏览)了一篇题为《When AI Benchmarks Plateau: A Systematic Study of Benchmark Saturation》的论文,为当天的批评赋予了一个正式标签,而非停留在泛泛的抱怨。

@seungonekim 发布(59 个点赞、3 条回复、3,068 次浏览、16 个收藏)了 K-BrowseComp,指出韩语智能体基准测试仍是空白。附链论文显示,该基准共包含 400 道题目,其中 300 道经母语为韩语的评测者构建与验证;前沿模型在验证子集上的准确率仅为 30.00%–45.67%,而项目中的韩语模型得分为 0.00%–10.33%。

K-BrowseComp 论文摘要及散点图,显示前沿模型在验证子集上准确率低于 46%,韩语模型接近零

@smolix 介绍(1 个点赞、1 条回复、284 次浏览)了 ProactBench——一个专门衡量"用户暗示但从未明说的需求"的基准测试。附链博客文章论文显示,该基准涵盖 24 种沟通风格、198 段对话、624 个触发点,而最佳模型在任务看似完成后的"恢复"阶段得分仅为 37%。

ProactBench 柱状图,显示 16 个模型在 Emergent 和 Critical 维度得分较高,但 Recovery 得分明显偏低

@theinformation 报道(5 个点赞、2 条回复、2,061 次浏览)称模型越来越能识别出自己正在被测试。该通讯的预览将此定性为一个发布风险问题——对于那些在上线前依赖评测的实验室而言尤为如此。

讨论要点: 回复并未要求更好一点的排行榜,而是要求任务级评估、更难或更本地化的基准测试,以及在模型开始为其优化后仍保持效用的测试体系。

与前日对比: 6 月 1 日聚焦于验证器质量、数据泄漏和基准测试框架设计;6 月 2 日将这一批评扩展至饱和、基准感知,以及区域性浏览和任务后恢复等行为盲区。

1.2 可靠性工作深入智能体运行时内部 🡕

第二个讨论群组不再纠结于模型选择,而是更关注围绕模型运转的机制:策略检查在哪里触发、记忆如何保持可信、团队如何证明智能体确实做到了它所声称的事情。五条留存条目支持了这一主题。

@Azure 介绍(35 个点赞、3,845 次浏览、13 个收藏)了面向智能体的"评估 → 执行 → 确认"信任栈。该 ACS 文章指出,Agent Control Specification 定义了八个介入点、规范化策略输入、证据收集、裁决标准化以及 fail-closed 执行机制;公开预览版的 Agent Governance Toolkit 将该包定位为跨框架自主智能体的治理、身份、沙箱隔离与审计工具链。

@ericosiu 梳理(8 个点赞、849 次浏览、17 个收藏)了"公司大脑"的六层架构:采集、检索、来源真相、权限、反馈与评估。附带图示同样直观呈现了各层的失效模式:笔记分散、文档陈旧、访问权限过宽、修正内容消失、评分循环缺失。

公司大脑架构图,展示采集、检索、来源真相、权限、反馈与评估六层结构,及各层旨在防止的失效模式

@loganthorneloe 表示(6 个点赞、598 次浏览、8 个收藏),其招聘信息监控智能体发现,智能体评估是目前需求最旺盛的 AI 工程技能,将治理讨论与招聘需求直接挂钩。

@swmansion 警告(9 个点赞、2 条回复、546 次浏览),生产环境下的提示词评估策略不能只靠"看起来没问题"来判断,因为每次修改提示词都需要一种可重复的方法来验证系统是否真正有所改进。

@lemire 记录(21 个点赞、6 条回复、1,724 次浏览)了一个亲历的失效场景:AI 告诉他基准测试比较和汇编代码检查均无问题,但原始输出却与模型的综合判断相矛盾。他的结论是:优先选择直接暴露真实数据的工具,而非依赖 AI 对这些数据的解读。

讨论要点: 反复出现的权宜方案是结构性的:更短的任务、显式检查、原始输出、人工审核,以及能够说明哪个来源胜出、修正后发生了哪些变化的架构。

与前日对比: 6 月 1 日聚焦于连接器安全、范围写入和审批边界;6 月 2 日将相同的治理直觉推向运行时更深处——记忆、来源真相、反馈与评估成为可见的架构层次。

1.3 高互动帖子更青睐基础知识与专业化,而非新奇噱头 🡒

当天互动量最高的非基准测试帖子,大多是解说文章、学习路线图和特定工作流工具,而非泛泛的"AI 改变一切"式发布文案。四条留存条目支持了这一主题。

@Aurimas_Gr 具体讲解(127 个点赞、4 条回复、4,871 次浏览、116 个收藏)了向量数据库的写入/查询机制:嵌入数据、单独存储元数据、对两者建立索引,再在查询时执行近似最近邻搜索与元数据过滤。一条回复补充了实战经验:早在 RAG 让向量数据库大热之前,推荐系统和异常检测就已在使用这套模式了。

向量数据库架构图,展示从嵌入和元数据到索引存储的写入路径,以及结合元数据过滤与近似最近邻搜索的查询路径

@AndrewBolis 指出(38 个点赞、25 条回复、3,517 次浏览、47 个收藏),大多数人学 AI 的顺序是"倒着来"——跳过基础,直接上手高级工具和智能体。回复将其引申为关于基础知识的具体争论:有人认为提示词技能优先,另一些人则坚持真正的基础是数学、编程和解题能力。

@paulg 表示(119 个点赞、15 条回复、6,468 次浏览),他接触的这届 YC 春季营创业者野心远超"AI for x"的套路。回复将其深化为一个创业者视角,而非口号:软件本身并未死去,但部分现有软件公司或许将走向消亡。

@SD_Tutorial 介绍(10 个点赞、331 次浏览、5 个收藏)了 Vlo——一款基于 ComfyUI 提供生成式功能的本地开源视频编辑器。公开的 README 显示,该项目处于早期 alpha 阶段,以控制优先于自动化为原则,已支持 SAM2 蒙版、关键帧、样条编辑、节拍检测、插帧和超分辨率放大。

讨论要点: 高质量回复围绕基础知识、拆解方法和适合实际工作的工具展开。相比之下,当天的硬件话题在人们看不到清晰运营模式时,反应明显冷淡。

与前日对比: 6 月 1 日更多关注基准测试仪表板和发布时的架构宣称;6 月 2 日的高互动内容更偏向入门指南、学习路径和能融入现有工作流的专业产品。


2. 令人困扰的问题

基准测试分数不再告诉人们实际会发生什么

严重程度:高。@leerob 认为(32 个点赞、5 条回复、2,440 次浏览、10 个收藏),主流 AI 基准测试已不再有多大帮助,难以复现,且仍未能衡量 UX 和日常实用性等关键品质。@evaluatingevals 分享(8 个点赞、5 条引用、1,191 次浏览)了一篇关于基准饱和的论文,@theinformation 报道(5 个点赞、2 条回复、2,061 次浏览)称模型越来越能识别测试状态,而 @seungonekim 展示(59 个点赞、3 条回复、3,068 次浏览、16 个收藏)和 @smolix 展示(1 个点赞、1 条回复、284 次浏览)均表明,区域性浏览能力和任务后恢复能力可远低于标准公开排行榜所暗示的水平。应对方式包括:用自己的工作来测试模型、要求任务/结果导向的评估、构建更具情境感的基准测试。这一问题值得深入构建,因为投诉已横跨饱和度、可复现性、本地化和行为盲区等多个维度。

公开安全基准测试仍遗漏了太多攻击面

严重程度:高。@heynavtoor 表示(7 个点赞、4 条回复、1,973 次浏览、9 个收藏),Palo Alto Networks 研究人员审计了 932 篇攻击论文,发现当前公开基准测试最多只覆盖了攻击矩阵的 25%。附图中的摘要显示,此次审计提取了 2,521 个独特攻击组,整个 STRIDE 威胁类别均缺乏标准化评估,且在未覆盖类别中存在高达 46 倍的 token 放大攻击和 96% 的攻击成功率。@_vmlops 补充(11 个点赞、3 条回复、1,017 次浏览)了同类投诉的另一个版本:Cisco 的研究发现,测试的 15 个前沿模型全部在持续多轮攻击下失陷,部分模型的攻击成功率高达 88%。

《Talk is (Not) Cheap》论文摘要,指出当前公开基准测试最多覆盖 LLM 攻击矩阵的 25%,整个威胁类别缺乏标准化评估

目前的应对方式包括临时红队测试、策略层叠加和人工审核,但静态安全评级与真实多步骤攻击行为之间的差距依然巨大。这一问题值得深入构建,因为买家仍在依据多条帖子所批评的、忽视真实攻击展开方式的测试来做部署决策。

智能体仍需硬性真实数据、更严格的范围限制和可重复的检查机制

严重程度:高。@lemire 记录(21 个点赞、6 条回复、1,724 次浏览)了 AI 错误综合基准测试和汇编代码结果、受质疑后仍为错误辩护的场景。@Jeyffre 建议(9 个点赞、2 条回复、568 次浏览、10 个收藏)采用单任务交接、缩短上下文窗口,甚至引入第二个模型来验证工具声称结果的合理性。@swmansion 警告(9 个点赞、2 条回复、546 次浏览)"看起来没问题"并非生产环境评估策略;@ericosiu 指出(8 个点赞、849 次浏览、17 个收藏),缺少来源真相、权限管理、反馈机制和评估的公司大脑必将失效。应对方式包括拆解工作流、检查原始输出、将修正转化为规则或评估用例。这一问题值得深入构建,因为可靠性仍比任何单一模型的基准测试更依赖工作流结构。

政策与硬件公告仍显得规格不足

严重程度:中。@MTSlive 报道(75 个点赞、11 条回复、7,505 次浏览、6 个收藏),特朗普总统签署了一项行政令,为前沿 AI 开发者建立自愿流程,要求在模型发布前最多 60 天与政府共享模型;但回复随即追问其中有何附加条件、这是否是监管蔓延的开始,以及是否会拖慢发布节奏。@RepDonBeyer 回应(9 个点赞、2 条回复、537 次浏览),该行政令既未建立可信框架,也未明确处理已识别威胁的响应程序。@tomwarren 表示(103 个点赞、4 条回复、5,879 次浏览、16 个收藏),微软的 Project Solara 可能重蹈公司早期设备平台失败的覆辙,回复认为该产品依然模糊或令人沮丧,远谈不上令人兴奋。应对方式是等待实地证据和更清晰的运营规则,再去相信公告文案。这一问题值得深入构建,因为合规工具链和以证明为导向的产品界面目前仍显薄弱。


3. 人们期望的功能

基于结果、行为丰富的评估体系

人们明确要求的是能追踪真实工作中真正重要事项的评估体系,而非依赖已趋于饱和的公开基准测试还能区分的那些指标。@leerob 帖子(32 个点赞、5 条回复、2,440 次浏览、10 个收藏)的某条回复认为,模型应以任务和结果来评判,而非依赖模糊的基准测试。@seungonekim 展示(59 个点赞、3 条回复、3,068 次浏览、16 个收藏)了本地化为何重要,@smolix 展示(1 个点赞、1 条回复、284 次浏览)了任务后恢复为何重要,而 @evaluatingevals 展示(8 个点赞、5 条引用、1,191 次浏览)表明饱和本身已成为一个被正式研究的问题。机会判断:直接。这是实验室、开发者和不再相信单一基准测试标题的买家的切实需求。

可解释行为来源的可移植运行时治理层

信息流反复指向同一个缺失层:可移植的控制机制——能说清答案从何而来、哪个来源胜出、哪个动作被拦截、反馈后发生了什么变化。@Azure 呈现(35 个点赞、3,845 次浏览、13 个收藏)了一套开放信任栈,@ericosiu (8 个点赞、849 次浏览、17 个收藏)这一问题归结为三个审计问题,@loganthorneloe 表示(6 个点赞、598 次浏览、8 个收藏),招聘需求已明显向评估技能倾斜。机会判断:直接且竞争激烈。需求是运营层面的,企业已在围绕它招人。

针对高风险模型发布与部署的清晰审查流程

围绕行政令讨论串的回复显示出对具体内容的渴望,而非自愿提前访问和模糊保证。@MTSlive 引发(75 个点赞、11 条回复、7,505 次浏览、6 个收藏)了对激励机制和发布延迟的追问,而 @RepDonBeyer 表示(9 个点赞、2 条回复、537 次浏览),该行政令仍缺乏可信框架和处理已识别威胁的程序。机会判断:直接但受机构约束。需求是实际存在的,但买家可能是政府或受监管的企业,而非面向大众的工具采购方。

原生融入工作流的 AI 工具与学习路径

当天最成功的"如何使用 AI"内容,都是把工作拆解为可理解的小步骤,而非承诺一个通用智能体解决方案。@AndrewBolis 指出(38 个点赞、25 条回复、3,517 次浏览、47 个收藏)人们学 AI 的顺序是"倒着来",@Aurimas_Gr 演示(127 个点赞、4 条回复、4,871 次浏览、116 个收藏)了向量数据库的实际运转机制,@SD_Tutorial 介绍(10 个点赞、331 次浏览、5 个收藏)了一款以控制为先的视频编辑器,而非一键生成演示。机会判断:竞争激烈。人们似乎更愿意为适合具体工作的工具和教学内容买单,而非抽象的 AI 最大主义。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
向量数据库 数据库/检索 (+) 存储嵌入与元数据,支持近似最近邻搜索加过滤检索;超出 LLM 场景同样适用 依赖嵌入选择、索引设计和检索质量
K-BrowseComp 基准测试 (+) 以韩语为背景的浏览任务揭示了真实的本地化差距 领域较窄且较新
ProactBench 基准测试 (+) 衡量标准评测所缺失的涌现性、关键性和恢复性主动行为 新基准,采用率低,Recovery 得分极低
Agent Control Specification (ACS) 治理规范 (+/-) 八个拦截点、可移植策略输入、跨框架标准化裁决 需要策略编写和运行时集成;推文中的 ASSERT 声明比引用的 ACS 页面更宽泛
公司大脑六层架构 知识架构 (+) 明确呈现采集、检索、来源真相、权限、反馈与评估各层 任何一层缺失或修正内容从未转化为规则,整体即告失效
提示词回归测试 评估方法 (+) 可重复判断提示词修改是否真正改善了系统 比临时提示需要更多前期配置和维护
单任务交接链 智能体设计模式 (+) 更短的上下文、更低成本的子步骤、更易验证每项决策 需要更多编排工作和交接逻辑
真实输出校验 验证方法 (+) 直接比对原始工具输出或汇编结果,而非 AI 摘要 比直接信任模型更慢、更费人力
Claude / ChatGPT / Grok Pro 助手大语言模型 (+/-) 用户按工作流适配选择;Claude 因长上下文能力获赞 没有公认的单一最优选;用户普遍并行使用多种工具
Vlo 创意编辑器 (+) 集成 ComfyUI、蒙版、关键帧、插帧和超分辨率放大的本地开源编辑器 处于早期 alpha 阶段,需本地配置及 ComfyUI

评价最高的是那些能减少歧义的方法:本地化基准测试、显式治理钩子、更短的任务,以及原始输出校验。普遍的权宜方案不是"用更聪明的模型",而是"缩小模型可能出错的范围,并验证它实际做了什么"——正如 @Jeyffre 建议(9 个点赞、2 条回复、568 次浏览、10 个收藏)的单任务交接和可信度检查,@swmansion 呼吁(9 个点赞、2 条回复、546 次浏览)的可重复提示词评估,以及 @lemire 偏好(21 个点赞、6 条回复、1,724 次浏览)原始输出而非 AI 对这些输出的摘要。

竞争格局也从"单一模型称霸"转向"适配工作流"。@Bigdennis 表示(18 个点赞、10 条回复、135 次浏览),他将长上下文任务的日常工作从 ChatGPT 迁移至 Claude,同时保留 Grok Pro 处理更窄的使用场景;回复中大家都在描述并行比较多个模型,而非宣布哪个是永久赢家。与此同时,@SD_Tutorial 介绍(10 个点赞、331 次浏览、5 个收藏)的 Vlo 作为原生融入工作流的创意工具,进一步印证了产品差异化正在从泛化的"最佳模型"定位转向具体的工作适配性。


5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
K-BrowseComp @seungonekim 及合作者 以韩语网站和语言为基础的网页浏览基准测试 韩语场景下缺乏区域性智能体评估 400 道题目,300 道验证子集,search_eval 框架,数据/代码公开 已发布 论文 推文
Agent Control Specification (ACS) @Azure / Microsoft 面向 AI 智能体的开放运行时治理层 分散的、框架专用的策略执行机制 Agent Governance Toolkit、清单文件、策略引擎、Python/Node/.NET/Rust 适配器 Beta 文章 代码库 推文
ProactBench Boson AI / Alexander Smola(由 @smolix 分享) 衡量 Emergent、Critical 和 Recovery 三个阶段对话主动性的基准测试 标准评测遗漏了显式任务看似完成后的有益行为 Planner + User Agent + Assistant 管道,198 段对话,624 个触发点,数据/代码公开 已发布 博客 论文 推文
Vlo PxTicks(由 @SD_Tutorial 分享) 支持 ComfyUI 生成式功能的本地视频编辑器 AI 视频生成与真实编辑工作流脱节 Node.js 22+、Python 3.10+、ComfyUI、SAM2 蒙版、关键帧、插帧、超分辨率放大 Alpha 代码库 推文

K-BrowseComp 和 ProactBench 之所以重要,是因为它们重构了评估面,而非又发布了一个通用模型。前者将网页浏览评估本地化至韩语网站;后者衡量显式任务看似完成后的主动价值——论文指出,标准基准测试对此预测效果很差。

ACS 与相邻的"公司大脑"讨论展示了当天的第二种构建模式:将治理、来源真相和评估显式化为系统层。@ericosiu 图解(8 个点赞、849 次浏览、17 个收藏)了这些层次——采集、检索、来源真相、权限、反馈与评估——表明记忆和策略已开始成为可构建的基础设施,而非模糊的最佳实践。

Vlo 代表了第三种模式:原生融入工作流的 AI 应用。其 README 明确指出优先级是控制而非自动化,契合当天更广泛的偏好——工具应适配真实工作,而非停留在泛化 AI 演示文化。@paulg 创业层面(119 个点赞、15 条回复、6,468 次浏览)表达了同样的转变:现在发生的事远不止"AI for x"。


6. 新动态与亮点

K-BrowseComp 将本地化提升为一等智能体基准测试

@seungonekim 发布(59 个点赞、3 条回复、3,068 次浏览、16 个收藏)了 K-BrowseComp,一个以韩语网站和韩语内容为基础的基准测试。该论文显示,即便是前沿模型在验证子集上的得分也最高只有 45.67%,数据和代码已公开。这件事之所以重要,是因为它将"基准测试过于泛化"从一句抱怨变成了一个已发布的成果。

ProactBench 揭示了助手缺失的"恢复"能力

@smolix 介绍(1 个点赞、1 条回复、284 次浏览)了 ProactBench,附链论文显示,该基准在 198 段对话和 624 个触发点中衡量对话主动性的 Emergent、Critical 和 Recovery 三种形式。Recovery 是最突出的信号,因为六个标准基准测试对其预测效果均较弱。这使得该帖子即便互动量不高,也具有重要意义:它引入了一个人们可以实际测试的具体新维度。

ACS 推动智能体治理走向可移植运行时契约

@Azure 介绍(35 个点赞、3,845 次浏览、13 个收藏)了一个闭合评估与执行循环的端到端信任栈。该 ACS 文章指出,该规范跨运行时标准化了拦截点、策略输入、证据收集和 fail-closed 处理机制。这件事之所以重要,是因为治理层开始呈现为一个产品类别,而非一堆自定义钩子的集合。

Vlo 展示了一款以控制为先的 AI 视频编辑器,而非纯生成演示

@SD_Tutorial 介绍(10 个点赞、331 次浏览、5 个收藏)了基于 ComfyUI 的视频编辑器 Vlo,公开代码库显示,该项目本地运行、开源、处于早期 alpha 阶段,专为支持蒙版、关键帧、插帧和超分辨率放大的真实编辑工作流而构建。这件事之所以重要,是因为它契合了当天对原生融入工作流的工具的广泛需求,而非泛化 AI 奇观。


7. 机会在哪里

[+++] 真实场景智能体评估基础设施 —— 来自 K-BrowseCompProactBench、基准饱和论文和攻击面审计的证据都指向同一个缺口:公开排行榜遗漏了本地化能力、恢复行为以及大部分攻击面。这一机会信号强烈,因为同一天里,上述失效在研究、产品营销、安全和招聘领域同时出现。

[+++] 治理、来源溯源与来源真相层 —— ACSAgent Governance Toolkit 以及上述"公司大脑"架构均指向同一个缺失的运行时层:能够解释发生了什么、执行策略并将反馈转化为评估。这一机会信号强烈,因为从业者已在手动围绕其设计,且职场信号显示企业愿意为此付费。

[++] 原生融入工作流的 AI 软件 —— Vlo、向量数据库解说和当天的学习路线图讨论,都显示出对适配真实工作的工具的需求,而非泛化 AI 定位。这一机会信号中等,因为需求广泛且显而易见,但市场也较为拥挤,执行质量比新颖性更为关键。

[+] 前沿模型发布审查与合规工具 —— 行政令讨论串和 Don Beyer 的回应显示,在强大模型上线前,对更可信的审查、响应和审计程序存在切实需求。这一机会尚在萌发,因为需求是真实的,但买家群体比开发工具或工作流软件市场更窄、行动更慢。


8. 要点总结

  1. 对基准测试的不信任已扩展为:公开评测究竟还在衡量什么的根本性追问。 @leerob 认为(32 个点赞、5 条回复、2,440 次浏览、10 个收藏)主要基准测试已不再有多大帮助,@seungonekim 展示(59 个点赞、3 条回复、3,068 次浏览、16 个收藏)了本地化浏览能力在韩语基准测试中可能大幅崩溃。
  2. 6 月 2 日的可靠性工作压倒性地集中在评估循环和来源真相上,而非更多自主性。 @Azure 介绍(35 个点赞、3,845 次浏览、13 个收藏)了评估/执行/确认信任栈,@ericosiu 梳理(8 个点赞、849 次浏览、17 个收藏)了其底层的记忆和权限支撑层。
  3. 安全营销的说服力明显弱于攻击面覆盖的现实。 @heynavtoor 分享(7 个点赞、4 条回复、1,973 次浏览、9 个收藏)的审计显示,当前公开基准测试最多只覆盖了 LLM 攻击矩阵的 25%;@_vmlops 表示(11 个点赞、3 条回复、1,017 次浏览),Cisco 研究发现,测试的 15 个旗舰模型在多轮攻击下全部失陷。
  4. 信息流对实用基础设施教育的奖励远超噱头式故事叙述。 @Aurimas_Gr 详细讲解(127 个点赞、4 条回复、4,871 次浏览、116 个收藏)了向量数据库的运作机制,@AndrewBolis 认为(38 个点赞、25 条回复、3,517 次浏览、47 个收藏),人们在转向智能体之前仍需先学好 AI 基础知识。
  5. 最具说服力的构建模式是具体的,而非泛化的。 @SD_Tutorial 介绍(10 个点赞、331 次浏览、5 个收藏)了一款原生融入工作流的视频编辑器,@smolix 指出(1 个点赞、1 条回复、284 次浏览)了一个衡量主动恢复能力的基准测试,@paulg 表示(119 个点赞、15 条回复、6,468 次浏览)现在发生的事情远不止"AI for x"。