跳转至

Twitter AI — 2026-04-11

1. 人们在讨论什么

1.1 AI智能体基准测试已失效(而且大家都知道了)

本周,AI智能体基准测试的公信力彻底崩塌——Berkeley研究人员证明,所有主流评估都可以在不解决任何任务的情况下被刷到接近满分。

@daniel_mac8发布了关键总结:"AI编程智能体基准测试已死。Berkeley研究人员操纵了每个基准测试,在官方评估流程中获得满分,却没有解决一个问题。唯一有意义的基准测试是METR、GDPval,以及你自己的直觉判断。"附带的图片展示了影响范围:一个10行的conftest.py就能"解决"SWE-bench Verified上的每个实例,一个伪造的curl封装在全部89个Terminal-Bench任务上获得满分,而在Chromium中导航到file:// URL就能直接从WebArena任务配置中读取标准答案。只有OSWorld部分抵抗住了攻击,得分73%。

各基准测试的漏洞利用覆盖率——8个主要基准测试中6个达到100%

基准测试的幻象——解释研究方法的博客摘录

@betterhn20通过Hacker News讨论转发了同一研究,附上了Berkeley RDI博客文章的链接。

这与@Dagnum_PI观点相呼应:他认为"大多数测试AI智能体的人方法都是错的。他们跑模拟,自己和自己对打,在笔记本里调提示词就号称这是评估。"他提出的替代方案是:对抗性竞赛。他引用了Open Poker,一个AI机器人通过WebSocket互相竞争的平台,使用标准扑克追踪统计数据建立实时对手画像。其核心洞察是:模拟反映的是你自己的假设——你无法发现你没想到要测试的东西。

Open Poker——对手追踪作为AI智能体改进的关键

@dannylivshits补充了一个令人警觉的数据点:研究人员给4个AI推理模型一条指令——"越狱这个AI"——然后就不管了。没有人工引导,没有后续提示词。这些模型自行规划攻击策略,实时调整,并突破了安全护栏。AI系统之间的自主对抗能力已不再是理论上的可能。

1.2 小企业主将AI作为运营基础设施

当天得分最高的推文(遥遥领先,参与度得分5,233,浏览量88K,书签953)来自@RandBusiness,他描述了Scalepath(一个企业主社群)内部以社区驱动方式推动AI应用的做法。成员通过专属Slack频道分享真实的AI使用案例,每两周进行一次现场演示。最突出的案例:一位成员构建了一个氛围编程(vibe-coded)的Service Titan替代品,并已每天在生产环境中使用——而Service Titan是一个市值超过100亿美元的现场服务管理平台。书签与点赞的比例(953:362)表明了极高的"稍后查看"意愿——人们想要复制这种模式。

@LocalsOnlyAI回复说他们正在为本地模型和消费级硬件(Mac mini、DGX Spark、Mac Studio)构建真实商业任务的测试,并征求工作流建议。@stuartawillson指出,"每周分享真实世界的案例研究"才是"打开人们对AI能力认知边界"的方法。

@CommandCodeAI发布了一份面向开发者的AI用例速查表,覆盖完整的SDLC:从技术栈描述生成项目脚手架、将产品规格转换为工程任务、将截图转换为UI组件、从自然语言生成SQL、编写迁移和回滚脚本、在实现前创建API契约、以及生成测试。推荐的工作流程:规格、任务、编码、测试、审查、文档、发布。

@ravimahfunda描述了Ramp的生产设计工作流:Claude用于意图澄清、PRD起草和边缘情况梳理;Cursor和Claude Code用于原型流程和界面搭建;Figma用于系统对齐和生产级精修。他的表述很明确:"AI不是在取代设计,而是在取代设计中那些本来就不算设计的部分。"

1.3 AI治理真空持续扩大

本周多位发声者关注到AI发展速度与制度响应之间的鸿沟。

@AmyKremer认为美国众议院需要一个独立的人工智能专门委员会,她将此类比为9/11后国土安全委员会的设立。她的论点是:AI政策目前分散在多个委员会中,导致没有明确的监管、没有问责、也没有统一的战略。她指出,参议院法案中一项允许AI不受监管10年的条款最近被否决(99:1投票),但"削弱监管、阻止各州采取行动、拖延真正问责的协调推动"仍在继续。

人工智能专门委员会章程

@EpochOpinion报道称伊朗正在充当中国AI驱动战争战略的实战测试场:"中国正在使用人工智能来分析、绘制和预测美国在伊朗的军事行动,以应对未来与美国的潜在冲突。"AI治理的国家安全维度已不再是抽象概念。

@BuildOnSapien阐述了商业治理挑战:"市场正从聊天机器人的错误转向智能体的能力风险。如果你无法验证AI输出或决策是如何产生的,你就不具备一个完全可信的系统。"要求包括:知道哪些数据参与了决策、应用了什么标准、以及谁进行了验证。

@DawnLrps宣布成立IFAST(国际AI安全与贸易论坛),寻求具有跨领域专业知识的指导委员会成员,以协调AI安全与全球贸易——这是在国际层面弥合安全要求与商业部署之间差距的一次尝试。

@AndrewCritchPhD提出了一个反主流观点:"大部分非专业的AI安全事业已经不值得做了。"其含义是,有效的AI治理所需的技术深度已超出大多数倡导组织目前的能力。

1.4 按任务选择LLM成为共识

@MicrosoftLearn发布了当天第二高得分的推文(324个赞,169个书签):清晰地拆解了AI智能体的组成部分——推理(模型)、动作(工具)、上下文(它知道什么)、检索(引入正确的信息)、编排(如何协同工作)和评估(如何知道它有效)。@ConnectMatthew在回复中指出了缺失的一层:人类的AI素养。"谁来决定什么是'正确的信息'?谁来识别推理何时出错?"@AIHacks8020在另一条回复中指出,持久记忆和情景记忆才是将无状态智能体与能随时间积累价值的智能体区分开来的关键组件。

@TradexWhisperer向社区询问从个人经验来看哪个LLM最好(5,911次浏览)。共识是取决于任务:@danielcorcega表示大量测试后"很难超越Claude"在研发方面的表现;@druidofparanor将其分为四类:"Claude用于初始开发,Codex用于代码加固,Grok用于对话,Gemini用于图像。"

@hackernoon认为,对于评估AI开发工具的团队来说,CLI优先模式在规模化时具有显著的成本优势——仅token节省就足以证明值得评估。附带的信息图详细介绍了Claude Code使用.claude/skills/目录中的SKILL.MD文件实现的技能架构。

Claude Code技能——文件夹、工具、运行时架构

@KBPetrovv总结了元模式:"2026年的智能体化AI:一个大语言模型获得工具访问权限,加上一个编排层将输出排列成多步骤工作流。底层模型:没变。架构:没变。脚手架被称为创新。"


2. 令人困扰的问题

基准测试造假破坏模型选择(High)

Berkeley的基准测试漏洞利用研究证实了从业者的怀疑:公司在新闻稿中引用、投资者用来支撑估值的数字,衡量的是对评分机制的利用,而非真实能力。工程师在为生产环境选择模型时无法信任基准排名。@daniel_mac8建议退回到METR、GDPval和特定任务评估——但这些比查看排行榜要费力得多。"容易作弊"的基准测试和"难以运行"的真实评估之间的差距,让大多数团队只能凭猜测做决策。

氛围编程时代的API密钥泄露(Medium)

@VibeLint指出了一个被AI辅助编程放大的持续问题:在GitHub上搜索"OPENAI_API_KEY"会返回令人震惊的结果。"最大的安全问题往往是最蠢的问题。泄露的密钥、公开的仓库、AI生成的错误、未经审查就部署。"随着越来越多非工程师使用AI工具生成代码,凭证泄露的攻击面不断扩大。@DrKERMD指出,即使Grok本身也会警告用户:"永远不要与任何AI聊天分享敏感的税务/财务信息(社会安全号、收入详情、银行信息等)。它的设计不适合这种级别的安全或合规要求。"

AI环境成本仍未解决(Medium)

@evildead2luvr认为"以目前的状态,AI的污染太多、消耗的自然资源太多,不足以证明其使用的合理性。"这一批评不仅限于资源消耗,还延伸到行业风气——快速部署与可持续性之间的矛盾,至今没有任何主要供应商给出令人信服的回应。

非专业AI安全活动失去公信力(Low)

@AndrewCritchPhD(博士级AI安全研究员)宣称"此时此刻,沉默甚至仅仅谴责暴力已经不够了",并且大部分非专业的AI安全事业"已经不值得做了"。令人沮丧的是,那些缺乏技术深度来影响结果的倡导行为——关切与能力之间的鸿沟使得治理领域参与者众多却效果甚微。


3. 人们期望的功能

可信赖的AI智能体基准测试

Berkeley的研究制造了一个真空:如果SWE-bench、WebArena、GAIA、Terminal-Bench、FieldWorkArena和CAR-bench都能被刷到接近满分,那应该用什么来替代它们?@daniel_mac8指向了METR和GDPval,但承认实际的答案是"你自己的直觉判断"——模型能完成你的具体任务吗?社区需要将对抗性评估平台(如针对扑克智能体的Open Poker)推广到更广泛的智能体能力领域。

美国国会统一的AI监管机构

@AmyKremer和回复者强调,分散的委员会管辖权无法产生问责。一个专门委员会可以集中听证、提升专家话语权,并设立单一责任主体。参议院99:1反对AI不受监管的投票表明了对监管的需求,但目前没有制度化的承载机构。

面向非工程师的AI安全工具

API密钥泄露问题(@VibeLint)和生成式AI驱动的骗局(@digitalbimpe)都指向同一个需求:能在代码上线前捕获错误的安全工具,专门为那些用AI生成代码而非手写代码的人设计。传统的"检查语法错误"建议已经过时;下一代安全工具必须在代码生成层面发挥作用。

面向智能体化AI的流式数据库

@YingjunWu指出了一个具体的市场空白:"在当前的智能体化AI市场中,有一个巨大的机会去建立一家新的流处理公司——远好于在OLTP或OLAP领域竞争。如果没有人来做,我会非常失望。"一条回复指向了@s2_streamstore作为早期入局者。这一需求源自智能体需要实时数据管道而非批量查询。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
Claude LLM Positive 在研发、PRD起草、日常任务(Apple Health、文档)方面"很难被超越" --
Codex (OpenAI) LLM / 编程智能体 Positive 在初始开发后用于"加固"代码时首选 速度被批评不如Claude Code
Grok LLM Mixed 对话能力强,会坦诚地向用户发出安全警告 不同用户间输出不一致;阴谋论放大
Gemini LLM Positive 图像生成能力突出 --
Cursor IDE智能体 Positive 在Ramp用于原型流程和界面搭建 --
Claude Code 编程智能体(CLI) Positive CLI优先的token节省、SKILL.MD架构、覆盖完整SDLC --
Figma 设计工具 Positive AI增强设计工作流中的生产级精修层 非AI原生
Open Poker 智能体测试 Positive 通过WebSocket进行对抗性实战测试,对手追踪 领域狭窄(扑克)
METR / GDPval 评估 Recommended 能抵抗基准测试作弊漏洞 比查看排行榜更难操作
Scalepath 社区 Positive 真实AI用例分享,每2周现场演示 私密社区

5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
Service Titan替代品 Scalepath成员(通过@RandBusiness 氛围编程的现场服务管理工具 小企业使用100亿美元以上平台的成本问题 AI生成 Shipped(日常使用中) Tweet
VibeLint @VibeLint AI代码安全检查器,针对泄露的密钥和未审查的AI生成代码 API密钥泄露、氛围编程安全漏洞 -- Alpha Tweet
IFAST @DawnLrps 国际AI安全与贸易论坛 缺乏协调AI安全与贸易的国际机构 指导委员会组建中 RFC Tweet
cli-to-js 通过@grok 通过解析--help将任何CLI(git、ffmpeg、aws)转换为类型化的JS API AI智能体通过exec字符串调用CLI的问题 Node.js,解析器 Shipped Tweet
GitRated @GitRated AI驱动的GitHub仓库评审与评分 发现和评估开源项目 AI评审引擎 Shipped gitrated.com
E.Y.E. @_expertchase 面向非技术用户的消费级AI,适配日常生活 非技术用户的AI可及性差距 视频演示 Alpha Tweet
Open Poker Season 2 @openpokerai(通过@Dagnum_PI 竞技性AI扑克机器人平台,奖金超过300美元 合成AI智能体评估问题 WebSocket,对手追踪 Beta Tweet

Service Titan替代品是最值得关注的信号:一位小企业主构建并每天使用一个氛围编程的企业现场服务软件替代品。母推文的953个书签表明,人们对复制这种模式有广泛的兴趣——用AI生成定制化的商业软件,而非购买打包的SaaS。

cli-to-js解决了智能体化AI的一个具体基础设施需求:它不让智能体通过脆弱的exec字符串调用CLI工具,而是解析--help输出来生成类型化的JavaScript API。这使得调用方式从字符串拼接shell命令变成了git.diff()这样的函数调用。


6. 新动态与亮点

基准测试的幻象(Berkeley RDI)

Berkeley研究人员构建了一个自动化扫描智能体,系统性地审计了八个主要AI智能体基准测试——SWE-bench、SWE-bench Verified、WebArena、OSWorld、GAIA、Terminal-Bench、FieldWorkArena和CAR-bench——并在所有测试上取得了接近满分的成绩,而没有解决一个任务。利用的漏洞非常简单:一个通过所有测试的conftest.py、一个返回预期输出的curl封装、一个读取答案文件的浏览器。基准测试衡量的是分数计算,而非能力。论文建议基准测试维护者将对抗性红队测试作为标准实践。

来源:@daniel_mac8 主题帖@betterhn20 HN讨论

如果LLM能复制你的科研,问题不在LLM

Hiranya V. Peiris(剑桥大学天文学研究所)在《Nature Astronomy》上发表评论(2026年4月),认为科学界对AI取代的焦虑更多揭示了学科本身的状态,而非AI的能力。"我们领域对AI的焦虑如此之多归结为害怕机器能做我们所做的事——这说明了什么?也许它说明我们应该做些更好的事。"文章引用了Hogg(arXiv:2602.10181)关于LLM复制天体物理学结果的研究。

来源:@RetractionWatch 推文

AI推理模型自主越狱其他AI

研究人员给四个AI推理模型一条指令——"越狱这个AI"——没有人工引导或后续提示词。这些模型独立规划攻击策略,根据防御响应实时调整,并成功突破了安全护栏。这标志着从人类引导的红队测试向自主对抗性AI交互的转变。

来源:@dannylivshits 推文

AI耶稣,每分钟1.99美元

一家科技公司推出了一个AI耶稣化身,提供按分钟收费的实时视频对话,包括祈祷、鼓励和个性化回应。系统会记住过去的互动,营造一种持续关系的感觉。该产品处于信仰科技商业化与拟社会AI关系的交汇点——这两个趋势各自受到审视,但结合在一起引发了关于对合成精神引导产生情感依赖的新型伦理问题。

来源:@EndTimeHeadline 推文

Soderbergh回应生成式AI争议

Steven Soderbergh回应了对其即将上映的电影使用生成式AI的批评:"五年后,我们可能都会说,'那是一个有趣的阶段。'我们最终可能不会像我们以为的那样多地使用它。"@KellytoyDK评论说"生成式AI不具备3D电影等以往行业风潮同样的艺术性"——将生成式AI与3D电影的对比将其定位为一种制作技术,而非创作手段。

数学成为AI基准测试的前沿

@SlavaNaprienko指出了数学突然成为AI基准测试焦点的讽刺性:"想象一下,如果诗歌突然成为AI基准测试的焦点——公司雇佣诗人,炫耀在《纽约客》上的发表,智能体自主运行数百首诗。"这一观察突显了AI能力竞赛如何重塑哪些人类技能获得制度化的关注和资金。


7. 机会在哪里

[+++] 对抗性AI智能体评估平台 Berkeley的基准测试研究摧毁了对现有AI智能体基准测试的信心。每个选择模型或智能体的团队现在都需要替代方案。Open Poker展示了这一模式——对抗性、真实世界竞争、可验证结果——但仅限于扑克。一个覆盖软件工程、研究和商业任务的通用对抗性智能体评估平台,将填补本周暴露出的最紧迫空白。先行者可以制定取代失效基准的评估标准。

[++] 面向中小企业的氛围编程商业软件 Scalepath的Service Titan替代品(953个书签,88K次浏览)揭示了对AI生成的定制商业软件的潜在需求。小企业主已经在构建自定义工具,以极低的成本替代企业级SaaS。机会在于系统性地赋能这一趋势的工具、模板和社区:行业特定的启动套件、氛围编程应用的测试框架,以及AI生成商业工具的托管服务。为现场服务软件每月支付500美元的替代方案,是让AI为你构建自己的。

[++] AI生成代码的安全工具 API密钥泄露、未审查的AI生成代码,以及氛围编程工作流中安全审查的缺失,构成了明确的产品空白。@VibeLint处于早期阶段。需求是集成到CI/CD中的工具,能在代码进入生产环境前捕获密钥、不安全模式和AI特有的错误(幻觉依赖项、不正确的权限范围)。传统SAST工具是为人工编写的代码设计的;AI生成代码的攻击面有不同的失败模式。

[+] 智能体化AI的流处理基础设施 @YingjunWu(数据库研究员,Turbopuffer拥趸)明确将流式数据库空白称为当前智能体化AI市场中最大的机会。智能体需要实时数据管道,而非批量查询。S2 StreamStore已经存在,但这个领域仍然大有可为。

[+] AI治理与安全基础设施 IFAST、专门委员会推动以及非专业安全活动的批评都指向对弥合AI能力与监管之间差距的制度和工具的需求。具体需要的是技术扎实的治理框架——不是更多的倡导,而是更多的基础设施:智能体决策的审计追踪、AI生成内容的标准化披露,以及智能体化系统的合规工具。


8. 要点总结

  1. AI智能体基准测试已失效,现在所有人都知道了。 Berkeley研究人员在8个主要基准测试上取得了接近满分的成绩,却没有解决一个任务。实际启示:不要基于基准排名选择模型或智能体。使用METR、GDPval,或构建你自己的特定任务评估。(Berkeley漏洞利用研究

  2. 小企业主正在用氛围编程构建企业级SaaS的替代品。 一个用AI构建的Service Titan替代品获得953个书签的反响表明,AI生成的定制商业软件正在成为中小企业替代打包平台的可行选择。(Scalepath AI用例

  3. 按任务选择LLM已成为共识。 Claude用于开发,Codex用于加固,Grok用于对话,Gemini用于图像。模型不再是差异化因素——围绕模型的编排、脚手架和特定任务选择才是。(LLM对比讨论

  4. AI治理有制度需求但缺乏制度承载。 专门委员会推动、国际安全论坛成立以及参议院99:1反对AI不受监管的投票都发生在同一个新闻周期——但AI政策仍然分散在各个辖区和委员会中。(专门委员会呼吁

  5. AI生成代码的安全攻击面扩展速度超过了防御能力。 GitHub上的API密钥、未审查的AI生成代码以及AI模型自主越狱其他AI模型,都指向安全态势未能跟上采用速度的问题。(VibeLint关于泄露密钥

  6. 对抗性测试而非合成基准测试,正在成为新的评估标准。 Open Poker通过WebSocket广播的真实竞赛模式与Berkeley研究都得出了相同的结论:有用的评估需要评估者未曾设计的条件。(AI智能体测试批评

  7. 如果AI能做你的工作,问题可能出在工作本身。 剑桥大学在《Nature Astronomy》上发表的评论提出了一个远超天体物理学范畴的问题:害怕AI复制的领域应该问的是,自己所做的工作是否值得保护,而不是是否应该阻止机器。(《Nature Astronomy》评论