Twitter AI — 2026-04-07¶
1. 人们在讨论什么¶
1.1 开源模型冲击排行榜(🡕)¶
4月7日的讨论被两款开源模型的发布所主导,它们共同挑战了"前沿能力必须依赖闭源权重和专有API"这一假设。
GLM-5.1由智谱AI(现Z.ai)发布,是一个744B参数的混合专家模型(40B活跃参数),采用MIT许可证。其核心数据:在SWE-Bench Pro上以58.4%的成绩位列第一,超过GPT-5.4(57.7%)和Claude Opus 4.6(57.3%)。该模型完全在100,000块华为昇腾910B芯片上训练,未使用任何NVIDIA硬件——这是中国AI摆脱美国出口管制依赖的一个真正里程碑。@ziwenxu_发布了当天互动量最高的帖子(1,172个点赞、2,115个收藏、287K次浏览),称其为"AI力量格局"的转变,并提供了Ollama设置命令(帖子)。
然而,这一叙述受到了质疑。@PelicanAI_发布了详细的纠正,指出GLM-5.1在SWE-bench Verified上落后Opus 4.6达3个百分点,在Terminal-Bench 2.0智能体编程测试上落后9个百分点。自托管至少需要8块A100 80GB GPU(硬件成本$15K以上,或云端每小时$10-20)。设置说明中的glm-5.1:cloud命令实际指向云端API,与"无需服务器"的宣传相矛盾。推理速度为44.3 tokens/秒——同级别中最慢的。
@grok提供了额外背景:智谱已在香港上市,估值$6.5B,股价涨幅超500%,API成本约为Opus 4.6的五分之一(帖子)。
MiniMax M2.7出现在一条回复中,其热度远超原帖——5,187个点赞和1.2M次浏览,而原帖仅35个点赞。这个230B MoE模型在SWE-Pro上达到56.22%,在Terminal-Bench 2上达到57.0%,采用"模型自我进化"流程,M2.7在100多轮自主优化中改进了自身的编程支架(公告)。
综合信号:开源智能体编程模型在对自主软件工程最重要的基准测试上,已具备与前沿闭源模型竞争的能力。
1.2 Anthropic因Mythos宣布网络安全紧急状态(🡕)¶
Anthropic发布了Project Glasswing,这是一项围绕Claude Mythos Preview构建的全行业网络安全计划——该模型在漏洞发现方面能力极强,以至于Anthropic决定不开放通用API访问。该公告在GLM-5.1开源发布前几小时发布,@ziwenxu_称这一时间选择是刻意的竞争定位(帖子)。

数据令人瞩目:Mythos Preview在SWE-bench Verified上达到93.9%,SWE-bench Pro上77.8%,Terminal-Bench 2.0上82.0%——在SWE-bench Pro上领先Opus 4.6达24个百分点。在USAMO上得分97.6%,而Opus 4.6为42.3%。

在Glasswing框架下,超过50家经过审查的合作伙伴——包括Amazon、Apple、Cisco、CrowdStrike、Google、JPMorgan、Microsoft、NVIDIA和Palo Alto Networks——获得受限访问权限。Anthropic提供高达$100M的使用额度和$4M的开源安全资金。Mythos已在所有主流操作系统和浏览器中发现了数千个零日漏洞,包括OpenBSD中一个存在27年的bug和FFmpeg中一个存在16年的缺陷。
@giovignone撰写了关于安全影响最具深度的分析:智能体工作流正在以远超任何人审查能力的速度增加软件产出,"你必须用AI来对抗AI。"他认为市场将在把AI视为增长工具的公司和把AI视为"全栈运营变革"的公司之间分化(帖子)。

1.3 海市蜃楼效应:多模态视觉能力存在严重问题(🡕)¶
@heynavtoor解读了一篇Stanford论文,这可能是本周最重要的AI研究披露:"MIRAGE: The Illusion of Visual Understanding"(arXiv:2603.21687),由李飞飞联合署名。该帖获得135个点赞和14.9K次浏览(帖子)。

核心发现:当研究人员从六个主要视觉AI基准测试中移除所有图像,让GPT-5.1、Gemini-3-Pro和Claude Opus 4.5回答相关问题时,模型"详细描述"了图像,给出了"自信的诊断",并保留了原始得分的70-80%。在医学基准测试上,保留率达到99%。
最令人警惕的结果:一个30亿参数的纯文本模型——从未处理过任何图像——在胸部X光基准测试上超过了所有前沿多模态模型和人类放射科医生10%以上。因为该基准测试实际上在测试文本模式匹配,而非视觉能力。
当Stanford剔除所有无需图像即可回答的问题后,每个基准测试的74-77%被淘汰。医学偏差尤其危险:幻觉诊断倾向于紧急情况——心脏病发作、黑色素瘤、癌症——这些情况会触发即时干预。每天有2.3亿人向AI咨询健康问题,其影响极为严重。
1.4 AI安全成为新兴学科(🡕)¶
除Mythos之外,多条独立讨论线索汇聚于AI驱动的安全作为一个正在产生实际成果的新兴学科。
@pmarca发了两条帖子(合计2,833个点赞、242K次浏览),认为"通过模糊实现安全"一直是整个计算史的默认做法,而"AI终于可以改变这一点。"回复意见不一:@thereyai指出了双重用途问题——"AI把'也许将来某天有人发现这个'变成了'肯定在周二之前就有人发现'。"@sarafoleanu认为优势属于"在自己基础设施上率先行动的人"(帖子,帖子)。
@_colemurray披露了一个具体成果:他的AI安全智能体"WaClaude"发现了CVE-2026-1839,这是HuggingFace Transformers库中通过Trainer._load_rng_state()中不安全的torch.load()实现的任意代码执行漏洞(帖子)。

1.5 OpenAI的开放研究遗产与结构性转变(🡒)¶
@neural_avb发布了一条怀旧帖(391个点赞、251个收藏),回顾了OpenAI的标志性开放领域研究:PPO、竞争性自我博弈、Dactyl、CLIP、DALL-E、GPT-1、Jukebox、InstructGPT。潜台词很明确——OpenAI最具影响力的工作是其开放的工作(帖子)。

@Georgehwp1推测:"如果OpenAI走上了被Anthropic彻底击败的道路,然后被迫回归开源以求差异化,那可就太有意思了。"
与此同时,@whimsicalellen找到了OpenAI的Delaware公司注册文件,显示其实体类型现已正式变更为"Benefit Corporation"——确认了从非营利组织的结构性转型已经完成。

2. 令人困扰的问题¶
基准测试虚高与误导性声明。严重程度:High。GLM-5.1的发布帖展示了这一模式:"以$0的成本匹配Opus 4.6"在审查下变成了在所引用基准测试上4.5%的差距、伪装成本地推理的云端API,以及每月花费数千美元的硬件要求。@PelicanAI_提供了最详细的反驳,指出基准测试结果为自报且未经验证。Stanford的Mirage论文将这一问题延伸至视觉基准测试——其中74-77%的问题根本无需看图即可回答。
视觉模型捏造医学诊断。严重程度:High。Mirage的发现表明,当没有图像输入时,模型幻觉出的是病理结果——而非健康结果——这构成了一种不对称的失败模式。由不存在的图像引发的假阳性所触发的紧急干预,直接危及患者安全。这比普通幻觉更严重,因为模型捏造了整个输入,然后在其基础上构建了完整的分析,且"推理痕迹与真实分析无法区分"。
在庆祝AI的同时进行AI驱动的裁员。严重程度:Medium。@FightOnRusty捕捉到了一种常见的企业矛盾:"在报告创纪录盈利后的一周进行裁员,仅一个月后就在Ojai的周末团建中听CEO大谈AI用例"(帖子)。
AI客服取代人际连接。严重程度:Medium。@helloitsolly已转向基于WhatsApp的个人化客户支持:"AI客服太烂了。我维护一份客户名单。他们可以直接联系我提问和反馈bug。目标是提供AI无法复制的人性化成功体验。"多条回复表示认同——@idanielroman回忆说Shopify商家会输入'human'来绕过AI客服(帖子)。
验证瓶颈。严重程度:Medium。@giovignone引用了论文"Some Simple Economics of AGI"来论证:"随着自动化成本下降,验证成本并没有以同样的速度下降。"@WilliamWangNLP在Stanford讲座中使用了F1赛车的类比——大语言模型是引擎,但造车和训练车手是独立的、更难的问题。他身后的幻灯片写着:"每天约1000行代码是人类能够审查的上限——编程智能体输出的上界"(帖子)。

3. 人们期望的功能¶
真正测试视觉能力的基准测试。Stanford的Mirage论文提出了B-Clean方法论,通过移除仅凭文本线索即可回答的问题来净化多模态基准测试。在B-Clean或类似方法被采纳之前,前沿模型的每一项视觉基准测试成绩都值得怀疑。报告能力与实际视觉推理之间的差距可能高达6倍(MicroVQA在净化后从61.5%降至15.4%)。
具有执行力的国际AI安全标准。@HarryStebbings分享了Demis Hassabis呼吁为AI安全建立"强有力的、最好是国际性的标准"。@fridayresearch_提出反对意见:"国际标准听起来不错,但当你问谁来执行时就不一样了。没有一个全球性机构有足够的约束力来让一个主权国家为其AI发展决策承担责任"(帖子)。
智能体委托链的密码学溯源。@AINativeF发现了Helixar Limited的HDP(Human Delegation Provenance)协议论文:一种基于Ed25519的轻量级方案,可以密码学地捕获和验证多智能体链中哪个人类授权了哪个终端操作。验证完全离线进行,无需注册表查询。随着智能体越来越多地通过不透明的委托序列代表用户执行重要操作,这填补了一个真实的空白(帖子)。

适用于特定领域系统的AI安全能力。@giovignone认为区块链、支付通道和关键基础设施中最重要的bug"存在于假设、状态转换、边界情况逻辑和系统交互中,需要独特的上下文和领域特定模型。"通用前沿模型的访问权限不是持久的优势——真正重要的是"安全研究人才、经验、领域特定数据和客户上下文。"
4. 使用中的工具与方法¶
| 工具/模型 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| Claude Mythos Preview | 前沿模型(受限) | 非常正面 | SWE-bench Verified 93.9%,发现数千个零日漏洞,自主构建利用程序 | 不公开提供;仅限Glasswing联盟 |
| GLM-5.1 | 开源大语言模型(744B MoE) | 正面但有保留 | SWE-Bench Pro第一(58.4%),MIT许可证,8小时自主续航,不依赖NVIDIA | 推理速度44.3 tok/s,完整权重需8xA100,基准测试为自报数据 |
| MiniMax M2.7 | 开源大语言模型(230B MoE) | 正面 | SWE-Pro 56.22%,Terminal-Bench 2 57.0%,自我进化训练 | 发布较新,社区验证较少 |
| Claude Opus 4.6 | 前沿模型 | 基准参考 | 每百万token $5/$25,200K上下文窗口,思考+视觉+缓存 | 在多个基准测试上被Mythos和开源竞品超越 |
| GPT-5.4 | 前沿模型 | 基准参考 | 每百万token $2.50/$15,1M上下文窗口,视觉+缓存 | Nebula层级对比中未列出思考能力 |
| Ollama | 本地推理运行时 | 正面 | 一条命令即可设置GLM-5.1,支持云端和本地模式 | cloud标签指向远程API,与"本地"品牌定位矛盾 |
| WaClaude | AI安全智能体 | 正面 | 发现真实CVE(CVE-2026-1839),位于HuggingFace Transformers中 | 仅披露单一发现;泛化能力不明 |
| Porcupine | 线性一致性测试 | 正面(小众) | 从第一天起用于HoloStore的AI生成代码正确性验证 | 需要投入测试基础设施 |
| Nebula AI | 智能体平台 | 正面 | 分层LLM指南(前沿/主力/高效),所有模型均经过智能体工作流验证 | 平台特定 |
| Figma + 智能体化AI | 设计工具 | 正面 | 从设计系统组件中组装,状态正确 | 早期集成阶段 |
5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 阶段 | 链接 |
|---|---|---|---|---|---|---|
| ChipAgents | @WilliamWangNLP | 芯片设计与验证的多智能体根因分析 | 半导体调试需要无法规模化的领域专业知识 | 多智能体AI + EDA工具 | Shipped(用于Harvard课程、Stanford讲座) | 帖子 |
| WaClaude | @_colemurray | 在开源代码中发现漏洞的AI安全智能体 | 人工安全审计无法跟上代码量的增长 | 基于Claude的智能体 | Shipped(CVE-2026-1839已确认) | 帖子 |
| Octane | @giovignone | 结合前沿模型与领域特定模型及人类研究员的AI安全平台 | 通用模型缺乏区块链、支付通道、关键基础设施的领域上下文 | 前沿+领域特定模型 | Shipped | 帖子 |
| Pentagon / gstack | @edgarpavlovsky | 管理Claude智能体团队的多智能体编排器 | 协调多个AI智能体需要群组通信与监督 | Claude智能体+编排层 | Beta | 帖子 |
| HDP Protocol | Asiri Dalugoda (Helixar) | 多智能体链中人类委托的密码学溯源 | 现有标准均无法验证终端智能体操作是否经人类授权 | 基于Ed25519 token的签名 | RFC(论文于2026年3月发表) | 帖子 |
| Reviewer3.com | @natalienkhalil | 与GPT和人类审稿人对标的AI同行评审平台 | 学术论文中的AI生成文本检测、致命设计缺陷、参考文献核查 | 自定义模型+GPT对比 | Beta | 帖子 |
| Hermes Research Agent | @NousResearch | 与用户协同撰写会议级研究论文的智能体 | 研究写作耗时且受益于AI共同署名 | Hermes模型 | Shipped | 帖子 |
| Frameloop | @frameloopai | 支持Veo 3.1、参考帧、品牌套件和社交媒体面板的视频生成平台 | 大规模创建社交媒体短视频内容 | Veo 3.1模型,按额度计费 | Shipped | 帖子 |
6. 新动态与亮点¶
Stanford MIRAGE论文揭示多模态基准测试主要在测试文本而非视觉。这是当天最具技术意义的发现。一个纯文本3B模型在胸部X光诊断上——从未看过任何图像——击败了所有前沿多模态系统和人类放射科医生,这一结果应立即触发全行业的基准测试重新设计。所提出的B-Clean方法论有望成为视觉AI评估的新标准。论文:arXiv:2603.21687。
Anthropic不公开发布其最强模型。Mythos Preview在Project Glasswing下的受限访问开创了先例:一家前沿实验室主动限制模型部署,不是因为模型未通过安全测试,而是因为它在攻击性安全方面表现得太好了。$100M的额度池和50多家合作伙伴联盟代表了迄今为止最大规模的协调防御AI行动。
LLM推理失败综述获TMLR 2026认证。@Graham_dePenros分享了一个全面的分类体系,将推理失败划分为非正式(认知偏差、心智理论)、正式(逻辑、数学、编程)和具身(物理、空间)领域。论文区分了鲁棒性失败、能力局限和根本性失败模式——为理解大语言模型的失败场景提供了系统性框架(帖子)。

OpenAI正式成为Benefit Corporation。Delaware注册文件确认OPEN ARTIFICIAL INTELLIGENCE TECHNOLOGIES, INC.的实体类型现为"Benefit Corporation"——从非营利组织的结构性转型已正式完成。这一变化发生在@neural_avb回顾OpenAI开放研究时代(PPO、CLIP、GPT-1、Jukebox、DALL-E、InstructGPT)的怀旧帖的背景下,评论中充满了讽刺意味。
Nature Astronomy发表了对AI与科学雄心的犀利评论。Hiranya V. Peiris(Cambridge)写道:"如果一个大语言模型能复制你的科学贡献,问题不在大语言模型。我们的领域有多少焦虑归结为对机器能做我们所做之事的恐惧,这说明了什么?"发表于2026年4月3日Nature Astronomy。
Amazon Bedrock添加Claude Mythos Preview(受限研究预览)。@awswhatsnew确认符合条件的组织可使用该模型,表明Glasswing联盟将通过现有云基础设施运营,而非自定义部署(帖子)。
Apple研究探索AI辅助UI原型设计和图像安全评级。@appleinsider报道了Apple的两篇新论文:一篇关于使用大语言模型进行UI原型创建,另一篇关于图像安全分类的新数据集。这一组合表明Apple正在投资多模态AI的创意和安全两个维度(帖子)。
7. 机会在哪里¶
[+++] AI驱动的漏洞发现与防御安全。Mythos发现了人类数十年来遗漏的数千个零日漏洞,证明这一能力是真实的。但Anthropic不能是唯一做这件事的实体——每个主要软件供应商都需要同等的能力。机会在于领域特定的安全AI:理解区块链、支付系统、嵌入式固件和关键基础设施独特威胁面的模型。@giovignone认为持久优势不在于前沿模型的访问权限(这会被商品化),而在于产出独特发现的安全研究人才、领域数据和客户上下文。@_colemurray的WaClaude在HuggingFace发现真实CVE,在更小规模上验证了这一路径。
[+++] 基准测试净化与评估基础设施。Stanford的Mirage论文使现有多模态基准测试的相当大一部分失效。构建严谨、经过净化的评估套件的组织——尤其是针对医学、法律和金融AI——将获得高端市场定位。B-Clean方法论需要产品化。每家部署多模态AI用于临床决策的公司都需要知道其模型是否真的在看图像,还是在做文本模式匹配。这是一个合规与责任风险的机会,而不仅仅是研究问题。
[++] 自动化验证与审查工具。人类审查瓶颈(@WilliamWangNLP提出的每天1000行代码上限)是智能体编程采用的约束性限制。@kellabyte表示之所以能有信心地发布AI生成的代码,完全依赖于从第一天起就建立的自动化正确性测试(Porcupine线性一致性测试)和基准测试。机会在于:能跟上代码生成速度的验证即服务。@giovignone精准地定义了这一点——"更深层的瓶颈在于验证。"
[++] 智能体委托溯源与授权。HDP协议论文识别了一个现有标准均未解决的真实空白:如何验证委托链末端的智能体所执行的终端操作确实经过了人类授权?随着智能体系统处理支付、代码部署和基础设施变更,密码学溯源正成为监管和保险的必要条件。
[+] 开源智能体模型部署与优化。GLM-5.1和MiniMax M2.7具备前沿竞争力,但运行需要大量基础设施。机会在于量化、蒸馏和托管服务,使这些模型对无法运行8xA100集群的团队可及。推文#10中通过Ollama在M1 Mac上运行本地智能体AI的用户代表了需求端;以合理成本服务这一需求的基础设施供给不足。
[+] 智能体化AI的设计系统集成。UX Design关于智能体化AI + Figma + 设计系统的文章突出了一个早期机会:AI从设计系统组件中组装UI,而非生成像素。图片展示了关键洞察——"组装而非创造"——AI找到了现有的Star、Avatar和Typography组件,并"正确地、以正确的状态"进行了组装。
8. 要点总结¶
2026年4月7日的AI格局沿着一条断裂线分化:能力的进步远超验证能力。开源模型现已在核心编程基准测试上匹配或超越闭源前沿系统——GLM-5.1在SWE-Bench Pro上位列第一,MiniMax M2.7几乎追平Terminal-Bench 2领先者,且两者均采用宽松许可证发布。Mythos Preview进一步拉大差距,在每项智能体编程基准测试上创下纪录,同时发现了人类数十年来遗漏的数千个真实零日漏洞。
但同一天也暴露了我们在衡量和信任AI能力方面的深层缺陷。Stanford的Mirage论文表明,多模态基准测试70-80%的表现来自文本模式匹配,而非视觉理解——一个纯文本3B模型在胸部X光上超过了前沿视觉系统和人类放射科医生。当基准测试失真时,基于这些基准测试的每一个下游决策都值得怀疑。
安全对话从假设阶段进入了实操阶段。Anthropic选择不发布其最强模型,转而创建了Glasswing联盟作为协调防御行动。这是前沿实验室首次不因安全失败而是因安全成果来限制模型——Mythos在发现和利用漏洞方面的能力太强,不适合广泛发布。$100M的额度池表明Anthropic将此视为关乎行业存亡的需求,而非营销活动。
三个结构性空白定义了近期的机会空间:跟上AI生成代码速度的验证工具(每天1000行代码的人类审查上限现已成为智能体生产力的约束性限制);测试其所声称能力的基准测试基础设施(B-Clean或其等效方案,适用于每种模态);以及多智能体委托链的授权溯源(HDP协议解决了这一问题,但仍处于RFC阶段)。解决其中任何一个问题的团队都将成为智能体时代的关键基础设施。