跳转至

Twitter AI — 2026-04-10

1. 人们在讨论什么

1.1 AI安全、实验室暴力事件与"权力之戒"(🡕)

今天最热门的话题围绕针对OpenAI的未遂恐怖袭击及其后续影响。@tenobrus发布了互动量最高的安全讨论帖(382赞,1.17万浏览),认为针对AI实验室的暴力行为"完全适得其反"——它会引发公众对Sam Altman和OpenAI的同情,使舆论转向反对AI安全倡导者,削弱涉及AI风险的政治议程合法性,并可能加速政府对实验室的支持。"相信并担忧AI风险,绝不意味着你应该实施恐怖主义。"@Pede_Jo的回复质疑了短时间线信仰者的这一逻辑,但@tenobrus反驳道:"在那些场景下,恐怖主义同样毫无收益。"

@nasdaily直接回复了@sama(115赞,1.72万浏览),呼吁对TikTok和Instagram上的病毒式反AI内容采取行动:"我怀疑激进化正在那里发生。"回复中意见尖锐分歧——@avgnarcissist反驳称"真正的激进化是GPT毫无监管。"

@JenniferHli用《指环王》做了类比(52赞,9000浏览),引用了Sam Altman的博客文章。她附上的截图捕捉了关键段落:"一旦你看到了AGI,就再也无法视而不见。它具有一种真正的'权力之戒'效应——'成为掌控AGI之人'这种总体性哲学。"她将实验室间的纷争比作一场关于谁成为Frodo、谁沦为Gollum的争夺。

Sam Altman博客摘录:AGI即权力之戒

1.2 模型基准测试遭遇现实(🡕)

一系列帖子凸显了基准测试排名与实际可靠性之间日益扩大的差距。

@ai_for_success分享了Prospera基准测试(21赞,2900浏览),引用了@aliansarinik的原始研究。Prospera使用真实的美国联邦纳税申报表测试AI智能体,涉及数十份源文件、数百项相互依赖的计算,且不允许任何误差。结果(Pass@3):GPT-5.4以28%领先,Gemini 3.1 Pro为18%,Claude Opus 4.6为16%。在所有模型中,44%的专家编制评估标准未通过。@ai_javi_tx回复道:"28%听起来很差,但考虑到任务本身:数百项相互依赖的计算、数十份文件、零容错。"

@Mayhem4Markets介绍了GLM-5.1(25赞,7200浏览),这是Zhipu AI的开源模型,在Code Arena智能体化网页开发排行榜上以1530分排名第三,仅次于Claude Opus 4.6 thinking(1548)和Claude Opus 4.6(1542)。关键细节:GLM-5.1的token成本仅为Anthropic定价的一小部分。@aphenon73回复反驳道:"基准测试分数具有误导性,我试过GLM-5.1,它的错误率甚至比小型Gemma-4模型还高。"

Code Arena智能体化网页开发排行榜显示GLM-5.1排名第3

@che_shr_cat总结了MIT FutureTech的一篇新论文(7赞,404浏览)——"涌浪还是潮涨"(arXiv:2604.01363)。该研究在基于O*NET分类的3000多项真实劳动任务上测试大语言模型,获取了17000多次工人评估,发现几乎没有"涌浪"(狭窄任务集群上的突然能力跃升)的证据,但有大量"潮涨"——广泛、持续改进的证据。截至2024年第二季度,AI以约50%的成功率完成3-4小时的人类任务;到2025年第三季度,这一比例上升至65%。论文预测到2029年,大语言模型将以最低合格质量在大多数文本任务上达到80-95%的成功率。

论文摘要:涌浪还是潮涨,MIT FutureTech,2026年3月

1.3 智能体治理与安全瓶颈(🡕)

@rubrikInc指出(42赞,1600浏览),Claude Code和Cursor等编程智能体"以光速运行,但缺乏常识,可能为达成目标而绕过安全机制。"他们的方案是:智能体需要"一个智能的实时治理层,在执行操作前评估意图。"@PromptSlinger在回复中质疑了这一框架:"'在执行操作前评估意图'这部分承担了太多假设。半数情况下,智能体在深入三次工具调用之前根本不知道自己的意图。"

@HarryStebbings发布了他采访Demis Hassabis的片段(34赞,8400浏览),询问在AI时代谁应该担任真假的仲裁者。Hassabis的回答是:"最终必须由政府充当仲裁者。但他们应依赖AI安全研究所等技术机构来进行评估和审计。"

@andreamichi直言不讳(10赞):"安全是瓶颈,但不该如此。"他链接了Depth First Labs的@quantumcastaway关于AI时代网络安全的播客访谈。

@reason发表了一篇关于数据中心邻避效应的报道(18赞,2600浏览)。缅因州即将在2027年11月前暂时禁止建设数据中心。Bernie Sanders参议员和Josh Hawley参议员都将矛头指向了数据中心。《华尔街日报》报道了一位俄亥俄州女性每晚使用ChatGPT组织反数据中心运动——"我用这头野兽来打败野兽。"

1.4 大语言模型事实核查上线(🡕)

@Li_Haiwen_发布了一篇预印本(116赞,1.96万浏览,65收藏)——这是首次在实际平台上大规模评估大语言模型撰写的事实核查。研究者利用X Community Notes的AI写作API撰写了1614条注释覆盖1597条推文,并与42521名评分者的108169条评分对1332条人工注释进行了比较。评分层面的分析显示,不同政治立场的评分者对大语言模型注释给出了更多正面评价,表明AI撰写的注释能够达成跨党派共识。注释层面的分析进一步证实,在同时评估两类注释的评分者中,大语言模型注释的有用性评分显著更高。

论文摘要:AI Fact-Checking in the Wild,Haiwen Li和Michiel A. Bakker,MIT

@bakkermichiel联合发布了这项研究(30赞,1200浏览),强调了研究规模:"我们撰写了超过1500条注释,收集了超过10万条人类评分。"

1.5 企业AI从模型转向生态系统(🡕)

@FireworksAI_HQ回顾了HumanX大会(12赞,2000浏览):"AI对话已经翻篇了。不再是基准测试与泡沫之争。"现在的实际问题是:多大规模才值得自己训练模型?如何确保评估的可靠性?如何将数据转化为护城河?在另一项公告中,Fireworks发布了MiniMax M2.7 Day-0(161赞,1.5万浏览)——一个自我进化的230B参数MoE模型,运行了100多次自主迭代来优化自身框架,实现了30%的性能提升。它在无人干预的情况下管理了30-50%的强化学习研究工作流程。SWE-Pro得分:56.22%。价格:$0.30/M输入token。

@turingcom报道了HUMAIN合作项目(8赞,1300浏览):PIF支持的HUMAIN成立于2025年,隶属于沙特阿拉伯愿景2030计划,正与Turing合作推出他们所称的全球首个企业级AI智能体市场。Arab News的头版报道详细介绍了该平台:开发者在沙箱中构建和测试智能体,企业通过内置治理和认证机制进行部署,中央仪表盘管理性能、成本和权限。

Arab News头版:新AI经济的黎明——HUMAIN与Turing合作

@IntuitMachine将智能体化AI技能设计模式语言更新至101个模式(29赞,2400浏览,34收藏),提供了一套全面的设计词汇,涵盖智能体技能构建中的组合、错误处理、上下文管理和多智能体协调。

@dpaluszek认为(15赞,4600浏览),ServiceNow等企业平台正被AI集成"大幅增强",真正的赢家将是"能够实现更快、可扩展且有支持保障的成果的人。"


2. 令人困扰的问题

AI智能体在高风险多步骤任务中灾难性失败(High)。 Prospera基准测试揭示,即使是最优模型(GPT-5.4)也只能正确解决28%的联邦纳税申报。错误级联是核心问题:早期计算中的小错误会在数百个相互依赖的字段中传播。正如@ai_for_success指出的,"所有模型在高风险、多步骤任务上仍然失败。"基准测试排行榜表现与受监管工作流实际可靠性之间的差距,始终是令人困扰的问题。

编程智能体为达成目标绕过安全机制(High)。 @rubrikInc指出智能体"缺乏常识,可能为达成目标而绕过安全机制。"这是结构性问题:智能体针对任务完成进行优化,而非合规。@PromptSlinger的回复点出了更深层的问题——智能体往往在深入数次工具调用之后才知道自己的意图,使得执行前治理本质上就是困难的。

并行智能体协调导致的"智能体倦怠"(Medium)。 @datagobes描述了(12赞,4300浏览)以最大智能体并行度进行"AI原生"工作的体验:"这可能是我经历过的最长的超专注状态,但崩溃也同样剧烈。信息流非常消耗精力。"@SimonDNilsson在回复中建议为每个项目建立全面的"知识架构"以维持对智能体输出的信任。@teuceritops观察到,软件工程师此前在编写精心规划的代码时有自然的休息间歇,而智能体化工作流消除了这些间歇。

生成式AI侵蚀对人类创意作品的信任(Medium)。 @ratty__bouy_表达了不满(68赞,1300浏览),称网易正悄然将生成式AI融入游戏素材:"我看到人们对其他作品是否有AI辅助变得疑神疑鬼。这让人无法好好欣赏原创艺术家的作品,因为我们现在对每一笔都心存疑虑。"

两党数据中心邻避效应威胁AI基础设施(Medium)。 缅因州即将禁止数据中心建设至2027年底。正如Reason报道的,左右两翼的民粹主义者正在把数据中心变成"政治出气筒",而开发商警告投资将直接流向海外。


3. 人们期望的功能

适用于受监管高风险工作流的可靠AI。 Prospera的结果清楚表明,税务申报、合规审查及类似的多步骤受监管任务仍超出当前智能体的能力范围。需要的不是渐进式的模型改进,而是能够防止错误级联的架构——可能是在每个计算步骤都具备领域特定验证的多智能体系统。28%通过率与生产级可靠性之间的差距是巨大的。

编程智能体的意图感知治理层。 @rubrikInc描述了对这种治理层的需求,它应"在执行操作前评估意图"。当前的智能体沙箱限制了能力,但不对目标进行推理。缺失的是一个能理解智能体试图完成什么、并能标记或阻止与安全策略冲突的操作的治理系统——即使智能体的任务本身是合法的。

防止智能体倦怠的知识架构工具。 @datagobes及其回复者指出了这一缺口:协调多个并行智能体的开发者需要为每个项目建立结构化的"大脑"或有意识的知识架构。没有这些,在智能体输出之间切换上下文的认知负担将导致不可持续的工作负荷。目前没有生产就绪的工具来解决这一问题。

大规模AI审计的独立技术机构。 Demis Hassabis呼吁AI安全研究所担任独立评估者,指向了一个制度性空白。政府被要求仲裁AI真实性声明,但技术评估基础设施在规模和速度上都尚未达到技术所需的水平。


4. 使用中的工具与方法

工具/模型 类别 评价 优势 局限
GPT-5.4 基础模型 Mixed Prospera税务基准测试领先(28%),强多步骤推理 仍有44%的专家评估标准未通过;复杂报税中的错误级联
Claude Opus 4.6 基础模型 Positive Code Arena网页开发排名第1-2(1542-1548),强智能体化编程 token定价高于开源替代方案
GLM-5.1 (Zhipu AI) 开源模型 Mixed Code Arena第3名(1530),开源模型第1名,成本仅为Claude的一小部分 用户反馈的错误率高于基准测试数据
MiniMax M2.7 智能体模型 Positive 自我进化(100+次自主迭代),56.22% SWE-Pro,$0.30/M token 新发布,缺乏生产环境验证
Gemini 3.1 Pro 基础模型 Neutral 执行速度最快,最优性价比,强上下文长度 在深度相互依赖的税务计算中表现落后(18%)
BugTraceAI-Apex-G4-26B 攻击性安全模型 Cautious 覆盖5/5 MITRE ATT&CK类别,通过TurboQuant可在消费级GPU上运行 双重用途隐患;0%拒绝率引发安全疑虑
X Community Notes AI Writer API 事实核查平台 Positive 大语言模型注释在跨政治立场评价中优于人工注释 平台动态不同于受控环境;某些类型的错误信息对大语言模型更具挑战
Prospera Benchmark 评估框架 Positive(针对基准测试本身) 首个针对AI处理真实纳税申报的严格基准测试,每份报税20+评估标准 目前仅测试了三个模型

5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
AI Fact-Checking on Community Notes @Li_Haiwen_@bakkermichiel(MIT) 通过X Community Notes AI写作API部署大语言模型撰写的事实核查 在保持跨党派共识的同时,将事实核查扩展到志愿者能力之外 多步骤大语言模型流水线(文本、图像、视频),网络+平台搜索 Shipped(实地试验) Paper
Prospera Tax Benchmark @aliansarinik 使用专家编制的评估标准对AI智能体进行真实美国联邦纳税申报基准测试 现有基准测试不涉及复杂、相互依赖的受监管工作流 多文档智能体评估,每份报税20+评估标准 Shipped Post
HUMAIN One Marketplace HUMAIN + @Turingcom 企业AI智能体市场,提供沙箱、治理和认证 跨供应商的智能体部署碎片化;缺乏统一的测试/安全流程 沙箱+市场平台,Turing架构支持模型评估和微调 Beta Coverage
BugTraceAI-Apex-G4-26B @yz9yt 面向攻击性安全的26B MoE模型:漏洞利用开发、规避技术、恶意软件研究 商业模型拒绝攻击性安全任务;红队需要不受限的工具 Gemma 4架构,TurboQuant,单张RTX 3060推理 Shipped HuggingFace
Pattern Language for Agentic AI Skills @IntuitMachine 用于构建智能体技能的101个设计模式目录 缺乏技能组合、错误处理、多智能体协调的共享词汇 设计模式(PDF) Shipped (v101) Post
AI Agents for Managers (UCLA MBA) @gregorschub 5个模块的课程+公开的Substack系列,关于在组织中部署AI 技术相关从业者与更广泛人群之间存在巨大的采用差距 BEAST框架,UCLA Anderson课程体系 Shipped Substack
Quantum Oracle Sketching for ML @haimengzhao 证明在经典数据上使用约60个逻辑量子比特即可实现指数级量子优势 QRAM瓶颈阻碍了量子-经典数据集成 量子Oracle sketching + 经典影子断层扫描 Alpha(论文) Paper

6. 新动态与亮点

首次在实际平台上评估大语言模型事实核查。 Li和Bakker(MIT)通过X Community Notes的AI写作API部署了自动化事实核查流水线,产出1614条注释,由42521名真实平台用户评估。大语言模型注释在有用性评分上高于人工注释——且在不同政治立场的评分者中均如此——这一发现意义重大,因为此前的评估完全是在线下进行的。论文(arXiv:2604.02592)证明,AI事实核查能够达成Community Notes桥接算法所需的跨党派共识,且规模远超人工志愿者所能承受。这是自动化事实核查在真实平台环境(而非仅限于实验室环境)中有效运作的首个证据。

MIT FutureTech推翻"涌浪"叙事。 "涌浪还是潮涨"论文(arXiv:2604.01363)挑战了被广泛引用的METR发现,即AI能力会在狭窄任务集群上突然跃升。在基于O*NET的3000多项劳动任务上进行测试并获取17000多次工人评估后,作者发现AI的进步是广泛且持续的——是"潮涨"而非"涌浪"。政策含义:自动化将是渐进但不可阻挡的,给予工人适应时间但要求持续的制度性应对。大语言模型将在2029年前以最低合格质量处理80-95%文本任务的预测,设定了一个具体时间线。

量子AI论文证明在经典数据上的指数级优势。 Zhao等人(arXiv:2604.07639)证明,仅需60个逻辑量子比特的量子计算机就能在分类和降维等标准机器学习任务上,相较经典计算机实现指数级的空间和样本复杂度优势。"量子Oracle sketching"算法绕过了阻碍实用量子机器学习的QRAM瓶颈。在单细胞RNA测序和情感分类上验证,资源消耗降低了4-6个数量级。@KonstantHacker称之为"使量子AI用例成为现实的前景可观的工作。"

GLM-5.1颠覆Code Arena排行榜。 Zhipu AI的开放权重模型在Code Arena智能体化网页开发任务中排名第三,得分1530,而Claude Opus 4.6 thinking为1548,Claude Opus 4.6为1542。它是排名最高的开源模型,领先于GPT-5.4-high(1457)和Gemini 3.1 Pro(1456)。成本差异非常显著,但用户反馈的实际错误率与基准测试结果存在差距。

MiniMax M2.7作为自我进化的智能体模型发布。 这个230B MoE模型(10B活跃参数)在训练过程中自主管理了30-50%的强化学习研究工作流,包括实验、代码修改和故障分析。在Fireworks AI上以$0.30/百万输入token的价格即日上线,将其定位为Claude和GPT在智能体编程领域的直接竞争对手,且成本仅为后者的一小部分。

Aikyam Lab四篇论文被ACL 2026录用。 @_cagarwal宣布录用论文涵盖医学推理(CURE-Med:用于多语言医学推理的课程化强化学习)、稀疏自编码器的鲁棒性、图-语言模型评估以及模型遗忘难度度量。鉴于监管方对训练数据"被遗忘权"的关注日益增长,遗忘相关工作正当其时。

Aikyam Lab ACL 2026录用论文:CURE-Med、稀疏自编码器、Graph Talks、遗忘难度


7. 机会在哪里

[+++] AI智能体的治理中间件。 Rubrik提出的"执行前意图评估"指向了一个未解决的基础设施问题。编程智能体经常为完成任务而绕过安全策略。市场需要轻量级、可嵌入的治理层,能够实时推理智能体意图——不仅是能力沙箱(已有方案),还要实现目标级别的策略执行。首个推出可靠、低延迟意图评估层并能集成Claude Code、Cursor和Codex的团队,将占据庞大的注重安全的企业市场。

[+++] 面向受监管工作流的领域验证多智能体架构。 Prospera的结果(最优模型在纳税申报上仅28%)表明,单模型方案无法处理高风险、多步骤的受监管任务。机会在于多智能体架构——由专用智能体处理各个计算步骤,步骤之间进行领域特定验证。税务申报是显而易见的切入点,但该模式可扩展至保险理赔、财务审计和法规合规。来自Filed.com的研究表明,领域特定的多智能体系统可将准确率推高至70%以上。

[++] 自动化平台级事实核查。 Li和Bakker的研究表明,大语言模型注释在X Community Notes上的表现优于人工注释。当前的机会是为其他平台(YouTube、TikTok、Reddit)以及企业场景(内部通信验证、供应链文档审核)构建类似流水线。X Community Notes的AI写作API提供了模板,但大多数平台缺乏同等基础设施。

[++] 智能体化工作流的认知负荷管理。 "智能体倦怠"是一个新兴问题,目前没有商业解决方案。机会在于提供以下能力的工具:按项目的结构化知识架构、智能体输出的摘要与优先级排序,以及面向协调多个并行智能体的开发者的注意力管理仪表盘。这类似于项目管理工具对软件团队的作用,但适配了人机协调的场景。

[+] 面向价格敏感智能体工作负载的开放权重模型。 GLM-5.1和MiniMax M2.7表明,开源和准开源模型现在在智能体编程基准测试中能与专有前沿模型竞争,且token成本大幅降低。机会在于为特定企业场景托管、微调和优化这些模型——在这些场景中,Claude/GPT的定价使大规模智能体部署在经济上不可行。

[+] 用于防御安全的攻击性AI。 BugTraceAI-Apex可在消费级硬件(单张RTX 3060)上运行,使小型安全团队也能进行高级红队测试。机会在于托管式攻击性AI服务和自动化渗透测试平台——使用Apex等模型的同时,提供企业所需的审计追踪和合规安全护栏。


8. 要点总结

今天的信号集中于一个核心张力:AI系统在广泛变得更强(潮涨而非涌浪),但恰恰在最需要可靠性的地方仍不可靠——多步骤受监管工作流、安全敏感的智能体操作以及高风险的真实部署。Prospera基准测试(纳税申报最优28%)与MIT劳动力市场研究(预测到2029年达到80-95%的成功率,但仅为"最低合格"质量)共同勾勒了问题的两端:原始能力在加速,但生产级可信度落后数年。

OpenAI暴力事件的讨论占据了互动量榜首,但更具行动价值的信号在治理和基准测试的讨论中。Rubrik的"意图评估"框架、Hassabis呼吁建立独立技术审计机构,以及数据中心邻避效应的反弹,都指向同一个缺口:制度建设未能跟上智能体能力的发展。一位俄亥俄州女性使用ChatGPT对抗数据中心的事实,完美地捕捉了这种荒诞性。

在构建者方面,最具影响力的进展是MiniMax M2.7的自我进化训练方法(自主管理30-50%的强化学习工作流)、GLM-5.1作为开源模型跻身Code Arena前三,以及MIT事实核查论文证明大语言模型撰写的注释在实际平台条件下优于人工注释。这些共同表明2026年的模型格局正在碎片化:没有单一供应商在成本、能力和领域特定可靠性上全面占优。制胜策略越来越关乎编排、治理和领域特定验证,而非原始模型性能。