跳转至

Reddit AI - 2026-04-18

1. 人们在讨论什么

1.1 Qwen3.6-35B-A3B:第二天测试确认本地模型里程碑(🡕)

Qwen3.6 于 4 月 17 日发布后,在本周期 LocalLLaMA 社区中引发了最为密集的实测和配置分享热潮。前 65 篇帖子中至少有十篇直接涉及 Qwen3.6,合计互动量超过 3,500 分和 1,400 条评论。

u/Local-Cardiologist-5 让模型完成一个塔防游戏构建任务,使用 MCP 截图进行自我验证,报告称模型自主发现并修复了自身 bug(包括 canvas 渲染问题),在 RTX 3090 上通过 llama.cpp 以 120 tok/s 运行(Qwen3.6. This is it.,838 分,350 条评论)。u/cviperr33(47 分):“它真的把那些我拿 gemma 卡了好几天的坏代码和项目都修好了,差不多 5 分钟就搞定,还顺带解释了 gemma 为什么会失败。”

u/onil_gova 确认性能提升属实,但强调正确配置——尤其是启用 preserve_thinking——同时在 M5 Max 128GB 上运行通常为 Opus 和 Codex 保留的工作负载(qwen3.6 performance jump is real,580 分,227 条评论)。

Artificial Analysis 基准图,显示 Qwen3.6 在开放和闭源模型中的位置

u/Epicguru 称其为“第一个真正让我觉得折腾本地部署是值得的模型”——在 5090 + 4090 上以 Q8 运行,完整 260K 上下文下达到 170 tok/s,并指出让模型审查自身修改在十次中有九次能发现错误(Qwen 3.6 is the first local model that actually feels worth the effort for me,364 分,123 条评论)。u/Better-Struggle9958(345 分)则疲惫地反驳:“每次发布都是这种帖子。”

硬件优化帖子进一步丰富了全貌。u/marlang 在 RTX 5070 Ti + 9800X3D 上以 128K 上下文实现了 79 tok/s,指出 --n-cpu-moe 标志是关键(RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s,315 分,85 条评论)。

RTX 5070 Ti 性能指标,显示 Qwen3.6 在 128K 上下文下达到 79 tok/s

u/Lowkey_LokiSN 进行了正面对决测试,宣称 Qwen 3.6 35B“碾压” Gemma 4 26B(score 270, 100 comments)。u/simracerman 报告 Qwen3.6 解决了其 27B 前代无法解决的编程问题,包括在 5070 Ti 16GB 上以一次或两次尝试解决记账应用中积累的技术债务(Qwen3.6-35B-A3B solved coding problems Qwen3.5-27B couldn't,131 分,52 条评论)。

u/Striking-Swim6702 发布了最全面的兼容性测试:Qwen3.6 在五个智能体框架(Hermes Agent、PydanticAI、LangChain、smolagents、OpenClaude)中均达到 100% 工具调用通过率,在 M3 Ultra 上以 100 tok/s 运行,而 DeepSeek-R1 仅为 40-55%,Llama 3.3 为 45-67%(Qwen 3.6 vs 6 other models across 5 agent frameworks,59 分,16 条评论)。

u/Big_Mix_4044 证明 Qwen3.6 能够在思维链中跨轮次保持上下文——但仅在启用 preserve_thinking 时有效(Qwen3.6 is maintaining context inside the CoT,128 分,40 条评论)。u/TheCTRL(42 分)分享了 LM Studio 的修复方法:在 Jinja 模板中添加 ``。

Qwen3.6 聊天截图,显示启用 preserve_thinking 时可跨轮次保持上下文

并非所有报告都是正面的。u/Lorian0x7(12 分)称其为“一个过度训练、只会把那些被用烂了的代码重新吐出来的水货机器”,无法从一份 300 页文档创建 wiki。u/havnar-(6 分)发现经 Opus 4.6 蒸馏的 Qwen3.5-35B-A3B 在其使用场景中仍然更好。社区要求发布密集 27B 变体——u/GrungeWerX 指出该变体赢得了社区投票却未被发布(When is Qwen 3.6 27B dropping?,162 分,57 条评论)。u/Fabix84(143 分):“很明显,他们早就决定好要发哪一个模型了,只是希望这次投票能替他们背书。”

Qwen 社区投票,显示密集 27B 变体胜出

讨论要点: 硬件配置分享(llama.cpp 标志、采样参数、量化等级、CPU 卸载策略)的大量涌现表明,本地 LLM 社区已从"能否运行?"转向"如何优化?"。Qwen3.6 的 3B 激活参数使其具有独特的可及性——从 16GB 笔记本到双 GPU 配置均可运行。

与前日对比: 4 月 17 日,Qwen3.6 刚刚发布,附带基准测试数据和早期用户反馈。今天社区带来了系统性测试:智能体框架兼容性矩阵、硬件优化指南、与 Gemma 4 的正面对比,以及 preserve_thinking 修复已成为标准建议。该模型作为当前本地首选模型的地位已经巩固,但对 27B 密集变体的需求呼声很高。


1.2 Claude Opus 4.7 退步:量化证据进一步增强(🡕)

Opus 4.7 的反弹加剧,当日最高分帖子提供了迄今最有力的基准测试证据。前 65 篇帖子中至少有八篇涉及 Opus 4.7 退步,合计互动量超过 3,800 分。

u/seencoding 发布了最具破坏性的数据点:在 NYT Connections Extended Benchmark(940 道谜题)上,Opus 4.7(high reasoning)得分 41.0%——较 Opus 4.6 的 94.7% 下降了 53.7 个百分点。无推理模式的 Opus 4.7 仅 15.3%,在 62 个模型中垫底(opus 4.7 scores a 41.0% on the nyt connections extended benchmark,1073 分,158 条评论)。u/Klutzy-Snow8016(48 分)找到了一个关键原因:Anthropic 提高了安全拒绝率——在允许作答的题目上得分 90.9%,仍低于 4.6 的 94.7%。基准测试创建者确认了这一发现。

u/Neurogence 发帖称 Claude 重度用户“一致认为” Opus 4.7 是一次退步,这是任何 Opus 版本首次出现此类共识(Claude Power Users Unanimously Agree That Opus 4.7 Is A Serious Regression,925 分,181 条评论)。u/Many_Consequence_337(181 分):“烂的是那个自适应思考系统,模型根本不会用它。” u/danivl(157 分)提出了经济学理论:“4.7 本质上就是 4.6 的降级版,只是运行更便宜……但 token 烧得快得多。”

u/ENT_Alam 在 MineBench(一个 3D 体素构建基准测试)上对比测试了 Opus 4.6 和 4.7,总成本约 $275。结果显示 Opus 4.7 产出了更详细、方块数更多的构建,但外观并不一致优于前代——正如 u/Financial_Weather_35(49 分)所说,“与其说更好了,不如说只是换了个方向偏了过去”(Differences Between Opus 4.6 and Opus 4.7 on MineBench,593 分,75 条评论)。帖子指出 Opus 4.7 的行为变化可能解释了这些不一致性:“它会更字面地执行指令……不会再默默把你的指令自行泛化。”

u/Important-Farmer-846 发布了 Opus 4.7 文本类别排名,显示其在各类别上表现参差不齐(Claude Opus 4.7 Text Category Rankings,99 分)。

Opus 4.7 文本类别排名,显示其在不同任务类型中的位置

u/exordin26 提供了反面叙事:Opus 4.7 在 Artificial Analysis 上以微弱优势领先,同时使用的 token 显著少于 Opus 4.6(score 201, 57 comments)。u/ethotopia(93 分)不以为然:“说句不好听的,Gemini 3.1 和 4.7 能排在最前面,恰好说明这个基准测试对真实世界使用有多不靠谱。”

Artificial Analysis 排行榜,显示 Opus 4.7 以更少 token 微弱领先

u/lemon07r 是 SanityHarness 编程评估的作者,花费 $120 API 额度测试 Opus 4.7,发布了持续幻觉和“煤气灯式操控”行为的详细记录。他将其戏称为“Gaslightus-4.7”:“我从没见过哪个模型会这么严重、这么频繁地出现幻觉……当你试图纠正它时,它会极其顽固地坚持自己是对的;无论你给出多少证据,它都会一路对你进行 gaslight 到最后。”(Kimi K2.6-Code-Preview, Opus 4.7, GLM 5.1 tested in coding,56 分)。

GPT-5.4 截图,确认 Opus 4.7 给出了编造指令,并将其评为 90% 错误

u/ObjectivePresent4162 列举了四个具体失败案例:对定价数据的自信幻觉、自适应推理默认低强度、在忽略请求更改的同时进行未请求的更改,以及更快的 token 消耗(After using Opus 4.7... yes, performance drop is real,76 分,29 条评论)。u/JulioMcLaughlin2 是一名做理论数学和物理研究的博士生,描述了 Opus 4.7 在 $20 计划上不断自我修正和快速消耗 token 的情况(Opus 4.7 is terrible,254 分,125 条评论)。

正面方面,u/Savannah_Carter494 在 UI 设计任务上测试了三个前沿模型,发现 Opus 4.7 产出了最精致的结果,Gemini 3.1 Pro 在细节遵循上更好,GPT 5.4 居中(Opus 4.7 vs Gemini 3.1 Pro vs GPT 5.4,169 分,38 条评论)。

UI 设计对比图,并排展示 Opus 4.7、Gemini 3.1 Pro 和 GPT 5.4 的移动应用 mockup

讨论要点: 退步证据现已覆盖多个维度:NYT Connections(语言谜题)、MineBench(空间推理)、SanityHarness(真实编程)以及多位从业者的报告。新兴图景是:Opus 4.7 在编程/SWE 基准测试和 token 效率上有所提升,但在泛化能力、推理、创意任务和用户信任方面出现下滑。对无害内容的拒绝率飙升为技术退步增加了政策层面的问题。

与前日对比: 4 月 17 日,退步叙事正在初步形成,伴随早期基准测试下降和用户不满。今天,NYT Connections 基准测试的暴跌(94.7% 至 41.0%)提供了迄今最尖锐的单一数据点,社区共识从"观望"硬化为有据可查的失望。Artificial Analysis 的领先地位和 UI 设计优势作为反例存在,但被退步证据的体量所压倒。


1.3 LLM 意识:DeepMind 科学家挑战现有路径(🡒)

u/Worldly_Evidence9113 发布了 Google DeepMind 高级科学家 Alexander Lerchner 论文中的一张幻灯片,论文主张 LLM 永远无法实现意识——即使 100 年后也不行——原因在于他所说的"抽象谬误"(Abstraction Fallacy)(Google DeepMind's Senior Scientist challenges the idea that LLMs can achieve consciousness,753 分,544 条评论)。

Lerchner 论文中关于抽象谬误的幻灯片,认为 LLM 将语言抽象与现象体验混淆

该论文(可在 PhilPapers 获取,由 u/Electrical-Way6083 提供链接)认为必须存在一个“地图绘制者”——一个主观体验者——而 LLM 从根本上缺乏这一要素。544 条评论中的讨论尖锐分化。u/wiglafofpinwick(747 分)讽刺道:“看来他在计算神经科学上做了 10 多年学术研究、又在 DeepMind 待了 14 年,还是不够资格在这个话题上发言,反倒是我们 Reddit 网友更懂。” u/Rain_On(56 分)批评论文忽视了现有哲学成果:“我真的受够了这些科学家写哲学文章时,完全无视前人已经积累起来的整套哲学研究。”

讨论要点: 该帖生成了当日最高评论数(544),表明即使在技术导向的 AI 子版块中,意识作为话题也引发了深度参与。对科学权威的尊重与对哲学幼稚性的批评之间的张力,反映了更广泛的分歧——意识究竟是一个工程问题还是哲学问题。


1.4 AI 地缘政治:中国追赶,欧洲对冲(🡒)

u/fortune 分享了斯坦福 HAI 2026 AI 指数报告,发现中国已“几乎抹平”美国的 AI 领先优势。排名第一的美国模型(Anthropic 的 Claude Opus 4.6)与中国的 Dola-Seed 2.0 之间的 Arena 分差仅为 39 分,即 2.7%(China has "nearly erased" America's lead in AI,420 分,139 条评论)。u/valtor2(34 分)表示反对:“只要认真把美国模型和中国模型都用过一遍,就知道这话不是真的。”

在欧洲,u/AlertTangerine 发布了 Forbes 对 Mistral 战略的报道:通过“不做美国公司”打造一个 140 亿美元帝国——将主权定位为特色而非在前沿模型性能上竞争(How France's Mistral Built A $14 Billion AI Empire,178 分)。u/EmbarrassedStudent10 发布了英国 6.75 亿美元“主权 AI”基金的消息,目标是 AI 智能体、药物发现和硬件优化等“镐和铲”利基领域,而非构建前沿模型(UK launches $675M Sovereign AI fund,113 分,39 条评论)。u/thhvancouver(25 分):“这点钱也太可爱了。与此同时,Microsoft 已经在 European Data Boundary 的 AI 基础设施上承诺投入 400 亿美元。”

另外,u/ShreckAndDonkey123 报道 OpenAI 高管 Kevin Weil 即将离职,公司科学部门被解散(OpenAI Executive Kevin Weil Is Leaving,308 分,45 条评论)。

与前日对比: 4 月 17 日的报告将英国主权 AI 基金和斯坦福 AI 指数作为新兴话题报道。今天两者都获得了更多关注,Mistral 的报道增添了一条有别于中美竞争的欧洲主权叙事。


1.5 量化工程与模型基础设施(🡕)

u/danielhanchen 来自 Unsloth,发布了 Qwen3.6 KLD 性能基准测试,显示 Unsloth 量化在 22 个尺寸中的 21 个处于帕累托前沿。帖子还记录了一个已确认的 CUDA 13.2 bug,导致所有提供商的低位量化输出乱码,NVIDIA 确认将在 CUDA 13.3 中修复(Qwen3.6 GGUF Benchmarks,497 分,108 条评论)。

Unsloth KLD GGUF 基准图,显示 Qwen3.6-35B-A3B 在各量化提供方中的帕累托前沿

NVIDIA 确认 CUDA 13.2 中导致低位量化输出乱码的 bug 将在 CUDA 13.3 中修复

帖子还回应了社区对频繁重新上传的批评,将 95% 的情况归因于上游问题(llama.cpp bug、Google 的 Gemma 模板更改、MiniMax NaN 问题)。

u/pmttyji 宣布 PrismML 发布 Ternary Bonsai 系列——使用三值权重 {-1, 0, +1} 的 1.58 位模型,覆盖 8B、4B 和 1.7B 参数规格,相比 FP16 实现 9 倍内存缩减(Ternary Bonsai: Top intelligence at 1.58 bits,355 分,83 条评论)。但 u/WeGoToMars7 对其声称提出质疑:Bonsai-8B 在 782MB 时仅比 Gemma 4 E2B 的 Q4_K_M(1104MB)小 29%,性能却明显更差——而且三值模型实际大了 33%(Bonsai models are pure hype,169 分,62 条评论)。

并排对比图,显示 Bonsai-8B 的错误答案与 Gemma 4 E2B 的回答

u/KaroYadgar(87 分)指出 Bonsai 基于 Qwen3 而非 Qwen3.5,因此其问题可能源于基座模型而非量化方式。u/DefNattyBoii(15 分)指责 PrismML 存在“智识不诚实”,因为其对比的是过时的全精度模型而非量化后的当代模型。

u/nathandreamfast 发布了迄今最深入的去审查(abliteration)分析:对 HauhauCS、Heretic 和 Huihui 三种去审查技术在五个 Qwen 模型上进行了为期一周的法医级对比,使用 KL 散度、基准测试套件和权重分析(Abliterlitics,94 分,50 条评论)。关键发现:HauhauCS 的"无损"声称在大规模下被推翻——27B 模型的 TruthfulQA 下降了 8.2 个百分点。Heretic 在所有规模上表现最为稳定。完整结果发布于 HuggingFace

u/Otis43 报道 Cloudflare 开源了 Unweight——一个无损压缩系统,可在不损失精度的情况下将 LLM 体积减少 15-22%,在 H100 GPU 上为 Llama-3.1-8B 节省约 3GB VRAM(Cloudflare open-sources lossless LLM compression tool,114 分,12 条评论)。

讨论要点: 量化生态正在走向专业化。Unsloth 的系统性基准测试、Cloudflare 的无损压缩以及 Abliterlitics 的法医级分析,都展现了超越业余爱好者水平的工程严谨性。影响所有提供商的 CUDA 13.2 bug 也凸显了本地推理栈尽管快速成熟、但仍然脆弱的现状。

与前日对比: 4 月 17 日,Unsloth GGUF 帖子和 Ternary Bonsai 处于早期互动阶段。今天,Bonsai 怀疑论帖子提供了直接的反面证据,Abliterlitics 分析则带来了迄今最深入的去审查技术对比。


1.6 机器人:奔跑、冲刺、感知(🡒)

u/heart-aroni 发布了宇树 H1 在测试中从慢跑加速到奔跑的视频,该测试为 4 月 19 日计划举行的北京人形机器人半程马拉松做准备(Unitree H1 accelerating from jogging to running,813 分,87 条评论)。u/JoelMahon(190 分):“要是我当时在逃,它还在慢跑模式下被我甩开,结果我一回头看它离我多远,它突然开始加速……我肯定会被吓尿。” u/kgurniak91(24 分):“一年前,大多数机器人不是每跑 2 米就摔,就是得有人拿着控制器一路跟在旁边。”

u/Recoil42 分享了禾赛(Hesai)发布全球首款全彩 LiDAR 芯片的消息,实现了色彩感知与距离测量的像素级原生融合,无需相机与 LiDAR 数据的后期拼接(Hesai releases full-color LiDAR chip,260 分,22 条评论)。ETX 系列支持最高 4,320 个激光通道,预计 2026 年下半年进入量产。

禾赛全彩 LiDAR 彩色点云图,显示街道场景中的车辆和行人

与前日对比: 4 月 17 日的机器人报道聚焦于 Figure.AI 的平衡恢复策略和 88% 的家庭任务失败率。今天的焦点转向速度(宇树从慢跑到奔跑的过渡)和感知(禾赛的全彩 LiDAR),延续了特定领域能力快速提升的主题。


2. 令人困扰的问题

Claude Opus 4.7 在非编程任务上的退步

严重程度:高。 当日最强烈的不满信号,在 4 月 17 日基础上以更确凿的证据延续。NYT Connections Extended Benchmark 从 94.7% 跌至 41.0%(u/seencoding1073 分)。SanityHarness 真实编程测试发现持续幻觉——u/lemon07r 花费 $120 测试后将其命名为"Gaslightus-4.7"(56 分)。u/ObjectivePresent4162 列举了对定价数据的自信幻觉、自适应推理默认低强度、进行未请求的更改同时忽略实际请求,以及更快的 token 消耗(76 分)。54.9% 的无害基准测试问题被拒绝进一步加剧了问题。应对策略:继续使用 Opus 4.6、转向 GPT-5.4、迁移至本地模型。

Opus 4.7 的 Token 经济学与自适应推理

严重程度:高。 u/Accomplished-Code-54(68 分):“再加上每个 prompt 的 token 用量还因为新 tokenizer 多了 40%,简直糟透了。” u/JulioMcLaughlin2 描述了在 $20 计划上不断自我修正并触及使用上限的情况(254 分)。自适应推理系统对大多数查询默认低强度。u/NewConfusion9480(56 分)是一名 CS 讲师,发现 4.7“明显比 4.5 还差,更别提 4.6 了”在课程内容生成上的表现。应对方式:明确指定推理强度、将日常任务切换至 Sonnet、迁移至本地推理。

本地模型配置复杂性

严重程度:中。 每个 Qwen3.6 帖子都引发了大量配置问题。u/No-Marionberry-772(83 分):“你软件这套栈是怎么配的?我也很想把一套像样的本地环境搭起来,但一直弄不清自己到底该用什么。” preserve_thinking 标志、--n-cpu-moe 标志、采样参数和量化选择均需按模型逐一调优。u/Clean_Initial_9618(20 分)询问如何在 16GB VRAM 上使用 Q5_K_XL。大量详细的配置帖子表明,这是一个随每次模型发布而复合累积的反复成本。

刷榜与真实性能的差距

严重程度:中。 排行榜分数与从业者实际体验之间的差距持续扩大。u/ethotopia(93 分):“Gemini 3.1 和 4.7 能排在 [Artificial Analysis] 顶部,本身就说明这个基准测试对真实世界使用有多不靠谱。” u/ResidentPositive4122(34 分)揭示了这种矛盾:“这个版里一旦有新 SotA 冲上 artificial analysis,大家就说‘这是最烂的基准测试’;可一旦有新的开源模型冲上去,大家又变成‘就是它了!!!’” u/DefNattyBoii(15 分)指责 Bonsai 存在“智识不诚实”,因其对比的是过时模型。

Vibe Coding 炒作与现实

严重程度:低。 u/mhamza_hashim 记录了“百万美元 vibe coding”内容与现实的差距:“那不是生意,那只是个原型。”(Every time I open YouTube, someone is making $1M with vibe coding,30 分,45 条评论)。u/GetawayDriving(55 分):“他们卖的甚至都不是彩票,而是教你怎么买一张彩票的说明书。”


3. 人们期望的功能

不退步的模型升级

Opus 4.7 事件凝聚了一个反复出现的诉求。u/Valnar(99 分):“我还以为那句老话是‘它以后只会越来越好,不会比现在更差’呢?” u/Loose_General4018(119 分):“当它连两版前都能处理好的多步骤工程任务都开始掉链子时,根本没人会在乎它在某个排行榜上多高了 6 分。基准测试上的感觉好,不等于生产环境里的感觉也好。” 社区希望前沿模型的编程能力提升不以牺牲推理、语言和创意任务为代价。目前没有产品直接解决这一问题。机会:直接。

Qwen 3.6 27B 密集模型

u/GrungeWerX 直接表达了需求:27B 赢得了社区投票却未被发布(162 分)。u/zsydeepsky(24 分):“如果 3.6-27B 还能保住 3.5-27B 相对 3.5-35B-A3B 的那种优势,那就真的是一台能在你自己机器上跑的 Claude-4.6-sonnet 了。” u/-Ellary-(16 分)指出 MoE 35B 模型在深度上感觉类似“非常轻量的模型,接近 9-12B 的 dense 模型”。对于重视推理深度甚于速度的用户来说,需求十分迫切。

共享 GPU 配置数据库

每次新模型发布都会重启调优周期。Qwen3.6 测试浪潮中大量的逐 GPU 配置帖子(llama-server 标志、采样参数、量化选择、CPU 卸载策略)表明,一个社区维护的配置注册表可以节省数千小时的集体时间。u/No-Marionberry-772(83 分):“你软件这套栈是怎么配的?我也很想把一套像样的本地环境搭起来,但一直弄不清自己到底该用什么。” 机会:直接,部分由分散的论坛帖子解决。

匹配真实使用的诚实基准测试

u/lemon07r 专门构建了 SanityHarness,因为标准基准测试无法捕捉真实的编程智能体行为,已发布 145 个跨模型结果(sanityboard.lr7.dev)。u/Striking-Swim6702 构建了完整的智能体框架兼容性矩阵。Opus 4.7 事件——在标准基准测试上得分良好却在实际任务上退步——使得对任务特定、可复现评估的需求更加迫切。机会:竞争性,SanityHarness 和 MineBench 是新兴参与者。

更大规模的三值/超低位模型

u/Silver_Bug8527(102 分)在 Bonsai 帖子中问道:“Bonsai 35B 什么时候来?” u/Kaljuuntuva_Teppo(9 分):“可惜我们现在只能用小模型。要是能有更好利用 24-32 GB 消费级 GPU 的东西就好了。” PrismML 目前的产品止步于 8B。将三值量化应用于 20-40B 基座模型将是一个重大进展。机会:前瞻性。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
Claude Opus 4.7 LLM(前沿) (-) 在 Artificial Analysis 领先;比 4.6 更高效使用 token;UI 生成能力强 NYT Connections 暴跌(94.7% 至 41.0%);持续幻觉/gaslighting 行为;自适应推理默认低强度;新分词器导致每次提示词多消耗 40% token;54.9% 的无害内容拒绝率
Qwen3.6-35B-A3B LLM(本地 MoE) (+) 3B 激活参数;Apache 2.0;在 5 个框架中 100% 工具调用通过;消费级 GPU 上 79-170 tok/s;262K 上下文 部分遵循问题;推理冗长;Plan 模式下不遵守只读限制;27B 密集变体尚未发布
Claude Opus 4.6 LLM(前沿) (+/-) 许多人在推理和创意任务上仍首选 有报告称其在 4.7 发布后同步退化;疑似算力重新分配
GPT-5.4 LLM(前沿) (+) 在 FrontierMath 领先;UI 生成有竞争力;被用作验证 Opus 4.7 错误的参照 语言谜题表现不是最强(NYT Connections 93.6%,Gemini 为 98.4%)
Gemini 3.1 Pro LLM(前沿) (+/-) NYT Connections Extended 第一(98.4%);多个基准测试领先 被批评为“在智能体业务工作里根本没法用”,尽管基准测试表现出色
Unsloth GGUFs 量化 (+) Qwen3.6 在 21/22 个尺寸上 KLD 帕累托最优;透明的 CUDA 13.2 bug 报告;MiniMax NaN 调查 上游问题需要重新上传;社区对竞争动机存在一些质疑
llama.cpp 推理引擎 (+) 本地推理标准;支持 preserve_thinking;--n-cpu-moe 标志启用 CPU/GPU 混合 MoE 每个模型和 GPU 需要配置调优;无共享数据库
OpenCode 编程智能体 (+) 多名测试者用于本地模型编程的首选;SanityHarness 和智能体框架测试基于此构建 需要按提供商配置
Ternary Bonsai 边缘模型 (+/-) 1.58 位三值权重;相比 FP16 内存缩减 9 倍 基于 Qwen3 而非 Qwen3.5;独立测试显示弱于 Gemma 4 E2B;仅 MLX 格式;基准测试存在“智识不诚实”
Heretic 去审查工具 (+) 所有模型规模上最稳定的去审查效果;27B 上 KL 散度最低;精准操作 有时保留软拒绝
LM Studio 推理 UI (+) 本地模型管理热门工具;可编辑 Jinja 模板以启用 preserve_thinking 默认设置对新模型可能不是最优
Kimi K2.6-Code-Preview LLM(托管) (+) 在 SanityHarness 上评分高于 GLM 5.1;早期测试表现有前景 API 尚不可用;仅 CLI
Grok 4.3 Beta LLM(前沿) (+/-) xAI 的新层级 $300/月定价引发质疑

4 月 17 日的主要迁移趋势延续至今:从业者从托管前沿模型转向本地推理,驱动因素包括 Opus 4.7 退步、token 经济学以及 Qwen3.6 在消费级硬件上的竞争力表现。Qwen 系列在所有测试框架中 100% 的工具调用通过率是相比非 Qwen 本地模型的显著实际优势。


5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
MineBench u/ENT_Alam 用于 LLM 空间推理的 3D 体素构建基准测试 标准基准测试遗漏空间/创意能力 Minecraft 风格体素 JSON、Glicko 评分、工具模式 已上线,13+ 个模型测试 minebench.ai, GitHub
SanityHarness u/lemon07r 跨 6 种语言的多语言编程智能体评估 标准编程基准测试遗漏真实智能体行为 Go、Docker、bubblewrap 沙箱、OpenCode 已上线,145 个结果 sanityboard.lr7.dev, GitHub
OpenCode Kimi 插件 u/lemon07r OpenCode 的 Kimi K2.6-Code-Preview 支持 Kimi 仅 CLI 访问;缺少 OpenCode 集成 OpenCode 插件、OAuth headers 已发布 GitHub
论文转 Web 应用技能 u/dreamai87 通过智能体工具调用将研究论文转换为 Web 应用 手动的论文到原型工作流 Qwen3.6 Q2_K_XL、llama-server、16GB VRAM 笔记本 已上线,58 次调用 98.3% 成功率 GitHub
Abliterlitics 法医分析 u/nathandreamfast 去审查技术的法医级基准测试对比 "无损"去审查声称缺乏验证 RTX 5090 + 4090、lm-evaluation-harness、vLLM、HarmBench 已发布于 HuggingFace HuggingFace collection
智能体框架矩阵 u/Striking-Swim6702 7 个模型、5 个框架的 Apple Silicon 兼容性测试 缺乏跨框架智能体兼容性数据 Rapid-MLX、M3 Ultra、Hermes/PydanticAI/LangChain/smolagents/OpenClaude 已发布 Post
Zagreus/Nesso SLMs u/kazzus78 面向欧洲语言的 0.4B 多语言模型 缺少针对意大利语/西班牙语/法语/葡萄牙语优化的小型模型 64 块 A100、Datatrove、Nanotron、Axolotl、~1T token 已发布于 HuggingFace GitHub
通过 Qwen3.6 开发的记账应用 u/simracerman 替代使用十年的云端记账服务的完整记账应用 云端记账应用的供应商锁定 Qwen3.6 Q5_K_XL、5070 Ti 16GB、OpenCode 可用,持续开发中 Post

u/ENT_Alam 的 MineBench 持续发展为社区最受欢迎的创意基准测试,现已测试 13 个以上模型(包括 Opus 4.6 和 4.7)。该 MIT 许可工具使用自然语言提示词,借助 Glicko 风格评分系统中的对决投票,评估 3D 坐标 JSON 输出。

u/kazzus78 的 Zagreus/Nesso 项目作为小规模从零训练的罕见报告尤为突出。技术报告记录了完整流程——分词、Slurm 编排、在 64 块 A100 上使用约 1 万亿 token 的分布式训练,以及后训练——目标是 0.4B 参数的欧洲语言模型。Nesso-0.4B-agentic 变体在意大利语任务上表现尤为突出。

LLM-as-judge 对比图,显示 Zagreus 和 Nesso 模型在意大利语和英语任务上对阵 Qwen 基线

当日的构建者活动集中在两个模式:评估基础设施(MineBench、SanityHarness、Abliterlitics、智能体框架矩阵)和实用的本地模型应用(论文转 Web 应用、记账应用)。两种模式都以 Qwen 模型作为主要基底。


6. 新动态与亮点

Kimi K2.6 由 Moonshot AI 预告

u/Namra_7 发布了 Kimi K2.6 的预告图片,这是来自 Moonshot AI 的下一代模型(KIMI K2.6 SOON !!,247 分,48 条评论)。u/FriskyFennecFox(36 分)称赞了 K2.5 的优势:总参数 1T、激活参数 32B、设计即量化(QAT-by-design)带来低廉的 API 定价、出色的图像理解能力,以及修改版 MIT 许可证。u/lemon07r 已获得 K2.6-Code-Preview 的早期访问权限,在 SanityHarness 上评分略高于 GLM 5.1,预计下周支持 API。

Elephant Alpha:OpenRouter 排名第一的神秘模型

u/i_hate_bharat 提出了一个问题:一个名为"Elephant Alpha"的 100B 参数模型已位于 OpenRouter 排行榜第一,以约 250 tps 运行、256K 上下文、编程性能出色,但无人知晓其开发者(has anyone figured out whose model Elephant Alpha is yet?,84 分,23 条评论)。较差的中文支持排除了 Qwen/DeepSeek 的可能性。社区猜测可能是 Cohere 或某个新创企业。

Cloudflare 开源无损 LLM 压缩工具

Cloudflare 发布了 Unweight——一个无损压缩系统,可在不牺牲输出精度的情况下将 LLM 体积减少 15-22%,在 H100 GPU 上为 Llama-3.1-8B 节省约 3GB VRAM(u/Otis43114 分)。GPU 内核已开源,计划将压缩扩展至注意力权重。

Zero-shot World Models:像儿童一样学习

u/FaeriaManic 发布了一篇论文,介绍了 Zero-shot World Model(ZWM),该模型仅基于单个儿童的视觉体验进行训练,便能在视觉认知任务上匹配最先进模型——零样本,无需任何任务特定训练(Zero-shot World Models Are Developmentally Efficient Learners,141 分,27 条评论)。作者来自斯坦福(Aw、Kotar、Lee、Kim 等)。代码预计于 2026 年 4 月底发布。arXiv: 2604.10333GitHub

Zero-shot World Models 架构图,显示 BabyZWM 基于儿童视觉体验数据训练

Claude Design 发布

u/MassiveWasabi 发布了 Anthropic 宣布 Claude Design 的消息——这是一款新产品,用户与 Claude 对话即可制作原型、幻灯片和单页文档(Introducing Claude Design,99 分,14 条评论)。早期关注度较低。

"Harness"成为标准术语

u/jacek2023 询问“harness”是否成了新的流行词(Is harness a new buzzword?,127 分,107 条评论)。u/vaksninus(116 分):“这是个很好的说法,用来描述像 Claude Code 这类模型所依赖的那套代码。” u/GraciousMule(9 分):“它已经取代了 Wrapper……实验室想要一种比 ‘cognitive stack’ 更友好、更面向消费者的说法。” 术语的变迁反映了智能体生态系统的日益成熟。


7. 机会在哪里

[+++] 独立模型质量监测服务 —— Opus 4.7 的退步现已被至少四个独立基准测试和多位从业者报告所记录:NYT Connections(94.7% 至 41.0%)、MineBench(横向移动,花费 $275)、SanityHarness(花费 $120 API 额度发现持续幻觉)以及结构化的用户失败清单。目前没有产品在推理层面独立监测托管模型质量或在退步时向用户发出警报。对提供商自有基准测试日益增长的不信任为可信赖的第三方监测服务创造了空间。证据来自第 1.2、2 节。

[+++] 共享本地模型配置注册表 —— 一天之内十篇 Qwen3.6 帖子产生了数百个散落在 Reddit 评论中的硬件专属配置问答。关键标志如 preserve_thinking--n-cpu-moe、采样参数和量化选择因 GPU、VRAM 和使用场景而异。一个社区维护的、可搜索的模型-硬件-配置组合数据库将在每次模型发布时节省数千小时的集体时间。证据来自第 1.1、2、3 节。

[++] 智能体框架兼容性测试即服务 —— u/Striking-Swim6702 的兼容性矩阵揭示了显著差异:Qwen 模型在所有框架上达到 100% 工具调用通过率,而 DeepSeek-R1 仅为 40-55%。这些数据对选择模型和框架的从业者极具价值,但仅以一次性 Reddit 帖子的形式存在。一个持续更新的模型-框架兼容性映射服务将服务于日益壮大的智能体编程社区。证据来自第 1.1 节。

[++] 中大型模型的超低位量化 —— Ternary Bonsai 在 8B 规模上验证了概念,但社区需求在 20-40B+ 模型。Abliterlitics 分析表明量化技术选择在大规模下影响巨大。将三值或极端量化与当代基座模型(Qwen3.5/3.6、Gemma 4)结合用于消费级 GPU 仍是一个开放的工程问题。证据来自第 1.5 节。

[+] 主权 AI 基础设施咨询 —— 英国(6.75 亿美元基金)和法国(Mistral 估值 140 亿美元)都在押注 AI 主权作为差异化特征。英国基金明确瞄准"镐和铲"利基领域。帮助主权 AI 计划配置算力、评估模型和遵守数据驻留要求的咨询或工具拥有新兴市场。证据来自第 1.4 节。

[+] 无损模型压缩工具 —— Cloudflare 的 Unweight 实现了 15-22% 的体积缩减。将其扩展至注意力权重并与量化技术结合,可以有意义地扩展消费级硬件上可运行的模型范围。证据来自第 1.5 节。


8. 要点总结

  1. Qwen3.6-35B-A3B 以至少十篇帖子和 3,500+ 合计分数主导了第二天的社区测试,巩固了其作为当前本地首选模型的地位。 其在五个智能体框架中 100% 的工具调用通过率、消费级 GPU 上 79-170 tok/s 的性能范围,以及 preserve_thinking 对多轮对话连贯性的修复,代表了本地推理的一个实际里程碑。(Qwen3.6. This is it.Qwen 3.6 vs 6 other models

  2. Claude Opus 4.7 退步证据进一步增强,最尖锐的数据点是 NYT Connections Extended Benchmark 上 53.7 个百分点的暴跌(94.7% 至 41.0%)。 加上 SanityHarness 的"Gaslightus-4.7"标签、从业者失败清单以及 54.9% 的无害内容拒绝率,社区共识已从怀疑转向有据可查的失望。(opus 4.7 scores 41.0%Opus 4.7 Is A Serious Regression

  3. 量化生态正在走向专业化。 Unsloth 帕累托最优的 GGUF 基准测试、Abliterlitics 法医级分析推翻了大规模下"无损"去审查的声称,以及 Cloudflare 的开源无损压缩——所有这些都展现了超越业余爱好者水平的工程严谨性。影响所有提供商低位量化的已确认 CUDA 13.2 bug 显示了技术栈的脆弱性。(Qwen3.6 GGUF BenchmarksAbliterlitics

  4. "刷榜"(benchmaxxed)批评获得了最具体的证据。 Opus 4.7 在 Artificial Analysis 领先的同时在 NYT Connections 上暴跌。Gemini 3.1 Pro 以 98.4% 高居 NYT Connections 榜首,但用户称其在智能体业务工作中不可用。Bonsai 基准测试被指控存在"intellectual dishonesty"。排行榜表现与从业者满意度之间的差距持续扩大。(Artificial AnalysisBonsai pure hype

  5. AI 地缘政治沿三个轴线分化:据斯坦福 HAI 报告,中美差距缩小至 39 个 Arena 分;欧洲主权押注(Mistral 估值 140 亿美元、英国 6.75 亿美元基金);以及 OpenAI 的组织动荡——关键高管离职和科学部门解散。China nearly erased US leadUK Sovereign AIOpenAI exec leaving

  6. 构建者活动集中于评估基础设施。 当日突出展示的七个项目中有四个(MineBench、SanityHarness、Abliterlitics、智能体框架矩阵)是评估工具而非应用。这反映出社区认识到,可信赖的基准测试而非原始模型能力才是当前的瓶颈。(MineBenchSanityHarness

  7. LLM 意识辩论在一位 DeepMind 高级科学家主张 LLM 永远无法实现意识后引发了当日最高评论数(544)。 社区在尊重专业权威与批评哲学幼稚性之间的分裂表明,即使在技术导向的子版块中,意识仍是 AI 领域最引人入胜的话题之一。(Abstraction Fallacy

  8. Kimi K2.6 和神秘的"Elephant Alpha"模型预示着竞争格局的扩大。 Moonshot AI 正在 K2.5 良好口碑的基础上继续发展,而一个身份不明的 100B 模型位居 OpenRouter 第一,表明有新进入者在公布之前就已开始交付产品。本地模型生态系统现已足够深厚,从业者的选择瓶颈不再是可用性,而是评估带宽。(KIMI K2.6 SOONElephant Alpha