跳转至

Reddit AI - 2026-04-17

1. 人们在讨论什么

1.1 Qwen3.6-35B-A3B 主导当日讨论(🡕)

所有追踪子版块中得分最高的帖子。u/ResearchCrafty1804 宣布发布 Qwen3.6-35B-A3B——一个总参数 35B、激活参数仅 3B 的稀疏 MoE 模型,采用 Apache 2.0 许可证(Qwen3.6-35B-A3B released!,1947 分,615 条评论)。u/NewEconomy55 发布了平行讨论帖(476 分,88 条评论)(Released Qwen3.6-35B-A3B)。

Qwen3.6-35B-A3B 基准测试图表,对比 MoE 和密集模型在 Terminal-Bench 2.0、SWE-bench Pro、SWE-bench Verified、GPQA Diamond、HMMT、MMMU 和 RealWorldQA 上的表现

Qwen 博客的关键基准测试数据:SWE-bench Verified 73.4,SWE-bench Pro 49.5(Qwen3.5-35B-A3B 为 44.6),Terminal-Bench 2.0 51.5,GPQA Diamond 86.0,HMMT Feb 26 83.6。该模型原生支持多模态,VLM 性能在多项基准测试中达到 Claude Sonnet 4.5 水平,空间智能表现突出(RefCOCO 92.0,ODInW13 50.8)。模型采用 256 个专家、每个 token 路由 8 个,混合注意力机制(线性 + softmax,3:1 比例),支持 262K 上下文。

u/Kodix(382 分):“本地 LLM 这两个月真是太猛了,对吧?” u/AndreVallestero(144 分):“希望他们也把 3.6 122B 放出来,逼 Google 也发布 124B 模型。” u/Willing-Toe1942(102 分):“我感觉 qwen 团队太想在 Gemma 面前秀一把了,所以才只拿 Qwen3.5/Gemma4 来对比。” u/Middle_Bullfrog_6173(129 分)注意到了博客中的预告:“Qwen3.6 开源家族还在继续扩张,敬请期待。”

早期用户反馈压倒性地积极。u/Local-Cardiologist-5 报告该模型自主构建了一个塔防游戏,自动捕获 bug 并修复 canvas 渲染问题,在 RTX 3090 上通过 llama.cpp 以 120 tok/s 运行(Qwen3.6. This is it.,525 分,254 条评论)。u/cviperr33(34 分):“它真的把那些我用 gemma 卡了好几天的坏代码和项目都修好了,而且大概 5 分钟就搞定。” u/CountlessFlies 在 Rust、TypeScript、Python 多语言代码库中实现了 Postgres 行级安全(RLS),称其为“本地编程的圣杯”(Qwen3.6 is incredible with OpenCode!,115 分,48 条评论)。

然而并非所有体验都是正面的。u/tkon3 报告在 vLLM 配合 RAG 使用时,指令遵循度不如前代——推理更冗长,系统提示词遵循更弱,最终响应更短(Qwen 3.6: worse adherence?,67 分,47 条评论)。u/exact_constraint(30 分):“3.6 在 Plan 模式下特别爱无视只读限制。”

一个关键的基础设施发现来自 u/onil_gova:Qwen3.6 内置了 preserve_thinking 标志,修复了前代版本的 KV 缓存失效问题(PSA: Qwen3.6 ships with preserve_thinking,305 分,68 条评论)。该标志将先前的推理保留在上下文中,而不是每轮对话都剥离并重新序列化。u/mlhher(105 分)分享了 llama.cpp 的启用方式:--chat-template-kwargs '{"preserve_thinking": true}'

u/danielhanchen 来自 Unsloth,发布了 Qwen3.6 GGUF 的 KLD 基准测试,显示 Unsloth 量化在 22 个尺寸中的 21 个处于帕累托前沿(Qwen3.6 GGUF Benchmarks,227 分,57 条评论)。帖子还记录了一个已确认的 CUDA 13.2 bug,导致低位量化输出乱码,NVIDIA 确认将在 CUDA 13.3 中修复。

Unsloth KLD GGUF 基准测试,展示 Qwen3.6-35B-A3B 跨量化提供商的帕累托前沿

u/hauhau901 发布了一个去审查的 “Aggressive” 变体,采用 K_P 量化,声称 465 次测试中 0 次拒绝且能力无损(Qwen3.6-35B-A3B Uncensored Aggressive,250 分,78 条评论)。社区反应感兴趣但持怀疑态度:u/llama-impersonator(56 分)指出“你到底做了什么、又是怎么测试‘零能力损失’的,相关信息还是明显不够。”

讨论要点: Qwen3.6 引发了近期记忆中最集中的社区测试活动。3B 激活参数使其可在消费级 GPU 上运行(在 4090、3090 甚至 16GB 笔记本上运行),而 preserve_thinking 修复解决了一个真实的基础设施痛点。与 Gemma 4 的竞争定位非常明确——Qwen 发布的直接对比仅针对 Qwen3.5 和 Gemma4。

与前日对比: 4 月 16 日,Qwen3.6 刚刚发布,基准测试令人兴奋但用户报告有限。今天社区涌入大量实际测试——从智能体编程到 RAG 工作流——将其确立为当前本地模型首选,尽管部分用户仍遇到指令遵循和系统提示词问题。


1.2 Claude Opus 4.7:基准测试提升遭遇用户反弹(🡕)

Opus 4.7 的正式发布引发了当日最两极分化的讨论。多篇帖子涵盖了基准测试、退步证据和用户不满。

u/ShreckAndDonkey123 发布了官方基准测试表(Claude Opus 4.7 benchmarks,827 分,222 条评论)。u/policyweb 发布了更多报道(483 分,33 条评论)。

Opus 4.7 基准测试表,显示 SWE-bench Pro 64.3%、SWE-bench Verified 87.6%、Terminal-Bench 2.0 69.4% 等分数,与 Opus 4.6、GPT-5.4、Gemini 3.1 Pro 和 Mythos Preview 的对比

Anthropic 博客的关键数据:SWE-bench Pro 64.3%(Opus 4.6 为 53.4%),SWE-bench Verified 87.6%,Terminal-Bench 2.0 69.4%,HLE 无工具 46.9% / 有工具 54.7%,OSWorld-Verified 78.0%。网络安全能力(CyberGym 73.1%)根据 Project Glasswing 被有意限制在 Mythos Preview 水平以下。定价不变,每百万输入/输出 token 分别为 $5/$25。Hex 的早期测试者评价:“低强度的 Opus 4.7,大致相当于中等强度的 Opus 4.6。”

但反弹迅速而异常统一。u/Neurogence 发帖称 Claude 重度用户“一致认为”Opus 4.7 是一次退步(Claude Power Users Unanimously Agree That Opus 4.7 Is A Serious Regression,819 分,162 条评论)。u/Many_Consequence_337(164 分):“问题就出在自适应思考上,这模型根本不会用它。” u/danivl(155 分)提出了理论:“4.7 其实是更差的 4.6 版本,只是运行成本更低……token 烧得也快得多。”

u/seencoding 提供了最有力的证据:在 NYT Connections Extended Benchmark 上,Opus 4.7(high)得分 41.0%,而 Opus 4.6 得分 94.7%——下降了 53.7 个百分点(opus 4.7 (high) scores a 41.0%,618 分,112 条评论)。Opus 4.7 无推理模式以 15.3% 垫底排在第 62 位。u/Klutzy-Snow8016(36 分)找到了一个关键原因:Anthropic 提高了拒绝率——54.9% 的基准测试问题因安全原因被拒绝,尽管不包含任何 NSFW 内容。在实际作答的问题上,得分为 90.9%,仍低于 4.6 的 94.7%。

Thematic Generalization Benchmark 显示 Opus 4.7 high 为 72.8,Opus 4.6 high 为 80.6,以及其他模型排名

u/zero0_one1 在 Thematic Generalization Benchmark 上确认了同样的模式:高推理从 80.6 降至 72.8,无推理从 68.8 降至 52.6(Opus 4.7 unexpectedly performs significantly worse,439 分,66 条评论)。u/PaxODST(165 分):“为了把编程和 SWE 上的提升拉满,其他方面肯定被砍了一些。”

u/lemon07r 是 SanityHarness 编程评估的作者,花费 $120 API 额度测试 Opus 4.7 后写下了长篇批评:“我从没见过哪个模型会这么频繁、这么严重地产生幻觉……当你试图纠正它时,它还会顽固地坚持自己是对的。”(Kimi K2.6-Code-Preview, Opus 4.7, GLM 5.1 tested in coding,52 分)。他将其戏称为 “Gaslightus-4.7”。

u/JulioMcLaughlin2 是一名做理论数学和物理研究的博士生,描述了 Opus 4.7 在 $20 计划上不断自我修正和快速消耗 token 的情况(Opus 4.7 is terrible,121 分,66 条评论)。u/looselyhuman(71 分):“Anthropic 这是在‘自适应地’削弱 Opus,好让服务器能撑到他们扩容为止。”

u/ObjectivePresent4162 列举了四个具体失败案例:对定价数据的自信幻觉、自适应推理默认低强度、在忽略请求更改的同时进行未请求的更改,以及更快的 token 消耗(After using Opus 4.7... yes, performance drop is real,65 分,26 条评论)。

讨论要点: 模式非常清晰:Opus 4.7 在编程/SWE 基准测试上有所提升,但在泛化能力、语言谜题、创意任务和实际推理方面出现退步。拒绝率飙升(54.9% 的无害基准测试问题被拒绝)和自适应推理默认低强度表明,系统性地为狭窄的基准测试集优化,代价是更广泛的能力下降。社区正形成"刷榜"(benchmaxxed)的叙事共识。

与前日对比: 4 月 16 日的报告以审慎的怀疑态度报道了 Opus 4.7 的发布。今天,至少四个独立基准测试和多个从业者报告提供了量化退步证据。叙事已从"观望"决定性地转向有据可查的失望。


1.3 Anthropic 信任危机:订阅、隐私与本地迁移(🡕)

三条交汇的讨论线索形成了围绕 Anthropic 的更广泛信任叙事。

u/kaggleqrdl 转发了一位 GitHub 用户的分析,预测 Anthropic 正在“建设性地终止其订阅计划”,转向仅面向企业的访问模式(Only LocalLLaMa can save us now,391 分,134 条评论)。原始 GitHub 评论 认为 Anthropic“愿意通过无声的性能下降缓慢消耗和流失客户”。u/PhillyG17(200 分):“这和互联网早期那个‘蛮荒西部’时代发生的事如出一辙。起初大家都在拼命做最好的产品,后来就变成拼命把它做成最赚钱的产品。” u/ttkciar(115 分),LocalLLaMA 版主,保留了该帖并称其切题:“商业推理服务反复无常,这正是我们很多人会待在这个 sub 的重要原因。”

u/fulgencio_batista 发帖称 Claude 现在要求身份验证,包括有效证件和面部识别扫描(More reasons to go local,541 分,88 条评论)。u/Makers7886(200 分):“真想知道这里面到底有多少是‘美国实验室联合起来阻止中国实验室使用它们’的一部分,又有多少只是借机攫取个人数据的借口。” u/hideo_kuze_(66 分):“现在几乎每个破网站和 App 都要你交护照,顺便再来个 DNA 样本。”

与此同时,u/kaggleqrdl 另外分享了 Anthropic 转向企业优先模式的预测,并声称一位 AMD 工程师分析了 6,852 个 Claude Code 会话证实了性能变化(github user predicts Anthropic terminating subscriptions,155 分,54 条评论)。u/Weak-Variety-4307(61 分):“Anthropic 和 OpenAI 都在玩长期营收这盘棋……当现有模型总是在新版本发布前看起来被悄悄降级时,这就像是光天化日之下的诱骗换货。”

讨论要点: Opus 4.7 退步、身份验证要求和订阅不确定性的交汇正在产生复合信任危机。每个问题单独来看或许可以被消化;合在一起则形成了一个公司将企业收入置于个人用户之上的叙事。LocalLLaMA 版主明确认可该帖切题,表明社区正将此视为本地模型存在的根本动力。

与前日对比: 4 月 16 日,Anthropic 信任侵蚀已是一个痛点。今天随着"建设性终止"分析获得 391 分、身份验证帖获得 541 分,以及版主明确将其与 LocalLLaMA 的使命联系起来,事态进一步升级。


1.4 AI 伦理与军事应用:Palantir 面临公众清算(🡒)

两段 Palantir 联合创始人的视频引发了强烈反响。u/Algrm 发布了 Peter Thiel 被质问 Palantir 在加沙使用 AI 的视频(Peter Thiel...sh*ts himself when asked,1497 分,204 条评论),并单独发布了 Alex Karp 将死者称为"有用的白痴"和"大多数是恐怖分子"的视频(Alex Karp...refers to those killed,773 分,178 条评论)。

u/justpassingbyteam(209 分):“我的偏向是听以色列的,他们决定什么是对的就是什么对的。这就是他的回答。太离谱了。” u/Miamiconnectionexo(284 分):“把他们说成‘大多数是恐怖分子’这种说法,正是这类系统在平民死亡零问责的情况下被部署出去的方式。”

讨论要点: 这些帖子处于 AI 与地缘政治的交汇点。合计 2,270 分使其成为按原始数据计最高互动量的话题,尽管讨论主要是伦理层面而非技术层面。社区的反应反映了对 AI 在缺乏问责机制的军事场景中部署的日益深切担忧。

与前日对比: 4 月 16 日关注的是 Anthropic 反对 Illinois 责任免除法案和白宫 Mythos 访问权限。今天 AI 伦理讨论从监管立场转向了对军事部署后果的直接对峙。


1.5 AI 辅助工作的情感代价持续加深(🡒)

u/throwawayname46 描述了使用 Claude 解决工作问题数周后的三阶段情感弧线:高强度会话后的疲惫、恢复期间觉得进度停滞的愧疚感,以及成果交付后的空虚感——因为“你没法真心实意地把所有产出都算作自己的功劳”(Me, after a few weeks of solving my work problems with Claude and feeling terribly empty,867 分,178 条评论)。

u/wheres_my_ballot(230 分):“对我们很多人来说,满足感来自做事的过程,也来自你找到解法时那种成就感。现在这种感觉像是死掉了。” u/evendedwifestillnags(100 分):“Claude 之后的清醒时刻。它已经在做我 90% 的工作了,我感受到前所未有的冒名顶替综合征。” u/Actual_Editor(24 分):“我们都成了 PM。” u/puncheonjudy(45 分)提出了反面观点:“想想它带给了你什么……如果它能让我更快做完工作,那我通常就会去陪女儿玩,或者出去散步。”

讨论要点: 这篇帖子从 4 月 16 日的 663 分继续攀升至 867 分,表明该主题具有持久影响力。"我们都成了 PM"的表述——AI 将熟练从业者降格为自己 AI 输出的项目经理——比此前任何讨论都更简洁地概括了这一职业身份危机。

与前日对比: 该帖在 4 月 16 日以 663 分被收录。今天达到 867 分,新增评论深化了讨论。情感代价主题正在成为一个持续信号,而非一次性的宣泄帖。


1.6 机器人技术:跑得更快、故障更少、备战马拉松(🡒)

u/Distinct-Question-16 发布了 Figure.AI 的 “Vulcan” 平衡策略,使 Figure 03 机器人在最多 3 个下肢执行器失效的情况下仍能保持平衡(Figure.AI new balance policy,585 分,109 条评论)。u/Maleficent-Low-7485(209 分):“我们现在居然能这么轻描淡写地给机器人设计出从部分硬件故障中恢复的能力,太离谱了。”

u/heart-aroni 发布了 Unitree H1 从慢跑加速到跑步的视频,这是为 4 月 19 日北京人形机器人半程马拉松所做的测试(Unitree H1 accelerating from jogging to running,404 分,52 条评论)。u/JoelMahon(118 分):“要是我正被它追着跑,好不容易在慢跑模式下还能甩开它,结果它突然开始加速……我真得吓尿。”

u/EasyTree12 分享了一篇 Forbes 报道,记录了人形机器人在家庭任务上 88% 的失败率(Humanoid Robots' 88% Fail Rate,113 分,85 条评论)。u/RanklesTheOtter(132 分):“这已经是它们此生最差的时候了。” u/DaySecure7642(24 分):“几年前还是 0%,现在已经到 12% 了。到 2030 年,它们会在很多任务上变得可用。”

u/socoolandawesome 发布了 Physical Intelligence 令人印象深刻的演示,展示机器人通过语言引导泛化到新任务的能力(Impressive robotics demo from Physical Intelligence,68 分,20 条评论)。

讨论要点: 88% 失败率与弹性(Vulcan)和速度(Unitree)方面快速能力提升的并置,捕捉了当前状态:机器人在大多数任务上仍然表现糟糕,但同时在明显进步。社区倾向于乐观,将失败重新定义为基线而非局限。

与前日对比: 4 月 16 日报道了乐聚机器人的自动化工厂和灵巧机械手。今天焦点转向弹性(从硬件故障中恢复)和运动能力(马拉松训练),延续了机器人基础设施日趋成熟的主题。


1.7 AI 政策:政府准入、主权基金与市场变化(🡒)

u/exordin26 报道白宫正着手向美国政府机构提供 Anthropic Mythos 访问权限,消息来自 Bloomberg,尽管此前曾被认定为供应链风险(White House Moves to Give US Agencies Anthropic Mythos Access,465 分,53 条评论)。u/AdAnnual5736(321 分):“等等,他们之前不是被算作供应链风险吗?” u/o5mfiHTNsH748KVq(51 分):“我也把这解读成 OpenAI 手里根本没有能跟它竞争的东西。”

u/EmbarrassedStudent10 发帖称英国推出了 6.75 亿美元的“主权 AI”基金,聚焦 AI 智能体、药物发现和硬件优化,而非构建前沿模型(UK launches $675M Sovereign AI fund,98 分,36 条评论)。u/thhvancouver(19 分):“与此同时,Microsoft 已经承诺向 European Data Boundary 的 AI 基础设施投入 400 亿美元。”

u/fortune 分享了 Stanford HAI 2026 AI Index 报告,显示中国已"几乎抹平"美国的 AI 领先优势——Anthropic 的 Claude Opus 4.6 与中国的 Dola-Seed 2.0 之间的 Arena 分数差距缩小到仅 39 分(China has nearly erased America's lead in AI,125 分,48 条评论)。

u/GamingDisruptor 发布了 SimilarWeb 数据,显示 ChatGPT 的 GenAI 流量份额在 12 个月内从 77.43% 下降至 56.72%,而 Gemini 升至 25.46%,Claude 升至 6.02%(OpenAI continues to lose market share,130 分,53 条评论)。u/Cagnazzo82(11 分)提供了背景:“ChatGPT 其实还在增长。每月 60 亿次访问……在全球网站流量里排第 5。”

SimilarWeb 图表显示 2025 年 4 月至 2026 年 3 月 GenAI 网站流量份额,ChatGPT 从 77% 下降至 57%,Gemini 增长至 25%

讨论要点: 政策格局正在碎片化:美国政府同时将 Anthropic 列为供应链风险又寻求 Mythos 访问权限,英国押注"铲子和镐头"而非前沿模型,中国缩小差距。市场份额数据显示的是健康的多元化而非 ChatGPT 的衰落,但趋势有利于 Google 的分发优势。

与前日对比: 4 月 16 日报道了 Anthropic 的英国扩张和 OpenAI 的伦敦办公室。今天英国主权 AI 基金和 Stanford AI Index 为地缘政治竞争叙事增添了量化背景。


2. 令人困扰的问题

Claude Opus 4.7 在非编程任务上的退步

Severity: High. 当日最强烈的不满信号。四个独立基准测试记录了退步:NYT Connections Extended 从 94.7% 降至 41.0%(u/seencoding618 分),Thematic Generalization 从 80.6 降至 72.8(u/zero0_one1439 分),SanityHarness 实际编程测试发现持续的幻觉和误导行为(u/lemon07r52 分),openmark.ai 上的用户评估显示 Opus 4.6 在所有实际任务基准测试上击败 4.7(u/Rent_South)。54.9% 的无害基准测试问题拒绝率使问题雪上加霜。应对方式:继续使用 Opus 4.6,切换到 GPT-5.4,转向本地模型。

Anthropic 的自适应推理与 Token 经济学

Severity: High. u/Accomplished-Code-54(61 分):“再加上每个提示词还要多消耗 40% 的 token(因为新分词器),简直糟透了。” u/JulioMcLaughlin2 描述了 Opus 4.7 在 $20 计划上不断自我修正循环并达到使用限制。u/FateOfMuffins 指出网页端的自适应推理让用户“难以搞清如何让 4.7 真正思考”。应对方式:明确使用 /effort high 命令,日常任务切换到 Sonnet,迁移到本地推理。

身份验证与隐私侵蚀

Severity: Medium. Claude 现在要求提供护照或驾照以及面部识别(u/fulgencio_batista541 分)。u/hideo_kuze_(66 分):“这个世界正变得越来越反乌托邦。” 这被明确定义为本地模型迁移的催化剂。应对方式:转向本地部署,使用开放权重替代方案。

Qwen3.6 指令遵循问题

Severity: Medium. 多位用户报告系统提示词遵循问题,尤其在 RAG 和智能体场景中。u/tkon3 记录了使用工具时推理 token 膨胀 2-3 倍、系统提示词遵循变弱以及最终响应变短的问题(67 分)。u/exact_constraint(30 分):在只读模式下开始写入文件。应对方式:使用 preserve_thinking 标志,调整采样参数,等待社区模板成熟。


3. 人们期望的功能

不退步的模型升级

Opus 4.7 的风波凝结了一个反复出现的愿望:一条不牺牲现有能力的升级路径。u/m_atx(35 分)概括了这种疲劳感:“这种话几乎每次新模型发布时都会来一遍,直接把型号数字替换掉就行。” u/Valnar(72 分):“我还以为常见说法是‘它只会越来越好,不会比现在更差’呢?” 社区希望前沿模型的编程能力提升不以牺牲推理、语言和创意任务为代价。目前没有产品直接解决这一问题。

模型质量验证机制

延续 4 月 16 日的讨论且进一步加强。Opus 4.7 退步数据、身份验证要求和“建设性终止”分析都指向同一个缺口:没有独立机制验证用户是否获得了他们付费购买的完整质量模型。u/Loose_General4018(122 分):“基准测试上的感觉,根本不等于生产环境里的感觉。” 机会:直接——目前没有产品解决这一问题。

共享 GPU 配置数据库

u/No-Marionberry-772(56 分)在 Qwen3.6 帖子中问道:“你们软件栈都用什么?我很想搭一套像样的本地环境,但一直搞不清自己到底该用哪些东西。” 每次新模型发布(今天的 Qwen3.6,上周的 Gemma 4)都重启调优周期。大量详细配置帖(llama-server 参数、采样参数、量化选择)表明,一个社区维护的配置注册表可以节省数千个集体小时。

与真实使用匹配的诚实基准测试

u/lemon07r 专门构建了 SanityHarness,因为标准基准测试无法捕捉真实的编程智能体行为。u/Desperate-Purpose178(7 分):“Gemini 简直就是刷榜之王。” u/Helpful_Inflation344(5 分):“如果 METR 都没在测这个,那他们的基准测试就已经过时了。” 基准测试登顶与实际效用之间的差距正在扩大,催生了对任务特定、可复现评估平台的需求。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
Claude Opus 4.7 LLM(前沿) (-) SWE-bench Pro 64.3%(比 4.6 提升 11pp);视觉能力提升;自我验证 推理/语言基准测试退步;54.9% 无害任务拒绝率;自适应推理默认低强度;每次提示词多消耗 40% token
Qwen3.6-35B-A3B LLM(本地 MoE) (+) 3B 激活参数;Apache 2.0;原生多模态;preserve_thinking 修复;3090 上 120 tok/s RAG 场景中的指令遵循问题;系统提示词遵循不如 3.5;使用工具时推理冗长
Claude Opus 4.6 LLM(前沿) (+/-) 许多用户在推理任务中仍然首选;可选择使用 与 4.7 发布同期出现性能下降报告;疑似算力重新分配
Unsloth GGUFs 量化 (+) Qwen3.6 在 22 个尺寸中 21 个实现帕累托最优 KLD;透明的 bug 报告 上游问题需要重新上传;CUDA 13.2 bug 影响低位量化
llama.cpp 推理引擎 (+) 本地推理的黄金标准;支持 preserve_thinking;迭代速度快 每种 GPU 需要调优配置;没有共享数据库
Ternary Bonsai 边缘模型 (+/-) 1.58 位,比 FP16 小 9 倍;1.75GB 下平均基准测试 75.5 基于 Qwen3(非 3.5);基准测试对比受质疑;仅有 MLX 格式
OpenCode 编程智能体 (+) 多位测试者首选的本地模型编程工具;SanityHarness 评估基于此构建 非标准提供商需要配置
Kimi K2.6-Code-Preview LLM(托管) (+) SanityHarness 评测略高于 GLM 5.1;早期访问表现良好 API 支持尚未推出;目前仅支持 CLI
MiniMax M2.7 LLM(本地) (+/-) 全精度下部分用户达到 Sonnet 级别 默认设置下表现不稳定;缺少空格/拼写错误;38% 的 Bartowski GGUF 存在 NaN;工具调用格式偏移

主导性的迁移模式正在加速:从业者从托管前沿模型转向本地推理,驱动因素包括信任侵蚀(身份验证、订阅不确定性、无声性能下降)和能力趋同(Qwen3.6 在消费级硬件上接近前沿性能)。Opus 4.7 的退步反而加强了本地模型的论据,正如 u/kaggleqrdl 所说:“现在只有 LocalLLaMa 能救我们了。”


5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
通过 Qwen3.6 构建塔防游戏 u/Local-Cardiologist-5 自主游戏开发与自动调试 展示本地模型智能体编程能力 Qwen3.6-35B-A3B Q6_K_XL, llama-server, MCP screenshots Working demo Post
多语言 RLS 实现 u/CountlessFlies 跨 Rust、TypeScript、Python 服务的行级安全 跨语言数据库安全模式 Qwen3.6 IQ4_NL, llama.cpp, OpenCode, RTX 4090 PR submitted PR
SanityHarness 编程评估 u/lemon07r 跨 6 种语言的多语言编程智能体基准测试 标准基准测试无法捕捉真实智能体行为 Docker, bubblewrap sandbox, OpenCode 145 results published sanityboard.lr7.dev, GitHub
Qwen3.6 研究到 Web 应用技能 u/dreamai87 将研究论文转化为 Web 应用 手动的研究到原型工作流 Qwen3.6 Q4_K_XL, llama-server, 16GB VRAM laptop Shipped, 58 tool calls 98.3% success GitHub
Qwen3.6 Uncensored Aggressive u/hauhau901 采用 K_P 量化和 imatrix 的零拒绝变体 在不损失能力的情况下移除审查 Qwen3.6 base, custom K_P quantization Released on HuggingFace HuggingFace
PromptCreek 库 u/Big-Initiative-4256 包含 1000+ 模板和 1200+ 智能体技能的免费提示词库 提示词在聊天记录中丢失;缺乏有组织的提示词仓库 Web app, npx install for skills Live promptcreek.com
OpenCode Kimi 插件 u/lemon07r OpenCode 的 Kimi K2.6-Code-Preview 支持 仅 CLI 的 Kimi 访问;缺少 OpenCode 集成 OpenCode plugin, OAuth headers Released GitHub
Open WebUI 富元素 u/Mr_BETADINE Open WebUI 响应中的富 UI 组件 纯文本输出的局限性 Open WebUI plugin Prototype Post

当日的构建活动集中在 Qwen3.6 作为基础模型。八个项目中有三个将其作为主要模型,另有两个对其进行了评估。研究到 Web 应用技能在 16GB 笔记本上跨 270 万 token 实现 98.3% 的工具调用成功率,展示了消费级规模的真实智能体能力。


6. 新动态与亮点

DeepSeek 为下一代模型准备 Mega MoE 基础设施

u/External_Mood4719 追踪了 DeepGEMM 的 PR #304,新增了 “Mega MoE” 支持——将 dispatch、linear 1、SwiGLU、linear 2 和 combine 操作融合为一个 mega-kernel,并实现 NVLink 通信与 tensor core 计算的重叠(DeepSeek Updated their repo DeepGEMM testing Mega MoE,116 分)。

DeepGEMM PR 展示 Mega MoE 特性,包括 FP4 Indexer、Blackwell 适配和贡献者列表

FP8 x FP4 MoE 量化、Mega MoE 内核、通过 DeepEPv2 的分布式通信以及 Blackwell GPU 适配的组合指向一个比 DeepSeek V3 更大的模型。需要 PyTorch >= 2.9。仓库包含免责声明:“这次发布只和 DeepGEMM 的开发有关,与内部模型发布无关。”

Bonsai 三值模型尽管架构新颖仍面临质疑

u/pmttyji 发布了 PrismML 的 Ternary Bonsai 系列——1.58 位模型,参数量分别为 8B、4B 和 1.7B,使用三值权重 {-1, 0, +1},相比 FP16 实现 9 倍内存缩减(Ternary Bonsai: Top intelligence at 1.58 bits,333 分,81 条评论)。但 u/WeGoToMars7 直接挑战了这些声明:Bonsai-8B 782MB 仅比 Gemma 4 E2B Q4_K_M(1104MB)小 29%,同时"笨得多"——而三值变体反而大了 33%(Bonsai models are pure hype,124 分,54 条评论)。u/KaroYadgar(69 分)指出 Bonsai 基于 Qwen3 而非 Qwen3.5,限制了其上限。

Anthropic Labs 宣布 Claude Design

u/MassiveWasabi 发布了 Claude Design 的公告,这是 Anthropic 的新产品,用户与 Claude 对话即可制作原型、幻灯片和单页文档(Introducing Claude Design,55 分,4 条评论)。早期互动量很少。

OpenAI Codex for Almost Everything

u/manubfr 分享了 OpenAI 的公告,扩展了 Codex 的能力范围(Codex for Almost Everything,122 分,12 条评论)。

Kimi K2.6-Code-Preview 崭露头角

u/lemon07r 获得了 Kimi K2.6-Code-Preview 的早期访问权限,在 SanityHarness 上评分略高于 GLM 5.1,API 支持预计下周推出。该模型目前仅通过 Kimi CLI 使用,采用 OpenAI 兼容格式加 Kimi 特有扩展。


7. 机会在哪里

[+++] 独立模型质量监控服务 -- 四个独立基准测试在 Anthropic 声称改进的同一天记录了 Opus 4.7 的退步。NYT Connections:94.7% 降至 41.0%。Thematic Generalization:80.6 降至 72.8。SanityHarness:持续幻觉。openmark.ai 用户评估:4.6 在所有实际任务上击败 4.7。身份验证要求和"建设性终止"分析加剧了信任差距。目前没有产品在推理层面独立监控托管模型质量。证据来自第 1.2、1.3、2 节。

[+++] 本地模型 GPU 配置注册表 -- 每个 Qwen3.6 用户帖子都涉及手动配置调优:llama-server 参数、量化选择、采样参数、上下文大小、preserve_thinking 设置。u/No-Marionberry-772 询问该使用什么技术栈。u/CountlessFlies 发布了 Docker 命令。u/Local-Cardiologist-5 发布了服务器配置。每次模型发布都重启这个周期。一个将 GPU 型号 + LLM + 目标规格映射到优化配置的社区数据库可以节省数千个集体小时。证据来自第 1.1、4 节。

[++] 任务特定模型评估平台 -- 标准基准测试与实际性能出现分化。u/lemon07r 专门构建了 SanityHarness 来填补这一空白。u/Rent_South 在 openmark.ai 上运行自定义评估。u/Helpful_Inflation344:“如果 METR 还没在测这个,那他们的测试集肯定已经过时了。” Opus 4.7 的案例表明,基准测试登顶和用户满意度可以朝相反方向发展。一个提供可复现、任务特定评估且与从业者体验相关联的平台将获得即时需求。证据来自第 1.2、3 节。

[++] 本地模型智能体工作流框架 -- Qwen3.6 的 preserve_thinking 标志、工具调用改进和 262K 上下文窗口使消费级硬件上的持续智能体工作流成为可能。但基础设施是碎片化的:llama.cpp 负责推理,OpenCode 或 Claude Code 负责智能体脚手架,手动配置调优,没有标准的记忆/状态管理。一个为本地模型智能体编程优化的统一框架将利用从托管服务迁移的趋势。证据来自第 1.1、5 节。

[+] 支持本地模型的企业 AI 客户端 -- Mozilla 宣布了 Thunderbolt(MPL 2.0),支持本地模型、MCP 服务器和 Agent Client Protocol,但被评估为"非常早期阶段",远落后于 Open WebUI。企业市场需要具备合规功能的自托管 AI。Thunderbolt 的承诺与当前状态之间的差距是一个可构建的机会。证据来自第 6 节(前日)。


8. 要点总结

  1. Qwen3.6-35B-A3B 以 1947 分和 615 条评论占据当日榜首,确立了当前本地模型首选地位。 其 3B 激活参数的基准测试分数接近密集 27B 模型,preserve_thinking 标志解决了一个真实的 KV 缓存失效问题。部分 RAG 场景中仍存在指令遵循问题。(Qwen3.6-35B-A3B released!

  2. Claude Opus 4.7 遭遇了 Anthropic 模型有史以来最负面的统一评价。 尽管 SWE-bench Pro 提升明显(+11pp 至 64.3%),四个独立基准测试记录了非编程任务的退步。NYT Connections 下降了 53.7 个百分点。无害问题拒绝率飙升至 54.9%。多位从业者描述了持续的幻觉和误导行为。(Claude Opus 4.7 benchmarksopus 4.7 scores 41%Opus 4.7 Is A Serious Regression

  3. Anthropic 面临涵盖订阅、隐私和模型质量的复合信任危机。 要求护照和面部识别的身份验证(541 分)、订阅计划"建设性终止"的预测(391 分),以及同期的 Opus 4.6 性能下降报告,共同汇聚为推动用户转向本地替代方案的单一叙事。(More reasons to go localOnly LocalLLaMa can save us now

  4. "刷榜"模型批判正获得量化支撑。 Opus 4.7 的编程提升与推理退步并存。Gemini 3.1 Pro 领先 METR 但用户称其"无法用于智能体业务工作"。Bonsai 的基准测试对比被指为学术不诚实。跨提供商的排行榜表现与从业者满意度之间的差距正在扩大。(Thematic Generalization dropBonsai models are pure hype

  5. DeepSeek 的 Mega MoE 基础设施更新预示着准备比 V3 更大的模型。 DeepGEMM PR #304 中的 FP4 量化、融合 mega-kernel、Blackwell 适配和分布式通信指向极端规模的 MoE 训练,尽管免责声明将其与模型发布分开。(DeepSeek Updated their repo

  6. 本地模型生态正从爱好者实验走向生产级工具。 Unsloth 的系统化 GGUF 质量基准测试、preserve_thinking 基础设施修复、K_P 自定义量化,以及真实的智能体编程演示(塔防游戏、多语言 RLS、98.3% 工具调用成功率的研究到 Web 应用),展示了消费级硬件上正在形成的专业级本地推理栈。(Qwen3.6 GGUF BenchmarksQwen3.6 is incredible with OpenCode

  7. AI 伦理讨论围绕 Palantir 的军事 AI 部署激增,合计互动量超过 2,200 分。 Peter Thiel 和 Alex Karp 就 AI 在加沙的使用面临直接质问。另外,白宫在此前的供应链风险标签下仍决定向美国机构提供 Anthropic Mythos 访问权限。AI 能力发展与部署问责之间的紧张关系持续加剧。(Peter ThielWhite House Mythos access

  8. AI 辅助工作的情感代价持续引发共鸣,从 663 分攀升至 867 分。 将熟练从业者变为"自己 AI 输出的 PM"的表述捕捉了一种有别于失业焦虑的职业身份危机。反面观点——AI 释放时间用于陪伴家人和散步——存在但被空虚感和冒充者综合症的报告所淹没。(Me, after solving my work problems with Claude and feeling terribly empty