Reddit AI - 2026-04-25¶
1. 人们在讨论什么¶
1.1 DeepSeek V4 第二天:基准更清晰、架构令人印象深刻、成本故事主导 (🡕)¶
DeepSeek V4 第二天从发布兴奋转向对基准、架构和定价的批判性评估。当天最高帖是 This is where we are right now, LocalLLaMA,由 u/jacek2023 发布(得分 2,272,337 条评论),分享 HuggingFace CEO Julien Chaumond 的截图,将 Qwen3.6-27B 有利地与 Opus 对比。帖子带有图片附件。社区立刻反驳:u/ttkciar(得分 773)警告:“把人们期望抬得太高会导致反弹,首次用户跑起 Qwen3.6-27B 后发现它远不如 Sonnet,更别说 Opus。”u/sooki10(得分 111)同意:“虽然我很喜欢这个模型,它在本地编码上也很惊艳,但它离 opus 还很远,他应该避免这种对比,因为会削弱他的论点。”
u/markeus101 发布 Deepseek v4 people(得分 1,862,265 条评论),这是一张围绕“它在训练数据里吗?”问题的图片帖。u/redditscraperbot2(得分 1,230)宣称:“我觉得这个问题的保质期已经过了。现在它就在数据里。可能还很显眼。”帖子有图片附件。
u/WhyLifeIs4 的发布线程 DeepSeek V4 has released(得分 912,245 条评论)继续累积互动。u/Someone1Somewhere1(得分 167)反应:“天啊,是只有我觉得这个模型按价格看好得离谱吗?”u/FaceDeer(得分 129)指出架构:“不错,这实现了他们几个月前论文里的 manifold-constrained hyper-connections 技巧。”u/cryyingboy(得分 66)抓住节奏:“deepseek 一直在发布,而其他人还在写博客。”
u/MichaelXie4645 在 Deepseek V4 Flash and Non-Flash Out on HuggingFace(得分 773,309 条评论)中提供技术深潜,这是评论数最高的线程。V4-Pro 有 1.6T 参数(49B activated);V4-Flash 有 284B(13B activated),两者均支持 1M-token 上下文。u/toothpastespiders(得分 245)承认:“我从来没有像现在这样因为装机时没在 RAM 上过度投入而生自己的气。”u/synn89(得分 109)指出:“MIT license?不错。”帖子包含基准对比图。
u/benja0x40 在 Takeaways & discussion about the DeepSeek V4 architecture(得分 132,77 条评论)中分析架构:“V4 使用 manifold-constrained hyper-connections,重新设计 blocks 之间的信息流。据我所知,DeepSeek 是唯一解决训练稳定性问题并将其投入生产的实验室。”u/dark-light92(得分 64)强调:“图表似乎显示他们可以用大约 5GB 放下 1M 上下文。这是最大的 takeaway。”
u/jwpbe 在 Buried lede: Deepseek v4 Flash is incredibly inexpensive(得分 277,65 条评论)中强调成本故事:“14 cents in / 28 cents out 对这个尺寸和能力来说便宜得离谱……在 anthropic 为 IPO 下定决心折腾 claude 用户的时候,看到这个挺舒服。”u/Wise-Hunt7815(得分 102)补充:“DeepSeek 说 GPU 短缺,所以目前价格高。等下半年 GPU 产能增加,价格还会继续降。”
u/flavio_geo 在 DS4-Flash vs Qwen3.6(得分 293,99 条评论)中发布正面对比。图片显示 V4-Flash 在编码基准上略领先 Qwen 3.6 27B,但参数量是其 10 倍。u/6c5d1129(得分 75)总结:“所以它大了 10 倍,却只好一点。”u/madsheepPL(得分 44)提醒:“实践中这些基准并不是线性的,哪怕看起来像。30 到 50 分和 50 到 70 分不是一回事。”
u/Recoil42 在 DeepSeek confirms Huawei-based V4 inference(得分 312,25 条评论)中报道基础设施角度:“950 supernodes 在今年下半年大规模上线后,Pro 价格预计会显著降低。”
不过,u/Hemingbird 给出现实检查:DeepSeek V4 Pro 在 Arena 上表现不足(得分 85,80 条评论)。u/Alternative-Duty-532(得分 43)认为:“DeepSeek V4 在长上下文场景下表现更好,而且便宜得多。Arena 并不能真正捕捉这些优势。”u/Mindless_Pain1860 发布 DeepSeek V4 Pro 的 Intelligence Density 降低(得分 119,62 条评论)。u/Puzzleheaded-Drama-8(得分 81)提出:“在我看来 v4 pro 严重 undertrained。我预计未来几个月新 checkpoints 会带来巨大提升。”
u/CallMePyro 在 Deepseek V4 Pro 运行 Artificial Analysis bench 的成本是 V3.2 的 15 倍(得分 118,38 条评论)中量化成本担忧。u/Timkinut(得分 25)反驳:“它仍然比 Claude 和 GPT 便宜得多。考虑到它显然的表现,这其实非常令人印象深刻。”
u/Comfortable-Rock-498 在 用一些大型代码变更 eval 测试 Deepseek v4 flash(得分 149,22 条评论)中直接测试 Flash 模型:“它在多次运行中至少调用了 100 次工具,没有一次错误,甚至在一次编辑多个文件时也没有。”
u/NoFaithlessness951 发布 Deepseek V4 flash(high)以 1/5 成本媲美 Gemini 3 flash(得分 157,39 条评论)。u/Rent_South(得分 55)跑了 evals:“在我运行的某个 agentic pipeline flow 上,V4 Flash 比两个最新 Opus 模型便宜 99%(两个数量级),准确率还更好。”
讨论要点:社区分裂为两派:一派被 V4 的架构和定价打动,另一派指出 Pro 变体相对尺寸不够惊艳。Flash 正在成为共识赢家:以激进降本获得有竞争力的质量。
与前日对比:昨天是发布日,重点是初始基准表。今天社区转向直接比较(DS4 vs Qwen3.6、DS4 vs Gemini Flash)、架构分析、Arena 结果和成本效率计算。“undertrained” 理论已经出现,用来调和基准数据与架构潜力之间的矛盾。
1.2 Qwen 3.6 优化浪潮:量化、速度、部署 (🡒)¶
Qwen 3.6 进入系统优化阶段,社区开始产出量化研究、速度基准和部署指南。
u/jeremynsl 发布 Qwen3.6-35B-A3B——即使 VRAM 受限,使用比预期更大的 quants 也可能更好!(得分 261,80 条评论),发现 MoE 模型在 8GB VRAM 上可以运行比预期更大的 quants:“令我惊讶的是,这快多了!128k context window 下,我看到 32 tokens/s。”u/TheCat001(得分 36)确认:“从 Q4 跳到 Q6 后,我用 MoE 模型没有损失任何速度。”
u/imgroot9 在 Qwen3.6 27B 令人意外的 KV cache quantization 测试结果(得分 146,55 条评论)中贡献了详细 KV cache 量化研究,测量 F16、Q8、Q4、Turbo4 和 Turbo3 的 perplexity。F16 到 Q4_0 的差异只有 0.014——落在测试误差 0.045 内。u/Betadoggo_(得分 59)反驳:“PPL 和 KLD 已经不再是质量损失的好参考……Q4 kv 在两个指标上的损失都很小,但实际上会导致 AIME 巨幅下降。”
u/Kindly-Cantaloupe978 报告 Qwen3.6-27B 在单张 RTX 5090 上约 80 tps、218k context window(得分 219,95 条评论),使用 vllm 0.19 的 NVFP4 + MTP。u/Ok-Internal9317 在 Post Your Qwen3.6 27B speed plz(得分 33,178 条评论)中收集社区速度数据。亮点包括声称单张 RTX 4090 配合 speculative decoding 达到 152 t/s,以及 Radeon 780M iGPU 上达到 20 t/s。
u/itroot 演示 Qwen3.6 35B-A3B 在 780m iGPU 上相当可用(得分 71,38 条评论),在 ThinkPad T14 集显上用 Vulkan 达到 20 t/s。u/2Norn(得分 18)反应:“igpu 上 20 tk/s 有点离谱。”
u/Zestyclose839 在 观点:Qwen 3.6 27b 在功能规划上击败 Sonnet 4.6(得分 113,23 条评论)中发帖,贴出并排对比:“Qwen 彻底探索了我已经写好的代码,抓到了明显更多潜在问题……我推测 Qwen 被训练得没那么盲目自信,会花更多时间检查已有内容。”
u/ROS_SDN 探索 Qwen3.6 35b a3b 的量化影响(得分 58,63 条评论),指出 MoE 变体在 Q4 和 Q8 之间质量差异明显。u/LaurentPayot(得分 19)分享了一条量化基准链接,显示可测量质量差距。
讨论要点:共识正在形成:Qwen 3.6 27B(dense)能较好承受 KV cache 量化,而 35B-A3B(MoE)更敏感。社区正在生成系统数据,而不是只靠轶事,这说明讨论在成熟。
与前日对比:昨天重点是 Qwen 3.6 agent scaffolds 和 PI Coding Agent 集成。今天转向系统量化测试、iGPU 可用性和跨硬件速度基准。优化阶段已经全面展开。
1.3 Anthropic 承压:Postmortem、IPO 怀疑、Google 投资 (🡕)¶
Anthropic postmortem 讨论达到互动高峰,社区在处理已确认质量退化的同时,也讨论 Google $40B 投资公告。
u/spaceman_ 发布 Anthropic 承认让托管模型变笨,证明开放权重、本地模型的重要性(得分 1,128,228 条评论),链接到 Anthropic 4 月 23 日 postmortem。selftext 详细列出 3 月 4 日到 4 月 20 日之间影响 Sonnet 4.6、Opus 4.6 和 Opus 4.7 的三次退化事件。u/rm-rf-rm 作为版主,将帖子标记为“Misleading”,同时承认情绪:“这是营利公司结构性现实……用户拥有选择权,以及最重要的,拥有自己的 AI,非常关键。”u/Automatic-Arm8153(得分 442)宣称:“给那些一直怀疑、说我们蠢的人看。源头直接承认了。”u/dwrz(得分 124)要求:“如果托管模型被量化或以某种方式降能力,我就应该得到折扣……我很感激现在能用 llama.cpp 和 Qwen 3.6 27B 做到的事情。”u/cutebluedragongirl(得分 76)写道:“本地就是自由。”
u/Distinct-Question-16 翻出 正好 1 年前,Anthropic 说 fully AI employees 只差 1 年(得分 1,078,237 条评论)。u/GrapefruitMammoth626(得分 193)给出克制看法:“我觉得今天技术上也许能做到。也许它 90% 时间产出很棒,另外 10% 出大错。”u/stellar_opossum(得分 72)更直白:“很有趣,评论里有人试图假装这不是明显跑偏。不,伙计们,就是跑偏,这是那些失败预测之一。”u/bonerb0ys(得分 30)总结:“把 AI 投资营销成‘强大到会毁灭世界的技术’,是为了真正目标筹钱的必要手段,而真正目标……不清楚。”
u/narutomax 问 Google 向 Anthropic 投资 $40B。Amazon 几天前投了 $5B。这正常吗?(得分 267,61 条评论)。u/radium_eye(得分 136)看到了更大图景:“这是一群现金充裕的公司把钱绕圈转,盼着出现能证明支出合理的突破……他们基本把自己捆进了一个 investment rat king,指望也许能大到不能倒。”u/VitruvianVan(得分 59)指出循环性:“那你觉得他们会拿 Google 的 $40B 做什么?买 Google 服务和最新一代 TPU。”
u/Ordinary-Cycle7809 讨论 Google 向 Claude 投资 $40,000,000,000 真的有点好笑(得分 115,109 条评论)。u/crystalpeaks25(得分 94)提供背景:“你知道 anthropic 是 Google 自家 Google vertex ai 里使用最多的模型吧。当 Google 说某一部分收入来自 AI,他们指的是多数企业用户在 vertex AI 里用 anthropic models。”
讨论要点:社区把 Google 投资解读为 hedge,而不是背书。结合 postmortem 和“AI employees”失败预测,Anthropic 被认为经济上很强,但叙事上变弱。
与前日对比:昨天讨论 Mythos 泄露和已确认退化。今天 postmortem 讨论成熟(得分从 280 跳到 1,128),“AI employees”预测周年提供历史背景,$40B Google 投资引入新的经济维度。安全叙事与运营执行之间的可信度缺口继续扩大。
1.4 GPT-5.5 第二天评估:感觉强,基准混合 (🡒)¶
GPT-5.5 评估继续,包括 SimpleBench 分数、创意能力演示和用户的定性辩护。
u/SuggestionMission516 发布 确凿证据显示我们确实正加速走向 singularity(得分 1,652,143 条评论)——一张讽刺图,随时间绘制“GPT 数量”。u/Evening-Guarantee-84(得分 397)承认:“我差点没看到 shitposting 标签。”帖子有图片附件。幽默说明社区正在用梗消化基准疲劳。
u/MohMayaTyagi 在 Big model feel with GPT 5.5(得分 217,68 条评论)中为模型辩护:“这个模型 FEELS different。它更直觉化,更能覆盖普通人自然会提出的点和论据。”u/Rain_On(得分 49)强调经济性:“低成本也很重要。汽车在生产线让它们变便宜前没有改变世界。”u/FateOfMuffins(得分 45)概括:“它似乎是极少 RL 的 Opus class base,而其他 GPT models 像是极端 RL 的 Sonnet class。”
u/Outside-Iron-8242 分享 GPT-5.5 的 SimpleBench 分数出炉(得分 166,77 条评论)。u/Rent_South(得分 6)报告自定义 eval 结果混合:“gpt 5.4 连续 5 次得分最高,而 gpt 5.5 很差。所以真的取决于用例。”u/RickleJaymes69(得分 30)表达更广泛挫败:“Gemini 3.1 分数总是很高,但对我来说完全比不上 opus。”
u/Akashictruth 演示 GPT 5.5 Xhigh VoxelBench test. Minecraft builders got automated(得分 134,23 条评论),生成包括 Spider-Man 和 NYC skylines 在内的 voxel builds,后来缓和标题:“标题夸大了,抱歉。它在自动化可用的小规模 assets。”
u/artemisgarden 绘制 OpenAI scores on artificial analysis over time(得分 188,35 条评论)。u/M4rshmall0wMan(得分 46)反思:“GPT-4o -> o1 -> o3 真的是疯狂跃迁。”图片日期不准,引来 u/RuthlessCriticismAll(得分 10)纠正。
讨论要点:社区正把 GPT-5.5 稳定定义为强通用模型,但没有推进编码前沿。“vibes”式辩护——它感觉更直觉——正在争取部分人,但无法让基准批评者闭嘴。
与前日对比:昨天带来完整基准表和编码差距叙事。今天加入 SimpleBench 数据、创意用例(VoxelBench)和“big model feel”定性评估。共识正在稳定。
1.5 AI、社会与地缘政治:Palantir、工作、民主、研究员死亡 (🡒)¶
一组广泛社会议题占据中等互动。
u/Commercial_Sell_4825 发布 Nature 发表的中国半导体研究员在密歇根大学坠亡(得分 1,070,145 条评论),记录 Danhao Wang 在接受美国执法部门问询后死亡。u/BallerDay(得分 400)问:“最近不是有一堆科学家/研究员死亡吗?”帖子指出 Wang 共同领导的一篇 Nature Electronics 论文在他去世次日发表,描述一种面向 brain-inspired vision systems 的 “smart photodiode”。帖子有图片附件。
u/shikizen 报道 Palantir 员工正在谈论公司的“descend into fascism”(得分 675,98 条评论),引用 Ars Technica 关于内部 Slack 消息和一份建议美国考虑恢复征兵的 manifesto 的文章。u/5553331117(得分 209)并不意外:“很确定他们一直就是铁杆法西斯。那是他们的商业模式。”u/ICantBelieveItsNotEC(得分 46)打趣:“这家以邪恶巫师用来和邪恶化身对话的设备命名的 AI 监控和军火公司,结果居然是坏的!?”
u/simmol 问 大家是不是突然忘了多少白领工作以前被称为 bullshit?(得分 553,119 条评论),认为 AI 替代“bullshit jobs”不应被哀悼。
u/ObjectivePresent4162 在 AI swarms could hijack democracy without anyone noticing(得分 251,60 条评论)中链接到一篇 Science 论文。u/claytonkb(得分 67)回应:“终于有人在谈 AI 的真正风险了……”u/Candid_Koala_3602(得分 10)指出:“你假设这还没发生。”
u/kaggleqrdl 在 AI 与其说让公司更高效,不如说把本可作为工资的钱花掉(得分 93,67 条评论)中认为 AI CAPEX 挤压工资预算。u/SirBoboGargle(得分 14)警告:“Tokens 会成为企业 crack。一旦沾上 tokens,就下不来了。”u/Bharath720 报道 Microsoft 向高级员工提供自愿买断,涉及美国员工 7%(得分 84,30 条评论)。u/chunmunsingh 分享 中国工人惊恐发现老板要求他们训练 AI 替代品(得分 143,17 条评论)。
u/talkingatoms 发布 白宫指责中国工业规模窃取 AI 技术(得分 41,80 条评论)。u/Direct-Ad-7922(得分 45)回应:“讽刺得难以置信,‘只有我们能抢自己人民的隐私和自由!’”u/haloweenek(得分 21)补充:“是啊。但抓取一切丢进训练里就是‘fair use’ xD。”
u/SnoozeDoggyDog 发布 仅 11 个美国数据中心“园区”的燃气发电项目,排放可能超过整个国家(得分 68,23 条评论)。
讨论要点:社会影响讨论显著扩大。研究员死亡、Palantir 内部异议、Microsoft buyouts、中国工人训练替代品、AI 民主威胁,都各自获得可观互动,说明这些担忧正在 AI 社区内部从小众走向主流。
与前日对比:昨天讨论 Google 75% AI 代码、Anthropic 失败预测和经济替代。今天加入 Palantir 法西斯故事、半导体研究员死亡、Microsoft buyouts、中国工人替代、AI swarms 和数据中心排放——社会讨论范围大幅扩大。
1.6 本地构建与 Agent 安全 (🡒)¶
本地推理社区展示硬件构建,同时对 agent 安全缺口的认识在增强。
u/mantafloppy 提醒 Pi.dev coding agent 默认没有沙箱(得分 55,56 条评论),因为该 agent 未经许可运行 rm -f。u/StardockEngineer(得分 50)指出:“它默认就是 yolo 设计。作者多次说过。”u/GalladeGuyGBA(得分 11)指出扩展阻止 rm -rf,但不阻止 rm -fr 或 unlink。
u/Uncle___Marty 分享 我的 coding agent 自杀了 lol(得分 130,16 条评论):“它在 memory 里找一个锁文件的 zombie process,然后决定 kill 自己,关掉了 llama-server。”帖子有图片附件。
u/val_in_tech 在 4x RTX 6000 Pros 上运行 GLM 5.1 Locally: 40tps, 2000+ pp/s(得分 53,42 条评论)。u/SnooPaintings8639(得分 49)打趣:“‘Locally’,也就是‘在我自己的数据中心’,lol。”u/WyattTheSkid 分享 新机器照片!(得分 67,34 条评论),配置为 2x 3090 TI FE 和 2x 3090。
与前日对比:昨天 agent security 不是独立主题。今天随着 Pi sandbox 讨论和自杀 agent 轶事出现,它浮现出来,说明本地 agent 采用增长后,社区正在面对实际安全缺口。
1.7 机器人:Bolt 接近人类短跑速度 (🡒)¶
u/GraceToSentience 发布 Bolt by MirrorMe | 声称室内 11m/s、室外 10.09 m/s(得分 181,51 条评论)。该机器人身高 177 cm、体重 75 kg,接近 Usain Bolt 的 12.42 m/s 纪录。u/MakitaNakamoto(得分 62)反应:“想象这玩意追着你跑。”u/djosephwalsh(得分 15)指出:“让我好奇他们把踝关节动作做好后能跑多快。”
与前日对比:昨天讨论 Unitree 带轮 G1、Tesla Optimus 和 Figure AI。今天只有一个高质量数据点:一个双足机器人接近人类短跑速度。
2. 令人困扰的问题¶
Anthropic 静默降低模型质量 47 天¶
严重程度:High
3 月 4 日到 4 月 20 日之间,三次独立变更在未通知用户情况下降低 Claude Code 质量,由 Anthropic 自己的 postmortem 确认。u/spaceman_ 在 r/LocalLLaMA 线程(得分 1,128)中强调:“每一次他们都做了有意识选择,以牺牲质量为代价降低服务器负载,完全脱离最终用户控制,而且没有告知付费客户。”u/dwrz(得分 124)要求:“如果托管模型被量化或以某种方式降低能力,我就应该得到折扣。”u/Important-Radish-722(得分 92)指出倒错激励:“如果模型没有那么努力思考、输出质量更低,用户就必须继续多问问题,而这会用掉更多 tokens。”
DeepSeek V4 Pro 成本和 Intelligence Density 担忧¶
严重程度:Medium
V4-Pro 运行基准的每 token 成本是 V3.2 的 15 倍,并且在 Arena 上表现不足。u/CallMePyro 标记了成本上升(得分 118)。u/Valuable-Village1669(得分 11)指出:“GPT 5.5 Medium 以同样成本在 intelligence 上高它 5 分。”u/Puzzleheaded-Drama-8(得分 81)认为模型“hugely undertrained”。
DeepSeek V4 缺少多模态¶
严重程度:Medium
两个 V4 变体都是纯文本。u/Right-Law1817 在 No Multimodality yet in DeepSeek-V4(得分 122,28 条评论)中记录了这一点,并指出技术报告确认正在开发。u/Turnip-itup 指出这相对 Gemini Flash 是劣势,后者是多模态。
夸大的模型主张招致反弹¶
严重程度:Medium
u/ttkciar(得分 773)在最高帖中警告 HuggingFace CEO 夸大 Qwen 3.6 27B 能力:“那些失望的首次用户不会怪 Chaumond;他们会怪我们所有人。”u/Akashictruth 自行修正了 VoxelBench 标题。夸大后再修正的模式出现在多条线程中。
Pi Coding Agent 默认缺少 Sandboxing¶
严重程度:Medium
u/mantafloppy 发现 Pi.dev 无 sandbox 运行(得分 55),未经确认执行文件删除。提供的 safety extension 阻止 rm -rf,但不阻止等价命令(rm -fr、unlink)。u/INT_21h(得分 22)分享了基于 bubblewrap 的 Linux 权宜方案。
AI 替代工作但不创造新工作¶
严重程度:Medium
u/kaggleqrdl 认为 AI CAPEX 挤出薪资预算(得分 93)。Microsoft voluntary buyouts 影响 7% 美国员工,以及中国工人被要求训练替代品,为这种挫败增加了具体证据。
3. 人们期望的功能¶
支持多模态的 DeepSeek V4¶
多条线程指出 V4 是纯文本限制。技术报告确认多模态能力正在开发,但运行本地 vision 工作流的用户目前没有 V4 选项。u/Right-Law1817 在专门线程中表示愿意等待。在此之前,Qwen 3.6 或云模型仍是仅有本地 vision 选项。
集中式本地模型最佳设置数据库¶
u/leonbollerup 在 KV cache 线程中问:“有没有哪个页面收集模型最佳设置,还是我们应该自己建一个?”量化选项(Q4、Q6、Q8、Turbo3/4、NVFP4、MXFP4)在不同硬件上激增,造成碎片化知识库。
透明托管模型版本管理¶
Anthropic postmortem 揭示了 47 天内 3 次静默变更。u/dwrz 提议按 quant 定价。社区想要托管模型配置变化的显式 changelog,而不只是权重发布。
默认正确 Sandbox 的本地 Agent¶
Pi coding agent sandbox 讨论显示,最流行的轻量 scaffold 默认无 sandbox。用户想要安全默认值和可选 override,而不是反过来。
面向新架构的 Speculative Decoding Draft Models¶
u/butterfly_labs 问 是否已有兼容 Qwen3.6 27B 的 DFlash draft model?(得分 29,18 条评论)。speculative decoding 的速度收益已被证明,但兼容 draft models 总是落后于新架构发布。
4. 使用中的工具与方法¶
| 工具 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| DeepSeek V4-Pro | Open LLM(1.6T MoE) | Positive | MIT license;1M 上下文;领先 SimpleQA、Apex、Codeforces;hybrid CSA+HCA 架构 | 相比 V3.2 成本 15x;Arena 表现不足;无多模态;本地过大 |
| DeepSeek V4-Flash | Open LLM(284B MoE) | Very positive | 每 1M input/output $0.14/$0.28;1M 上下文;工具调用出色 | 无多模态;比 Qwen 3.6 27B 大 10x 只换来小幅领先 |
| Qwen 3.6 27B | Local LLM(dense) | Very positive | 适配单张 3090;RTX 5090 上 80 tps;容忍 Q4 KV cache;规划任务击败 Sonnet 4.6 | 夸张宣传招致反弹;KV Q4 可能影响 AIME |
| Qwen 3.6 35B-A3B | Local LLM(MoE) | Positive | 快于 27B dense;iGPU 上 20 t/s | 比 27B dense 更量化敏感;3-bit KV 下 router 退化 |
| GPT-5.5 | Cloud LLM | Mixed-positive | “Big model feel”;Opus-class base;相对 Opus 成本有效;VoxelBench 创意能力 | SimpleBench 在部分任务上相对 5.4 回退;编码前沿差距持续 |
| llama.cpp | 推理引擎 | Very positive | Turboquant;NVFP4/MXFP4 支持;speculative decoding;硬件广 | 需要手动配置调优 |
| vllm 0.19 | Serving engine | Positive | NVFP4+MTP 支持;5090 上 Qwen 3.6 达到 80 tps | 最好结果需要新硬件 |
| Claude Code | Coding agent | Negative | 功能丰富的智能体式工作流 | 三次确认退化事件;信任破裂 |
| Pi Coding Agent | Agent scaffold | Positive | 轻量;可扩展;支持本地模型 | 默认无 sandbox;safety extensions 不完整 |
| OpenCode | Agent scaffold | Positive | Claude Code 的本地模型替代 | 社区较小 |
| GLM 5.1 | Open LLM | Positive | 4x RTX 6000 Pro 本地 40 tps;Sonnet-like 体验 | 需要昂贵硬件;需要 sglang patching |
| MiMo V2.5 Pro | Open LLM(Xiaomi) | Positive | AA Intelligence Index 得分 54;写作质量强 | 社区测试有限;可用性不清楚 |
5. 人们在构建什么¶
| 项目 | Builder | What it does | Problem it solves | Stack | Stage | Links |
|---|---|---|---|---|---|---|
| KV Cache Quantization Study | u/imgroot9 | 对 Qwen 3.6 27B 的 F16/Q8/Q4/Turbo3/4 做系统 PPL/AIME 测试 | 确定单张 3090 上 200K 上下文的安全量化级别 | llama.cpp、turboquant | 已发布 | r/LocalLLaMA post |
| Qwen 3.6 27B 80tps Stack | u/Kindly-Cantaloupe978 | NVFP4+MTP serving,80 tps,218K 上下文 | RTX 5090 上高吞吐本地推理 | vllm 0.19、NVFP4 | 活跃 | r/LocalLLaMA post |
| Shield 82M | u/LH-Tech_AI | 82M 参数 PII stripping/filtering 模型 | 隐私保护推理 pipeline | Small model | 已发布 | r/LocalLLaMA post |
| CUDA MMQ Stream-K PR | u/jacek2023 | 降低 llama.cpp 中 MMQ stream-k 开销 | 量化模型 GPU 推理更快 | CUDA、llama.cpp | 已合并 | GitHub PR #22298 |
| FP4 Inference in llama.cpp | Multiple | NVFP4 和 MXFP4 推理支持 | 支持 4-bit floating point 推理 | llama.cpp、ik_llama.cpp | 已发布 | r/LocalLLaMA post |
| DESIGN.md | Google Labs | 开源 AI agents 设计规范 | 避免 agents 猜测品牌色/设计决策 | Markdown spec | 已发布 | r/PromptEngineering post |
| Real-time EEG Meditation System | u/uisato | 基于实时脑信号的 AI guided meditation | 根据 EEG 数据个性化冥想提示 | OpenBCI、TouchDesigner、Python | Demo | r/singularity post |
| Rose Optimizer | u/ECF630 | 面向低 VRAM 训练的新 optimizer | 降低模型训练 VRAM 要求 | PyTorch、Apache 2.0 | 已发布 | r/MachineLearning post |
| DharmaOCR | u/augusto_camargo3 | 专用 3B OCR 模型与成本性能基准 | 显示更便宜/更小模型可在 OCR 上胜出 | Open framework + dataset | 已发布 | r/MachineLearning post |
| Blood Detection Model | u/PeterHash | 首个公开 blood detection model,含 dataset、weights 和 CLI | 开源 forensic/medical vision 任务 | Open weights | 已发布 | r/MachineLearning post |
| 4x 3090 Workstation | u/WyattTheSkid | 2x 3090 TI FE + 2x 3090 的多 GPU 本地推理机器 | 可负担多 GPU 本地推理 | Phanteks Enthoo Pro 2、consumer GPUs | 已构建 | r/LocalLLaMA post |
6. 新动态与亮点¶
Xiaomi MiMo V2.5 Pro 在 Artificial Analysis Intelligence Index 上得分 54¶
u/Nunki08 报告 “Weights are coming”(得分 267,44 条评论)。u/LoveMind_AI(得分 64)称赞:“我真心觉得没有比这更酷的 LLM。至少就语言和写作能力而言,MiMo-V2.5-Pro 是顶级的,而且不只是‘中国模型里的顶级’。”u/lendo93(得分 5)补充:“在编码推理、agentic work 和决策上,它平均高于 Opus 4.6。”
FP4 Inference 进入 llama.cpp¶
u/Usual-Carrot6352 报告 llama.cpp(NVFP4)和 ik_llama.cpp(MXFP4)中的 FP4 inference 已落地(得分 20,31 条评论)。这支持原生 4-bit floating point 推理,在相同比特宽度下,相比 integer quantization 可降低内存需求并保持更好质量特征。
Cohere MoE 模型通过 vLLM PR 显露¶
u/LinkSea8324 发现 vLLM PR 中出现 Cohere 新 MoE 模型(得分 69,10 条评论),链接到 GitHub PR #40817。
深度学习科学理论:14 位作者的 Perspective Paper¶
u/dot--- 发布 There Will Be a Scientific Theory of Deep Learning(得分 180,31 条评论),链接到 arxiv.org/abs/2604.21691。论文整合五条证据线——可解 toy settings、洞察性极限、简单经验规律、超参数理论和普遍现象——主张深度学习科学理论正在出现。
Ubuntu 26.04 改善 AMD XDNA2 NPU 支持¶
u/jfowers_amd(AMD 员工)分享 PSA:Ubuntu 26.04 让 AMD XDNA2 NPU 更容易上手(得分 34,1 条评论)。主流 Linux 发行版原生 NPU 支持降低了端侧推理门槛。
Kimi K2.6:“赢得比赛的强大乌龟”¶
u/cjami 发布 Kimi K2.6(得分 46,12 条评论),包含基准数据。帖子有图片附件。Moonshot AI 的模型正在与 V4 和 Qwen 3.6 一起被积极 benchmark。
Nous Research AMA 宣布¶
u/XMasterrrr 宣布 Nous Research 在 r/LocalLLaMA 举办 AMA(得分 78,9 条评论),时间为 4 月 29 日星期三,主题包括开源 Hermes Agent 工作。帖子有图片附件。
r/LocalLLaMA 更新规则以缓解 Bot¶
u/rm-rf-rm 发布 r/LocalLLaMa Rule Updates(得分 313,101 条评论),引入最低 karma 要求来打击 bot 和 astroturfing。该 subreddit 现在每周访客超过 100 万。u/StewedAngelSkins(得分 19)称赞:“能有一个讨论 LLM、没有完全被 vibe slop 和 AI psychosis 淹没的地方,真的很舒服。”
7. 机会在哪里¶
[+++] DeepSeek V4 Flash 是 API 用户的新成本效率之王。每 1M input/output tokens 仅 $0.14/$0.28,带 1M 上下文和出色工具调用(测试中 100+ 调用零错误),比同级所有模型便宜 2-5 倍。u/Rent_South 测得在智能体式流水线上比 Opus 便宜 99%,准确率相近。围绕这一成本结构构建智能体式工作流——尤其是长上下文和多工具调用模式——是当前杠杆最高的机会。(DS V4 pricing thread, cost comparison, tool use test)
[+++] 面向编程智能体的本地推理已经跨过消费级硬件可用阈值。Qwen 3.6 27B 在单张 RTX 5090 上达到 80 tps、218K 上下文,或在 Radeon 780M iGPU 上 20 t/s,使本地优先编程工作流可行。更低成本量化(dense 模型 Q4 KV cache)、speculative decoding(RTX 4090 声称 152 t/s)和 NVFP4 支持叠加,正在迅速降低硬件门槛。能为给定硬件 profile 自动配置最佳量化和 serving 设置的工具,填补了社区明确提出的缺口。(80 tps stack, iGPU results, speed thread)
[++] 托管模型质量监控现在是被证明的需求。Anthropic postmortem 确认 47 天未被检测到的退化。能持续 benchmark 托管模型质量、检测回退并触发告警或 fallback 的工具,正好解决大 AI 提供商刚证明真实存在的缺口。基于模型质量的企业 SLA 目前没有自动检测这些变化的方法。(Anthropic postmortem, community discussion)
[++] 智能体沙箱化与安全工具建设不足。Pi coding agent 默认无沙箱、其 safety extension 存在 rm -rf vs rm -fr 绕过,以及昨天通过 PR comments 实现 85% prompt injection 成功率,都指向同一个缺口:本地 agent 采用正在跑在安全基础设施前面。轻量、默认开启的编程智能体沙箱化是必要的。(Pi 沙箱讨论)
[+] 中国开放权重模型生态产出前沿级模型的速度,已经快过社区 benchmark 它们的速度。DeepSeek V4、Qwen 3.6、MiMo V2.5 Pro、Kimi K2.6 和 GLM 5.1 都在积极竞争。系统化跨模型评估工具——覆盖标准基准之外的多样任务——能服务从业者在这些选项之间选择的增长需求。(MiMo thread, DS4 vs Qwen3.6)
[+] Anthropic 的职业暴露数据表明,各行业理论 AI 能力与实际 AI coverage 之间存在 60-80 个百分点差距。u/Professional-Rest138 将五类障碍(得分 75)拆解为:法律限制、集成摩擦、验证开销、工作流惯性和质量阈值。第 2、3 类正在最快消退。专门解决集成摩擦和验证开销的工具,与下一阶段采用加速方向一致。
8. 要点总结¶
-
DeepSeek V4 Flash 是当天的成本故事。 每 1M tokens $0.14/$0.28,带 1M 上下文,在某个用户的智能体式流水线上以相近准确率比 Opus 便宜 99%,并比能力层级内其他模型便宜 2-5 倍。Pro 变体在 Arena 表现不足,成本是 V3.2 的 15 倍,但社区将其归因于“hugely undertrained”,预期后续 checkpoints 会更好。(Flash pricing thread, cost comparison, Pro cost thread)
-
Anthropic postmortem 验证了社区怀疑,并在 r/LocalLLaMA 得到 1,128 分。 47 天内 3 次影响 Claude Code 的静默退化已确认。框架已经明确:u/spaceman_ 认为这“证明如果你依赖 AI 模型来提供服务或完成工作,唯一理智选择就是开放权重模型”。Google $40B 投资被解读为 hedge,而不是背书。(Postmortem thread, Google investment)
-
Qwen 3.6 优化数据正在快速成熟。 系统 KV cache 量化测试显示,按 PPL 看 Q4 与未压缩 cache “数学上不可区分”,但 AIME 分数给出不同故事。27B dense 模型很好地承受量化;35B-A3B MoE 更敏感。速度基准覆盖 iGPU 20 t/s 到 RTX 5090 80 tps。社区正在产出发布日缺失的经验数据。(KV cache study, MoE quant sensitivity, 80 tps stack)
-
GPT-5.5 正稳定为“Opus-class base,不是编码前沿”。 对其“big model feel”的定性称赞与相对 GPT-5.4 的某些 SimpleBench 回退并存。讽刺 “Number of GPT” 图表(得分 1,652)说明社区正在用幽默处理 hype fatigue。成本效率叙事仍是 GPT-5.5 最强论点。(Big model feel, SimpleBench)
-
社会影响讨论显著扩大。 中国半导体研究员死亡(得分 1,070)、Palantir “descend into fascism”(得分 675)、AI swarm 民主威胁(得分 251)、Microsoft buyouts(得分 84)、中国工人训练 AI 替代品(得分 143)和数据中心排放(得分 68)都各自获得显著互动。这种广度说明 AI 社会担忧在这些社区内正从小众走向主流。(Researcher death, Palantir, AI swarms)
-
中国开放权重模型流水线正在加速。 DeepSeek V4(MIT)、Qwen 3.6(Apache 2.0)、MiMo V2.5 Pro(AA Index 得分 54,“不只是‘中国模型里的顶级’”)、Kimi K2.6 和 GLM 5.1 都在积极竞争。白宫“industrial-scale theft” 指控遭到怀疑:“是啊。但抓取一切丢进训练里就是‘fair use’。”开放权重重心仍坚定在中国。(MiMo, White House accusation)
-
本地 agent 安全缺口正在显现。 Pi coding agent 默认无沙箱、safety extensions 不完整,再加上昨天通过 PR comments 实现 85% prompt injection 成功率,说明本地 agent 采用正在跑在安全基础设施前面。社区开始分享权宜方案(bubblewrap 沙箱化、Docker containers),但还没有标准方案。(Pi 沙箱)
-
FP4 inference 进入 llama.cpp,标志新的效率前沿。 NVFP4 和 MXFP4 支持让 4-bit floating point inference 具备比同 bit width integer quantization 更好的质量特征。结合 speculative decoding 和 vllm 0.19 的 NVFP4+MTP 支持,本地与云推理质量差距正在每个维度上缩小。(FP4 thread, vllm stack)