跳转至

Reddit AI - 2026-04-25

1. 人们在讨论什么

1.1 DeepSeek V4 第二天:基准更清晰、架构令人印象深刻、成本故事主导 (🡕)

DeepSeek V4 第二天从发布兴奋转向对基准、架构和定价的批判性评估。当天最高帖是 This is where we are right now, LocalLLaMA,由 u/jacek2023 发布(得分 2,272,337 条评论),分享 HuggingFace CEO Julien Chaumond 的截图,将 Qwen3.6-27B 有利地与 Opus 对比。帖子带有图片附件。社区立刻反驳:u/ttkciar(得分 773)警告:“把人们期望抬得太高会导致反弹,首次用户跑起 Qwen3.6-27B 后发现它远不如 Sonnet,更别说 Opus。”u/sooki10(得分 111)同意:“虽然我很喜欢这个模型,它在本地编码上也很惊艳,但它离 opus 还很远,他应该避免这种对比,因为会削弱他的论点。”

u/markeus101 发布 Deepseek v4 people(得分 1,862,265 条评论),这是一张围绕“它在训练数据里吗?”问题的图片帖。u/redditscraperbot2(得分 1,230)宣称:“我觉得这个问题的保质期已经过了。现在它就在数据里。可能还很显眼。”帖子有图片附件。

u/WhyLifeIs4 的发布线程 DeepSeek V4 has released(得分 912,245 条评论)继续累积互动。u/Someone1Somewhere1(得分 167)反应:“天啊,是只有我觉得这个模型按价格看好得离谱吗?”u/FaceDeer(得分 129)指出架构:“不错,这实现了他们几个月前论文里的 manifold-constrained hyper-connections 技巧。”u/cryyingboy(得分 66)抓住节奏:“deepseek 一直在发布,而其他人还在写博客。”

u/MichaelXie4645Deepseek V4 Flash and Non-Flash Out on HuggingFace(得分 773,309 条评论)中提供技术深潜,这是评论数最高的线程。V4-Pro 有 1.6T 参数(49B activated);V4-Flash 有 284B(13B activated),两者均支持 1M-token 上下文。u/toothpastespiders(得分 245)承认:“我从来没有像现在这样因为装机时没在 RAM 上过度投入而生自己的气。”u/synn89(得分 109)指出:“MIT license?不错。”帖子包含基准对比图。

u/benja0x40Takeaways & discussion about the DeepSeek V4 architecture(得分 132,77 条评论)中分析架构:“V4 使用 manifold-constrained hyper-connections,重新设计 blocks 之间的信息流。据我所知,DeepSeek 是唯一解决训练稳定性问题并将其投入生产的实验室。”u/dark-light92(得分 64)强调:“图表似乎显示他们可以用大约 5GB 放下 1M 上下文。这是最大的 takeaway。”

u/jwpbeBuried lede: Deepseek v4 Flash is incredibly inexpensive(得分 277,65 条评论)中强调成本故事:“14 cents in / 28 cents out 对这个尺寸和能力来说便宜得离谱……在 anthropic 为 IPO 下定决心折腾 claude 用户的时候,看到这个挺舒服。”u/Wise-Hunt7815(得分 102)补充:“DeepSeek 说 GPU 短缺,所以目前价格高。等下半年 GPU 产能增加,价格还会继续降。”

u/flavio_geoDS4-Flash vs Qwen3.6(得分 293,99 条评论)中发布正面对比。图片显示 V4-Flash 在编码基准上略领先 Qwen 3.6 27B,但参数量是其 10 倍。u/6c5d1129(得分 75)总结:“所以它大了 10 倍,却只好一点。”u/madsheepPL(得分 44)提醒:“实践中这些基准并不是线性的,哪怕看起来像。30 到 50 分和 50 到 70 分不是一回事。”

u/Recoil42DeepSeek confirms Huawei-based V4 inference(得分 312,25 条评论)中报道基础设施角度:“950 supernodes 在今年下半年大规模上线后,Pro 价格预计会显著降低。”

不过,u/Hemingbird 给出现实检查:DeepSeek V4 Pro 在 Arena 上表现不足(得分 85,80 条评论)。u/Alternative-Duty-532(得分 43)认为:“DeepSeek V4 在长上下文场景下表现更好,而且便宜得多。Arena 并不能真正捕捉这些优势。”u/Mindless_Pain1860 发布 DeepSeek V4 Pro 的 Intelligence Density 降低(得分 119,62 条评论)。u/Puzzleheaded-Drama-8(得分 81)提出:“在我看来 v4 pro 严重 undertrained。我预计未来几个月新 checkpoints 会带来巨大提升。”

u/CallMePyroDeepseek V4 Pro 运行 Artificial Analysis bench 的成本是 V3.2 的 15 倍(得分 118,38 条评论)中量化成本担忧。u/Timkinut(得分 25)反驳:“它仍然比 Claude 和 GPT 便宜得多。考虑到它显然的表现,这其实非常令人印象深刻。”

u/Comfortable-Rock-498用一些大型代码变更 eval 测试 Deepseek v4 flash(得分 149,22 条评论)中直接测试 Flash 模型:“它在多次运行中至少调用了 100 次工具,没有一次错误,甚至在一次编辑多个文件时也没有。”

u/NoFaithlessness951 发布 Deepseek V4 flash(high)以 1/5 成本媲美 Gemini 3 flash(得分 157,39 条评论)。u/Rent_South(得分 55)跑了 evals:“在我运行的某个 agentic pipeline flow 上,V4 Flash 比两个最新 Opus 模型便宜 99%(两个数量级),准确率还更好。”

讨论要点:社区分裂为两派:一派被 V4 的架构和定价打动,另一派指出 Pro 变体相对尺寸不够惊艳。Flash 正在成为共识赢家:以激进降本获得有竞争力的质量。

与前日对比:昨天是发布日,重点是初始基准表。今天社区转向直接比较(DS4 vs Qwen3.6、DS4 vs Gemini Flash)、架构分析、Arena 结果和成本效率计算。“undertrained” 理论已经出现,用来调和基准数据与架构潜力之间的矛盾。

1.2 Qwen 3.6 优化浪潮:量化、速度、部署 (🡒)

Qwen 3.6 进入系统优化阶段,社区开始产出量化研究、速度基准和部署指南。

u/jeremynsl 发布 Qwen3.6-35B-A3B——即使 VRAM 受限,使用比预期更大的 quants 也可能更好!(得分 261,80 条评论),发现 MoE 模型在 8GB VRAM 上可以运行比预期更大的 quants:“令我惊讶的是,这快多了!128k context window 下,我看到 32 tokens/s。”u/TheCat001(得分 36)确认:“从 Q4 跳到 Q6 后,我用 MoE 模型没有损失任何速度。”

u/imgroot9Qwen3.6 27B 令人意外的 KV cache quantization 测试结果(得分 146,55 条评论)中贡献了详细 KV cache 量化研究,测量 F16、Q8、Q4、Turbo4 和 Turbo3 的 perplexity。F16 到 Q4_0 的差异只有 0.014——落在测试误差 0.045 内。u/Betadoggo_(得分 59)反驳:“PPL 和 KLD 已经不再是质量损失的好参考……Q4 kv 在两个指标上的损失都很小,但实际上会导致 AIME 巨幅下降。”

u/Kindly-Cantaloupe978 报告 Qwen3.6-27B 在单张 RTX 5090 上约 80 tps、218k context window(得分 219,95 条评论),使用 vllm 0.19 的 NVFP4 + MTP。u/Ok-Internal9317Post Your Qwen3.6 27B speed plz(得分 33,178 条评论)中收集社区速度数据。亮点包括声称单张 RTX 4090 配合 speculative decoding 达到 152 t/s,以及 Radeon 780M iGPU 上达到 20 t/s。

u/itroot 演示 Qwen3.6 35B-A3B 在 780m iGPU 上相当可用(得分 71,38 条评论),在 ThinkPad T14 集显上用 Vulkan 达到 20 t/s。u/2Norn(得分 18)反应:“igpu 上 20 tk/s 有点离谱。”

u/Zestyclose839观点:Qwen 3.6 27b 在功能规划上击败 Sonnet 4.6(得分 113,23 条评论)中发帖,贴出并排对比:“Qwen 彻底探索了我已经写好的代码,抓到了明显更多潜在问题……我推测 Qwen 被训练得没那么盲目自信,会花更多时间检查已有内容。”

u/ROS_SDN 探索 Qwen3.6 35b a3b 的量化影响(得分 58,63 条评论),指出 MoE 变体在 Q4 和 Q8 之间质量差异明显。u/LaurentPayot(得分 19)分享了一条量化基准链接,显示可测量质量差距。

讨论要点:共识正在形成:Qwen 3.6 27B(dense)能较好承受 KV cache 量化,而 35B-A3B(MoE)更敏感。社区正在生成系统数据,而不是只靠轶事,这说明讨论在成熟。

与前日对比:昨天重点是 Qwen 3.6 agent scaffolds 和 PI Coding Agent 集成。今天转向系统量化测试、iGPU 可用性和跨硬件速度基准。优化阶段已经全面展开。

1.3 Anthropic 承压:Postmortem、IPO 怀疑、Google 投资 (🡕)

Anthropic postmortem 讨论达到互动高峰,社区在处理已确认质量退化的同时,也讨论 Google $40B 投资公告。

u/spaceman_ 发布 Anthropic 承认让托管模型变笨,证明开放权重、本地模型的重要性(得分 1,128,228 条评论),链接到 Anthropic 4 月 23 日 postmortem。selftext 详细列出 3 月 4 日到 4 月 20 日之间影响 Sonnet 4.6、Opus 4.6 和 Opus 4.7 的三次退化事件。u/rm-rf-rm 作为版主,将帖子标记为“Misleading”,同时承认情绪:“这是营利公司结构性现实……用户拥有选择权,以及最重要的,拥有自己的 AI,非常关键。”u/Automatic-Arm8153(得分 442)宣称:“给那些一直怀疑、说我们蠢的人看。源头直接承认了。”u/dwrz(得分 124)要求:“如果托管模型被量化或以某种方式降能力,我就应该得到折扣……我很感激现在能用 llama.cpp 和 Qwen 3.6 27B 做到的事情。”u/cutebluedragongirl(得分 76)写道:“本地就是自由。”

u/Distinct-Question-16 翻出 正好 1 年前,Anthropic 说 fully AI employees 只差 1 年(得分 1,078,237 条评论)。u/GrapefruitMammoth626(得分 193)给出克制看法:“我觉得今天技术上也许能做到。也许它 90% 时间产出很棒,另外 10% 出大错。”u/stellar_opossum(得分 72)更直白:“很有趣,评论里有人试图假装这不是明显跑偏。不,伙计们,就是跑偏,这是那些失败预测之一。”u/bonerb0ys(得分 30)总结:“把 AI 投资营销成‘强大到会毁灭世界的技术’,是为了真正目标筹钱的必要手段,而真正目标……不清楚。”

u/narutomaxGoogle 向 Anthropic 投资 $40B。Amazon 几天前投了 $5B。这正常吗?(得分 267,61 条评论)。u/radium_eye(得分 136)看到了更大图景:“这是一群现金充裕的公司把钱绕圈转,盼着出现能证明支出合理的突破……他们基本把自己捆进了一个 investment rat king,指望也许能大到不能倒。”u/VitruvianVan(得分 59)指出循环性:“那你觉得他们会拿 Google 的 $40B 做什么?买 Google 服务和最新一代 TPU。”

u/Ordinary-Cycle7809 讨论 Google 向 Claude 投资 $40,000,000,000 真的有点好笑(得分 115,109 条评论)。u/crystalpeaks25(得分 94)提供背景:“你知道 anthropic 是 Google 自家 Google vertex ai 里使用最多的模型吧。当 Google 说某一部分收入来自 AI,他们指的是多数企业用户在 vertex AI 里用 anthropic models。”

讨论要点:社区把 Google 投资解读为 hedge,而不是背书。结合 postmortem 和“AI employees”失败预测,Anthropic 被认为经济上很强,但叙事上变弱。

与前日对比:昨天讨论 Mythos 泄露和已确认退化。今天 postmortem 讨论成熟(得分从 280 跳到 1,128),“AI employees”预测周年提供历史背景,$40B Google 投资引入新的经济维度。安全叙事与运营执行之间的可信度缺口继续扩大。

1.4 GPT-5.5 第二天评估:感觉强,基准混合 (🡒)

GPT-5.5 评估继续,包括 SimpleBench 分数、创意能力演示和用户的定性辩护。

u/SuggestionMission516 发布 确凿证据显示我们确实正加速走向 singularity(得分 1,652,143 条评论)——一张讽刺图,随时间绘制“GPT 数量”。u/Evening-Guarantee-84(得分 397)承认:“我差点没看到 shitposting 标签。”帖子有图片附件。幽默说明社区正在用梗消化基准疲劳。

u/MohMayaTyagiBig model feel with GPT 5.5(得分 217,68 条评论)中为模型辩护:“这个模型 FEELS different。它更直觉化,更能覆盖普通人自然会提出的点和论据。”u/Rain_On(得分 49)强调经济性:“低成本也很重要。汽车在生产线让它们变便宜前没有改变世界。”u/FateOfMuffins(得分 45)概括:“它似乎是极少 RL 的 Opus class base,而其他 GPT models 像是极端 RL 的 Sonnet class。”

u/Outside-Iron-8242 分享 GPT-5.5 的 SimpleBench 分数出炉(得分 166,77 条评论)。u/Rent_South(得分 6)报告自定义 eval 结果混合:“gpt 5.4 连续 5 次得分最高,而 gpt 5.5 很差。所以真的取决于用例。”u/RickleJaymes69(得分 30)表达更广泛挫败:“Gemini 3.1 分数总是很高,但对我来说完全比不上 opus。”

u/Akashictruth 演示 GPT 5.5 Xhigh VoxelBench test. Minecraft builders got automated(得分 134,23 条评论),生成包括 Spider-Man 和 NYC skylines 在内的 voxel builds,后来缓和标题:“标题夸大了,抱歉。它在自动化可用的小规模 assets。”

u/artemisgarden 绘制 OpenAI scores on artificial analysis over time(得分 188,35 条评论)。u/M4rshmall0wMan(得分 46)反思:“GPT-4o -> o1 -> o3 真的是疯狂跃迁。”图片日期不准,引来 u/RuthlessCriticismAll(得分 10)纠正。

讨论要点:社区正把 GPT-5.5 稳定定义为强通用模型,但没有推进编码前沿。“vibes”式辩护——它感觉更直觉——正在争取部分人,但无法让基准批评者闭嘴。

与前日对比:昨天带来完整基准表和编码差距叙事。今天加入 SimpleBench 数据、创意用例(VoxelBench)和“big model feel”定性评估。共识正在稳定。

1.5 AI、社会与地缘政治:Palantir、工作、民主、研究员死亡 (🡒)

一组广泛社会议题占据中等互动。

u/Commercial_Sell_4825 发布 Nature 发表的中国半导体研究员在密歇根大学坠亡(得分 1,070,145 条评论),记录 Danhao Wang 在接受美国执法部门问询后死亡。u/BallerDay(得分 400)问:“最近不是有一堆科学家/研究员死亡吗?”帖子指出 Wang 共同领导的一篇 Nature Electronics 论文在他去世次日发表,描述一种面向 brain-inspired vision systems 的 “smart photodiode”。帖子有图片附件。

u/shikizen 报道 Palantir 员工正在谈论公司的“descend into fascism”(得分 675,98 条评论),引用 Ars Technica 关于内部 Slack 消息和一份建议美国考虑恢复征兵的 manifesto 的文章。u/5553331117(得分 209)并不意外:“很确定他们一直就是铁杆法西斯。那是他们的商业模式。”u/ICantBelieveItsNotEC(得分 46)打趣:“这家以邪恶巫师用来和邪恶化身对话的设备命名的 AI 监控和军火公司,结果居然是坏的!?”

u/simmol大家是不是突然忘了多少白领工作以前被称为 bullshit?(得分 553,119 条评论),认为 AI 替代“bullshit jobs”不应被哀悼。

u/ObjectivePresent4162AI swarms could hijack democracy without anyone noticing(得分 251,60 条评论)中链接到一篇 Science 论文。u/claytonkb(得分 67)回应:“终于有人在谈 AI 的真正风险了……”u/Candid_Koala_3602(得分 10)指出:“你假设这还没发生。”

u/kaggleqrdlAI 与其说让公司更高效,不如说把本可作为工资的钱花掉(得分 93,67 条评论)中认为 AI CAPEX 挤压工资预算。u/SirBoboGargle(得分 14)警告:“Tokens 会成为企业 crack。一旦沾上 tokens,就下不来了。”u/Bharath720 报道 Microsoft 向高级员工提供自愿买断,涉及美国员工 7%(得分 84,30 条评论)。u/chunmunsingh 分享 中国工人惊恐发现老板要求他们训练 AI 替代品(得分 143,17 条评论)。

u/talkingatoms 发布 白宫指责中国工业规模窃取 AI 技术(得分 41,80 条评论)。u/Direct-Ad-7922(得分 45)回应:“讽刺得难以置信,‘只有我们能抢自己人民的隐私和自由!’”u/haloweenek(得分 21)补充:“是啊。但抓取一切丢进训练里就是‘fair use’ xD。”

u/SnoozeDoggyDog 发布 仅 11 个美国数据中心“园区”的燃气发电项目,排放可能超过整个国家(得分 68,23 条评论)。

讨论要点:社会影响讨论显著扩大。研究员死亡、Palantir 内部异议、Microsoft buyouts、中国工人训练替代品、AI 民主威胁,都各自获得可观互动,说明这些担忧正在 AI 社区内部从小众走向主流。

与前日对比:昨天讨论 Google 75% AI 代码、Anthropic 失败预测和经济替代。今天加入 Palantir 法西斯故事、半导体研究员死亡、Microsoft buyouts、中国工人替代、AI swarms 和数据中心排放——社会讨论范围大幅扩大。

1.6 本地构建与 Agent 安全 (🡒)

本地推理社区展示硬件构建,同时对 agent 安全缺口的认识在增强。

u/mantafloppy 提醒 Pi.dev coding agent 默认没有沙箱(得分 55,56 条评论),因为该 agent 未经许可运行 rm -fu/StardockEngineer(得分 50)指出:“它默认就是 yolo 设计。作者多次说过。”u/GalladeGuyGBA(得分 11)指出扩展阻止 rm -rf,但不阻止 rm -frunlink

u/Uncle___Marty 分享 我的 coding agent 自杀了 lol(得分 130,16 条评论):“它在 memory 里找一个锁文件的 zombie process,然后决定 kill 自己,关掉了 llama-server。”帖子有图片附件。

u/val_in_tech 在 4x RTX 6000 Pros 上运行 GLM 5.1 Locally: 40tps, 2000+ pp/s(得分 53,42 条评论)。u/SnooPaintings8639(得分 49)打趣:“‘Locally’,也就是‘在我自己的数据中心’,lol。”u/WyattTheSkid 分享 新机器照片!(得分 67,34 条评论),配置为 2x 3090 TI FE 和 2x 3090。

与前日对比:昨天 agent security 不是独立主题。今天随着 Pi sandbox 讨论和自杀 agent 轶事出现,它浮现出来,说明本地 agent 采用增长后,社区正在面对实际安全缺口。

1.7 机器人:Bolt 接近人类短跑速度 (🡒)

u/GraceToSentience 发布 Bolt by MirrorMe | 声称室内 11m/s、室外 10.09 m/s(得分 181,51 条评论)。该机器人身高 177 cm、体重 75 kg,接近 Usain Bolt 的 12.42 m/s 纪录。u/MakitaNakamoto(得分 62)反应:“想象这玩意追着你跑。”u/djosephwalsh(得分 15)指出:“让我好奇他们把踝关节动作做好后能跑多快。”

与前日对比:昨天讨论 Unitree 带轮 G1、Tesla Optimus 和 Figure AI。今天只有一个高质量数据点:一个双足机器人接近人类短跑速度。


2. 令人困扰的问题

Anthropic 静默降低模型质量 47 天

严重程度:High

3 月 4 日到 4 月 20 日之间,三次独立变更在未通知用户情况下降低 Claude Code 质量,由 Anthropic 自己的 postmortem 确认。u/spaceman_r/LocalLLaMA 线程(得分 1,128)中强调:“每一次他们都做了有意识选择,以牺牲质量为代价降低服务器负载,完全脱离最终用户控制,而且没有告知付费客户。”u/dwrz(得分 124)要求:“如果托管模型被量化或以某种方式降低能力,我就应该得到折扣。”u/Important-Radish-722(得分 92)指出倒错激励:“如果模型没有那么努力思考、输出质量更低,用户就必须继续多问问题,而这会用掉更多 tokens。”

DeepSeek V4 Pro 成本和 Intelligence Density 担忧

严重程度:Medium

V4-Pro 运行基准的每 token 成本是 V3.2 的 15 倍,并且在 Arena 上表现不足。u/CallMePyro 标记了成本上升(得分 118)。u/Valuable-Village1669(得分 11)指出:“GPT 5.5 Medium 以同样成本在 intelligence 上高它 5 分。”u/Puzzleheaded-Drama-8(得分 81)认为模型“hugely undertrained”。

DeepSeek V4 缺少多模态

严重程度:Medium

两个 V4 变体都是纯文本。u/Right-Law1817No Multimodality yet in DeepSeek-V4(得分 122,28 条评论)中记录了这一点,并指出技术报告确认正在开发。u/Turnip-itup 指出这相对 Gemini Flash 是劣势,后者是多模态。

夸大的模型主张招致反弹

严重程度:Medium

u/ttkciar(得分 773)在最高帖中警告 HuggingFace CEO 夸大 Qwen 3.6 27B 能力:“那些失望的首次用户不会怪 Chaumond;他们会怪我们所有人。”u/Akashictruth 自行修正了 VoxelBench 标题。夸大后再修正的模式出现在多条线程中。

Pi Coding Agent 默认缺少 Sandboxing

严重程度:Medium

u/mantafloppy 发现 Pi.dev 无 sandbox 运行(得分 55),未经确认执行文件删除。提供的 safety extension 阻止 rm -rf,但不阻止等价命令(rm -frunlink)。u/INT_21h(得分 22)分享了基于 bubblewrap 的 Linux 权宜方案。

AI 替代工作但不创造新工作

严重程度:Medium

u/kaggleqrdl 认为 AI CAPEX 挤出薪资预算(得分 93)。Microsoft voluntary buyouts 影响 7% 美国员工,以及中国工人被要求训练替代品,为这种挫败增加了具体证据。


3. 人们期望的功能

支持多模态的 DeepSeek V4

多条线程指出 V4 是纯文本限制。技术报告确认多模态能力正在开发,但运行本地 vision 工作流的用户目前没有 V4 选项。u/Right-Law1817专门线程中表示愿意等待。在此之前,Qwen 3.6 或云模型仍是仅有本地 vision 选项。

集中式本地模型最佳设置数据库

u/leonbollerupKV cache 线程中问:“有没有哪个页面收集模型最佳设置,还是我们应该自己建一个?”量化选项(Q4、Q6、Q8、Turbo3/4、NVFP4、MXFP4)在不同硬件上激增,造成碎片化知识库。

透明托管模型版本管理

Anthropic postmortem 揭示了 47 天内 3 次静默变更。u/dwrz 提议按 quant 定价。社区想要托管模型配置变化的显式 changelog,而不只是权重发布。

默认正确 Sandbox 的本地 Agent

Pi coding agent sandbox 讨论显示,最流行的轻量 scaffold 默认无 sandbox。用户想要安全默认值和可选 override,而不是反过来。

面向新架构的 Speculative Decoding Draft Models

u/butterfly_labs是否已有兼容 Qwen3.6 27B 的 DFlash draft model?(得分 29,18 条评论)。speculative decoding 的速度收益已被证明,但兼容 draft models 总是落后于新架构发布。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
DeepSeek V4-Pro Open LLM(1.6T MoE) Positive MIT license;1M 上下文;领先 SimpleQA、Apex、Codeforces;hybrid CSA+HCA 架构 相比 V3.2 成本 15x;Arena 表现不足;无多模态;本地过大
DeepSeek V4-Flash Open LLM(284B MoE) Very positive 每 1M input/output $0.14/$0.28;1M 上下文;工具调用出色 无多模态;比 Qwen 3.6 27B 大 10x 只换来小幅领先
Qwen 3.6 27B Local LLM(dense) Very positive 适配单张 3090;RTX 5090 上 80 tps;容忍 Q4 KV cache;规划任务击败 Sonnet 4.6 夸张宣传招致反弹;KV Q4 可能影响 AIME
Qwen 3.6 35B-A3B Local LLM(MoE) Positive 快于 27B dense;iGPU 上 20 t/s 比 27B dense 更量化敏感;3-bit KV 下 router 退化
GPT-5.5 Cloud LLM Mixed-positive “Big model feel”;Opus-class base;相对 Opus 成本有效;VoxelBench 创意能力 SimpleBench 在部分任务上相对 5.4 回退;编码前沿差距持续
llama.cpp 推理引擎 Very positive Turboquant;NVFP4/MXFP4 支持;speculative decoding;硬件广 需要手动配置调优
vllm 0.19 Serving engine Positive NVFP4+MTP 支持;5090 上 Qwen 3.6 达到 80 tps 最好结果需要新硬件
Claude Code Coding agent Negative 功能丰富的智能体式工作流 三次确认退化事件;信任破裂
Pi Coding Agent Agent scaffold Positive 轻量;可扩展;支持本地模型 默认无 sandbox;safety extensions 不完整
OpenCode Agent scaffold Positive Claude Code 的本地模型替代 社区较小
GLM 5.1 Open LLM Positive 4x RTX 6000 Pro 本地 40 tps;Sonnet-like 体验 需要昂贵硬件;需要 sglang patching
MiMo V2.5 Pro Open LLM(Xiaomi) Positive AA Intelligence Index 得分 54;写作质量强 社区测试有限;可用性不清楚

5. 人们在构建什么

项目 Builder What it does Problem it solves Stack Stage Links
KV Cache Quantization Study u/imgroot9 对 Qwen 3.6 27B 的 F16/Q8/Q4/Turbo3/4 做系统 PPL/AIME 测试 确定单张 3090 上 200K 上下文的安全量化级别 llama.cpp、turboquant 已发布 r/LocalLLaMA post
Qwen 3.6 27B 80tps Stack u/Kindly-Cantaloupe978 NVFP4+MTP serving,80 tps,218K 上下文 RTX 5090 上高吞吐本地推理 vllm 0.19、NVFP4 活跃 r/LocalLLaMA post
Shield 82M u/LH-Tech_AI 82M 参数 PII stripping/filtering 模型 隐私保护推理 pipeline Small model 已发布 r/LocalLLaMA post
CUDA MMQ Stream-K PR u/jacek2023 降低 llama.cpp 中 MMQ stream-k 开销 量化模型 GPU 推理更快 CUDA、llama.cpp 已合并 GitHub PR #22298
FP4 Inference in llama.cpp Multiple NVFP4 和 MXFP4 推理支持 支持 4-bit floating point 推理 llama.cpp、ik_llama.cpp 已发布 r/LocalLLaMA post
DESIGN.md Google Labs 开源 AI agents 设计规范 避免 agents 猜测品牌色/设计决策 Markdown spec 已发布 r/PromptEngineering post
Real-time EEG Meditation System u/uisato 基于实时脑信号的 AI guided meditation 根据 EEG 数据个性化冥想提示 OpenBCI、TouchDesigner、Python Demo r/singularity post
Rose Optimizer u/ECF630 面向低 VRAM 训练的新 optimizer 降低模型训练 VRAM 要求 PyTorch、Apache 2.0 已发布 r/MachineLearning post
DharmaOCR u/augusto_camargo3 专用 3B OCR 模型与成本性能基准 显示更便宜/更小模型可在 OCR 上胜出 Open framework + dataset 已发布 r/MachineLearning post
Blood Detection Model u/PeterHash 首个公开 blood detection model,含 dataset、weights 和 CLI 开源 forensic/medical vision 任务 Open weights 已发布 r/MachineLearning post
4x 3090 Workstation u/WyattTheSkid 2x 3090 TI FE + 2x 3090 的多 GPU 本地推理机器 可负担多 GPU 本地推理 Phanteks Enthoo Pro 2、consumer GPUs 已构建 r/LocalLLaMA post

6. 新动态与亮点

Xiaomi MiMo V2.5 Pro 在 Artificial Analysis Intelligence Index 上得分 54

u/Nunki08 报告 “Weights are coming”(得分 267,44 条评论)。u/LoveMind_AI(得分 64)称赞:“我真心觉得没有比这更酷的 LLM。至少就语言和写作能力而言,MiMo-V2.5-Pro 是顶级的,而且不只是‘中国模型里的顶级’。”u/lendo93(得分 5)补充:“在编码推理、agentic work 和决策上,它平均高于 Opus 4.6。”

FP4 Inference 进入 llama.cpp

u/Usual-Carrot6352 报告 llama.cpp(NVFP4)和 ik_llama.cpp(MXFP4)中的 FP4 inference 已落地(得分 20,31 条评论)。这支持原生 4-bit floating point 推理,在相同比特宽度下,相比 integer quantization 可降低内存需求并保持更好质量特征。

Cohere MoE 模型通过 vLLM PR 显露

u/LinkSea8324 发现 vLLM PR 中出现 Cohere 新 MoE 模型(得分 69,10 条评论),链接到 GitHub PR #40817

深度学习科学理论:14 位作者的 Perspective Paper

u/dot--- 发布 There Will Be a Scientific Theory of Deep Learning(得分 180,31 条评论),链接到 arxiv.org/abs/2604.21691。论文整合五条证据线——可解 toy settings、洞察性极限、简单经验规律、超参数理论和普遍现象——主张深度学习科学理论正在出现。

Ubuntu 26.04 改善 AMD XDNA2 NPU 支持

u/jfowers_amd(AMD 员工)分享 PSA:Ubuntu 26.04 让 AMD XDNA2 NPU 更容易上手(得分 34,1 条评论)。主流 Linux 发行版原生 NPU 支持降低了端侧推理门槛。

Kimi K2.6:“赢得比赛的强大乌龟”

u/cjami 发布 Kimi K2.6(得分 46,12 条评论),包含基准数据。帖子有图片附件。Moonshot AI 的模型正在与 V4 和 Qwen 3.6 一起被积极 benchmark。

Nous Research AMA 宣布

u/XMasterrrr 宣布 Nous Research 在 r/LocalLLaMA 举办 AMA(得分 78,9 条评论),时间为 4 月 29 日星期三,主题包括开源 Hermes Agent 工作。帖子有图片附件。

r/LocalLLaMA 更新规则以缓解 Bot

u/rm-rf-rm 发布 r/LocalLLaMa Rule Updates(得分 313,101 条评论),引入最低 karma 要求来打击 bot 和 astroturfing。该 subreddit 现在每周访客超过 100 万。u/StewedAngelSkins(得分 19)称赞:“能有一个讨论 LLM、没有完全被 vibe slop 和 AI psychosis 淹没的地方,真的很舒服。”


7. 机会在哪里

[+++] DeepSeek V4 Flash 是 API 用户的新成本效率之王。每 1M input/output tokens 仅 $0.14/$0.28,带 1M 上下文和出色工具调用(测试中 100+ 调用零错误),比同级所有模型便宜 2-5 倍。u/Rent_South 测得在智能体式流水线上比 Opus 便宜 99%,准确率相近。围绕这一成本结构构建智能体式工作流——尤其是长上下文和多工具调用模式——是当前杠杆最高的机会。(DS V4 pricing thread, cost comparison, tool use test

[+++] 面向编程智能体的本地推理已经跨过消费级硬件可用阈值。Qwen 3.6 27B 在单张 RTX 5090 上达到 80 tps、218K 上下文,或在 Radeon 780M iGPU 上 20 t/s,使本地优先编程工作流可行。更低成本量化(dense 模型 Q4 KV cache)、speculative decoding(RTX 4090 声称 152 t/s)和 NVFP4 支持叠加,正在迅速降低硬件门槛。能为给定硬件 profile 自动配置最佳量化和 serving 设置的工具,填补了社区明确提出的缺口。(80 tps stack, iGPU results, speed thread

[++] 托管模型质量监控现在是被证明的需求。Anthropic postmortem 确认 47 天未被检测到的退化。能持续 benchmark 托管模型质量、检测回退并触发告警或 fallback 的工具,正好解决大 AI 提供商刚证明真实存在的缺口。基于模型质量的企业 SLA 目前没有自动检测这些变化的方法。(Anthropic postmortem, community discussion

[++] 智能体沙箱化与安全工具建设不足。Pi coding agent 默认无沙箱、其 safety extension 存在 rm -rf vs rm -fr 绕过,以及昨天通过 PR comments 实现 85% prompt injection 成功率,都指向同一个缺口:本地 agent 采用正在跑在安全基础设施前面。轻量、默认开启的编程智能体沙箱化是必要的。(Pi 沙箱讨论

[+] 中国开放权重模型生态产出前沿级模型的速度,已经快过社区 benchmark 它们的速度。DeepSeek V4、Qwen 3.6、MiMo V2.5 Pro、Kimi K2.6 和 GLM 5.1 都在积极竞争。系统化跨模型评估工具——覆盖标准基准之外的多样任务——能服务从业者在这些选项之间选择的增长需求。(MiMo thread, DS4 vs Qwen3.6

[+] Anthropic 的职业暴露数据表明,各行业理论 AI 能力与实际 AI coverage 之间存在 60-80 个百分点差距。u/Professional-Rest138五类障碍(得分 75)拆解为:法律限制、集成摩擦、验证开销、工作流惯性和质量阈值。第 2、3 类正在最快消退。专门解决集成摩擦和验证开销的工具,与下一阶段采用加速方向一致。


8. 要点总结

  1. DeepSeek V4 Flash 是当天的成本故事。 每 1M tokens $0.14/$0.28,带 1M 上下文,在某个用户的智能体式流水线上以相近准确率比 Opus 便宜 99%,并比能力层级内其他模型便宜 2-5 倍。Pro 变体在 Arena 表现不足,成本是 V3.2 的 15 倍,但社区将其归因于“hugely undertrained”,预期后续 checkpoints 会更好。(Flash pricing thread, cost comparison, Pro cost thread

  2. Anthropic postmortem 验证了社区怀疑,并在 r/LocalLLaMA 得到 1,128 分。 47 天内 3 次影响 Claude Code 的静默退化已确认。框架已经明确:u/spaceman_ 认为这“证明如果你依赖 AI 模型来提供服务或完成工作,唯一理智选择就是开放权重模型”。Google $40B 投资被解读为 hedge,而不是背书。(Postmortem thread, Google investment

  3. Qwen 3.6 优化数据正在快速成熟。 系统 KV cache 量化测试显示,按 PPL 看 Q4 与未压缩 cache “数学上不可区分”,但 AIME 分数给出不同故事。27B dense 模型很好地承受量化;35B-A3B MoE 更敏感。速度基准覆盖 iGPU 20 t/s 到 RTX 5090 80 tps。社区正在产出发布日缺失的经验数据。(KV cache study, MoE quant sensitivity, 80 tps stack

  4. GPT-5.5 正稳定为“Opus-class base,不是编码前沿”。 对其“big model feel”的定性称赞与相对 GPT-5.4 的某些 SimpleBench 回退并存。讽刺 “Number of GPT” 图表(得分 1,652)说明社区正在用幽默处理 hype fatigue。成本效率叙事仍是 GPT-5.5 最强论点。(Big model feel, SimpleBench

  5. 社会影响讨论显著扩大。 中国半导体研究员死亡(得分 1,070)、Palantir “descend into fascism”(得分 675)、AI swarm 民主威胁(得分 251)、Microsoft buyouts(得分 84)、中国工人训练 AI 替代品(得分 143)和数据中心排放(得分 68)都各自获得显著互动。这种广度说明 AI 社会担忧在这些社区内正从小众走向主流。(Researcher death, Palantir, AI swarms

  6. 中国开放权重模型流水线正在加速。 DeepSeek V4(MIT)、Qwen 3.6(Apache 2.0)、MiMo V2.5 Pro(AA Index 得分 54,“不只是‘中国模型里的顶级’”)、Kimi K2.6 和 GLM 5.1 都在积极竞争。白宫“industrial-scale theft” 指控遭到怀疑:“是啊。但抓取一切丢进训练里就是‘fair use’。”开放权重重心仍坚定在中国。(MiMo, White House accusation

  7. 本地 agent 安全缺口正在显现。 Pi coding agent 默认无沙箱、safety extensions 不完整,再加上昨天通过 PR comments 实现 85% prompt injection 成功率,说明本地 agent 采用正在跑在安全基础设施前面。社区开始分享权宜方案(bubblewrap 沙箱化、Docker containers),但还没有标准方案。(Pi 沙箱

  8. FP4 inference 进入 llama.cpp,标志新的效率前沿。 NVFP4 和 MXFP4 支持让 4-bit floating point inference 具备比同 bit width integer quantization 更好的质量特征。结合 speculative decoding 和 vllm 0.19 的 NVFP4+MTP 支持,本地与云推理质量差距正在每个维度上缩小。(FP4 thread, vllm stack