跳转至

Reddit AI - 2026-05-23

1. 人们在讨论什么

1.1 前沿 AI 的成本,成了具体的企业政策问题 (上升)

这一天,AI 计费危机从抽象担忧变成了有据可查的政策动作。Microsoft 取消了内部 Anthropic 许可,DeepSeek 宣布永久降价 75%,Google 则为 AI Pro 订阅用户引入了按算力计的分层限制——而这一切都发生在同一个 24 小时窗口内。这些不是情绪信号,而是具名组织基于明确理由做出的运营决策。它们共同标记出一个转折点:成本管理取代能力对比,成为 AI 讨论的首要主题。

u/chunmunsingh 发帖称,Microsoft 因按 token 计费在几个月内就冲爆了年度预算,而取消了内部 Claude 访问(微软取消内部 Anthropic 许可)(979 分,139 条评论)。链接文章称,从固定席位定价转向按 token 计费后,成本变得只能在几个月后看到账单时才知道。u/lucid-quiet(得分 170)把这套机制概括为:“CFO:‘刚收到一张 3 亿美元的 token 账单。’CEO:‘这些 token 到底做出了什么?’COO:‘只换来了一肚子怨气,外加更少的利润。’” u/TryallAllombria(得分 42)给出的结构性判断是:由于云端 token 定价没有议价空间,开源和本地模型可能会成为默认选择。

u/MagicZhang 发帖称,DeepSeek 确认其 V4 Pro API 价格会在 2026-05-31 促销结束后,永久维持在原始水平的四分之一(DeepSeek 宣布永久降价 75%)(504 分,63 条评论)。带有脚注的官方定价表,是这项说法的一手证据。

DeepSeek V4 Pro 官方定价表显示,cache-miss 输入为每百万 token $0.435、输出为每百万 token $0.87,脚注确认这些价格自 2026-05-31 起在促销后永久生效

u/External_Mood4719 转发了 Bloomberg 的报道,称 DeepSeek 正在推进一轮 102.9 亿美元融资,同时梁文锋承诺继续投入 AGI 研究并持续发布开源版本(DeepSeek 开源承诺帖)(609 分,115 条评论)。u/FullstackSensei(得分 123)认为,开放发布在经济上是理性的:模型优势的保鲜期很短,而把发布成本压低,可以在不牺牲营收窗口的前提下积累声誉。

“泡沫正在慢慢破裂”这条叙事来自 u/Vedantagarwal120,他贴出了一封 Google AI Pro 邮件截图,宣布自 2026-05-20 起开始执行按算力计的用量限制(泡沫正在慢慢破裂,投资已经跟不上了)(182 分,226 条评论)。u/Many_Consequence_337(得分 201)反对“泡沫”这一框架:一个系统如果是供不应求,那就不是泡沫;泡沫应该是供给过剩。u/Efrayl(得分 112)则把它称为“劣化得最快的产品”。

Google AI Pro 的邮件通知,日期为 2026-05-20,宣布实行按算力计的用量限制,考虑提示词复杂度、所用功能和聊天长度,每 5 小时刷新一次,并设有每周上限

讨论要点: Microsoft 讨论串里最有分量的评论(u/TryallAllombria,得分 42)指向了本地模型才是结构性受益者。DeepSeek 降价后的评论也没有把这件事当成慈善,而是当成一种竞争策略——逼着高价提供商解释,自己的溢价到底凭什么成立。

与前日对比: 在 2026-05-22,成本话题仍主要被当成趋势分析来讨论。到了 2026-05-23,它变成了有据可查的政策动作:有具名企业取消合同,有具名实验室锁定永久低价,也有具名平台开始按算力分层配给。


1.2 公众反弹与非技术社区的认知鸿沟进一步加深 (上升)

Reddit 给出了强有力的证据,表明 AI 在技术圈之外的认知完全不同,而且这道鸿沟并没有缩小。三条帖子——一条关于 AI 建议在胸罩尺码 subreddit 里被版主删掉,一条关于毕业典礼演讲者因谈 AI 而被喝倒彩,以及一条关于“对工作的恐惧是否驱动 AI 敌意”的广泛讨论——共同勾勒出一个仅靠能力提升无法解决的文化接受问题。

u/Due_Drummer5147 发帖询问,为什么自己在一个非技术 subreddit 里的 AI 建议会因“错误信息”被删除,还遭到了版主和其他用户的轻蔑回应(在非技术社区里,AI 会被看作“邪恶”吗?)(406 分,544 条评论)。配图本身就是具体证据:截图里既有那条被点踩的建议,也有标注为“错误信息和/或无帮助建议”的版务删除提示。另一位用户还回复说:“就算先不谈伦理问题,AI 也是从整个互联网抓内容,而外面的错误信息实在太多了。”

来自 r/ABraThatFits 的 Reddit 截图,显示 u/Due_Drummer5147 的 AI 建议被点到 -31,版主以错误信息为由删除,并有评论要求不要鼓励使用 AI

u/bfa2af9d00a4d5a93(得分 565)给出了最直白的解释:“对很多人来说,AI 眼下带来的好处很有限。他们只看到亿万富翁一边抽走地球的能源和水,一边把它硬塞进自己用的所有技术产品里。” u/veganbitcoiner420(得分 361)则把它压缩成一句话:“这就像谈比特币或纯素主义——别谈就对了。”

u/theindependentonline 转发了 Independent 的一篇文章,讲毕业演讲者因谈 AI 而被喝倒彩,其中包括 Eric Schmidt(毕业演讲者不断被喝倒彩)(323 分,146 条评论)。u/Mission-Sea8333(得分 31)把这些嘘声理解为被置换的就业焦虑,而不是单纯敌视 AI。u/Napster3301(得分 16)则反驳道:“他们已经眼看着入门岗位连续 2 年被掏空了。这时候再来个主旨演讲嘉宾告诉他们‘拥抱 AI’,感觉当然完全不一样。”

u/ObjectivePresent4162 直接发问:如果 AI 不威胁工作,大多数人的看法会不会改变(如果 AI 不威胁我们的工作,大多数人的看法会不同吗?)(32 分,122 条评论)。讨论串里一位设计师(u/Shoddy-Cup1183,得分 13)把这种冲击说得很具体:“如果你的整个职业都建立在做视觉创作上,而突然出现一堆工具能瞬间产出像样的作品,那脚下的地板就像一下被抽走了。”

讨论要点: r/singularity 和 r/LocalLLaMA 的社区,整体上比 r/ArtificialInteligence 更乐观;后者更容易把怀疑声音顶上来。“AI 是不是邪恶”那条帖子来自 r/singularity,但最高赞回复(得分 565)其实是在直白承认,批评者的不满是有内在逻辑的,而不只是技术恐惧。

与前日对比: 前一份报告提到的是公众对裁员和数据攫取的焦虑。到了 2026-05-23,证据已经转向更明确的文化性拒斥——喝倒彩、版主删除看似有帮助的建议,以及创意行业里“职业地板塌掉”的当事人表述。


1.3 本地模型性能优化竞赛仍在加速推进 (上升)

r/LocalLLaMA 的讨论几乎被量化基准、后端对比和推理加速占满。BeeLlama v0.2.0 通过自定义注意力内核,在单张 RTX 3090 上把解码速度提升了 4-5x;ByteShape quants 宣称在 6 GB VRAM 硬件上有 30% 的收益;AMD 上的 Vulkan 在 64K 上下文下,预填充速度比 ROCm 快 6.3x;而 Qwen3.6 27B 的量化版图,也被完整梳理到了 16 GB VRAM 这条边界上。多位彼此独立的贡献者在同一天给出了基准图,这说明推理优化已经成了社区主流活动,而不再只是研究者的专长。

u/Anbeeld 发布了 BeeLlama v0.2.0,并带来了一次重要的 DFlash 更新(BeeLlama v0.2.0:重大 DFlash 更新)(189 分,112 条评论)。单张 RTX 3090 的基准结果是:Qwen 3.6 27B 最高 164 tokens/s(比基线快 4.40x),Gemma 4 31B 最高 177.8 tokens/s(4.93x)。GitHub:beellama.cpp。这次提速来自 DFlash 针对注意力的自定义内存访问模式,而不是模型量化。u/sagiroth(得分 12)把它形容成“把那张 3090 榨得像个柠檬一样。”

u/bobaburger 对比了 Qwen3.6 27B 在 16 GB VRAM 上的 Pure Q4_K_M 和 Unsloth Q4_K_M quants(Qwen3.6 27B Pure Quant:16 GB VRAM 上 40 tok/s)(102 分,65 条评论)。VRAM 占用图给出的关键结论是:

Qwen3.6 27B 各量化版本的 VRAM 占用对比图显示,Pure Q4_K_M 为 15.1 GB,Pure Q4_K_M MTP 为 15.4 GB,是仅有的两个能塞进 16 GB 上限内的版本,而所有 Unsloth 版本都落在 16.5-18 GB

质量取舍图则显示,为了塞进 16 GB,需要付出大约比 BF16 基线高 0.10-0.17 的 perplexity delta 代价;而质量更好的 Unsloth 版本虽然只有 0.055,却根本放不进去:

Qwen3.6 27B 量化版本的体积效率与质量散点图显示,Pure 版本聚集在 16 GB 限制左侧,但 perplexity delta 更高;Unsloth 版本则位于右侧,质量更好,却超出 16 GB

u/Jorlen 记录了一套可运行的双 GPU AMD 配置:把 Ryzen 9 7900 iGPU 和 Radeon 7800 XT 组合起来,得到合计 48 GB VRAM,并在 Vulkan 上以 66.86 t/s 跑通了 Qwen3-Coder(双 GPU、48 GB VRAM 的 llama-cpp server:R7900 + 7800XT)(114 分,60 条评论)。Vulkan 与 ROCm 的对比基准,是 AMD 后端之争里最具体的一份证据:

在 RX 7900 XTX 上运行 Qwen3.6-35B-A3B 的 Vulkan 与 ROCm 吞吐图显示,短上下文下 Vulkan 快 1.2x,64K token 预填充时扩大到 6.3x,而各个上下文长度上的解码速度也快 1.4-1.6x

u/alphatrad 针对 Qwen3-Coder 做了一轮量化大比拼,比的是 MXFP4、Q4_K_M、Q5_K_M 和 UD-Q5_K_M(Qwen3-Coder 量化大比拼)(15 分,22 条评论)。质量表里最出人意料的结论是:UD-Q5_K_M 尽管比标准 Q5_K_M 更小,却拿到了最低的 Max KLD(4.75,对比 Q5_K_M 的 8.19),因为 Unsloth 的动态精度会保护路由层和注意力输出层:

Qwen3-Coder 的完整质量表,对比了 MXFP4、Q4_K_M、Q5_K_M 和 UD-Q5_K_M 四种量化格式,显示 UD-Q5_K_M 在占用更少 GB 的前提下,拿到了最低的 Max KLD 4.75 和最高的 same-top-1 比例 94.01%

u/OsmanthusBloom 报告称,在一台 6 GB VRAM 笔记本上,ByteShape 的 Qwen3.6-35B-A3B quants 比 Unsloth IQ 快 30%(ByteShape Qwen3.6-35B-A3B:比 Unsloth IQ 快 30%)(94 分,46 条评论)。

讨论要点: 对 AMD 用户来说,Vulkan 对 ROCm 的优势是今天最关键的发现:在 64K 上下文下,Vulkan 预填充快 6.3x,意味着 ROCm 在这一场景里几乎没有竞争力。这会直接影响 AMD 推理用户在长上下文工作负载下该优先选哪个后端。

与前日对比: 前一份报告讨论的是 RTX Pro 4000 上 Qwen3.6 35B A3B 大约 100 tok/s 的表现。今天的话题则深入到了 16 GB VRAM 限制、AMD 后端优化,以及新的注意力加速库——技术讨论明显更往“精修”方向走了一层。


1.4 Anthropic 的近期模型路线既引来乐观,也引来审视 (持平)

两条彼此独立、都和 Anthropic 有关的内容吸引了大量关注:一条是关于 Mythos 级模型被描述成“近期将发布”的帖子,另一条是 Jack Clark 在 Oxford 演讲中的高细节预测时间线图。两者放在一起,说明社区正在认真对待可信内部人士对 AI 发展轨迹做出的判断,同时也在检验这些判断是否经得起证据标准。

u/exordin26 发帖称,Anthropic 很可能会在“不远的将来”发布 Mythos(Anthropic 可能会在不久的将来发布 Mythos)(226 分,54 条评论)。Anthropic 博客里的配图给出了真正的表述:公司计划先把 Project Glasswing 扩展到盟友政府,然后再在“等我们开发出所需的、更强得多的安全护栏之后”,向公众发布 Mythos 级模型。这是一个明确的安全门控发布模式,而不是商业优先的首发路径。

Anthropic 博客摘录说明,公司计划先把 Project Glasswing 扩展到盟友政府,然后在开发出更强得多的安全护栏后,再通过通用发布公开 Mythos 级模型

u/socoolandawesome 转发了 Anthropic 联合创始人 Jack Clark 在 Oxford 演讲中的预测时间线图(Jack Clark 的最新预测)(419 分,154 条评论)。这张信息图列出了明确的里程碑:

Jack Clark 的未来预测时间线,显示 2026 年 11 月出现诺奖级生物学发现、2027 年 4 月团队加 AI 获得诺奖、2027 年 11 月自主公司创造数亿美元到数十亿美元收入、2028 年 4 月双足机器人开始做有用的现实工作,以及 2028 年 12 月出现 RSI 且 AI 开始设计自己的后继系统

u/AngleAccomplished865(得分 101)提出了最关键的方法论异议:“如果任何前沿科学家只要用了 AI,就算 AI 帮助做出了诺奖级发现,那这句话几乎永远都成立。真正的问题是,AI 是否做出了决定性的贡献。” u/BhaswatiGuha19 指出,Claude Mythos Preview 已经与 50 个合作伙伴一起找出了 10,000+ 个严重软件缺陷(Claude Mythos Preview 的发现)(23 分,11 条评论),这至少为 Clark 关于软件安全的判断提供了一部分证据。

u/Bizzyguy 发帖称,DeepMind CEO Demis Hassabis 认为奇点可能只剩下几年时间(Demis 称奇点可能只剩几年)(143 分,49 条评论)。u/Tirztrutide(得分 7)指出,这代表了一次真实的立场变化:“一年前,人们还因为 Demis 说奇点离我们很远而夸他。现在他已经加入‘奇点将近派’了。”

讨论要点: Mythos 的发布叙事凸显出一个重要先例:Anthropic 正在通过政府合作伙伴先部署能力,再向公众开放,并以安全叙事为这套优先级顺序提供正当性。

与前日对比: 在 2026-05-22,Mythos 主要还是和其他模型发布一起被顺带提到。到了 2026-05-23,它已经和 Anthropic 博客原文里一套具体的安全护栏门控框架绑定在了一起。


1.5 劳动者被取代的话题,从抽象恐惧变成了有据可查的事件 (上升)

劳动主题今天给出了两类不同信号:一条是 Meta 员工视频,确认工人正在被重新分配去训练 AI,然后再面临裁员;另一条是制造业内部人士的帖子,把从 CNC 到 AI 的转变描述成直接的历史类比。两者共同把讨论从假设性的就业威胁,推到了有据可查的案例层面。

u/chunmunsingh 转发了 Mother Jones 的独家报道:一位即将离职的 Meta 员工在大规模裁员期间分享了一段尖锐的内部视频(离职 Meta 员工发布尖锐反 AI 视频)(124 分,34 条评论)。文章确认,Meta 裁掉了 8,000 名员工(约占总员工数的 10%),并把 7,000 人重新分配到 AI 训练工作上。u/chunmunsingh(得分 35)概括社区反应时说,大家甚至开始建议工人故意往 AI 训练数据里掺错,作为一种破坏方式。

u/TriXandApple 是制造业从业者,他发帖把 80 年代末 / 90 年代手工加工转向 CNC 的经历,与 AI 自动化做了对比(作为制造业从业者,这是我想不明白的地方)(104 分,72 条评论)。OP 的论点是:原本 10 个熟练机械师,会变成 1 个 CNC 操作员加 10 个低技能上料员——这是历史劳动力市场曾经吸收过的一种生产率倍增。u/GraceToSentience(得分 49)给出的关键反驳是:CNC 这个类比只在过渡阶段成立,但 AGI 也会把 CNC 操作员自动化掉——从而堵上过去曾经救过被替代工人的那条逃生通道。

u/Dramatic_Spirit_8436 报告称,自己用 DeepSeek V4 和 Hunyuan Hy3 Preview 对一个 120 文件的 FastAPI 服务做了大规模重构:400 步、200 万 token、总成本 $3、全程零人工输入(编码这件事,对那 90% 无聊任务来说基本已经解决)(147 分,65 条评论)。其中有一个异步事件处理器被引入了死锁;OP 也承认:“剩下那 10% 的硬骨头还是得靠 Opus。” u/Frosty-Meeting-1606(得分 97)则为这一判断辩护:平均代码质量本来就不高,而很多人之所以榨不出 AI 的能力,是因为他们把它当成魔法按钮,而不是一个需要技巧来驾驭的工具。

讨论要点: Meta 那条讨论串里,一条建议“搞破坏”的评论得到的互动量,比道德愤怒类评论还高,这说明社区成员对“劳动如何变成训练数据”这套机制本身的兴趣,要高于单纯的道德表态。

与前日对比: 前一日的报告聚焦于 Meta 的裁员数量和数据攫取争议。到了 2026-05-23,同一条故事新增了一个纪录性材料(内部员工视频),并被跨发到了 3 个 subreddit,说明可见度在继续扩大。


1.6 NVIDIA 把“游戏”从营收分类里抹掉了 (上升)

u/HumanDrone8721 发帖称,NVIDIA 在财报中移除了游戏营收分部,把 GPU 营收并入了更宽泛的计算类别(NVIDIA 从财报中移除游戏营收分类)(669 分,207 条评论)。u/kiwibonga(得分 219)给出了一个历史视角:“GPU 本来是为游戏发明的,现在却主要为了算力而存在。风水轮流转,真有意思。” u/iamapizza(得分 218)则把这次变化理解为组织层面的账务重分类,而不是产品线撤退:硬件仍然在路线图里,只是分类变了。u/Dry_Yam_4597(得分 230)认为,这种重分类透露出一个信号:NVIDIA 可能想把游戏进一步推向云端交付。

讨论要点: 得分最高的 3 条评论(都在 218-230 分之间)给出了彼此分歧的解读——云化迁移、账务处理和历史反讽——但并无共识。这种模式反映出,在 AI 热潮后的环境里,大家对 NVIDIA 的战略方向确实存在真实不确定性。

与前日对比: 前一份报告里没有可对照的 NVIDIA 财务话题。这是 2026-05-23 才出现的新主题。


2. 令人困扰的问题

Token 计费不可预测,正在冲爆企业预算 - 高

Microsoft / Anthropic 这条故事,是数据集中最清晰的企业级挫败点:按用量计费让企业在几个月后账单到来之前,根本没法预测成本(帖子)(979 分,139 条评论)。这不是在抱怨价格高,而是在抱怨事后才知道价格。企业当前采用的权宜方案,是取消服务或改用开源模型;但对那些仍想要前沿能力的团队来说,这两种办法都没有解决底层的预算预测问题。这是一个直接的产品设计缺口。

前沿模型在会话中途出现用量限制 - 高

Google 从 2026-05-20 起实行的按算力分层限制(帖子)(182 分,226 条评论),以及 Claude 在智能体会话中途触发用量限制的行为(智能体看 YouTube 帖)(98 分,38 条评论),从消费者和智能体操作者两个角度,抓住了同一种挫败感。聊天智能体如果在任务中途悄悄撞上用量墙,然后不是告警并停止,而是直接发呆空转,对智能体式工作负载来说就是一次可靠性倒退。u/According_Study_162(得分 32)确认,这其实是 Anthropic 文档里写明的行为:智能体在长时间运行时会周期性暂停,并消费类似分心内容的东西。

AI 从演示到生产的采用鸿沟 - 高

u/netcommah 说,自己有一半时间都花在向管理层解释:LLM 不会神奇地修好已经损坏的内部数据集,也无法绕过数据隐私封锁(AI 落地的现实)(77 分,39 条评论)。u/Bharath720(得分 16)给出了结构性诊断:“管理层看到的是打磨好的演示,于是以为难点在模型;但真正的生产问题大多是运营问题——数据质量、权限和流程一致性。” u/user284388273(得分 7)又补上了那种荒诞的反差:“我整天都在让 Claude 别再胡编乱造,而我们的 CEO 却在对投资人说,AI 正在接管公司。”

16 GB VRAM 限制仍然卡住许多本地模型配置 - 中

多条帖子都收敛到了 16 GB 这条边界,把它视为本地推理的主要硬件天花板。Qwen3.6 27B 的 VRAM 对比显示,只有 Pure Q4_K_M 版本能塞进 16 GB,而代价是明显的质量损失(帖子)(102 分,65 条评论)。讨论串里引用的一个工具,甚至会对 RTX 3070 8 GB 上的 Qwen 3.6 35B A3B 直接给出“NO — Won't Fit”。社区的权宜方案是多 GPU、ByteShape quants,或者降级到更小的模型版本——但没有一种能完全替代原本想要的目标配置。

AI 在非技术社区里显得越界 - 中

胸罩尺码 subreddit 删帖事件,是一种更大模式的具体样本:在非技术社区里,不管实际内容质量如何,只要是 AI 给出的建议,就可能被版主当作有害或误导而删除(帖子)(406 分,544 条评论)。从版主的角度看,这种反应并不算不理性——AI 在特定领域场景里确实会传播错误信息——但它也造成了一刀切的拒绝,让即便准确的 AI 建议也无法被接受。


3. 人们期望的功能

可预测的企业 AI 定价 - 直接机会

Microsoft / DeepSeek 这组讨论,把未被满足的需求说得很直白:企业需要支出控制、用量上限和成本预测工具,才能安全地规模化 AI 工具(帖子)(979 分,139 条评论)。u/TryallAllombria(得分 42)说得很明确:如果有可预测的固定费率或硬性封顶定价,Microsoft 就不会取消 Anthropic。一些评论把自建治理层(用量仪表盘、配额提醒)当作权宜方案,但这些都不是前沿模型 API 的内建能力。

安全门控模型的开放权重等价物 - 竞争机会

Mythos 发布叙事——安全门控、政府优先、最终再走向公众发布——暴露出一个明显空缺:那种能找出 10,000 个严重软件缺陷的安全审计能力,公众却用不到(Claude Mythos Preview 帖)(23 分,11 条评论)。BeeLlama 和 LocalLLaMA 几个讨论串里的社区成员,普遍表达了一个偏好:他们更想要那种不必依赖提供商安全审查流程、可以自行检查和部署的开放权重模型。眼下这个空缺只能由 Gemma 4、Qwen3.6 和 DeepSeek V4 勉强填补——但没有一个具备 Mythos 级的安全评估能力。

更好的消费级 AMD 硬件多 GPU 支持 - 直接机会

Vulkan / ROCm 基准与双 GPU 配置的故事放在一起,说明 AMD 是一个供给不足的本地推理平台。Vulkan 在 64K 上下文下快 6.3x,这个优势非常有吸引力;但 llama.cpp 里的 Vulkan 支持仍是实验性的,而且需要手动选择后端。u/Jorlen(得分 24)提到,ROCm 甚至完全跑不起来目标模型。社区想要的是一个稳定、开箱即用、并且在长上下文里能跑赢 ROCm 的 AMD 后端。

一个“AI 训练版 Canva” - 愿景型

u/Raman606surrey 把这个需求说得很直白:“真希望现在就已经有一个‘AI 训练版 Canva’。”(得分 0,26 条评论)大家要的是一个简单、拖拽式的界面,用来做数据集整理、微调和部署,而不需要深厚的 ML 基础设施知识。评论串也承认,目前没有任何现成产品真正符合这个描述;最接近的选项(Unsloth Studio、Hugging Face AutoTrain)依然需要技术配置。

跨用量限制事件的可靠智能体会话管理 - 直接机会

“AI 智能体看 YouTube”这条故事暴露出了一个非常具体的需求:智能体框架需要能检测并明确传达用量限制事件,而不是悄悄降级或原地空转(帖子)(98 分,38 条评论)。目前没有任何主流智能体框架能给出这种保障。一个轻量级的会话状态管理器,只要能在中断时保存进度并发出告警,就能正面解决这种失效模式。


4. 使用中的工具与方法

推理引擎与后端

  • llama.cpp: 用 Vulkan 跑多 GPU;面向 12 GB VRAM 上 MoE 的 experts-first 分支版本;非对称 KV cache Q8/Q4 方案仍在讨论中
  • BeeLlama v0.2.0: DFlash 自定义注意力内核;在 RTX 3090 上让 Qwen 3.6 27B 和 Gemma 4 31B 的解码提速 4-5x;GitHub
  • ik_llama.cpp: 面向 NVIDIA 16 GB VRAM 的 IQ4_KS quants;已分享 Qwen-27B-IQ4_KS
  • lemon-mlx-engine: 面向 AMD 的全新 ROCm MLX LLM Engine(42 分)
  • Vulkan 后端: 在长上下文下,AMD 上优于 ROCm;64K 时预填充优势 6.3x

本地使用的模型

  • Qwen3.6 27B: 核心关注模型;16 GB VRAM 适用 Pure Q4_K_M;ByteShape quants 在 6 GB 上快 30%;BeeLlama DFlash 在 RTX 3090 上达 164 tps
  • Qwen3.6 35B A3B: 测试了 ByteShape 和 Unsloth IQ 版本;AMD 必须用 Vulkan;在 RTX 3070 Ti(8 GB)上能跑 262K 上下文,速度 +30 tps
  • Qwen3-Coder: 在代码任务里,UD-Q5_K_M quant 的质量 / 体积比最好
  • Gemma 4 26B A4B: 无审查 heretic finetune;Apex quant 获赞;在所有主要提供商上都做了 KLD 前沿对比
  • Gemma 4 31B: BeeLlama DFlash 在 RTX 3090 上达 177.8 tps

工作流中引用的云模型

  • DeepSeek V4 Flash: 被当作廉价的代码执行模型使用(每百万输入 token $0.18);用于为提示注入检测器生成合成数据
  • Hunyuan Hy3 Preview: 与 DeepSeek V4 一起用于一次花费 $3 的 FastAPI 大规模重构
  • Claude Sonnet 4.6: 用在智能体式会话里;任务中途碰到算力限制;也用于反谄媚提示
  • GPT-5.5: 在成本对比帖子里被提及;评论普遍嫌贵

量化方法

  • UD-Q5_K_M (Unsloth dynamic): 在 Qwen3-Coder 代码任务上拿到最佳 Max KLD;保护路由层和注意力层
  • Pure Q4_K_M: 唯一能塞进 16 GB VRAM 的 Qwen3.6 27B 版本;质量较低,但更容易用上
  • GGUF GGUFs: 通用格式;ByteShape 和 mradermacher-i1 提供了官方 Unsloth / Bartowski quants 的替代方案
  • ONNX int8: 用于可在浏览器部署的提示注入检测器(65 MB)

工具体系

  • Transformers.js v3: 浏览器侧推理;用于基于 DistilBERT ONNX 的提示注入检测器
  • ml-intern: 配合 DeepSeek V4 Flash 使用的合成数据生成工具
  • NuExtract3: 面向 OCR、Markdown 和结构化 JSON 提取的开放权重 4B VLM;可自托管;来自 Numind (about.nuextract.ai)

5. 人们在构建什么

BeeLlama v0.2.0 —— DFlash 注意力加速

u/Anbeeld 发布了 BeeLlama v0.2.0,并带来了一次重要的 DFlash 注意力内核更新,在单张 RTX 3090 上把 Qwen 3.6 27B 和 Gemma 4 31B 的解码速度提升了 4-5x(帖子)(189 分,112 条评论)。项目本体(GitHub)是 llama.cpp 的一个分支版本,并增加了一条自定义注意力路径;提示处理速度仍与基线相同,也就是说,提速只发生在解码环节。社区反应非常快:多位用户都报告说自己当晚就开始测试了。

Supra-50M —— 从零训练的 5000 万参数模型

SupraLabs 发布了 Supra-50M,一个从零训练的 5000 万参数因果语言模型(BASE 和 INSTRUCT),训练数据是 200 亿 token 的教育类网页文本(帖子)(100 分,39 条评论)。该模型采用了 Llama 风格架构。u/-Cubie-(得分 46)说它小得出乎意料,也因此对这个量级模型的能力下限产生了兴趣。关于目标用途(分类器?遵循规则?)的问题,在帖子里并没有得到回答。

G4-MeroMero-26B 无审查 heretic finetune

u/LLMFan46 发布了一个 Gemma-4-26B-A4B 的无审查 finetune,KLD 为 0.0152、拒答率为 12/100,沿用 Heretic 系列中基于消融的去审查方法(帖子)(135 分,13 条评论)。HuggingFace GGUF:llmfan46/G4-MeroMero-26B-A4B-it-uncensored-heretic-GGUF。KLD 0.0152 说明它与基座模型的输出分布几乎一致——这次 finetune 非常“外科手术式”。

可在浏览器部署的提示注入检测器

u/Everlier 使用 DeepSeek V4 Flash 作为合成数据生成器,微调了一个用于提示注入检测的 DistilBERT 分类器(用 DeepSeek V4 Flash 训练提示注入检测器)(14 分,10 条评论)。结果是一个 ONNX int8 模型(约 65 MB,F1 99%),可以通过 Transformers.js v3 在浏览器中部署。在线演示:HuggingFace Space。这是一个实用的智能体安全工具,而且运行时不依赖外部服务。

面向 12 GB VRAM MoE 用户的 experts-first llama.cpp 分支版本

u/comanderxv 做了一个 llama.cpp 分支版本,给 MoE 模型加上了 experts-first tensor offloading——目的就是通过只把活跃 experts 路由到 GPU 上,让 Qwen3.6-35B-A3B 能在 RTX 2060(12 GB VRAM)上运行(帖子)(61 分,30 条评论)。u/jacek2023(得分 19)指出,这和主线 llama.cpp 里的 --n-cpu-moe 有重叠,但最早测试者报告说,两者的路由行为并不相同。它瞄准的是一个非常具体的硬件画像(12 GB VRAM、MoE 模型),而目前还没有现成的干净解法。

NuExtract3 —— 用于结构化文档提取的开放权重 4B VLM

u/Gailenstorm 发帖介绍 Numind 发布的 NuExtract3:一个用于 OCR、Markdown 转换和结构化 JSON 提取的 4B 开放权重 VLM(帖子)(25 分,3 条评论)。工作流图展示了这样一个流程:只靠一个 JSON 结构模板,就把一张复杂的日文手写医疗发票,转换成了完整结构化的 JSON 对象:

NuExtract3 的三栏工作流图,左侧是一张密集的日文手写医疗发票,中间是 JSON 结构模板,右侧是完整填充好的结构化 JSON 输出,正确提取出了所有治疗费用、日期和机构信息


6. 新动态与亮点

估值超过 $250M 的一人 AI 公司

u/PlefkowQuatir-41 分享了一条关于 Polsia 的推文——它的名字倒过来拼就是“AI Slop”——称这家公司只有 1 位创始人、0 名员工、全部工作流都由 AI 运营,却融资了 $30M,估值达到 $250M(AI 公司现在就是在嘲弄这个世界)(489 分,52 条评论)。u/truthputer(得分 40)问了个很直接的问题:一家现金流为正的一人 AI 公司,为什么还需要 $30M?

推文截图显示,Polsia 这个名字倒过来就是 AI Slop;它只有 1 位创始人、0 名员工,年化收入即将逼近 $10M,却以“完全由 AI 驱动”之名融资 $30M、估值 $250M

大家的反应大致分成两派:一派认为“这就是未来组建公司的方式”,另一派则认为“这就是 1999 年泡沫的巅峰重演”。u/Visible_Fill_6699(得分 36)写道:“像 1999 年那样开派对吧。历史果然总会押韵。”

推理提速开始来自注意力算法变化,而不只是硬件

BeeLlama v0.2.0 的 4-5x 解码提速,来自 DFlash 这个自定义注意力内核,而硬件完全没变。这说明推理优化正在越过量化和模型架构,进入自定义内存访问模式这一层。社区还没有广泛采用 DFlash;BeeLlama 只是一个早期信号,但它已经表明,注意力算法优化对消费级 GPU 用户来说,也可以是一条可行的研发路径,而不只是数据中心运营商的游戏。

AI 社区内部也开始讨论炒作周期动态

u/fairydreaming 发了 Google Trends 数据,显示某个主要 AI 工具的搜索热度从 2026 年 3 月峰值一路大幅下滑,到 2026-05-21 已经只剩峰值的大约 12%(我们是否已经越过“期望膨胀峰值”?)(111 分,92 条评论)。最高赞评论(u/jacek2023,得分 219)把这描述成一种炒作周期漏斗:YouTube 片段吸引来大量普通用户,他们觉得本地模型太难,于是又离开。r/LocalLLaMA 里的社区成员指出,这并不意味着真实使用量在下降——它更可能意味着,由新鲜感驱动的流量在减少。

2026 年 3 月到 5 月的 Google Trends 图,对比了 OpenClaw、Hermes agent 和 llama.cpp 的搜索热度,显示 OpenClaw 在 3 月接近 100 的峰值后,到 5 月 21 日已降到约 12,而 llama.cpp 基本稳定在 3 左右

Gemini Pro 会自信地给出错误的视觉解读

u/FateOfMuffins 分享了一张截图:Gemini Pro 在回应一个 Erdos 单位距离问题可视化时,自信地声称隐藏信息是“SEND NUDES”,并给出了一套详细却错误的解释(Gemini Pro 幻觉帖)(437 分,73 条评论)。这是一个非常具体的视觉幻觉案例:模型在一幅数学图形里凭空编造出一条信息,而且语气高度自信。

Gemini Pro 的手机截图显示,模型在回答“隐藏的信息是什么”时说“隐藏的信息是 SEND NUDES”,并解释说这些字母是由几何图案中缺失的金色圆点组成的


7. 机会在哪里

企业 token 支出治理工具 - 高信号,直接

Microsoft 取消 Anthropic 的故事,指出了闭源模型提供商尚未填上的一个空缺:企业需要能为单个用户或单个项目设定硬性 token 预算、在触顶前收到提醒,并根据早期使用模式预测月度支出的工具。这个需求已经被一家具名的《财富》 500 强公司因缺乏这些控制而取消合同的事实验证过。构建一层能跨 Anthropic、OpenAI 和 Google API 工作的支出治理中间件,不需要提供商配合,就能直接解决这个问题。

AMD 推理优化工具 - 中信号,直接

Vulkan 在 64K 上下文下对 ROCm 有 6.3x 的预填充优势,这是一个非常具体的性能发现;但 llama.cpp 里的 Vulkan 仍不是默认后端。一个有人维护、开箱即用的 AMD 推理栈(安装器、后端选择、内存优化),可以激活一大批当前仍被 ROCm 失败和 Vulkan 手动配置困住的 Radeon 用户。双 GPU 的故事也说明,市场确实需要面向消费级 AMD 的多 GPU 配置支持,而现有软件都没有把这件事做简单。

可在浏览器部署的 AI 安全层 - 中信号,直接

这个提示注入检测器(F1 99%、65 MB ONNX、可在浏览器部署)证明了一点:一个实用的智能体安全工具,可以在很低成本下做出来。随着智能体式工作流不断扩散,浏览器侧的提示注入检测和输出净化会变成标准要求。眼下的空缺在于,大多数智能体框架都默认输入管道是可信的——而当智能体开始与任意网页内容交互时,这个前提就站不住脚了。

16 GB 边界上的量化格式标准化 - 中信号,直接

Qwen3.6 27B 的 VRAM 分析识别出了一个清晰的产品空缺:唯一能塞进 16 GB VRAM 的量化格式,必须付出明显的质量代价。一个由社区维护的兼容矩阵,如果能把“模型 + 量化”组合映射到具体的 VRAM 硬件配置——并附上质量分数——就能节省大量重复基准工作,也能显著降低新用户的进入门槛。它可以做成静态参考网站、工具集成,或者模型元数据标准。

面向专业领域的结构化文档提取 - 高信号,直接

NuExtract3 证明,一个 4B VLM 就能从手写、专业领域文档(日文医疗发票)中抽取结构化 JSON。真正的机会在于面向高价值垂直领域的微调版本:病历、法律文件、财务报表、保险表单和监管申报材料。这些领域既有庞大的存量文档、严格的结构化输出要求,又几乎没被现有自动化真正覆盖。一个开放权重基座,再加上面向行业的微调,就可以成为可部署产品。

透明的本地智能体会话管理 - 中信号,直接

“智能体看 YouTube”这条故事,加上会话中途触发算力限制的行为,一起指出了智能体可靠性里的一个空缺:主流智能体框架没有把会话状态检查点、用量限制检测或优雅失败信号当作一等特性。一个轻量级会话管理器,只要能包装任何 LLM API 调用,并透明地处理各种中断,就能减少智能体最常见的一类失效模式。


8. 与前一日对比 (2026-05-22)

延续主题: 成本压力和 DeepSeek 的开源定位,从 2026-05-22 直接延续到了 2026-05-23,而且降价故事如今已经被确认是永久性的,而不是促销期操作。Meta 的劳动主题也继续延伸,并新增了员工视频以及跨发到 3 个 subreddit 的传播。开放模型开发者的活跃度依然很高,BeeLlama 和 heretic finetune 又叠加到了前一日的 Qwen3.6 工作流故事之上。

2026-05-23 的新内容: NVIDIA 的游戏营收重分类首次出现,引出了关于硬件战略的真实分歧。公众感知主题也显著升温——胸罩尺码 subreddit 的故事和毕业演讲被喝倒彩这两件事叠在一起,让非技术社区对 AI 的拒斥成为主线话题。Google AI Pro 的按算力限制通知(日期为 2026-05-20)也开始在社区讨论里浮现,为原本抽象的“限制正在收紧”担忧补上了一份具体证据。BeeLlama v0.2.0 的注意力内核提速,则是相对于此前推理优化帖的一个明确技术新点。

减弱的信号: 上一份报告里以 3002 分主导全场的人形机器人话题,今天的相对存在感下降了——Figure AI 的故事依然是数据集中得分最高的帖子,但评论讨论并没有随着新进展继续延展。焦点已经从具身 AI 的耐久性,转向 AI 定价和劳动动态。

整体方向: 2026-05-23 呈现出的是一个成本环境在收紧(企业取消、永久降价、按算力配给)、非技术社区文化反弹在加剧、而本地推理开发者产出持续旺盛的局面。三者放在一起,指向的是一个正在分叉的格局:一边是前沿 AI 对企业来说变得更受限也更昂贵,另一边是开放的本地模型基础设施在同时变得更强、更易获得。