Reddit AI - 2026-05-22¶

1. 人们在讨论什么¶

1.1 成本纪律、价格战与开源站位，正在重塑 AI 商业叙事 (🡕)¶

今天最强的商业信号，是 Reddit 用户不再把 AI 支出当成一个模糊的未来问题来谈，而是开始盯住具体的成本动作：Microsoft 收回内部 Claude 访问、DeepSeek 一边推进大额融资一边承诺继续发布开放模型，以及 DeepSeek 在促销期后永久下调 V4 Pro API 价格。这些信息来自不同 subreddit，但拼在一起之后，成本控制和分发策略就成了一级竞争变量。

u/chunmunsingh 转发了一篇报道，称 Microsoft 因为按 token 计费冲爆了企业预算，而取消了内部 Anthropic / Claude 的访问权限（帖子链接）（828 分，124 条评论）。链接文章说，按用量计费正在取代可预测的 seat pricing，并指出 Microsoft 因成本意外偏高而终止了这项计划；u/chunmunsingh（得分 232）也在讨论串摘要里强调了同一点。

u/External_Mood4719 则分享了 Bloomberg 的报道：DeepSeek 正在推进一轮 700 亿元人民币融资，而梁文锋对投资人表示，公司会优先押注 AGI 研究，并继续开发开源模型（帖子链接）（482 分，99 条评论），Yahoo Finance / Bloomberg 转帖。u/FullstackSensei（得分 101）认为，持续开放发布是理性的，因为模型优势的保鲜期本来就很短。

u/MagicZhang 发帖称，DeepSeek 会在 75% 促销结束后，继续把 V4 Pro API 价格维持在原价的四分之一（帖子链接）（366 分，45 条评论）；这一点也和 DeepSeek 定价文档一致。

DeepSeek V4 Pro 定价表显示了促销信息，以及促销结束后价格将维持在原价四分之一的说明

讨论要点： 评论并没有把降价单纯当成市场宣传。大家更把它看成一种证据：只要企业已经在反弹 token 账单，高效的开放模型厂商就有机会向高价闭源模型施压。

与前日对比： 在 2026-05-21，成本焦虑主要还是围绕裁员和 token 支出来展开。到了 2026-05-22，对话已经切到了更直接的政策动作：取消许可、大额且以研究为先的融资，以及官方确认的永久 API 降价。

1.2 基准测试胜利，与日常信任之间的距离又被拉大了 (🡒)¶

今天最有争议的模型质量主题，并不是 Gemini 或 Qwen 到底赢了哪张榜，而是任何 leaderboard 的胜利，到底能不能直接映射到普通用户的信任。Reddit 在同一天里把这件事的两面都摆了出来：Gemini 3.5 Flash 在公开聊天截图里连一个简单算术都翻车了；但另一条帖子又显示，它在 Zapier 的自动化 benchmark 上以低得多的成本拿了第一。Qwen 3.7 Max 则补上了第三个角度：非常强的 benchmark 图一出来，大家马上就开始追问，最强那个版本到底会不会开放权重。

u/SuggestionMission516 发了一组前沿模型对比图，使用的提示词是 300+140=460 和 “Is this correct? Breakdown?”（帖子链接）（860 分，249 条评论）。截图显示，Gemini 3.5 Flash 先是回答“是的，这完全正确”，然后又给出了一套错误的分解；另一张图则显示 ChatGPT 正确答出了 440。

Gemini 3.5 Flash 错误地确认 300 + 140 = 460，并给出一套错误的按位解释

u/Sockdude（得分 229）补上了最关键的细节：打开 extended thinking 之后，答案就会正确；而标准模式看起来几乎没怎么思考。这点很重要，因为问题不只是“一道算术题答错了”，而是默认聊天体验里存在一层隐藏的模式敏感性。

u/Independent-Wind4462 又发了 Zapier 的《Automation Bench》榜单，显示 Gemini 3.5 Flash (Medium) 以 14.5% 的成绩、每任务 $0.87 拿到第一（帖子链接）（249 分，45 条评论）。u/Gods_ShadowMTG（得分 126）把它解读成：低成本模型在标准化智能体任务上，依然可能具有很强的经济价值。

Zapier《Automation Bench》排行榜中，Gemini 3.5 Flash (Medium) 以 14.5% 和每任务 $0.87 位居第一

u/LegacyRemaster 随后又发了 Qwen 3.7 Max 的 benchmark 拼图（帖子链接）（600 分，167 条评论）。图里显示，Qwen 3.7 Max 在 Terminal-Bench 2.0、SWE-bench Pro、SWE-bench Multilingual、MCP-Mark、HLE、Apex、IFBench 和 SuperGPQA 这些对比项上都领先；但 u/Mindless_Pain1860（得分 199）立刻指出，Qwen 历来并不会把 Max 系列开放权重。

Qwen 3.7 Max 的 benchmark 拼图，显示它在终端编程、SWE-bench、MCP、推理和知识任务上都拿到了领先分数

讨论要点： 评论最后收敛到一个很实用的区分：基准测试领先仍然有意义，但人们更想知道的是，一个模型在普通聊天里是否可靠、在生产环境里是否负担得起，以及是否能以自己真正会使用的形态拿到手。

与前日对比： 前一天的报告已经显示，Gemini 3.5 Flash 在自动化能力和通用用途之间是撕裂的。今天则补上了更刺眼的可视证据，并把同样的 benchmark 怀疑一路延伸到了 Qwen 身上。

1.3 开放模型构建者把“冗余”当成了产品的一部分 (🡕)¶

开放模型的讨论已经不只是在谈性能，而是开始谈“怎么活下来”。Heretic 的维护者把 Meta 的法律通知处理成了一场迁移故事，另一条 LocalLLaMA 帖子则展示了一位用户如何围绕 Qwen3.6 搭出一套本地智能体栈来做真实网站工作。两条线放在一起，就是社区在往“基础设施独立”推，而不只是继续追高分。

u/-p-e-w- 发帖称，Heretic 收到了 Meta 的法律通知，因此移除了基于 Llama 的权重，并同步搭起了官方 Codeberg 镜像（帖子链接）（1922 分，296 条评论）。在线镜像把 Heretic 描述成一个已发布工具：用定向消融、Optuna、Python 和 PyTorch 自动去除审查限制。u/tomrannosaurus（得分 562）把这条讨论串的情绪总结得很到位：Meta 自己还深陷训练数据争议，却反过来开始严格管名字和分发。

u/mouseofcatofschrodi 则描述了一条本地工作流：用 Codex 写可复用技能、用 Pi 执行工单、用 AnythingLLM 转录 WhatsApp 音频，再由 Qwen3.6 35B 把这堆输入变成一个真实上线的落地页（帖子链接）（354 分，92 条评论）。配图显示，Unsloth Studio 正在一块 RTX Pro 4000 Blackwell SFF GPU 上提供 Qwen3.6-35B-A3B-MTP-GGUF，推理速度约为 101.7-111.2 tok/s。

Unsloth Studio 里的本地 Qwen3.6 工作流，同时可见 Proxmox 控制台和 GPU 监控，推理速度大约为 100+ tok/s

讨论要点： Heretic 那条讨论，重点是司法辖区、镜像和可访问性保全；Qwen 工作流那条讨论，重点则是在云工具明明可用的前提下，怎样依然把真正有用的工作留在本地做。两边都把“冗余”当成了功能，而不是开销。

与前日对比： 在 2026-05-21，Heretic 主要还是一个法律通知故事。到了 2026-05-22，更耐看的信号已经变成基础设施反应：把项目镜像起来、维持本地工作流可行，并尽量减少对单一平台的依赖。

1.4 劳动力替代焦虑，焦点仍然落在数据采集上，而不只是裁员本身 (🡕)¶

劳动力叙事还在，但重心已经不再只是“失去了多少岗位”这个数字本身。讨论更集中在另一个问题：公司是否正在把员工的工作流拿去做训练数据，而这些系统以后又可能反过来替代这些员工。

u/andrewaltair 发帖称，Meta 裁掉了 7800 名员工，并在用他们的日常工作训练 AI（帖子链接）（623 分，158 条评论）。帖子把裁员与泄露的员工会议音频绑在了一起，并称 Meta 正在跳过外部承包商，改为直接从员工工作里学习。u/Longjumping_Dish_416（得分 59）给出了最主要的法律反驳：在很多场景里，雇主本来就拥有工作产出的控制权。

u/marzbar_14（得分 18）则把这个逻辑又往前推了一步：如果击键、工作流轨迹和操作痕迹最终都会被拿去训练替代系统，人们是否会开始故意把自己的电脑工作做“差一点”？这条评论的分数不算高，但它提出了整条讨论里最具体的运营担忧。

讨论要点： 即便是在一条反 Meta 情绪很重的讨论里，最有价值的部分也还是机制问题：到底采了什么、这些数据现实中能学到什么，以及日常工作遥测会不会变成一种被迫的训练贡献。

与前日对比： 前一日的报告，重点还是学生和劳动者对 AI 抢工作的焦虑。今天则把这种情绪绑到了一个更具体的问题上：监控、工作流采集，以及工作痕迹到底归谁。

1.5 人形机器人开始从“看个热闹”，走向“能不能长时间干活”的证据 (🡕)¶

Figure AI 连续 200 小时分拣的那次运行，是这批数据里最清晰的机器人信号，因为它卖点不再是“看机器人做成一次”，而是“看它能把重复工作持续做多久”。这种耐久性叙事，让它比一般的人形 demo 更有运营味道。

u/Distinct-Question-16 发了 Figure AI 庆祝人形机器人连续处理包裹 200 小时的帖子（帖子链接）（2046 分，560 条评论）。围绕这次运行的公开报道把它描述成一次直播式自主分拣测试，而不是一段剪出来的短秀；讨论串本身也更关注机器人的“状态感”和可重复性，而不是单纯盯速度。

u/agnostigo（得分 807）说，这段画面已经有点像纪录片；u/softdream23（得分 642）则开玩笑说，机器人是“一脸痛苦地走开了”。这种玩笑恰好反衬出真正的信号：人们已经是在把它当一个嵌进重复劳动现场的系统来观看。

讨论要点： 这条讨论里没有太多技术批评，但它确实说明，人们现在判断人形机器人时，看的是耐久性、工作场景里的举止，以及任务环境够不够真实，而不只是动作漂不漂亮。

与前日对比： 在 2026-05-21 的报告里，并没有哪条物理世界 AI 的耐久性故事占到这样的比重。对 Reddit 来说，这确实是一个新主题。

2. 令人困扰的问题¶

会冲垮企业预算的不透明 token 计费 - 高¶

Microsoft / Claude 那条讨论，让预算不可预测性成了当天最清晰的产品挫败感。人们并不只是在抱怨 AI 很贵；他们更是在抱怨，按 token 计费会让成本在工作流已经嵌进去之后，才暴露出根本无法提前估算的问题（帖子链接）（828 分，124 条评论）。u/MisterHole123（得分 33）说出了最实际的症状：即便用户只是在要短答案，Claude 也可能突然给出很长的输出，于是 token 花费就一起被拖高。这个方向值得直接构建，因为企业要先有支出控制，才敢真正把 AI 工具铺开。

拿了榜首，却依然保不住基础信任 - 高¶

Gemini 那组对比图和 Zapier 榜单放在一起，制造出一种很尖锐的挫败模式：同一模型家族，可以一边在某个 benchmark 上拿第一，一边又在公开可见的简单检查里翻车（Gemini 对比图）（860 分，249 条评论），（《Automation Bench》帖子）（249 分，45 条评论）。讨论里即时出现的权宜方案，是切换模式：用更高 thinking 设置，或者换一个产品界面。这对普通用户来说并不令人满意，因为失效模式被藏在默认值后面。

劳动者正在变成非自愿的训练数据 - 高¶

Meta 裁员那条讨论，把挫败感集中到了同意权和可替代性上，而不只是人数的减少（帖子链接）（623 分，158 条评论）。u/marzbar_14（得分 18）追问：如果人们真的相信这些工作痕迹会被拿去训练将来替代自己的系统，他们会不会开始故意改变自己的工作方式？当前的应对方式，基本只有愤世嫉俗、愤怒，或者搬出“工作产出归属雇主”的法律表述；没有哪条讨论给出过一个真正保护劳动者的可信机制。

开放模型项目依然暴露在平台和商标卡点之下 - 中¶

Heretic 迁到 Codeberg 的动作说明，即便是一个技术上相当活跃的开放模型项目，也可能因为商标压力被迫更换分发路径（帖子链接）（1922 分，296 条评论）。当前的权宜方案，就是搭镜像基础设施、尽量降低对单一托管方的依赖。这虽然有效，但更像是事后补救，因此也说明，默认就支持多宿主韧性的工具仍有空间。

3. 人们期望的功能¶

可预测的企业级 AI 成本控制¶

Claude 预算讨论和 DeepSeek 定价讨论，其实都指向同一个未满足需求：买家希望 AI 支出像一个能被控制的系统，而不是一张突然出现的账单。大家真正想要的，看起来是带硬上限、路由规则和可审计成本归因的使用治理，而不是无上限暴露在 token 消耗面前。机会：直接。

能映射到普通用户可靠性的基准测试¶

u/FeatureFar8819（得分 18）在 Qwen 3.7 SWE-Bench 那条讨论里说，现在的 benchmark 越来越像 Formula 1 排位成绩，而缺失的信息则是幻觉率、长会话稳定性，以及模型会不会改写太多代码（帖子链接）（45 分，29 条评论）。真正的实际需求，不是再来一张榜，而是一层能告诉用户：在普通聊天、编程和多步工作里，这个模型实际会怎样表现。机会：直接。

能拿到前沿级表现档位的开放权重访问¶

Qwen 3.7 Max 那条 hype 帖，对 benchmark 拼图的反应很积极，但最高信号评论之一却是 u/Mindless_Pain1860（得分 199）提醒大家：Qwen 从来没把 Max 系列开放权重（帖子链接）（600 分，167 条评论）。人们不只是要更高分；他们还想把这些分数落实到自己真能跑起来的工件上。机会：竞争激烈。

更容易组装和维护的本地优先智能体栈¶

那条 Qwen3.6 工作流帖子，展示了一位重度用户如何把 Pi、Codex、AnythingLLM、Unsloth Studio 和本地托管拼成一条从音频到网站的完整链路（帖子链接）（354 分，92 条评论）。它隐含出来的需求很明确：人们想要一种更打包的方式拿到同样结果，而不是每一步都自己焊胶水。机会：直接。

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
Gemini 3.5 Flash	LLM	(+/-)	在 Zapier《Automation Bench》上以每任务 $0.87 拿到第一；社区普遍认为它很适合标准化自动化任务	公开聊天截图显示它在标准模式下连算术都会答错；质量高度依赖隐藏的 thinking 设置
Qwen 3.7 Max	LLM	(+)	分享出来的图表显示，它在终端编程、SWE-bench、MCP、推理和知识任务上都领先	用户怀疑 Max 档位不会开放权重；较小变体未必能复现这些 headline 结果
DeepSeek V4 Pro	API 模型	(+)	官方定价文档确认长期低价；社区把它看作一次激进的成本竞争动作	它目前仍主要是 API 消费故事；降价本身并不能消除企业治理需求
Claude Code	编程助手	(+/-)	在 Microsoft 内部被用得够深，深到已经嵌进工作流	按用量计费成了讨论核心抱怨，并据称促成了内部许可回收
Heretic	开放模型工具	(+)	活着的 Codeberg 镜像清楚记录了这个已发布工具：可用 Python、PyTorch 和 Optuna 自动移除审查限制	围绕 Llama 衍生输出的法律压力，迫使仓库和分发方式都要调整
Pi + Qwen3.6-35B-A3B-MTP-GGUF + Unsloth Studio	本地智能体栈	(+)	展示了一条完整的本地工作链：转录、规划、编码、部署，速度约为 100+ tok/s	非常吃硬件、工具很多，而且更像重度用户栈，不是容易默认上手的方案

在这些讨论里，满意度最高的时候，往往是工具对一个狭窄任务贴得很紧：Gemini 负责低成本自动化，Qwen 负责本地重度用户工作流，Heretic 负责一个非常具体的后训练变换，而 DeepSeek 则负责给价格施压。用户最不满意的地方，则集中在不可预测性：token 账单、隐藏的推理模式、法律卡点，以及最强模型档位到底拿不拿得到。最明显的迁移模式，也不再是模型 A 换到模型 B，而是在定价或托管信任开始动摇时，从云依赖转向本地或镜像方案。

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
Heretic	u/-p-e-w-	无需昂贵重训练，就能自动从 transformer 模型里移除安全对齐 / 审查限制	让开放模型用户能以可复现方式生成未审查变体，同时尽量保住能力	Python、PyTorch、Optuna、directional ablation	已发布	帖子, Codeberg
Figure F.03 分拣运行	Figure AI	让人形机器人在类似仓库的任务环境里持续分拣包裹	针对那些耐久性和可重复性比单次炫技更重要的重复包裹处理场景	Figure 人形硬件、Helix AI	Beta	帖子
本地 Qwen 落地页工作流	u/mouseofcatofschrodi	用本地智能体把 WhatsApp 音频转成结构化建站与部署流程	让单个用户不依赖托管编程栈，也能在本地跑通小型 Web 项目	Qwen3.6-35B-A3B-MTP-GGUF、Pi、Codex、AnythingLLM、Unsloth Studio、Proxmox	已发布	帖子

Heretic 最突出的地方，在于维护者对法律压力的回应是立刻做产品加固：移除受影响权重、把项目镜像出去，并确保工具在别处继续可用。Figure 这次分拣运行之所以重要，是因为它把“耐久性”当成了产品主张，而不是短时 demo。那条本地 Qwen 工作流则展示了一种最有意思的草根模式：用户正在把多个工具打包成个人智能体栈，让转录、规划、编码和部署连成一条链。

6. 新动态与亮点¶

Figure 的 200 小时包裹分拣里程碑¶

Figure AI 这次 200 小时运行，是 Reddit 数据里最强的物理世界部署信号，因为它强调的是持续工作，而不是一段剪好的短视频。对一条机器人帖子来说，Reddit 互动量也异常高，讨论串拿到了 2046 分和 560 条评论（来源）。

DeepSeek 的融资故事，附带了明确的开源信息¶

DeepSeek 这轮融资之所以值得注意，是因为这笔资本动作同时伴随着一条明确表态：公司不会完全转向只看短期变现的路径。Yahoo Finance / Bloomberg 的转帖称，梁文锋告诉投资人，DeepSeek 会在追求 AGI 的同时继续开发开源模型（来源）。

DeepSeek 把一次临时折扣变成了定价重置¶

DeepSeek 的定价页明确写着，V4 Pro 的价格会在 2026-05-31 15:59 UTC 那次 75% 促销结束后，下调到原价的四分之一（来源）。这已经不只是一次促销，而是一条公开信号：公司认为有竞争力的 API 定价就应该落在这个位置。

Heretic 的法律通知，变成了一次活生生的迁移信号¶

Heretic 的维护者并不只是抱怨 Meta 的通知；TA 还记录了 Llama 衍生权重的移除动作，并同步搭起了一个清楚描述工具与安装路径的 Codeberg 镜像（帖子链接）（1922 分，296 条评论），镜像。这让整件事变成了一条运营信号，而不只是姿态表达。

7. 机会在哪里¶

[+++] 面向按 token 计费工具的 AI 支出治理 —— 来自 Microsoft / Claude 取消讨论串和 DeepSeek 定价讨论的证据都说明，在大规模铺开之前，买家需要预算上限、路由策略、审批和用量归因。

[++] 带可靠性感知的模型选型层 —— Gemini 的算术翻车、Zapier 榜单第一，以及 Qwen 的 benchmark hype，其实都指向同一个缺口：用户需要工具把 leaderboard 上的表现翻译成自己工作流里的真实预期行为。

[++] 面向开放模型生态的韧性分发 —— Heretic 迁往 Codeberg 这件事说明，镜像、替代注册表，以及不依赖单一提供商的发布路径，正在变成开放模型工具价值的一部分。

[+] 打包好的本地智能体工作台 —— 那条 Qwen3.6 工作流帖子说明，人们确实需要把转录、规划、编码、浏览器控制和部署组合起来的本地优先栈，但又不想每个零件都自己装。

8. 要点总结¶

AI 成本纪律，正在变成产品要求，而不只是财务话题。 Microsoft 据称收回 Claude 访问，DeepSeek 又长期降价，这两件事都说明成本控制已成竞争轴。 (来源)
用户已经不会只因为 benchmark 赢了就买账。 Gemini 3.5 Flash 一边能在 Zapier 的自动化榜上拿第一，一边又会在默认聊天模式里交出一场尴尬的算术翻车。 (来源)
开放模型热情，现在和“拿不拿得到”绑得跟能力一样紧。 Qwen 3.7 Max 的 benchmark hype 一出来，大家立刻就开始问：最强那档到底会不会真的开放权重。 (来源)
冗余，正在变成开源 AI 实践的一部分。 Heretic 遭遇 Meta 法律通知后的第一反应，是移除目标权重、把分发迁到 Codeberg，而不是继续依赖单一宿主。 (来源)
机器人讨论，正在从炫技动作转向真实工作的耐久性。 Figure AI 那次 200 小时运行之所以重要，是因为它把人形机器人放进了可重复劳动系统的语境，而不只是新奇 demo。 (来源)