跳转至

Reddit AI - 2026-05-22

1. 人们在讨论什么

1.1 成本纪律、价格战与开源站位,正在重塑 AI 商业叙事 (🡕)

今天最强的商业信号,是 Reddit 用户不再把 AI 支出当成一个模糊的未来问题来谈,而是开始盯住具体的成本动作:Microsoft 收回内部 Claude 访问、DeepSeek 一边推进大额融资一边承诺继续发布开放模型,以及 DeepSeek 在促销期后永久下调 V4 Pro API 价格。这些信息来自不同 subreddit,但拼在一起之后,成本控制和分发策略就成了一级竞争变量。

u/chunmunsingh 转发了一篇报道,称 Microsoft 因为按 token 计费冲爆了企业预算,而取消了内部 Anthropic / Claude 的访问权限(帖子链接)(828 分,124 条评论)。链接文章说,按用量计费正在取代可预测的 seat pricing,并指出 Microsoft 因成本意外偏高而终止了这项计划;u/chunmunsingh(得分 232)也在讨论串摘要里强调了同一点。

u/External_Mood4719 则分享了 Bloomberg 的报道:DeepSeek 正在推进一轮 700 亿元人民币融资,而梁文锋对投资人表示,公司会优先押注 AGI 研究,并继续开发开源模型(帖子链接)(482 分,99 条评论),Yahoo Finance / Bloomberg 转帖u/FullstackSensei(得分 101)认为,持续开放发布是理性的,因为模型优势的保鲜期本来就很短。

u/MagicZhang 发帖称,DeepSeek 会在 75% 促销结束后,继续把 V4 Pro API 价格维持在原价的四分之一(帖子链接)(366 分,45 条评论);这一点也和 DeepSeek 定价文档 一致。

DeepSeek V4 Pro 定价表显示了促销信息,以及促销结束后价格将维持在原价四分之一的说明

讨论要点: 评论并没有把降价单纯当成市场宣传。大家更把它看成一种证据:只要企业已经在反弹 token 账单,高效的开放模型厂商就有机会向高价闭源模型施压。

与前日对比: 在 2026-05-21,成本焦虑主要还是围绕裁员和 token 支出来展开。到了 2026-05-22,对话已经切到了更直接的政策动作:取消许可、大额且以研究为先的融资,以及官方确认的永久 API 降价。

1.2 基准测试胜利,与日常信任之间的距离又被拉大了 (🡒)

今天最有争议的模型质量主题,并不是 Gemini 或 Qwen 到底赢了哪张榜,而是任何 leaderboard 的胜利,到底能不能直接映射到普通用户的信任。Reddit 在同一天里把这件事的两面都摆了出来:Gemini 3.5 Flash 在公开聊天截图里连一个简单算术都翻车了;但另一条帖子又显示,它在 Zapier 的自动化 benchmark 上以低得多的成本拿了第一。Qwen 3.7 Max 则补上了第三个角度:非常强的 benchmark 图一出来,大家马上就开始追问,最强那个版本到底会不会开放权重。

u/SuggestionMission516 发了一组前沿模型对比图,使用的提示词是 300+140=460 和 “Is this correct? Breakdown?”(帖子链接)(860 分,249 条评论)。截图显示,Gemini 3.5 Flash 先是回答“是的,这完全正确”,然后又给出了一套错误的分解;另一张图则显示 ChatGPT 正确答出了 440。

Gemini 3.5 Flash 错误地确认 300 + 140 = 460,并给出一套错误的按位解释

u/Sockdude(得分 229)补上了最关键的细节:打开 extended thinking 之后,答案就会正确;而标准模式看起来几乎没怎么思考。这点很重要,因为问题不只是“一道算术题答错了”,而是默认聊天体验里存在一层隐藏的模式敏感性。

u/Independent-Wind4462 又发了 Zapier 的《Automation Bench》榜单,显示 Gemini 3.5 Flash (Medium) 以 14.5% 的成绩、每任务 $0.87 拿到第一(帖子链接)(249 分,45 条评论)。u/Gods_ShadowMTG(得分 126)把它解读成:低成本模型在标准化智能体任务上,依然可能具有很强的经济价值。

Zapier《Automation Bench》排行榜中,Gemini 3.5 Flash (Medium) 以 14.5% 和每任务 $0.87 位居第一

u/LegacyRemaster 随后又发了 Qwen 3.7 Max 的 benchmark 拼图(帖子链接)(600 分,167 条评论)。图里显示,Qwen 3.7 Max 在 Terminal-Bench 2.0、SWE-bench Pro、SWE-bench Multilingual、MCP-Mark、HLE、Apex、IFBench 和 SuperGPQA 这些对比项上都领先;但 u/Mindless_Pain1860(得分 199)立刻指出,Qwen 历来并不会把 Max 系列开放权重。

Qwen 3.7 Max 的 benchmark 拼图,显示它在终端编程、SWE-bench、MCP、推理和知识任务上都拿到了领先分数

讨论要点: 评论最后收敛到一个很实用的区分:基准测试领先仍然有意义,但人们更想知道的是,一个模型在普通聊天里是否可靠、在生产环境里是否负担得起,以及是否能以自己真正会使用的形态拿到手。

与前日对比: 前一天的报告已经显示,Gemini 3.5 Flash 在自动化能力和通用用途之间是撕裂的。今天则补上了更刺眼的可视证据,并把同样的 benchmark 怀疑一路延伸到了 Qwen 身上。

1.3 开放模型构建者把“冗余”当成了产品的一部分 (🡕)

开放模型的讨论已经不只是在谈性能,而是开始谈“怎么活下来”。Heretic 的维护者把 Meta 的法律通知处理成了一场迁移故事,另一条 LocalLLaMA 帖子则展示了一位用户如何围绕 Qwen3.6 搭出一套本地智能体栈来做真实网站工作。两条线放在一起,就是社区在往“基础设施独立”推,而不只是继续追高分。

u/-p-e-w- 发帖称,Heretic 收到了 Meta 的法律通知,因此移除了基于 Llama 的权重,并同步搭起了官方 Codeberg 镜像帖子链接)(1922 分,296 条评论)。在线镜像把 Heretic 描述成一个已发布工具:用定向消融、Optuna、Python 和 PyTorch 自动去除审查限制。u/tomrannosaurus(得分 562)把这条讨论串的情绪总结得很到位:Meta 自己还深陷训练数据争议,却反过来开始严格管名字和分发。

u/mouseofcatofschrodi 则描述了一条本地工作流:用 Codex 写可复用技能、用 Pi 执行工单、用 AnythingLLM 转录 WhatsApp 音频,再由 Qwen3.6 35B 把这堆输入变成一个真实上线的落地页(帖子链接)(354 分,92 条评论)。配图显示,Unsloth Studio 正在一块 RTX Pro 4000 Blackwell SFF GPU 上提供 Qwen3.6-35B-A3B-MTP-GGUF,推理速度约为 101.7-111.2 tok/s。

Unsloth Studio 里的本地 Qwen3.6 工作流,同时可见 Proxmox 控制台和 GPU 监控,推理速度大约为 100+ tok/s

讨论要点: Heretic 那条讨论,重点是司法辖区、镜像和可访问性保全;Qwen 工作流那条讨论,重点则是在云工具明明可用的前提下,怎样依然把真正有用的工作留在本地做。两边都把“冗余”当成了功能,而不是开销。

与前日对比: 在 2026-05-21,Heretic 主要还是一个法律通知故事。到了 2026-05-22,更耐看的信号已经变成基础设施反应:把项目镜像起来、维持本地工作流可行,并尽量减少对单一平台的依赖。

1.4 劳动力替代焦虑,焦点仍然落在数据采集上,而不只是裁员本身 (🡕)

劳动力叙事还在,但重心已经不再只是“失去了多少岗位”这个数字本身。讨论更集中在另一个问题:公司是否正在把员工的工作流拿去做训练数据,而这些系统以后又可能反过来替代这些员工。

u/andrewaltair 发帖称,Meta 裁掉了 7800 名员工,并在用他们的日常工作训练 AI(帖子链接)(623 分,158 条评论)。帖子把裁员与泄露的员工会议音频绑在了一起,并称 Meta 正在跳过外部承包商,改为直接从员工工作里学习。u/Longjumping_Dish_416(得分 59)给出了最主要的法律反驳:在很多场景里,雇主本来就拥有工作产出的控制权。

u/marzbar_14(得分 18)则把这个逻辑又往前推了一步:如果击键、工作流轨迹和操作痕迹最终都会被拿去训练替代系统,人们是否会开始故意把自己的电脑工作做“差一点”?这条评论的分数不算高,但它提出了整条讨论里最具体的运营担忧。

讨论要点: 即便是在一条反 Meta 情绪很重的讨论里,最有价值的部分也还是机制问题:到底采了什么、这些数据现实中能学到什么,以及日常工作遥测会不会变成一种被迫的训练贡献。

与前日对比: 前一日的报告,重点还是学生和劳动者对 AI 抢工作的焦虑。今天则把这种情绪绑到了一个更具体的问题上:监控、工作流采集,以及工作痕迹到底归谁。

1.5 人形机器人开始从“看个热闹”,走向“能不能长时间干活”的证据 (🡕)

Figure AI 连续 200 小时分拣的那次运行,是这批数据里最清晰的机器人信号,因为它卖点不再是“看机器人做成一次”,而是“看它能把重复工作持续做多久”。这种耐久性叙事,让它比一般的人形 demo 更有运营味道。

u/Distinct-Question-16 发了 Figure AI 庆祝人形机器人连续处理包裹 200 小时的帖子(帖子链接)(2046 分,560 条评论)。围绕这次运行的公开报道把它描述成一次直播式自主分拣测试,而不是一段剪出来的短秀;讨论串本身也更关注机器人的“状态感”和可重复性,而不是单纯盯速度。

u/agnostigo(得分 807)说,这段画面已经有点像纪录片;u/softdream23(得分 642)则开玩笑说,机器人是“一脸痛苦地走开了”。这种玩笑恰好反衬出真正的信号:人们已经是在把它当一个嵌进重复劳动现场的系统来观看。

讨论要点: 这条讨论里没有太多技术批评,但它确实说明,人们现在判断人形机器人时,看的是耐久性、工作场景里的举止,以及任务环境够不够真实,而不只是动作漂不漂亮。

与前日对比: 在 2026-05-21 的报告里,并没有哪条物理世界 AI 的耐久性故事占到这样的比重。对 Reddit 来说,这确实是一个新主题。


2. 令人困扰的问题

会冲垮企业预算的不透明 token 计费 - 高

Microsoft / Claude 那条讨论,让预算不可预测性成了当天最清晰的产品挫败感。人们并不只是在抱怨 AI 很贵;他们更是在抱怨,按 token 计费会让成本在工作流已经嵌进去之后,才暴露出根本无法提前估算的问题(帖子链接)(828 分,124 条评论)。u/MisterHole123(得分 33)说出了最实际的症状:即便用户只是在要短答案,Claude 也可能突然给出很长的输出,于是 token 花费就一起被拖高。这个方向值得直接构建,因为企业要先有支出控制,才敢真正把 AI 工具铺开。

拿了榜首,却依然保不住基础信任 - 高

Gemini 那组对比图和 Zapier 榜单放在一起,制造出一种很尖锐的挫败模式:同一模型家族,可以一边在某个 benchmark 上拿第一,一边又在公开可见的简单检查里翻车(Gemini 对比图)(860 分,249 条评论),(《Automation Bench》帖子)(249 分,45 条评论)。讨论里即时出现的权宜方案,是切换模式:用更高 thinking 设置,或者换一个产品界面。这对普通用户来说并不令人满意,因为失效模式被藏在默认值后面。

劳动者正在变成非自愿的训练数据 - 高

Meta 裁员那条讨论,把挫败感集中到了同意权和可替代性上,而不只是人数的减少(帖子链接)(623 分,158 条评论)。u/marzbar_14(得分 18)追问:如果人们真的相信这些工作痕迹会被拿去训练将来替代自己的系统,他们会不会开始故意改变自己的工作方式?当前的应对方式,基本只有愤世嫉俗、愤怒,或者搬出“工作产出归属雇主”的法律表述;没有哪条讨论给出过一个真正保护劳动者的可信机制。

开放模型项目依然暴露在平台和商标卡点之下 - 中

Heretic 迁到 Codeberg 的动作说明,即便是一个技术上相当活跃的开放模型项目,也可能因为商标压力被迫更换分发路径(帖子链接)(1922 分,296 条评论)。当前的权宜方案,就是搭镜像基础设施、尽量降低对单一托管方的依赖。这虽然有效,但更像是事后补救,因此也说明,默认就支持多宿主韧性的工具仍有空间。


3. 人们期望的功能

可预测的企业级 AI 成本控制

Claude 预算讨论和 DeepSeek 定价讨论,其实都指向同一个未满足需求:买家希望 AI 支出像一个能被控制的系统,而不是一张突然出现的账单。大家真正想要的,看起来是带硬上限、路由规则和可审计成本归因的使用治理,而不是无上限暴露在 token 消耗面前。机会:直接。

能映射到普通用户可靠性的基准测试

u/FeatureFar8819(得分 18)在 Qwen 3.7 SWE-Bench 那条讨论里说,现在的 benchmark 越来越像 Formula 1 排位成绩,而缺失的信息则是幻觉率、长会话稳定性,以及模型会不会改写太多代码(帖子链接)(45 分,29 条评论)。真正的实际需求,不是再来一张榜,而是一层能告诉用户:在普通聊天、编程和多步工作里,这个模型实际会怎样表现。机会:直接。

能拿到前沿级表现档位的开放权重访问

Qwen 3.7 Max 那条 hype 帖,对 benchmark 拼图的反应很积极,但最高信号评论之一却是 u/Mindless_Pain1860(得分 199)提醒大家:Qwen 从来没把 Max 系列开放权重(帖子链接)(600 分,167 条评论)。人们不只是要更高分;他们还想把这些分数落实到自己真能跑起来的工件上。机会:竞争激烈。

更容易组装和维护的本地优先智能体栈

那条 Qwen3.6 工作流帖子,展示了一位重度用户如何把 Pi、Codex、AnythingLLM、Unsloth Studio 和本地托管拼成一条从音频到网站的完整链路(帖子链接)(354 分,92 条评论)。它隐含出来的需求很明确:人们想要一种更打包的方式拿到同样结果,而不是每一步都自己焊胶水。机会:直接。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
Gemini 3.5 Flash LLM (+/-) 在 Zapier《Automation Bench》上以每任务 $0.87 拿到第一;社区普遍认为它很适合标准化自动化任务 公开聊天截图显示它在标准模式下连算术都会答错;质量高度依赖隐藏的 thinking 设置
Qwen 3.7 Max LLM (+) 分享出来的图表显示,它在终端编程、SWE-bench、MCP、推理和知识任务上都领先 用户怀疑 Max 档位不会开放权重;较小变体未必能复现这些 headline 结果
DeepSeek V4 Pro API 模型 (+) 官方定价文档确认长期低价;社区把它看作一次激进的成本竞争动作 它目前仍主要是 API 消费故事;降价本身并不能消除企业治理需求
Claude Code 编程助手 (+/-) 在 Microsoft 内部被用得够深,深到已经嵌进工作流 按用量计费成了讨论核心抱怨,并据称促成了内部许可回收
Heretic 开放模型工具 (+) 活着的 Codeberg 镜像清楚记录了这个已发布工具:可用 Python、PyTorch 和 Optuna 自动移除审查限制 围绕 Llama 衍生输出的法律压力,迫使仓库和分发方式都要调整
Pi + Qwen3.6-35B-A3B-MTP-GGUF + Unsloth Studio 本地智能体栈 (+) 展示了一条完整的本地工作链:转录、规划、编码、部署,速度约为 100+ tok/s 非常吃硬件、工具很多,而且更像重度用户栈,不是容易默认上手的方案

在这些讨论里,满意度最高的时候,往往是工具对一个狭窄任务贴得很紧:Gemini 负责低成本自动化,Qwen 负责本地重度用户工作流,Heretic 负责一个非常具体的后训练变换,而 DeepSeek 则负责给价格施压。用户最不满意的地方,则集中在不可预测性:token 账单、隐藏的推理模式、法律卡点,以及最强模型档位到底拿不拿得到。最明显的迁移模式,也不再是模型 A 换到模型 B,而是在定价或托管信任开始动摇时,从云依赖转向本地或镜像方案。


5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
Heretic u/-p-e-w- 无需昂贵重训练,就能自动从 transformer 模型里移除安全对齐 / 审查限制 让开放模型用户能以可复现方式生成未审查变体,同时尽量保住能力 Python、PyTorch、Optuna、directional ablation 已发布 帖子, Codeberg
Figure F.03 分拣运行 Figure AI 让人形机器人在类似仓库的任务环境里持续分拣包裹 针对那些耐久性和可重复性比单次炫技更重要的重复包裹处理场景 Figure 人形硬件、Helix AI Beta 帖子
本地 Qwen 落地页工作流 u/mouseofcatofschrodi 用本地智能体把 WhatsApp 音频转成结构化建站与部署流程 让单个用户不依赖托管编程栈,也能在本地跑通小型 Web 项目 Qwen3.6-35B-A3B-MTP-GGUF、Pi、Codex、AnythingLLM、Unsloth Studio、Proxmox 已发布 帖子

Heretic 最突出的地方,在于维护者对法律压力的回应是立刻做产品加固:移除受影响权重、把项目镜像出去,并确保工具在别处继续可用。Figure 这次分拣运行之所以重要,是因为它把“耐久性”当成了产品主张,而不是短时 demo。那条本地 Qwen 工作流则展示了一种最有意思的草根模式:用户正在把多个工具打包成个人智能体栈,让转录、规划、编码和部署连成一条链。


6. 新动态与亮点

Figure 的 200 小时包裹分拣里程碑

Figure AI 这次 200 小时运行,是 Reddit 数据里最强的物理世界部署信号,因为它强调的是持续工作,而不是一段剪好的短视频。对一条机器人帖子来说,Reddit 互动量也异常高,讨论串拿到了 2046 分和 560 条评论(来源)。

DeepSeek 的融资故事,附带了明确的开源信息

DeepSeek 这轮融资之所以值得注意,是因为这笔资本动作同时伴随着一条明确表态:公司不会完全转向只看短期变现的路径。Yahoo Finance / Bloomberg 的转帖称,梁文锋告诉投资人,DeepSeek 会在追求 AGI 的同时继续开发开源模型(来源)。

DeepSeek 把一次临时折扣变成了定价重置

DeepSeek 的定价页明确写着,V4 Pro 的价格会在 2026-05-31 15:59 UTC 那次 75% 促销结束后,下调到原价的四分之一(来源)。这已经不只是一次促销,而是一条公开信号:公司认为有竞争力的 API 定价就应该落在这个位置。

Heretic 的法律通知,变成了一次活生生的迁移信号

Heretic 的维护者并不只是抱怨 Meta 的通知;TA 还记录了 Llama 衍生权重的移除动作,并同步搭起了一个清楚描述工具与安装路径的 Codeberg 镜像(帖子链接)(1922 分,296 条评论),镜像。这让整件事变成了一条运营信号,而不只是姿态表达。


7. 机会在哪里

[+++] 面向按 token 计费工具的 AI 支出治理 —— 来自 Microsoft / Claude 取消讨论串和 DeepSeek 定价讨论的证据都说明,在大规模铺开之前,买家需要预算上限、路由策略、审批和用量归因。

[++] 带可靠性感知的模型选型层 —— Gemini 的算术翻车、Zapier 榜单第一,以及 Qwen 的 benchmark hype,其实都指向同一个缺口:用户需要工具把 leaderboard 上的表现翻译成自己工作流里的真实预期行为。

[++] 面向开放模型生态的韧性分发 —— Heretic 迁往 Codeberg 这件事说明,镜像、替代注册表,以及不依赖单一提供商的发布路径,正在变成开放模型工具价值的一部分。

[+] 打包好的本地智能体工作台 —— 那条 Qwen3.6 工作流帖子说明,人们确实需要把转录、规划、编码、浏览器控制和部署组合起来的本地优先栈,但又不想每个零件都自己装。


8. 要点总结

  1. AI 成本纪律,正在变成产品要求,而不只是财务话题。 Microsoft 据称收回 Claude 访问,DeepSeek 又长期降价,这两件事都说明成本控制已成竞争轴。 (来源)
  2. 用户已经不会只因为 benchmark 赢了就买账。 Gemini 3.5 Flash 一边能在 Zapier 的自动化榜上拿第一,一边又会在默认聊天模式里交出一场尴尬的算术翻车。 (来源)
  3. 开放模型热情,现在和“拿不拿得到”绑得跟能力一样紧。 Qwen 3.7 Max 的 benchmark hype 一出来,大家立刻就开始问:最强那档到底会不会真的开放权重。 (来源)
  4. 冗余,正在变成开源 AI 实践的一部分。 Heretic 遭遇 Meta 法律通知后的第一反应,是移除目标权重、把分发迁到 Codeberg,而不是继续依赖单一宿主。 (来源)
  5. 机器人讨论,正在从炫技动作转向真实工作的耐久性。 Figure AI 那次 200 小时运行之所以重要,是因为它把人形机器人放进了可重复劳动系统的语境,而不只是新奇 demo。 (来源)