Reddit AI - 2026-05-26¶
1. 人们在讨论什么¶
1.1 AI 视频操控的进展,正快过信任防线 (🡕)¶
5 月 26 日 Reddit 上互动量最高的讨论,并不是什么新模型基准或降价消息,而是 AI 辅助视频编辑和视角重建正变得多么逼真,以及这是否会击穿人们对视觉证据的旧有判断。singularity 里两条高赞讨论串推动了这个主题,而且两边的讨论都很快从“哇,这也行”滑向监控、滥用和证据体系崩塌。
u/Able-Line2683 发布了 《The Strength of Gemini Omni is in video manipulation》(3000 分,316 条评论)。原帖本身很短,但评论解释了它为什么会传播开来:u/A_Novelty-Account(得分 502)说,录下来的事件很快可能不再能证明那些事真的发生过;u/MrKvic_(得分 380)则认为,Omni 真正强的地方不是从零生成,而是编辑现有媒体。这个组合之所以重要,是因为它把讨论焦点从“新奇”推向了“完整性”:人们震惊的,不只是画质,而是如今制造可信编辑的成本已经低到什么程度。
u/keemalexis 在 《reconstructing different angles from live footage》 里,把同样的焦虑又推高了一层(1474 分,145 条评论)。帖子介绍的是把平面视频转成空间数据的 4D Gaussian splatting,而回复立刻把它框定成监控或性化滥用场景:u/Happy_Brilliant7827(得分 244)把它类比成 CSI 风格的视角还原;u/CrowdGoesWildWoooo(得分 489)则说,这东西显然会被拿去做“研究”。技术新颖性确实存在,但社区反应说明,公众信任并没有跟上能力曲线。
讨论要点: 评论者真正关心的,并不是哪家实验室先把这项能力做出来,而是当经过编辑或重建的视频变得司空见惯时,会发生什么。大家最主要的担心,不是模型质量,而是媒体素养和“证据”本身都在变弱。
与前日对比: 5 月 25 日已经有很强的多模态“现实冲击”情绪;但到 5 月 26 日,焦点更直接地落在了证据篡改和合成视频操控上,成了公众层面的首要担忧。
1.2 AI ROI 怀疑,正在硬化为预算收缩和机构规则 (🡕)¶
前一天的成本争论并没有消退,反而进入了更具惩罚性的阶段:内部预算正在被砍,失败的自动化案例越积越多,机构也开始写出正式规则,限制不受约束的 AI 使用。贯穿其中的主线是:单靠一句“多用 AI”已经说服不了人,大家现在要的是工作流层面的证据,证明它真的能省钱或提升判断质量。
u/mpuchala 分享了 《Microsoft reports are exposing AI's real cost problem: Using the tech is more expensive than paying human employees》(421 分,93 条评论)。Fortune 称,Microsoft 正在取消大部分直接发放的 Claude Code 许可证,推动团队转向 GitHub Copilot CLI;而 Uber 早已在 4 个月内烧光了 2026 年的 AI 编程工具预算(Fortune;The Verge)。Reddit 上被引用最多的综合判断,来自 u/Zestyclose-Treat-616(得分 40):重试、幻觉审查、工作流集成、人工监督、安全和可靠性工程,都会把账越堆越高,所以更诚实的比较对象,应该是“有 AI 辅助的员工”和“没有 AI 辅助的员工”。
同样的怀疑也出现在实体运营里。u/andrewaltair 发布了 《Starbucks just scrapped their automated inventory AI after only 9 months》(58 分,7 条评论)。Futurism 援引 Reuters 称,这套工具会频繁把牛奶和糖浆瓶等原料数量数错、标签打错,最后 Starbucks 只好弃用它,回到人工盘点(Futurism)。尽管这条 Reddit 帖子的分数不高,但它是样本里最清楚的现实案例之一:一家真实企业在一个看似简单的运营任务上尝试 AI,最后又把它撤了回来。
治理层面的表达也变得更明确了。u/andrewaltair 发布了 《UC Berkeley Law is completely banning AI use starting summer 2026》(291 分,60 条评论);The Decoder 说,这所学校从法律研究之外,几乎全面禁止在头脑风暴、起草、编辑、翻译、校对和考试中使用 AI(The Decoder)。在一条平行但道德语气更强的讨论里,u/andrewaltair 又发了 《Pope Leo XIV just dropped a massive 42,300-word encyclical on AI》(356 分,67 条评论);The Guardian 说,这份通谕呼吁让 AI “解除武装”,警告数据与基础设施权力过度集中,并主张战争场景中的使用必须受到“最严格的伦理约束”(The Guardian)。
讨论要点: Reddit 已经不再把成本抱怨、学校禁令和道德治理语言当成彼此分离的故事。大家开始把它们读成同一种证据:不受控的 AI 采纳,现在正同时遭遇财务、运营、教育和公共伦理层面的反作用力。
与前日对比: 5 月 25 日的中心问题还是“AI 在生产里到底便不便宜”。到 5 月 26 日,这个成本争论仍在继续,但又多了更硬的收缩信号:内部许可证削减、一次失败的库存系统上线回滚、一所法学院的禁令,以及教皇通谕。
1.3 开放式本地栈正围绕控制、文档与边缘部署做专业化分化 (🡕)¶
本地 AI 的讨论仍然很强,但重心已经从泛泛的硬件话题,转向更专业的部署:无审查模型工具、文档抽取、垂直法律工作流,以及小板卡上的多模态推理。最有信号的帖子不再是抽象的开源宣言,而是那些附带模型卡、仓库链接、实测吞吐或明确部署约束的具体构建。
u/-p-e-w- 用 《The Financial Times has published an article about Heretic》 把无审查模型工具带进了更主流的视野(786 分,204 条评论)。帖子引用 FT 称,Heretic 在不到 10 分钟内就移除了 Llama 3.3 的安全护栏,而作者 Philipp Emanuel Weidmann 表示,这个工具已经被用来生成 3,500 多个去审查模型,总下载量达到 1,300 万次。随后,讨论又流向了一个具体工件:u/LLMFan46 发布了 《Qwen3.5 35B A3B uncensored heretic Native MTP Preserved is Out Now With the Full 785 MTPs Preserved and Retained, Available in Safetensors, GGUFs. NVFP4, NVFP4 GGUFs and GPTQ-Int4 Formats》(329 分,63 条评论)。链接的模型卡声称,这个版本相比原版减少了 85% 的拒答,KL divergence 只有 0.0487,而 MMLU 仅从 84.12% 小幅下降到 83.72%(Hugging Face)。
u/Gailenstorm 发布了 《NuExtract3 released: open-weight 4B VLM for Markdown, OCR and structured extraction (self-hostable)》(224 分,51 条评论)。帖子称,这个模型面向 PDF、收据、表单、表格和多页文档;模型卡则补充了一个结构化基准测试:NuExtract3.4_4B-RL 得分 0.651,而 gemma-4-E4B-it 为 0.538,并且采用 Apache-2.0 许可,最低可压到 4 GB VRAM 运行(Hugging Face)。最实用的回复来自 u/Bubulela(得分 7),他们说自己想把 Gemini Flash 3 替掉,因为“成本累起来其实很快”,这也把构建者叙事又拉回了当天的成本主题。
u/TumbleweedNew6515 在 《Update on 12x32gb sxm v100 cluster / local AI for legal drafting》 里写出了当天最密集的一篇部署说明(296 分,96 条评论)。帖子说,这套栈已经放弃 vLLM,转向 llama.cpp,因为在 Volta 上跑 MoE GGUF,只有这样才能拿到可用速度;随后又给出真实起草提示词下的大致 decode 速度:Gemma-4-26B-A4B 约 113 tok/s,Qwen3.6-35B-A3B 约 82 tok/s,Qwen3.5-122B-A10B 约 50 tok/s。另一个规模更小但同样具体的边缘部署版本,则来自 u/Known_Ice9380 的 《Wrote a custom C++ engine for MiniCPM-V 4.6 on Orange Pi AIPro (Ascend 310B) to bypass framework overhead》(39 分,5 条评论):仓库说明说,这套从零写起的 C++/AscendC 引擎把 decode 速度从 2.88 tokens/s 提高到了 5.90 tokens/s,同时让文本和视觉都留在 NPU 的热路径上(GitHub)。

同样的优化心态,也出现在 u/Simple_Library_2700 的 《1000 tps generation on Qwen3.6 27B with V100s》(224 分,74 条评论)里:附带的 benchmark 表显示,qwen3.6-27b-awq 的提示处理总吞吐达到了 1322.72 tokens/s,峰值为 1562 token。在更小模型这条支线上,u/kevinlch 又带出了 《MiniCPM5-1B》(112 分,26 条评论);模型卡称,它有 1.08B 参数、679.6M 非 embedding 参数,以及 131,072 的上下文长度,而 u/jake_that_dude(得分 15)认为,这组组合更适合拿来做廉价的本地工具路由器,而不是聊天机器人(Hugging Face)。

讨论要点: 这些帖子背后的共同诉求都是控制:控制拒答、控制部署成本、控制文档工作流,以及控制从硬件到运行时的整条路径。本地 AI 正越来越少地被当作爱好者分类,越来越多地被当成逃离定价、策略或基础设施约束的办法。
与前日对比: 5 月 25 日的重点是硬件偏好、AMD 运行时和本地拒答策略绕行方案。到了 5 月 26 日,控制这个主题仍在,但已经深入到更专门的工件:去审查工具、文档 VLM、法律起草栈,以及 200 美元以下的边缘部署。
2. 令人困扰的问题¶
AI 成本说法,一再通不过整条工作流的检验¶
严重程度:高。5 月 26 日最强的挫败感,并不是“模型单看太贵”,而是组织仍然无法预测,一条 AI 工作流把重试、审查、集成和失败部署都算进去之后,到底要花多少钱。在 Microsoft/Uber 那条讨论里,u/Zestyclose-Treat-616(得分 40)说,更诚实的比较对象是“有 AI 辅助的员工”和“没有 AI 辅助的员工”,因为重试、幻觉审查、安全和可靠性工作在生产环境里都会不断叠加(帖子)(421 分,93 条评论)。Fortune 还补充称,Uber 在 4 个月内就耗尽了 2026 年的 AI 编程工具预算,而 Microsoft 正在取消大部分 Claude Code 许可证,统一转向 Copilot CLI(Fortune)。Starbucks 则提供了现实世界里的明确失败:有 Reuters 背书的报道说,它的库存 AI 会反复把瓶装原料数错,因此在 9 个月后被下线(帖子)(58 分,7 条评论);(Futurism)。人们现在要么把 AI 限制在辅助角色,要么把任务迁到自己能更精细计量的本地栈里。这值得有人去做,因为这种痛点横跨开发工具、智能体和现实世界自动化。
当媒体和智能体不再可检查,信任就会断裂¶
严重程度:高。当天最强烈的情绪,来自那些觉得自己正在失去“核验能力”的人:他们既无法确认眼前看到的内容,也无法确认智能体到底做过什么。在 Gemini Omni 那条帖子里,u/A_Novelty-Account(得分 502)说,录下来的事件可能已经不能再当证据;u/Enrico_Tortellini(得分 189)则认为,薄弱的媒体素养会让有说服力的合成内容格外危险(帖子)(3000 分,316 条评论)。同样的信任问题也出现在智能体设计里:u/RonnySaya 认为,用户必须知道智能体点了什么、提交了什么、重试了什么、跳过了什么;u/Born-Exercise-2932(得分 2)则说,审计轨迹才是让失败复盘和人机交接成为可能的前提(《AI agents need audit trails more than they need more autonomy》)(37 分,35 条评论)。大家想要的是核验层,而不只是更好的输出。这值得有人去做,因为真正的失效模式是“隐藏错误”,不只是糟糕体验。
开放式本地栈仍带着沉重的搭建与运行时税负¶
严重程度:中。构建者确实在持续推进,但操作者负担依然肉眼可见。u/weilding 说,一个开源智能体承诺的“5 分钟上手”,最后却变成了一个晚上都在折腾 YAML、环境变量和 skill markdown 文件(《is anyone else frustrated with how much config open source AI agents need?》)(10 分,23 条评论)。即便在那些偏正面的构建者帖子里,保留意见也都是操作层面的:NuExtract3 用户讨论了 vLLM 的 weight-key 问题和配置不匹配,而法律起草集群那条帖子则明确说,vLLM 在 Volta 上对作者想要的 MoE GGUF 工作流来说是一条死路,最终不得不迁移到 llama.cpp(NuExtract3 讨论串)(224 分,51 条评论);(法律起草讨论串)(296 分,96 条评论)。人们现在的应对方式,是把场景做得更专、更窄,并把自己的硬件路径详细写出来。这仍值得有人去做,因为受众的动机很强,但太多工作还停留在替基础设施当保姆。
3. 人们期望的功能¶
能展示每一步操作、重试与交接的智能体系统¶
这是样本里最明确的显性需求。u/RonnySaya 在 《AI agents need audit trails more than they need more autonomy》 里要求,智能体要把每一次点击、提交、重试和停止条件都暴露出来(37 分,35 条评论);u/Born-Exercise-2932(得分 2)还补充,审计轨迹之所以重要,是因为它能在人工和智能体交接时保住上下文。这是一项直接机会,而不是愿景型诉求:痛点发生在运营环节,请求的功能也非常具体,而且信任缺口已经开始阻塞采纳。
能替代付费云 OCR 的低成本私有文档抽取¶
NuExtract3 那条讨论串既是发布帖,也是需求信号。u/Bubulela(得分 7)说,他们正在尝试把 Gemini Flash 3 换掉,因为“成本累起来其实很快”;其他回复则在追问,现实工作流里的书籍扫描、多栏排版和密集表格到底能不能处理(帖子)(224 分,51 条评论)。由于市场上已经存在一些替代方案,这更像一项竞争性机会,而不是一片完全空白的市场;但人们反复强调自托管、低 VRAM 和结构化抽取,说明更便宜的私有管线确实存在需求。
不要以配置马拉松开局的开源智能体栈¶
这里的需求非常朴素,但也非常现实。u/weilding 在 《is anyone else frustrated with how much config open source AI agents need?》 里说,他们为了让一个基础智能体跑起来,光是 YAML、env vars 和 skill markdown 就折腾了好几个小时(10 分,23 条评论)。这是一项直接机会,适合做包装器、安装器和带明确主张的默认配置;不过它也很可能竞争激烈,因为很多团队都能看到同样的摩擦点。
4. 使用中的工具与方法¶
| 工具 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| Claude Code | 编程 CLI | (+) | 在 Microsoft 内部很受欢迎;好用到开发者在内部比较期里更偏向它(The Verge) | 许可证成本成了预算问题;Microsoft 正在取消大部分直接授权 |
| GitHub Copilot CLI | 编程 CLI | (+/-) | Microsoft 表示,它可以按自家代码库、工作流和安全预期来塑形(The Verge) | 内部用户仍认为它落后于 Claude Code,这也是这次切换会引发争议的原因 |
llama.cpp |
推理运行时 | (+) | 让法律起草构建者能在 V100 硬件上跑 MoE GGUF,并修复一个 Gemma chat-parser 问题(法律起草讨论串)(296 分,96 条评论) | 同一套硬件上,稠密模型对作者想要的工作流来说仍然太慢 |
| vLLM | 推理运行时 | (+/-) | 是熟悉的服务路径,也是 NuExtract3 benchmark 所用运行时 | 在 Volta 上,它被描述成目标 MoE GGUF 配置的死路;NuExtract3 用户也报告了 weight-key 和配置摩擦 |
| NuExtract3 | 文档 VLM / OCR | (+) | Apache-2.0、支持 Markdown + JSON 抽取、在多款小模型上 benchmark 领先,最低 4 GB VRAM 即可运行(Hugging Face) | 用户仍在追问复杂版式、学术论文和运行时怪癖 |
| MiniCPM-V 4.6 | 多模态 VLM | (+) | 通过定制的 NPU-first C++ 引擎运行在 Orange Pi AIPro 上,不走 torch_npu 热路径(GitHub) |
需要定制 kernel、Ascend 工具链,以及单 batch 贪心解码假设 |
| Heretic | 模型编辑工具 | (+/-) | 能快速移除 guardrails,本地模型社区里也明显有需求(Heretic 讨论串)(786 分,204 条评论) | 主流媒体审视、下架风险和法律压力,如今都成了实际运行环境的一部分 |
| Qwen3.5/Qwen3.6 MoE variants | 本地 LLM | (+) | 在老旧 V100 硬件上也足够快,适合起草与批量服务;而且格式选择很多 | 命名、量化和运行时选择都很混乱,最佳路径高度依赖具体用例 |
| Gemini Flash 3 | 云模型 / OCR 替代 | (+/-) | 用户表示,它在文档工作流里效果不错 | 又反复被点名为贵到足以促使人迁移到本地模型 |
整体满意度是否定价与控制共同塑造出来的。云工具在顺利运行时仍会被称赞,但最响亮的迁移信号,都指向远离不透明账单、转向那些用户能自己调优或自托管的栈。最清晰的运行时迁移,是在 Volta 时代的 MoE 工作流里从 vLLM 转向 llama.cpp;最清晰的组织层迁移,是在预算压力下从 Claude Code 转向 Copilot CLI;而最清晰的产品替代叙事,则是从 Gemini Flash 3 迁向自托管文档抽取。
5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 阶段 | 链接 |
|---|---|---|---|---|---|---|
| NuExtract3 | u/Gailenstorm | 开放权重 4B 文档 VLM,用于 Markdown 转换和结构化抽取 | 降低对付费 OCR / 文档 API 的依赖,适用于表单、收据、表格和扫描件 | Qwen3.5-4B base、Apache-2.0、GGUF、MLX、GPTQ、W8A8、FP8、vLLM、SGLang、llama.cpp |
已发布 | 帖子, 模型 |
| MiniCPM-V 4.6 Orange Pi engine | u/Known_Ice9380 | 面向 Orange Pi AIPro 20T 的从零编写 C++ 多模态推理引擎 | 避开 Ascend 边缘硬件上的框架开销 | C++、AscendC、Gradio、MiniCPM-V 4.6、Orange Pi AIPro 20T | Alpha | 帖子, 仓库 |
| Local legal-drafting cluster | u/TumbleweedNew6515 | 面向法律工作的多模型协同起草与审查工作流 | 让长上下文法律起草在本地运行的同时,仍保持可用吞吐 | llama.cpp、Claude Code orchestration、Gemma-4-26B-A4B、Qwen3.6-35B-A3B、Qwen3.5-122B-A10B、V100 和 3090 服务器 |
Beta | 帖子 |
| Heretic | u/-p-e-w- | 用于移除模型 guardrails 的工具 | 让本地用户更可控地处理拒答行为 | Heretic、GitHub 分发、MPOA 风格模型编辑 | 已发布 | 帖子, 仓库 |
| Qwen3.5 35B A3B uncensored Heretic release | u/LLMFan46 | 以多种格式打包并给出 benchmark 的无审查版本 | 在不强绑单一运行时的前提下,提供通用型本地无审查助手 | Heretic、Safetensors、GGUF、NVFP4、GPTQ-Int4 | 已发布 | 帖子, 模型 |
最强的重复构建模式,并不是什么“通用 AI app”,而是高度收束的基础设施。构建者要么在从某条工作流里剪掉持续性的云成本,要么在重新夺回对拒答的控制,要么逼着自己已经买下来的硬件去承担真正有用的本地任务。法律起草栈和 Orange Pi 引擎尤其值得注意,因为它们都不是泛泛而谈的“本地 AI”,而是对基础设施摩擦的高度具体回应:前者用 MoE + 路由去解决 Volta 时代的吞吐瓶颈,后者则干脆绕开重量级框架,让廉价边缘多模态推理变得可行。
6. 新动态与亮点¶
无审查模型工具进入了主流媒体视野¶
Heretic 原本就已经是 LocalLLaMA 里的活跃话题,但 5 月 26 日让它明显变得更公开。u/-p-e-w- 说,Financial Times 测试了 Meta 的 Llama 3.3 版本 Heretic,并引用了“3,500+ 个去审查模型、1,300 万下载量”的采用数字(《The Financial Times has published an article about Heretic》)(786 分,204 条评论)。它的重要性不只在工具本身,更在于:过去更像圈内争论的“如何移除拒答”,如今开始被主流媒体当成政策和平台问题来讨论。
AI 治理论争,已经开始由科技圈外的机构来书写¶
5 月 26 日的另一个突出点,是发声者的范围明显扩大。UC Berkeley Law 几乎全面禁止在计分作业中使用 AI,除非是研究场景(帖子)(291 分,60 条评论);而 Pope Leo XIV 的通谕则呼吁让 AI “解除武装”,并接受严格的伦理限制(帖子)(356 分,67 条评论)。这组组合很重要,因为它说明,治理压力已经不再只来自监管者、实验室或记者。
7. 机会在哪里¶
[+++] 真实工作流的 AI 成本核算 —— 多个章节都指向同一个缺口:Microsoft 和 Uber 都在为按量计费的编程账单头疼,Starbucks 因为现实错误回滚了库存系统,而评论者一再区分“便宜 token”和“便宜工作流”完全不是一回事。这个机会很强,因为痛点已经昂贵,而且横跨多个场景。
[++] 智能体审计性与回放能力 —— 用户想知道智能体点了什么、提交了什么、重试了什么、交接了什么。这个需求既出现在合成媒体引发的信任危机里,也出现在那条明确要求审计轨迹的帖子里,因此属于一个中等强度、但产品形态非常清晰的机会。
[+] 小硬件上的私有文档抽取 —— NuExtract3、MiniCPM-V 的边缘部署,以及对 MiniCPM5-1B 的兴趣,都说明大家想要便宜的本地文档处理和工具路由工作流。它仍是新兴机会,因为市场里已经有活跃构建者,但围绕成本、OCR 质量和更简单部署的反复提问,说明更好的产品仍有空间。
8. 要点总结¶
- 今天公众对 AI 最大的焦虑,不是失业或 AGI,而是编辑和重建后的视频还值不值得信。 这类担忧推动了当天互动量最高的帖子,也主导了围绕 Gemini Omni 和 4D 重建的讨论。 (来源)
- ROI 叙事已经从抽象定价,转向具体回滚和收缩。 大家讨论 Microsoft 和 Uber 时,谈的是预算超支;而 Starbucks 则给出了一个非常清楚的例子:一套 AI 自动化因为连常规任务都做不好而被撤掉。 (来源)
- 本地 AI 越来越关乎控制,而不是意识形态。 留下来的构建者帖子,核心都在于躲开云账单、绕开 guardrails、把模型塞进已有硬件,或者让法律起草、文档 OCR 这类领域工作流真的跑起来。 (来源)
- 治理压力正在从监管者和实验室之外继续外扩。 一所法学院的禁令和一篇教皇通谕出现在同一天,这让 Reddit 获得了异常具体的证据:AI 边界现在已经在教育和公共伦理场景里被正面讨论,而不只是在产品团队里。 (来源)