Reddit AI - 2026-05-26¶

1. 人们在讨论什么¶

1.1 AI 视频操控的进展，正快过信任防线 (🡕)¶

5 月 26 日 Reddit 上互动量最高的讨论，并不是什么新模型基准或降价消息，而是 AI 辅助视频编辑和视角重建正变得多么逼真，以及这是否会击穿人们对视觉证据的旧有判断。singularity 里两条高赞讨论串推动了这个主题，而且两边的讨论都很快从“哇，这也行”滑向监控、滥用和证据体系崩塌。

u/Able-Line2683 发布了《The Strength of Gemini Omni is in video manipulation》（3000 分，316 条评论）。原帖本身很短，但评论解释了它为什么会传播开来：u/A_Novelty-Account（得分 502）说，录下来的事件很快可能不再能证明那些事真的发生过；u/MrKvic_（得分 380）则认为，Omni 真正强的地方不是从零生成，而是编辑现有媒体。这个组合之所以重要，是因为它把讨论焦点从“新奇”推向了“完整性”：人们震惊的，不只是画质，而是如今制造可信编辑的成本已经低到什么程度。

u/keemalexis 在《reconstructing different angles from live footage》里，把同样的焦虑又推高了一层（1474 分，145 条评论）。帖子介绍的是把平面视频转成空间数据的 4D Gaussian splatting，而回复立刻把它框定成监控或性化滥用场景：u/Happy_Brilliant7827（得分 244）把它类比成 CSI 风格的视角还原；u/CrowdGoesWildWoooo（得分 489）则说，这东西显然会被拿去做“研究”。技术新颖性确实存在，但社区反应说明，公众信任并没有跟上能力曲线。

讨论要点： 评论者真正关心的，并不是哪家实验室先把这项能力做出来，而是当经过编辑或重建的视频变得司空见惯时，会发生什么。大家最主要的担心，不是模型质量，而是媒体素养和“证据”本身都在变弱。

与前日对比： 5 月 25 日已经有很强的多模态“现实冲击”情绪；但到 5 月 26 日，焦点更直接地落在了证据篡改和合成视频操控上，成了公众层面的首要担忧。

1.2 AI ROI 怀疑，正在硬化为预算收缩和机构规则 (🡕)¶

前一天的成本争论并没有消退，反而进入了更具惩罚性的阶段：内部预算正在被砍，失败的自动化案例越积越多，机构也开始写出正式规则，限制不受约束的 AI 使用。贯穿其中的主线是：单靠一句“多用 AI”已经说服不了人，大家现在要的是工作流层面的证据，证明它真的能省钱或提升判断质量。

u/mpuchala 分享了《Microsoft reports are exposing AI's real cost problem: Using the tech is more expensive than paying human employees》（421 分，93 条评论）。Fortune 称，Microsoft 正在取消大部分直接发放的 Claude Code 许可证，推动团队转向 GitHub Copilot CLI；而 Uber 早已在 4 个月内烧光了 2026 年的 AI 编程工具预算（Fortune；The Verge）。Reddit 上被引用最多的综合判断，来自 u/Zestyclose-Treat-616（得分 40）：重试、幻觉审查、工作流集成、人工监督、安全和可靠性工程，都会把账越堆越高，所以更诚实的比较对象，应该是“有 AI 辅助的员工”和“没有 AI 辅助的员工”。

同样的怀疑也出现在实体运营里。u/andrewaltair 发布了《Starbucks just scrapped their automated inventory AI after only 9 months》（58 分，7 条评论）。Futurism 援引 Reuters 称，这套工具会频繁把牛奶和糖浆瓶等原料数量数错、标签打错，最后 Starbucks 只好弃用它，回到人工盘点（Futurism）。尽管这条 Reddit 帖子的分数不高，但它是样本里最清楚的现实案例之一：一家真实企业在一个看似简单的运营任务上尝试 AI，最后又把它撤了回来。

治理层面的表达也变得更明确了。u/andrewaltair 发布了《UC Berkeley Law is completely banning AI use starting summer 2026》（291 分，60 条评论）；The Decoder 说，这所学校从法律研究之外，几乎全面禁止在头脑风暴、起草、编辑、翻译、校对和考试中使用 AI（The Decoder）。在一条平行但道德语气更强的讨论里，u/andrewaltair 又发了《Pope Leo XIV just dropped a massive 42,300-word encyclical on AI》（356 分，67 条评论）；The Guardian 说，这份通谕呼吁让 AI “解除武装”，警告数据与基础设施权力过度集中，并主张战争场景中的使用必须受到“最严格的伦理约束”（The Guardian）。

讨论要点： Reddit 已经不再把成本抱怨、学校禁令和道德治理语言当成彼此分离的故事。大家开始把它们读成同一种证据：不受控的 AI 采纳，现在正同时遭遇财务、运营、教育和公共伦理层面的反作用力。

与前日对比： 5 月 25 日的中心问题还是“AI 在生产里到底便不便宜”。到 5 月 26 日，这个成本争论仍在继续，但又多了更硬的收缩信号：内部许可证削减、一次失败的库存系统上线回滚、一所法学院的禁令，以及教皇通谕。

1.3 开放式本地栈正围绕控制、文档与边缘部署做专业化分化 (🡕)¶

本地 AI 的讨论仍然很强，但重心已经从泛泛的硬件话题，转向更专业的部署：无审查模型工具、文档抽取、垂直法律工作流，以及小板卡上的多模态推理。最有信号的帖子不再是抽象的开源宣言，而是那些附带模型卡、仓库链接、实测吞吐或明确部署约束的具体构建。

u/-p-e-w- 用《The Financial Times has published an article about Heretic》把无审查模型工具带进了更主流的视野（786 分，204 条评论）。帖子引用 FT 称，Heretic 在不到 10 分钟内就移除了 Llama 3.3 的安全护栏，而作者 Philipp Emanuel Weidmann 表示，这个工具已经被用来生成 3,500 多个去审查模型，总下载量达到 1,300 万次。随后，讨论又流向了一个具体工件：u/LLMFan46 发布了《Qwen3.5 35B A3B uncensored heretic Native MTP Preserved is Out Now With the Full 785 MTPs Preserved and Retained, Available in Safetensors, GGUFs. NVFP4, NVFP4 GGUFs and GPTQ-Int4 Formats》（329 分，63 条评论）。链接的模型卡声称，这个版本相比原版减少了 85% 的拒答，KL divergence 只有 0.0487，而 MMLU 仅从 84.12% 小幅下降到 83.72%（Hugging Face）。

u/Gailenstorm 发布了《NuExtract3 released: open-weight 4B VLM for Markdown, OCR and structured extraction (self-hostable)》（224 分，51 条评论）。帖子称，这个模型面向 PDF、收据、表单、表格和多页文档；模型卡则补充了一个结构化基准测试：NuExtract3.4_4B-RL 得分 0.651，而 gemma-4-E4B-it 为 0.538，并且采用 Apache-2.0 许可，最低可压到 4 GB VRAM 运行（Hugging Face）。最实用的回复来自 u/Bubulela（得分 7），他们说自己想把 Gemini Flash 3 替掉，因为“成本累起来其实很快”，这也把构建者叙事又拉回了当天的成本主题。

u/TumbleweedNew6515 在《Update on 12x32gb sxm v100 cluster / local AI for legal drafting》里写出了当天最密集的一篇部署说明（296 分，96 条评论）。帖子说，这套栈已经放弃 vLLM，转向 llama.cpp，因为在 Volta 上跑 MoE GGUF，只有这样才能拿到可用速度；随后又给出真实起草提示词下的大致 decode 速度：Gemma-4-26B-A4B 约 113 tok/s，Qwen3.6-35B-A3B 约 82 tok/s，Qwen3.5-122B-A10B 约 50 tok/s。另一个规模更小但同样具体的边缘部署版本，则来自 u/Known_Ice9380 的《Wrote a custom C++ engine for MiniCPM-V 4.6 on Orange Pi AIPro (Ascend 310B) to bypass framework overhead》（39 分，5 条评论）：仓库说明说，这套从零写起的 C++/AscendC 引擎把 decode 速度从 2.88 tokens/s 提高到了 5.90 tokens/s，同时让文本和视觉都留在 NPU 的热路径上（GitHub）。

V100 上 Qwen3.6 27B 运行的 benchmark 表，显示提示处理总吞吐为 1322.72 tokens/s，峰值达到 1562 token

同样的优化心态，也出现在 u/Simple_Library_2700 的《1000 tps generation on Qwen3.6 27B with V100s》（224 分，74 条评论）里：附带的 benchmark 表显示，qwen3.6-27b-awq 的提示处理总吞吐达到了 1322.72 tokens/s，峰值为 1562 token。在更小模型这条支线上，u/kevinlch 又带出了《MiniCPM5-1B》（112 分，26 条评论）；模型卡称，它有 1.08B 参数、679.6M 非 embedding 参数，以及 131,072 的上下文长度，而 u/jake_that_dude（得分 15）认为，这组组合更适合拿来做廉价的本地工具路由器，而不是聊天机器人（Hugging Face）。

Orange Pi AIPro 上的 MiniCPM-V 4.6 聊天截图，显示定制引擎正在文档图片上回答问题，decode 速度约为每秒 5.98 个 token

讨论要点： 这些帖子背后的共同诉求都是控制：控制拒答、控制部署成本、控制文档工作流，以及控制从硬件到运行时的整条路径。本地 AI 正越来越少地被当作爱好者分类，越来越多地被当成逃离定价、策略或基础设施约束的办法。

与前日对比： 5 月 25 日的重点是硬件偏好、AMD 运行时和本地拒答策略绕行方案。到了 5 月 26 日，控制这个主题仍在，但已经深入到更专门的工件：去审查工具、文档 VLM、法律起草栈，以及 200 美元以下的边缘部署。

2. 令人困扰的问题¶

AI 成本说法，一再通不过整条工作流的检验¶

严重程度：高。5 月 26 日最强的挫败感，并不是“模型单看太贵”，而是组织仍然无法预测，一条 AI 工作流把重试、审查、集成和失败部署都算进去之后，到底要花多少钱。在 Microsoft/Uber 那条讨论里，u/Zestyclose-Treat-616（得分 40）说，更诚实的比较对象是“有 AI 辅助的员工”和“没有 AI 辅助的员工”，因为重试、幻觉审查、安全和可靠性工作在生产环境里都会不断叠加（帖子）（421 分，93 条评论）。Fortune 还补充称，Uber 在 4 个月内就耗尽了 2026 年的 AI 编程工具预算，而 Microsoft 正在取消大部分 Claude Code 许可证，统一转向 Copilot CLI（Fortune）。Starbucks 则提供了现实世界里的明确失败：有 Reuters 背书的报道说，它的库存 AI 会反复把瓶装原料数错，因此在 9 个月后被下线（帖子）（58 分，7 条评论）；（Futurism）。人们现在要么把 AI 限制在辅助角色，要么把任务迁到自己能更精细计量的本地栈里。这值得有人去做，因为这种痛点横跨开发工具、智能体和现实世界自动化。

当媒体和智能体不再可检查，信任就会断裂¶

严重程度：高。当天最强烈的情绪，来自那些觉得自己正在失去“核验能力”的人：他们既无法确认眼前看到的内容，也无法确认智能体到底做过什么。在 Gemini Omni 那条帖子里，u/A_Novelty-Account（得分 502）说，录下来的事件可能已经不能再当证据；u/Enrico_Tortellini（得分 189）则认为，薄弱的媒体素养会让有说服力的合成内容格外危险（帖子）（3000 分，316 条评论）。同样的信任问题也出现在智能体设计里：u/RonnySaya 认为，用户必须知道智能体点了什么、提交了什么、重试了什么、跳过了什么；u/Born-Exercise-2932（得分 2）则说，审计轨迹才是让失败复盘和人机交接成为可能的前提（《AI agents need audit trails more than they need more autonomy》）（37 分，35 条评论）。大家想要的是核验层，而不只是更好的输出。这值得有人去做，因为真正的失效模式是“隐藏错误”，不只是糟糕体验。

开放式本地栈仍带着沉重的搭建与运行时税负¶

严重程度：中。构建者确实在持续推进，但操作者负担依然肉眼可见。u/weilding 说，一个开源智能体承诺的“5 分钟上手”，最后却变成了一个晚上都在折腾 YAML、环境变量和 skill markdown 文件（《is anyone else frustrated with how much config open source AI agents need?》）（10 分，23 条评论）。即便在那些偏正面的构建者帖子里，保留意见也都是操作层面的：NuExtract3 用户讨论了 vLLM 的 weight-key 问题和配置不匹配，而法律起草集群那条帖子则明确说，vLLM 在 Volta 上对作者想要的 MoE GGUF 工作流来说是一条死路，最终不得不迁移到 llama.cpp（NuExtract3 讨论串）（224 分，51 条评论）；（法律起草讨论串）（296 分，96 条评论）。人们现在的应对方式，是把场景做得更专、更窄，并把自己的硬件路径详细写出来。这仍值得有人去做，因为受众的动机很强，但太多工作还停留在替基础设施当保姆。

3. 人们期望的功能¶

能展示每一步操作、重试与交接的智能体系统¶

这是样本里最明确的显性需求。u/RonnySaya 在《AI agents need audit trails more than they need more autonomy》里要求，智能体要把每一次点击、提交、重试和停止条件都暴露出来（37 分，35 条评论）；u/Born-Exercise-2932（得分 2）还补充，审计轨迹之所以重要，是因为它能在人工和智能体交接时保住上下文。这是一项直接机会，而不是愿景型诉求：痛点发生在运营环节，请求的功能也非常具体，而且信任缺口已经开始阻塞采纳。

能替代付费云 OCR 的低成本私有文档抽取¶

NuExtract3 那条讨论串既是发布帖，也是需求信号。u/Bubulela（得分 7）说，他们正在尝试把 Gemini Flash 3 换掉，因为“成本累起来其实很快”；其他回复则在追问，现实工作流里的书籍扫描、多栏排版和密集表格到底能不能处理（帖子）（224 分，51 条评论）。由于市场上已经存在一些替代方案，这更像一项竞争性机会，而不是一片完全空白的市场；但人们反复强调自托管、低 VRAM 和结构化抽取，说明更便宜的私有管线确实存在需求。

不要以配置马拉松开局的开源智能体栈¶

这里的需求非常朴素，但也非常现实。u/weilding 在《is anyone else frustrated with how much config open source AI agents need?》里说，他们为了让一个基础智能体跑起来，光是 YAML、env vars 和 skill markdown 就折腾了好几个小时（10 分，23 条评论）。这是一项直接机会，适合做包装器、安装器和带明确主张的默认配置；不过它也很可能竞争激烈，因为很多团队都能看到同样的摩擦点。

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
Claude Code	编程 CLI	(+)	在 Microsoft 内部很受欢迎；好用到开发者在内部比较期里更偏向它（The Verge）	许可证成本成了预算问题；Microsoft 正在取消大部分直接授权
GitHub Copilot CLI	编程 CLI	(+/-)	Microsoft 表示，它可以按自家代码库、工作流和安全预期来塑形（The Verge）	内部用户仍认为它落后于 Claude Code，这也是这次切换会引发争议的原因
`llama.cpp`	推理运行时	(+)	让法律起草构建者能在 V100 硬件上跑 MoE GGUF，并修复一个 Gemma chat-parser 问题（法律起草讨论串）（296 分，96 条评论）	同一套硬件上，稠密模型对作者想要的工作流来说仍然太慢
vLLM	推理运行时	(+/-)	是熟悉的服务路径，也是 NuExtract3 benchmark 所用运行时	在 Volta 上，它被描述成目标 MoE GGUF 配置的死路；NuExtract3 用户也报告了 weight-key 和配置摩擦
NuExtract3	文档 VLM / OCR	(+)	Apache-2.0、支持 Markdown + JSON 抽取、在多款小模型上 benchmark 领先，最低 4 GB VRAM 即可运行（Hugging Face）	用户仍在追问复杂版式、学术论文和运行时怪癖
MiniCPM-V 4.6	多模态 VLM	(+)	通过定制的 NPU-first C++ 引擎运行在 Orange Pi AIPro 上，不走 `torch_npu` 热路径（GitHub）	需要定制 kernel、Ascend 工具链，以及单 batch 贪心解码假设
Heretic	模型编辑工具	(+/-)	能快速移除 guardrails，本地模型社区里也明显有需求（Heretic 讨论串）（786 分，204 条评论）	主流媒体审视、下架风险和法律压力，如今都成了实际运行环境的一部分
Qwen3.5/Qwen3.6 MoE variants	本地 LLM	(+)	在老旧 V100 硬件上也足够快，适合起草与批量服务；而且格式选择很多	命名、量化和运行时选择都很混乱，最佳路径高度依赖具体用例
Gemini Flash 3	云模型 / OCR 替代	(+/-)	用户表示，它在文档工作流里效果不错	又反复被点名为贵到足以促使人迁移到本地模型

整体满意度是否定价与控制共同塑造出来的。云工具在顺利运行时仍会被称赞，但最响亮的迁移信号，都指向远离不透明账单、转向那些用户能自己调优或自托管的栈。最清晰的运行时迁移，是在 Volta 时代的 MoE 工作流里从 vLLM 转向 llama.cpp；最清晰的组织层迁移，是在预算压力下从 Claude Code 转向 Copilot CLI；而最清晰的产品替代叙事，则是从 Gemini Flash 3 迁向自托管文档抽取。

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
NuExtract3	u/Gailenstorm	开放权重 4B 文档 VLM，用于 Markdown 转换和结构化抽取	降低对付费 OCR / 文档 API 的依赖，适用于表单、收据、表格和扫描件	Qwen3.5-4B base、Apache-2.0、GGUF、MLX、GPTQ、W8A8、FP8、vLLM、SGLang、`llama.cpp`	已发布	帖子, 模型
MiniCPM-V 4.6 Orange Pi engine	u/Known_Ice9380	面向 Orange Pi AIPro 20T 的从零编写 C++ 多模态推理引擎	避开 Ascend 边缘硬件上的框架开销	C++、AscendC、Gradio、MiniCPM-V 4.6、Orange Pi AIPro 20T	Alpha	帖子, 仓库
Local legal-drafting cluster	u/TumbleweedNew6515	面向法律工作的多模型协同起草与审查工作流	让长上下文法律起草在本地运行的同时，仍保持可用吞吐	`llama.cpp`、Claude Code orchestration、Gemma-4-26B-A4B、Qwen3.6-35B-A3B、Qwen3.5-122B-A10B、V100 和 3090 服务器	Beta	帖子
Heretic	u/-p-e-w-	用于移除模型 guardrails 的工具	让本地用户更可控地处理拒答行为	Heretic、GitHub 分发、MPOA 风格模型编辑	已发布	帖子, 仓库
Qwen3.5 35B A3B uncensored Heretic release	u/LLMFan46	以多种格式打包并给出 benchmark 的无审查版本	在不强绑单一运行时的前提下，提供通用型本地无审查助手	Heretic、Safetensors、GGUF、NVFP4、GPTQ-Int4	已发布	帖子, 模型

最强的重复构建模式，并不是什么“通用 AI app”，而是高度收束的基础设施。构建者要么在从某条工作流里剪掉持续性的云成本，要么在重新夺回对拒答的控制，要么逼着自己已经买下来的硬件去承担真正有用的本地任务。法律起草栈和 Orange Pi 引擎尤其值得注意，因为它们都不是泛泛而谈的“本地 AI”，而是对基础设施摩擦的高度具体回应：前者用 MoE + 路由去解决 Volta 时代的吞吐瓶颈，后者则干脆绕开重量级框架，让廉价边缘多模态推理变得可行。

6. 新动态与亮点¶

无审查模型工具进入了主流媒体视野¶

Heretic 原本就已经是 LocalLLaMA 里的活跃话题，但 5 月 26 日让它明显变得更公开。u/-p-e-w- 说，Financial Times 测试了 Meta 的 Llama 3.3 版本 Heretic，并引用了“3,500+ 个去审查模型、1,300 万下载量”的采用数字（《The Financial Times has published an article about Heretic》）（786 分，204 条评论）。它的重要性不只在工具本身，更在于：过去更像圈内争论的“如何移除拒答”，如今开始被主流媒体当成政策和平台问题来讨论。

AI 治理论争，已经开始由科技圈外的机构来书写¶

5 月 26 日的另一个突出点，是发声者的范围明显扩大。UC Berkeley Law 几乎全面禁止在计分作业中使用 AI，除非是研究场景（帖子）（291 分，60 条评论）；而 Pope Leo XIV 的通谕则呼吁让 AI “解除武装”，并接受严格的伦理限制（帖子）（356 分，67 条评论）。这组组合很重要，因为它说明，治理压力已经不再只来自监管者、实验室或记者。

7. 机会在哪里¶

[+++] 真实工作流的 AI 成本核算 —— 多个章节都指向同一个缺口：Microsoft 和 Uber 都在为按量计费的编程账单头疼，Starbucks 因为现实错误回滚了库存系统，而评论者一再区分“便宜 token”和“便宜工作流”完全不是一回事。这个机会很强，因为痛点已经昂贵，而且横跨多个场景。

[++] 智能体审计性与回放能力 —— 用户想知道智能体点了什么、提交了什么、重试了什么、交接了什么。这个需求既出现在合成媒体引发的信任危机里，也出现在那条明确要求审计轨迹的帖子里，因此属于一个中等强度、但产品形态非常清晰的机会。

[+] 小硬件上的私有文档抽取 —— NuExtract3、MiniCPM-V 的边缘部署，以及对 MiniCPM5-1B 的兴趣，都说明大家想要便宜的本地文档处理和工具路由工作流。它仍是新兴机会，因为市场里已经有活跃构建者，但围绕成本、OCR 质量和更简单部署的反复提问，说明更好的产品仍有空间。

8. 要点总结¶

今天公众对 AI 最大的焦虑，不是失业或 AGI，而是编辑和重建后的视频还值不值得信。 这类担忧推动了当天互动量最高的帖子，也主导了围绕 Gemini Omni 和 4D 重建的讨论。 (来源)
ROI 叙事已经从抽象定价，转向具体回滚和收缩。 大家讨论 Microsoft 和 Uber 时，谈的是预算超支；而 Starbucks 则给出了一个非常清楚的例子：一套 AI 自动化因为连常规任务都做不好而被撤掉。 (来源)
本地 AI 越来越关乎控制，而不是意识形态。 留下来的构建者帖子，核心都在于躲开云账单、绕开 guardrails、把模型塞进已有硬件，或者让法律起草、文档 OCR 这类领域工作流真的跑起来。 (来源)
治理压力正在从监管者和实验室之外继续外扩。 一所法学院的禁令和一篇教皇通谕出现在同一天，这让 Reddit 获得了异常具体的证据：AI 边界现在已经在教育和公共伦理场景里被正面讨论，而不只是在产品团队里。 (来源)