跳转至

Reddit AI - 2026-04-24

1. 人们在讨论什么

1.1 DeepSeek V4 发布:开放权重、1M 上下文、Huawei 推理 (🡕)

DeepSeek 以 MIT license 发布 V4-Pro(1.6T 参数,49B active)和 V4-Flash(284B,13B active),支持 1M-token 上下文和 384K 最大输出窗口。公告主导了 r/LocalLLaMA 与 r/singularity,当天最高帖来自 u/markeus101Deepseek v4 people(得分 1,222,198 条评论);u/WhyLifeIs4 发布 DeepSeek V4 has released(得分 874,237 条评论),链接到 HuggingFace collection

u/MichaelXie4645Deepseek V4 Flash and Non-Flash Out on HuggingFace(得分 699,291 条评论)中提供技术深潜。V4-Pro 在 SimpleQA Verified(59.1%)、Apex Shortlist(89.7%)和 Codeforces(3,200 rating)上领先,同时相比 DeepSeek-V3.2 实现单 token FLOPs 降低 9.8 倍,KV cache 缩小 9.5-13.7 倍。

DeepSeek V4 基准对比与相对 V3.2 的效率提升,显示 1M 上下文下 FLOPs 降低 9.8 倍、KV cache 缩小 13.7 倍

u/BreadfruitChoice3071DeepSeek V4 Benchmarks!(得分 330,53 条评论)中发布完整基准表,显示 V4-Pro 在知识、推理和 agentic 类别上领先,V4-Flash 则以一小部分成本保持竞争力。

DeepSeek V4 Pro 和 Flash 在 25 项基准上与 K2.6、GLM-5.1、Opus-4.6、GPT-5.4 和 Gemini-3.1-Pro 的对比表

架构引入 hybrid Compressed Sparse Attention(CSA)+ Heavily Compressed Attention(HCA),取代纯 MLA,并使用 manifold-constrained hyper-connections 替代标准 residuals。u/benja0x40关于 DeepSeek V4 架构的要点与讨论(得分 66,42 条评论)中分析:“V4 使用 manifold-constrained hyper-connections,重新设计了 blocks 之间的信息流。据我所知,DeepSeek 是唯一解决训练稳定性问题并把这个方案投入生产的实验室。”u/dark-light92 强调:“图表似乎显示他们可以在大约 5GB 内放下 1M 上下文。”

u/jwpbeBuried lede: Deepseek v4 Flash is incredibly inexpensive(得分 221,50 条评论)中指出定价故事。V4-Flash 价格为每 1M cached input tokens $0.028、每 1M output tokens $0.28;V4-Pro 为 cached $0.145、output $3.48。两者都支持 1M 上下文、thinking mode、JSON output、tool calls 和 FIM completion。

DeepSeek V4 API 定价与功能表,显示 Flash cached input 每 1M tokens $0.028,Pro $0.145

u/Recoil42DeepSeek confirms Huawei-based V4 inference(得分 280,24 条评论)中报道基础设施角度:“950 supernodes 在今年下半年大规模上线后,Pro 的价格预计会显著降低。”u/Worried-Squirrel2023 观察:“Huawei silicon 用于生产推理才是真正的故事。今年 nvidia 的 CUDA moat 小了很多。”

DeepSeek V4 中文 API 定价表,脚注确认 Huawei 950 supernodes 计划于 2026 年下半年上线

u/zsydeepskyDeepSeek-v4 有一个夸张的 384K 最大输出能力(得分 176,36 条评论)中演示 384K 最大输出窗口的实际影响,让 V4 一次生成完整的单文件 web-OS,输出 100KB HTML。

DeepSeek V4 使用 384K 输出窗口生成一个完整 web-OS 桌面环境,作为单个 100KB HTML 文件

还没有多模态——u/Right-Law1817DeepSeek-V4 还没有 Multimodality。但我会等。(得分 97,23 条评论)中指出技术报告确认相关能力正在开发。

与前日对比:昨天没有出现。DeepSeek V4 在 GPT-5.5 基准反应成熟的同一天发布,形成直接的开放 vs 闭源对比。V4 发布显著改变了长上下文和 agentic 用例的成本计算。

1.2 GPT-5.5 反响成形:强基础,弱编码前沿 (🡒)

GPT-5.5 第二天带来基准表和更清晰的社区判断。u/ShreckAndDonkey123 发布 Introducing GPT-5.5(得分 804,276 条评论),u/Outside-Iron-8242 分享 GPT-5.5 benchmark results have been released(得分 442,158 条评论)。

GPT-5.5 编码基准表,显示 SWE-Bench Pro 58.6%,Terminal-Bench 2.0 82.7%,Expert-SWE 73.1%

完整基准显示 GPT-5.5 在 Terminal-Bench 2.0(82.7% vs Opus 4.7 的 69.4%)和 OSWorld-Verified(78.7% vs 78.0%)领先,但在 SWE-Bench Pro 上明显落后(58.6% vs Mythos 的 77.8%)。u/MapForward6096 提到定价:“每 1m input tokens $5,每 1m output $30。”

GPT-5.5 完整基准表,对比 GPT-5.5、GPT-5.4、GPT-5.5 Pro、GPT-5.4 Pro、Claude Opus 4.7 和 Gemini 3.1 Pro 的 10 项基准

u/EyelbeeMythos 在共同基准上摧毁 GPT 5.5(得分 147,125 条评论)中贴出正面对比。社区回应尖锐:u/SeaBearsFoam 反驳:“GPT 5.5 在能够被使用这件事上摧毁 Mythos。”u/Efficient-Opinion-92 指出:“但 Mythos 没发布。”

基准对比表显示 Mythos 在 SWE-Bench Pro 上以 77.8% 领先 GPT-5.5 的 58.6%,GPT-5.5 在 Terminal-Bench 2.0 上以 82.7% 领先 Mythos 的 82.0%

成本效率叙事由 u/Blake08301Common GPT 5.5 pricing misconception(得分 123,29 条评论)进一步推动,展示 ARC-AGI-2 数据:GPT-5.5 xHigh 约 $1/task 达到约 83%,而 Claude 4.7 Max 约 $7/task 仅约 75%。

ARC-AGI-2 排行榜显示 GPT-5.5 xHigh 约 83%,每任务约 1 美元,而 Claude 4.7 Max 约 75%,每任务 7 美元

u/salehrayan246 分享 Artificial Analysis Intelligence Index 结果(得分 118),GPT-5.5 xHigh 以 60 分领先,其后是 GPT-5.5 high 的 59。

Artificial Analysis Intelligence Index v4.0 显示 GPT-5.5 xHigh 以 60 分领先,GPT-5.5 high 以 59 分位列第二,Claude Opus 4.6 和 Gemini 3.1 Pro 为 57

u/MohMayaTyagiBig model feel with GPT 5.5(得分 198,66 条评论)中为模型辩护:“这个模型 FEELS different。它感觉更直觉化,更能覆盖普通人自然会提出的那类点和论据。”u/Rain_On 强调经济角度:“低成本也很重要。汽车在生产线让它们变便宜之前并没有改变世界。”

u/torrid-winnowingGPT 5.5 在 OpenAI-proof Q&A 上得分 1.7%(得分 122,33 条评论)中指出一个令人担忧的数据点——内部基准上 GPT-5.4 Thinking 得分 4.16%,GPT-5.3 Codex 得分 5.8%,但 GPT-5.5 跌到 1.7%。

与前日对比:昨天 GPT-5.5 刚发布,反应初步。今天基准数据成熟,出现全面对比表、成本效率分析,以及共识分裂:强一般智能升级、令人失望的编码前沿、出色成本效率。

1.3 Qwen 3.6 巩固:Agents、Configs 与 Comparisons (🡒)

Qwen 3.6 进入社区采用第二天,焦点从基准转向部署。u/AverageFormal9076Qwen 3.6 27B 是一头 BEAST 继续获得关注(得分 564,299 条评论),比昨天互动更高。u/sagiroth 建议:“写代码别用 q4 kv cache。用 q8 可以得到 130k 上下文。”

u/dionysio211Qwen 3.6 27B 在 Artificial Analysis 的 Agency 上大幅提升(得分 627,149 条评论)中讲述 agentic 故事:“Qwen3.6 27B 现在在 AA 的 Agentic Index 上匹配 Sonnet 4.6,超过 Gemini 3.1 Pro Preview、GPT 5.2 和 5.3。”u/Velocita84 警告:“其中很大一部分可能来自 benchmaxxing。”

u/flavio_geoDS4-Flash vs Qwen3.6(得分 161,53 条评论)中用新模型对比现任热门模型。DeepSeek V4-Flash 在编码基准上略领先(SWE-bench Verified 79.0 vs Qwen3.6-27B 的 77.2),但参数量是后者的 10 倍。

DS-V4-Flash Max、Qwen3.6-35B-A3B 与 Qwen3.6-27B 在编码和知识类别上的基准对比

u/SoAp9035我已经用 PI Coding Agent + 本地 Qwen3.6 35b 一阵子了,真的离谱(得分 321,142 条评论)中分享详细集成,包括完整 llama.cpp configs 和 plan-first skill file。在 8GB VRAM + 32GB RAM 笔记本上达到 15-30 t/s。u/ibishitl 确认:“我已经取消了 IDE 订阅,也取消了 Claude 订阅。”Mario Zechner 的 pi coding agent(github.com/badlogic/pi-mono)包含可扩展 skill files、plan-mode 和本地模型支持。

u/AmazingDrivers4u 发布 Qwen3.6-27B 的 Overnight Stack:单张 RTX 3090 上 85 TPS、125K 上下文、Vision(得分 292,109 条评论),分享带自定义 CUDA patch 的完整 Medium 文章。u/gladkos 对比 QWEN 3.6 35B 与 QWEN 3.6 27B 的 coding primitives(得分 226,95 条评论)。

与前日对比:昨天是 Qwen 3.6 27B 发布日,公告帖得分 1,599。今天社区转向实践集成——agent scaffolds、llama.cpp configs、speculative decoding 设置,以及与新 DeepSeek V4 Flash 的直接对比。

1.4 Anthropic 承压:泄露、退化与怀疑 (🡕)

四条 Anthropic 相关故事汇聚成可信度危机。u/fortune 报道 一群用户泄露了 Anthropic 的 AI 模型 Mythos(得分 508,48 条评论)——一个 Discord 群通过第三方承包商和 Mercor 数据泄露中的既有信息访问 Mythos。u/l992 抓住讽刺:“这个同样因为能发现隐藏漏洞而被认为太强不能公开发布的模型……甚至还没发布就被未授权访问了?”

u/spaceman_ 发布 Anthropic 承认让托管模型变笨(得分 280,62 条评论),链接到 Anthropic 4 月 23 日 postmortem。3 月 4 日到 4 月 20 日之间,有 3 项独立变更降低了 Claude Code 质量:reasoning effort 从 high 降到 medium、thinking-clearance bug 让 Claude “健忘且重复”,以及 verbosity prompt 损害编码质量。u/Automatic-Arm8153 反应:“给那些一直怀疑、说我们蠢的人看。源头直接承认了。”

u/sourdubAnthropic Mythos shaping up as nothingburger(得分 280,71 条评论)中进一步推动反叙事,引用 The Register 文章。u/billdietrich1 反驳:“现在下结论太早。Glasswing 才运行大约 2 周。”

u/pretendingMadhavDario Amodei 说开源会在 6-12 个月内追平 Mythos(得分 215,169 条评论)。u/Undead__Battery 看出了潜台词:“他试图吓唬监管者限制开源,同时自己本来显然就反对开源。”

与前日对比:昨天报道了 Mythos 泄露和“nothingburger”叙事。今天加入已确认的退化 postmortem,进一步拉大 Anthropic 安全叙事与运营执行之间的可信度缺口。

1.5 开放模型监管:对抗性蒸馏反弹 (🡒)

u/MLExpert000 发布 美国政府关于“对抗性蒸馏”的备忘录(得分 370,384 条评论)——当天评论数最高。OSTP 备忘录 NSTM-4 由 Michael J. Kratsios 签署,日期为 2026 年 4 月 23 日,指称中国实体使用代理账号和 jailbreak,对美国前沿 AI 系统进行“蓄意、工业规模的蒸馏活动”。

OSTP NSTM-4 备忘录页眉,标题为 Adversarial Distillation of American AI Models,日期 2026 年 4 月 23 日

社区反应几乎一边倒地怀疑。u/BagelRedditAccountII 打趣:“非法蒸馏?欢迎回到 1920 年代。”(得分 450)。u/Specter_Origin 总结情绪:“自由市场,直到你必须竞争……”u/05032-MendicantBias 点出虚伪:“把整个互联网抓来训练,然后别人从模型里拿输出训练时却喊狼来了,这种 AUDACITY。”u/Pristine-Woodpecker 预测:“美国人会被迫付(更多)钱,被迫使用美国模型,因为中国模型会被禁止……这叫保护主义。”

与前日对比:同一备忘录延续自昨天,互动仍然很高。社区已经把它主要解读为保护主义,而不是安全。

1.6 机器人与物理 AI 推进 (🡒)

u/GraceToSentience 发布 Unitree 推出带轮子的 G1 版本(得分 833,273 条评论),展示也能滑冰的带轮人形机器人。u/llTeddyFuxpinll 警告:“这些机器全面部署到普遍收入之间的时间差,会让数百万人死去。”

u/Worldly_Evidence9113 报告 Tesla 已正式确认 Giga Texas 的新 Optimus 工厂(得分 204,189 条评论),声称年产能 1,000 万台机器人。u/dipole_ 算了算:“那是每天 27,397 台机器人!我有种感觉,有人可能又在胡说。”u/Distinct-Question-16 补充 Figure AI 视频暗示 03 生产正在爬坡(得分 226,53 条评论)。

与前日对比:昨天讨论 Sony AI 的乒乓球里程碑和 CyberNani 脸。今天继续带轮人形机器人和工厂规模生产声明,维持机器人加速叙事。

1.7 AI 与社会:代码生成、裁员、伦理 (🡒)

u/Distinct-Question-16 发布 还在写代码?Google 称公司 75% 新代码由 AI 生成(得分 409,105 条评论),跟踪从 2024 年秋季的 25%、2025 年的 50% 到现在 75% 的进展。u/FriendlyJewThrowaway 揭示内部紧张:“Google 的 DeepMind 部门工程师坚持只用 Claude Code,而 Google 正试图强迫公司所有人用 Gemini 编码。”

u/Distinct-Question-16 回顾失败预测:Exactly 1 year ago, Anthropic said fully AI employees were just 1 year away(得分 727,162 条评论)。u/stellar_opossum 直言:“很有意思,评论里有人试图假装这不是完全跑偏。不,伙计们,就是跑偏了,这是那些失败预测之一。”

u/reesefinchjh 分享 一位研究 AI 25 年的 Yale 伦理学家称真正危险不是超级智能(得分 262,93 条评论),介绍 Wendell Wallach 的观点:“一个系统可以极其智能,同时拥有零道德推理。”

u/kaggleqrdlAI 与其说让公司更高效,不如说把本可作为工资的钱花掉(得分 78,63 条评论)中认为 AI CAPEX 正在挤出薪资支出,而不是创造新生产力。u/SirBoboGargle 创造了一个说法:“Tokens 会成为企业 crack。一旦沾上 tokens,就下不来了。”

u/Commercial_Sell_4825 发布了一条地缘政治敏感故事:Nature 发表的中国半导体研究员在密歇根大学坠亡(得分 517,86 条评论),凸显美中半导体/AI 紧张。

与前日对比:昨天讨论 Meta 监控和 Gen Z 情绪。今天加入 Google 75% AI 代码数据、Anthropic 失败预测一周年、经济替代论点和半导体研究员死亡,社会讨论继续扩大。


2. 令人困扰的问题

GPT-5.5 没有达到 “Spud” 炒作

严重程度:High -- 多条线程在员工炒作后表达失望。

“Spud” 这个代号已被预热数月,OpenAI 员工一直发帖称会有“step change”。基准现实——SWE-Bench Pro 58.6%,而 Mythos 为 77.8%——引发尖锐反弹。u/mph99999 捕捉情绪:“我期待的不只是相对上一模型的一小步。”u/BrennusSokol 问:“请告诉我这不是 Spud。真正 step change model 的公告在哪?”u/ChipsAhoiMcCoyOptimism thread 中把锅归给营销:“如果他们只是保持安静,或者更理性一点,这就不会是问题。”

Anthropic 数周内悄悄降低托管模型质量

严重程度:High -- Anthropic 自己的 postmortem 已确认。

3 月 4 日到 4 月 20 日之间,三项独立变更在未通知用户情况下降低了 Claude Code 质量。u/spaceman_ 强调:“在每一个案例中,他们都做出了有意识选择,以牺牲质量为代价降低服务器负载,完全脱离最终用户控制,而且没有告知付费客户。”u/dwrz 要求:“如果托管模型被量化,或以某种方式降低了能力,我就应该得到折扣。我不应该以全精度价格购买等同于 Q2 的东西。”

DeepSeek V4 缺乏多模态

严重程度:Medium -- 限制 vision 任务的即时采用。

u/sammoga123 反应:“而且两个 V4 实际上都不能分析图片,看起来是这样。”技术报告确认多模态能力正在开发,但当前发布是纯文本。需要 vision 的用户仍必须留在 Qwen 3.6 或云模型。

RLHF 谄媚与风格癖好持续存在

严重程度:Medium -- 影响对所有模型交互的信任。

u/twnznz 发布 “This isn't X this is Y” 该消失了(得分 328,126 条评论),点名所有模型中的 epanorthosis 模式。u/ChatEngineer 追踪了 1,100 次 “great question”(得分 75,54 条评论)——只有 14.5% 指向真正有洞见的问题。

Astroturfing 怀疑损害社区信任

严重程度:Low-Medium -- 伤害真实报告可信度。

u/DinoAmino 在 Qwen thread 中指出:“嘿,谢谢你复活休眠账号,好把你的 Qwen 证明加入这一堆。”r/LocalLLaMA 版主团队以 rule updates(得分 263,86 条评论)回应,引入最低 karma 要求打击 bots;该 subreddit 现在每周服务 100 万+ 访客。


3. 人们期望的功能

消费级推理硬件

u/SnooStories2864什么时候我们能有消费级推理芯片?(得分 73,147 条评论)中提问。u/i_am__not_a_robot 直白回答:“整个行业只是想永远通过 API 订阅从消费者身上榨钱。”u/pulse77 提议把参数存储在 EEPROM 中,实现 instant-on 推理。Taalas 被认为是最接近的尝试,但还没有消费级产品。u/HyPykeHard freakin' decision(得分 64,162 条评论)中 Blackwell-vs-Mac-Studio 争论也凸显了这个缺口。

支持多模态的 DeepSeek V4

多位用户指出 V4 缺少 vision 能力。技术报告确认它会到来,但运行本地 vision 工作流的用户目前没有 V4 选项,只能继续用 Qwen 3.6 或云模型。

标准化本地 Agent Scaffolds

PI Coding Agent 线程和 u/Ok-Scarcity-7875 关于 OpenCode or ClaudeCode for Qwen3.5 27B(得分 38,71 条评论)的问题显示,人们仍然困惑哪种 scaffold 最适合本地模型。用户想要一个经过充分测试、默认配置良好、专门为 Qwen 级本地模型优化的 scaffold。

托管服务的透明模型版本管理

Anthropic postmortem 暴露了 47 天内三次悄悄降低质量的变更。用户想要托管模型配置的显式版本和 changelog,而不只是权重发布。u/Kitchen-Year-8434 写道:“如果我们有明确 release notes,列出上述变化,定位并回滚或用本地 harness config 修补就很容易。”


4. 使用中的工具与方法

工具 类别 评价 优势 局限
DeepSeek V4-Pro Open LLM(1.6T MoE) Very positive 领先 SimpleQA、Apex、Codeforces;1M 上下文;MIT license;$3.48/1M output 本地推理过大;无多模态
DeepSeek V4-Flash Open LLM(284B MoE) Very positive $0.28/1M output;1M 上下文;与 Qwen 3.6 27B 有竞争力 为略微领先 Qwen 付出 10x 参数;无多模态
GPT-5.5 Cloud LLM Mixed 82.7% Terminal-Bench;基础智能强;相对 Opus 成本有效 SWE-Bench Pro 58.6%,远低于 Mythos;“Spud” 失望
Qwen 3.6 27B Local LLM(dense) Very positive 在 AA Agentic Index 上匹配 Sonnet 4.6;适配单张 3090;优化栈可达 85 TPS Astroturfing 怀疑;刚发布
Qwen 3.6 35B-A3B Local LLM(MoE) Positive 比 27B dense 快 3 倍;与 PI agent 配合好 同量化下上下文更小;MoE 量化敏感
PI Coding Agent Agent scaffold Very positive 规划优先工作流;可扩展 skills;支持本地模型 社区小于 Claude Code
llama.cpp 推理引擎 Very positive Speculative decoding;硬件支持广;开发活跃 最优配置需手动调优
Claude Code Coding agent Mixed-negative 功能丰富的智能体式工作流 三次确认退化事件;规模化成本高
Anthropic Mythos Cloud LLM(受限) Polarized 77.8% SWE-Bench Pro;找到 271 个 Firefox bug 未公开;通过承包商泄露;“nothingburger”争论
Unsloth 量化 Positive 新模型同日 GGUF quant 命名混乱

5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
Agent Quest u/Redrock990 面向 Claude Code 和 Codex agents 的中世纪主题视觉 dashboard CLI 会话中的多智能体可观测性 Bun、WebSocket、2D village 已发布,MIT GitHub
DeepEP V2 DeepSeek Expert parallelism 通信库 线性扩展 MoE parallelization CUDA、SM90/SM100 已发布,MIT GitHub PR
TileKernels DeepSeek 面向 LLM 操作的优化 GPU kernels Engram、mHC、MoE routing、FP4/FP8 quantization TileLang、CUDA、PyTorch 已发布,MIT GitHub
PI Coding Agent skills u/SoAp9035 用于本地 Qwen 的 PI coding agent plan-first skill file 本地模型的结构化编码工作流 PI、llama.cpp、Qwen 3.6 活跃 GitHub
Qwen3.6-27B 85 TPS stack u/AmazingDrivers4u 单张 RTX 3090 的优化推理配置 消费级硬件上 85 TPS、125K 上下文、vision llama.cpp、自定义 CUDA patch 活跃 Medium article
OCR Benchmark u/TimoKerre 用 7k+ 调用测试 18 个 LLM 的 OCR 显示更便宜/更老模型在 OCR 上常常胜出 Open framework + dataset 已发布 r/MachineLearning post

TileKernels 是架构上最重要的发布。它包含用于 Engram gating、manifold hyper-connections(mHC)、MoE routing 和 FP4/FP8 quantization 的生产级 kernels——这些都是 DeepSeek V4 架构的构建块。SM100(Blackwell)支持确认 DeepSeek 能访问下一代 NVIDIA 硬件。u/SilentDanni 称赞:“他们正在做 OpenAI 本来应该做的事。他们积极推进研究并分享发现。”

Agent Quest 解决了开发者同时运行多个 AI 编程智能体时日益增长的痛点。它自动发现 Claude Code 和 Codex 会话,把活动映射到 fantasy village 可视化中,延迟低于 2 秒。


6. 新动态与亮点

DeepSeek V4:前沿规模的 Hybrid Attention 架构

DeepSeek V4 引入 CSA + HCA hybrid attention(compressed sparse + heavily compressed),取代 V3 的 MLA 方案。结合 manifold-constrained hyper-connections 和 FP4 quantization-aware training,该架构在 1M 上下文下相对 V3.2 实现 FLOPs 降低 9.8 倍、KV cache 缩小最多 13.7 倍。MIT license 与双变体发布(Pro 负责能力,Flash 负责成本)使其成为 DeepSeek V3 以来最重要的开放权重前沿模型发布。

DeepSeek 运行在 Huawei Silicon 上

V4 推理确认使用 Huawei 950 supernodes,并计划在 2026 年下半年扩展、让 Pro 定价“显著”下降,这表明生产 LLM 推理有了一条可行的 NVIDIA 替代路径。u/enilea 写道:“希望这能终结 nvidia 的垄断。”

Anthropic 发布模型退化 Postmortem

4 月 23 日 postmortem 因坦率而值得注意:47 天内三次独立变更降低了 Sonnet 4.6、Opus 4.6 和 Opus 4.7 上的 Claude Code 质量。这一承认验证了社区怀疑,并强化了开放权重自托管模型的理由。

Ling-2.6-1T 将开放权重

u/Few_Painter_5588 报道 Ling-2.6-1T 将开放权重(得分 101,17 条评论)——一个 1T 参数、50B active 参数模型,另有 104B/7B flash 变体。Ant Group 承诺开放权重发布。

Tencent Hy3 Preview

u/TKGaming_11 发布 Tencent Releases Hy3 preview(得分 171,42 条评论)——一个 295B total / 21B active MoE,已在 Hugging Face 可用。u/Dany0 指出许可证较限制:“我会称它为‘weights available’。”

GPT-5.5 系统卡披露对齐偏差

u/manubfrGPT-5.5 系统卡第 15 页(得分 24,6 条评论)中指出:“我们的分析估计,GPT-5.5 在多个类别上比 GPT-5.4 Thinking 略微更不对齐,尽管几乎所有对齐偏差都属低严重程度。”

AI 编程智能体 Prompt Injection 漏洞

u/Dagnum_PI 报道 一条 GitHub PR 评论就攻陷 Claude Code、Gemini CLI 和 GitHub Copilot(得分 1,66 条评论)——通过 PR comments 进行 prompt injection 攻击,成功率 85%,且无 audit trail。分数低但评论数高,说明社区认为技术上重要。


7. 机会在哪里

[+++] 本地推理现在对 coding agents 已具备云端成本竞争力。Qwen 3.6 27B + PI Coding Agent + llama.cpp 的组合创造了可行的 local-first 栈。DeepSeek V4 Flash 以 $0.28/1M output tokens 压低所有主要提供商价格。用户正在具体取消云订阅。为这些本地栈构建优化 scaffolds 和自动调优配置,是杠杆最高的机会。(PI Coding Agent thread, DS V4 pricing

[+++] DeepSeek V4 的架构创新——hybrid CSA+HCA attention、mHC residuals、FP4 QAT、384K 最大输出——都通过 TileKernels 和模型权重开源。把这些技术集成进自家训练流水线或推理引擎的团队会获得显著优势。仅 9.5-13.7 倍 KV cache 降低,就能启用过去需要数据中心硬件的长上下文用例。(TileKernels, V4 architecture discussion

[++] Anthropic postmortem 证明托管模型可靠性没有保证。依赖稳定模型质量的企业客户需要监控、回归检测和 fallback 基础设施。能持续基准测试托管模型质量并在退化时告警的工具,正好填补 Anthropic 刚刚证明真实存在的缺口。(Anthropic postmortem, degradation thread

[++] Huawei silicon 进入生产 LLM 推理,创造 second-source 机会。如果 DeepSeek 能在 Huawei 950 supernodes 上提供有竞争力的推理,NVIDIA premium 就有谈判空间。基础设施提供商和云构建者应该密切关注 2026 年下半年的降价。(Huawei inference thread

[+] AI 编程智能体安全仍未解决。通过 PR comments 达到 85% prompt injection 成功率且没有审计记录,意味着每个在 CI/CD 中使用 AI 编程智能体的团队都有暴露风险。专为智能体式工作流设计的安全工具——输入清洗、审计日志、权限边界——仍然建设不足。(PR injection thread


8. 要点总结

  1. DeepSeek V4 重新定义开放权重前沿经济性。 V4-Pro(1.6T/49B active)在知识和编码基准领先,V4-Flash 每 1M output tokens 只需 $0.28,两者都支持 1M 上下文,MIT license 意味着没有使用限制。相对 V3.2,FLOP 降低 9.8 倍、KV cache 压缩 13.7 倍,让长上下文推理便宜得多。(DeepSeek V4 HuggingFace thread

  2. GPT-5.5 是更好的基础模型,不是编码前沿。 GPT-5.5 以 60 分领先 Artificial Analysis Intelligence Index,在 ARC-AGI-2 上约 $1/task 达到 ~83%,确实带来智能提升。但 SWE-Bench Pro 58.6% 对比 Mythos 77.8%,说明 OpenAI 的编码差距扩大而不是缩小。Token 效率提升部分抵消了 2 倍价格上涨。(GPT-5.5 benchmarks

  3. Anthropic 可信度同时遭受三连击。 Mythos 通过承包商泄露,4 月 23 日 postmortem 确认 Claude Code 47 天的静默质量退化,Dario 预测开源将在 6-12 个月内达到同等水平。社区越来越认为 Anthropic 的安全叙事与运营执行不兼容。(Mythos leak, postmortem

  4. 本地 coding agents 已经对早期采用者达到生产可用。 消费级硬件(8GB VRAM 笔记本,15-30 t/s)上的 PI Coding Agent + Qwen 3.6 正在替代 Claude Code 订阅。单张 RTX 3090 上 85 TPS、125K 上下文的栈,让严肃编码工作本地推理可行。(PI agent thread, 85 TPS stack

  5. Huawei 生产推理打破 NVIDIA 垄断假设。 DeepSeek 确认 V4 推理使用 Huawei 950 supernodes,并计划 2026 年下半年降价,创造了首个可信的非 NVIDIA 前沿模型服务路径。考虑到 OSTP 对抗性蒸馏备忘录,地缘政治含义重大。(Huawei inference

  6. 开放权重模型重心牢牢转向中国。 DeepSeek V4(MIT)、Qwen 3.6(Apache 2.0)、Ling-2.6-1T(即将开放权重)、Tencent Hy3(preview)和 MiMo-V2.5(即将发布)都在几天内出现。OSTP 将其定义为安全威胁而非竞争,可能不会改变趋势。(Adversarial distillation thread

  7. 托管服务的模型质量监控现在是被证明的需求。 Anthropic postmortem 证明,三次独立静默变更可以在 47 天内降低托管模型质量,而没有任何用户可见通知。如果依赖托管模型,就需要自己的回归检测。postmortem 也验证了自托管的经济理由:开放权重模型不会被提供商静默降级。(Anthropic postmortem

  8. 机器人叙事跑在证据前面,但方向明确。 Unitree 带轮 G1、Tesla 1,000 万台机器人工厂声明和 Figure 产能爬坡同日出现。怀疑很多——“每天 27,397 台机器人”的数学不成立——但公告速度说明资本正在流向 physical AI。(Unitree G1, Tesla Optimus