Reddit AI - 2026-04-26¶

1. 人们在讨论什么¶

1.1 HauhauCS 抄袭 Heretic 震动开源 LLM 社区 (🡕)¶

一起证据极其细致的抄袭案主导了 r/LocalLLaMA。u/nathandreamfast 发布 HauhauCS 发布的 abliteration 包抄袭 Heretic、未署名且违反许可证（得分 442，166 条评论），给出 17 点代码取证拆解。证据包括：Heretic v1.2.0 的 7/7 个模块文件名被保留，30/32 个 refusal markers 逐字相同（包括 “i an ai” 少了 “m” 这样的 typo），以及 30+ 个共享函数和类名。该包以 PolyForm Noncommercial 发布，违反了 Heretic 的 AGPL-3.0 许可证。

Heretic 作者 u/-p-e-w-（Philipp Emanuel Weidmann）发表最高赞评论（得分 543）回应：“我必须完全确认 OP 的发现和结论……两个代码库之间真的有数百处表层和深层相似。”他指出 SPDX headers、一个他“从未在文献中见过”的 geometric median 方法，以及 DatasetSpecification 字段都能证明这一点。他总结道：“如果你想基于 Heretic 构建自己的 abliteration 工具，我有个好消息：你不需要偷我的代码。我已经把它送给你了。”u/a_beautiful_rhind（得分 44）概括：“如果你做这种事，迟早会被发现。然后你会被曝光成一个大骗子。”

另外，u/My_Unbiased_Opinion 发布 Qwen3.6 35B A3B Heretic（KLD 0.0015！）不可思议的模型（得分 287，59 条评论），这是一个合法的 Heretic 衍生 uncensored 模型。u/-p-e-w-（得分 76）称赞作者“毫无疑问是 Heretic 的大师级用户”，并说他“在这里做的远不只是运行一个命令行程序”。

讨论要点： 社区正在明确区分合法开源衍生品（署名、保持同一许可证）和抄袭。分析的取证深度，加上 Heretic 作者的直接确认，让这起事件的证据罕见地扎实。

与前日对比： 昨天没有覆盖。这是一场新争议，很可能对 HauhauCS 的 22 个模型产生后续影响；这些模型合计每月下载量超过 500 万次。

1.2 业余人士借助 AI 解出 60 年 Erdos 问题 (🡕)¶

u/Marha01 分享一名业余人士刚刚靠询问 AI 解出一个 60 年数学问题（得分 579，79 条评论），链接到一篇关于 Erdos Problem #1196 的 Scientific American 文章。LLM 采用了“一条完全不同的路线，用到了相关数学领域中很知名、但此前没人想到要用于这类问题的公式”。Terence Tao 审阅并缩短了证明。结果已经用约 4,000 行 Lean 4 代码得到形式化验证。

u/sckchui（得分 297）强调关键细节：“LLM 是在自己思考，也正因如此产出了一个丑陋答案。尽管如此，它写出的那堆乱糟糟内容（你也可以叫它 slop）包含一个新颖且可能重要的洞见，而人类专家至今都错过了它。”u/Peanut_Extreme_8208（得分 16）报告：“从数学界内部看，面对可能被 AI‘取代’的前景，确实有一种恐惧和沮丧感。”

讨论要点： Lean 4 的形式化验证让它区别于以往的 AI 数学声称。LLM 的贡献是一个新的概念连接，而不是暴力计算。

与前日对比： 昨天没有覆盖。这是一个新进展。

1.3 Qwen 3.6 优化进入系统阶段 (🡒)¶

Qwen 3.6 优化浪潮继续推进，出现新的速度纪录和量化数据。

u/Kindly-Cantaloupe978 发布 Qwen3.6-27B-INT4 在单张 RTX 5090 上以 256k context length 跑到 100 tps（得分 195，68 条评论），在昨天 80 tps 结果基础上，用 AutoRound INT4 quantization、MTP speculative decoding 和 vllm 0.19 的 fp8_e4m3 KV cache 进一步提升。u/Important_Quote_1180（得分 22）报告，在单张 RTX 3090 上用 TurboQuant 3-bit KV cache 和 125K 上下文达到 71-83 tok/s。

u/ROS_SDN 探索 Qwen3.6 35b a3b 的量化影响（得分 72，71 条评论），指出 MoE 变体在 Q4 和 Q8 之间存在“鲜明”的质量差异。u/LaurentPayot（得分 27）分享一张基准图，显示 accuracy recovery rates：UD-Q4_K_XL 在 22.4 GB 下恢复 98.5% 的 full-precision accuracy，而 UD-Q3_K_XL 在 16.8 GB 下达到 100.0%——这是反直觉结果，暗示更小的 quant 可能受益于更少生成 token。

Qwen3.6-35B-A3B GGUF 评估图，显示不同量化等级的准确率恢复、模型大小和 token 数

u/Phaelon74 用改造过的 vllm pipeline 和真实 GPU logits 测量 Qwen3.6-35B-A3B 的 INT 与 NVFP4 quantizations KLD（得分 46，20 条评论）。数据显示，sakamakismile 的 NVFP4 KLD 最差，为 0.176，而 INT8 quantizations 的 KLD 低于 0.008。作者提醒：“NVFP4 cake，一如既往，是假的。”

Qwen3.6-35B-A3B 量化方法的 KL Divergence vs 文件大小散点图，显示 NVFP4 表现较差

u/boutell 写了一篇全面的在 32GB RAM M2 MacBook Pro 上用 Qwen 3.6 35B-A3B 编程的实地报告（得分 68，43 条评论）。该模型在 adapter pattern 任务上成功（“构建一个兼容组件，能通过同一套测试”），但在基于几何的 CSS/PDF 定位 bug 上失败。作者总结说，它“需要比 Claude Code 更多引导”，但在结构化任务上优于手工实现。

u/Ok_Mine189 发布基准：Windows 11 vs Lubuntu 26.04 on Llama.cpp（得分 57，61 条评论）。Linux 在所有模型上 token generation 快 4-8%，但头条结果是 CPU/GPU hybrid prompt processing：Linux 快 100-143%。u/ambient_temp_xeno（得分 37）解释：“问题并不是 windows 天然有缺陷……而是那个 cuda dev guy 不在乎 windows performance。”

讨论要点： 社区正在产出系统化量化数据，显示 MoE 35B-A3B 比 dense 27B 更容易受量化影响。基于 KLD 测量，对 NVFP4 的反弹正在增加。RTX 5090 上的速度纪录继续被刷新。

与前日对比： 昨天重点是 27B dense 的 KV cache quantization，以及 RTX 5090 上 80 tps。今天加入了 100 tps INT4 纪录、MoE 专属 KLD 测量、Windows vs Linux 基准和详细的 M2 实地报告。优化阶段正在产出越来越可执行的数据。

1.4 DeepSeek V4 第三天：Intelligence Density 批评升温 (🡖)¶

DeepSeek V4 叙事从发布热情转向对 token efficiency 的批判分析。

u/Mindless_Pain1860 发布 DeepSeek V4 Pro 的 Intelligence Density 下降（得分 209，88 条评论），展示 TerminalBench 2.0 数据，显示 V4-Pro 需要大约 GPT-5.5 的 10 倍 token 才能达到相近表现。selftext 指出，“甚至 non-thinking mode 用的 token 也明显多于 V3.2”。

TerminalBench 2.0 图表，对比 GPT-5.5 和 GPT-5.4 的 token 效率及 DeepSeek V4 变体

u/Puzzleheaded-Drama-8（得分 136）坚持“undertrained”论点：“我预计未来几个月拿到新 checkpoints 时，这个模型会出现巨大提升。”u/TheKingOfTCGames（得分 46）指出：“GPT 5.5 专门针对 token efficiency 训练——它大约比 Opus 高效 3-5 倍，差不多是 Sonnet 的 10 倍。”u/Hyp3rSoniX（得分 25）给出战略解释：“我觉得 v4 发布的主要目标，是让这些模型能跑在 Huawei Ascend AI processors 上。”

u/antirez（Redis 创始人）发布 llama.cpp DeepSeek v4 Flash experimental inference（得分 41，37 条评论），在 128GB RAM 的 MacBook M3 Max 上运行，给 routed experts 做激进 2-bit quantization，同时 shared experts 用 Q8，达到 21 t/s。他报告：“第一次，即便用了这种选择性 2-bit quantization，我也感觉我的电脑上跑着一个前沿模型。”

讨论要点： 社区正在按变体拆分对 V4 的评价：Flash 仍是成本效率上的共识赢家，而 Pro 面临越来越多 token density 怀疑。Huawei 芯片兼容性理论为 Pro 不够亮眼的 token efficiency 提供了一个较宽容的解释。

与前日对比： 昨天覆盖了 V4 发布热度和 Flash 定价。今天，昨天初现的 intelligence density 批评显著增长（得分从 119 到 209），“undertrained”理论成了主导框架。antirez 的本地推理里程碑增加了新的实践维度。

1.5 GPT-5.5 与 GPT Image 2：创意跃迁、文字冗余 (🡒)¶

GPT-5.5 评估稳定在两个极点：令人印象深刻的创意能力，以及持续存在的啰嗦抱怨。

u/Proof-Square7528 发布用 gpt-image-2 做 geoguessr time travel clone（得分 584，47 条评论），展示历史场景的 360 度全景。u/xirzon（得分 117）注意到一个有趣细节：“给不存在的人打 privacy pixelation 这点很妙。”u/Rare_Bunch4348 分享 ChatGPT 用 Image 2 打出的回归太疯狂了（得分 318，58 条评论），与 Nano Banana Pro 做并排对比。u/Able-Line2683（得分 115）说：“第二张图看起来像真实照片。”

u/Akashictruth 发布 GPT 5.5 Xhigh VoxelBench test（得分 176，35 条评论），展示包括 Spider-Man 和 NYC skyline 在内的 Minecraft voxel builds。VoxelBench 排行榜显示 GPT-5.5 xHigh 以 2106 分占据优势。

VoxelBench 实时排行榜，显示 GPT-5.5 xHigh 以 2106 评分和 96.1% 胜率领先，Gemini 3.1 Pro Preview 以 1725 居次

批评方面，u/No-Yesterday-1624 提问 GPT5.5 但为什么还是这么多 waffle？（得分 306，31 条评论）。u/RealCat7386（得分 53）说出了挫败感：“我只是问一个给客户看的汽车功能，它却给我一整篇安全考虑和市场趋势文章，而我只需要规格。”u/Calm-Branch1671（得分 9）给出模型对比：“我喜欢 Claude 4.6——它有点能抓住你的 vibe 和所需深度。”

u/artemisgarden 绘制 OpenAI 在 Artificial Analysis 上随时间变化的分数（得分 202，38 条评论），显示从 GPT-3.5（得分 9）到 GPT-5.5（得分 60）的轨迹。评论者指出 AI 生成图中的日期不准确。

OpenAI 旗舰模型在 Artificial Analysis Index 上的智能分数时间线，从 GPT-3.5 的 9 分到 GPT-5.5 的 60 分

讨论要点： GPT Image 2 是 GPT-5.5 发布中毫无争议的赢家。文本模型继续引发 “waffle” 抱怨。社区正在收敛到 Claude 适合精确回答、GPT 适合创意广度的判断。

与前日对比： 昨天覆盖 SimpleBench 分数和 “big model feel”。今天加入 GeoGuessr clone、Image 2 对比和啰嗦抱怨。评估正在稳定：强创意和多模态模型，持续存在的冗余问题。

1.6 社会议题：Palantir、科学政策、AI 替代 (🡒)¶

多个高互动帖子讨论 AI 的社会影响。

u/shikizen 发布 Palantir 员工正在谈论公司的“descent into fascism”（得分 1,070，130 条评论），引用 Ars Technica 关于内部 Slack 消息和一份建议美国考虑恢复征兵的 manifesto 的文章。u/5553331117（得分 284）并不意外：“很确定他们一直就是铁杆法西斯。那是他们的商业模式。”u/esporx 在 r/artificial 的 cross-post（得分 488，58 条评论）放大了这一信号。u/prisongovernor 补充真实世界后果：Met 在使用 Palantir AI 工具后调查数百名警员（得分 68，13 条评论）。

u/esporx 报道 Trump 解雇整个 National Science Board（得分 481，62 条评论）。u/Illuminatus-Prime（得分 136）说：“Trump 讨厌任何能证明他错的东西。”

在劳动力替代方面，u/Bharath720 发布 Microsoft 向高级员工提供自愿买断，涉及美国员工 7%（得分 164，36 条评论）。u/ada_stack（得分 16）观察：“如果连直接创造利润的高级工程师现在都被视为‘可替代’，那么对其他人的门槛只会越来越高。”u/chunmunsingh 分享中国工人惊恐发现老板要求他们训练 AI 替代品（得分 246，24 条评论）。

u/Beautiful_Bee4090 发布 Gen Alpha 男孩更喜欢“AI girlfriends”而不是真人（得分 198，140 条评论）。u/Hartax_（得分 67）提供第一人称青少年视角：“以我和朋友的经历看，几乎没有女孩觉得我们有吸引力，我学校里只有少数人有真实 gf。这不是偏好问题，而是什么可获得的问题。”

讨论要点： Palantir 故事获得最强互动，但更广泛的模式同样值得注意：劳动力替代、科学政策冲击、AI surveillance 后果、青少年社交影响，同一天都获得了高独立互动。

与前日对比： 昨天覆盖 Palantir、Microsoft buyouts 和中国工人训练替代品。今天加入 NSF board 被解雇、Met 警方 Palantir 调查，以及 Gen Alpha AI relationships。Palantir 故事从 675 增至 1,070 分。社会担忧主题继续分化扩展。

1.7 Google-Anthropic $40B 投资：Hedge 还是背书？ (🡒)¶

u/Ordinary-Cycle7809 讨论 Google 向 Claude 投资 $40,000,000,000 真的有点好笑（得分 193，142 条评论）。u/crystalpeaks25（得分 141）提供关键背景：“你知道 anthropic 是 Google 自家 Google Vertex AI 里使用最多的模型吧。当 Google 说某一部分收入来自 AI，他们指的是多数企业用户在 Vertex AI 里用 anthropic models。”u/EndOfWorldBoredom（得分 50）从金融角度解释：“Google 刚卖了低息 100 年期债券。他们正在把便宜资本投到能产生回报的地方。他们只是有科技投资组合的投行。”

讨论要点： 这笔投资被一致解读为金融 hedge，而不是对 Anthropic 技术的背书。Vertex AI 细节提供了最有说服力的解释。

与前日对比： 昨天引入 Google $40B 和 Amazon $5B 投资。今天讨论围绕 “hedge” 框架成熟起来，并加入具体 Vertex AI 背景。

2. 令人困扰的问题¶

开源抄袭与许可证违规¶

严重程度：High

HauhauCS 发布的 abliteration 包抄袭 Heretic 的 AGPL-3.0 代码，删除所有署名，并以 PolyForm Noncommercial 重新授权。证据包括逐字相同的 refusal markers 和保留下来的 typos。Heretic 作者 u/-p-e-w-（得分 543）确认：“这明显违反 AGPL 第 4 和第 5 条。也明显违反所有能想象到的伦理标准。”HauhauCS 在 22 个模型上每月下载量超过 500 万次，引发对所有模型来源的疑问。（抄袭分析）

DeepSeek V4 Pro Token 膨胀¶

严重程度：Medium

V4-Pro 在 TerminalBench 2.0 上大约需要 GPT-5.5 的 10 倍 token，而且即便 non-thinking mode 使用的 token 也明显多于 V3.2，尽管模型规模大了 2.5 倍。u/Mindless_Pain1860 记录了这次退化：“模型的 intelligence density 下降了，而不是提高。”（Intelligence density thread）

GPT-5.5 冗长问题持续存在¶

严重程度：Medium

u/No-Yesterday-1624 捕捉到这种挫败（得分 306）：GPT-5.5 在回答中仍会产生过多 “waffle”。u/RealCat7386（得分 53）报告：“当我只是问给客户看的汽车功能时，它给我一整篇安全考虑和市场趋势文章，而我只需要规格。”社区将其归因于偏好更长输出的训练奖励结构。（冗长讨论）

NVFP4 量化质量不达预期¶

严重程度：Medium

u/Phaelon74 测量 Qwen3.6-35B-A3B 的 NVFP4 quantizations KLD，发现它们在相同比特宽度下明显弱于 INT quantizations。sakamakismile 的 NVFP4 变体 KLD 为 0.176，而同一基础模型的 INT8 为 0.007。“NVFP4 cake，一如既往，是假的。”（KLD 分析）

SWE Bench Gaming 得到确认¶

严重程度：Low

u/rm-rf-rm 发布 OpenAI 自己关于为什么他们不再评估 SWE Bench Verified 的说明（得分 105）。u/Mashic（得分 82）引用 Goodhart's law。u/suicidaleggroll（得分 39）认为：“benchmarks 真的需要关闭，才能保持有效。”

3. 人们期望的功能¶

Qwen 3.6 Coder 变体（或官方确认不再需要）¶

u/ComplexType568 提问 Qwen3.5/3.6 Coder?（得分 91，53 条评论）。u/StardockEngineer（得分 73）回答：“我几乎觉得已经不需要了。”u/NNN_Throwaway2（得分 47）同意：“3.6 感觉完全可以就是那个 ‘coder’ release。”社区想要的要么是专用 coder 变体，要么是官方确认基础模型已经涵盖这个角色。

可靠的量化质量指导¶

量化方法大量增加（GGUF Q2-Q8、NVFP4、MXFP4、INT4 AutoRound、AWQ、GPTQ），还要横跨多样硬件，造成决策瘫痪。u/denis-craciun 询问 Unsloth models 真有我看到的那么好吗？（得分 100，162 条评论）。u/emprahsFury（得分 48）反驳营销说法：“q4 quant 就只是 q4 quant。每个人都在做 Unsloth 做的事。”用户想要不依赖供应商的质量指标。

面向新发布模型的 Speculative Decoding Draft Models¶

u/butterfly_labs 提问现在有兼容 Qwen3.6 27B 的 DFlash draft model 吗？（得分 27，20 条评论）。Speculative decoding 的速度增益已经被证明（报告有 3 倍吞吐乘数），但兼容 draft models 继续落后于架构发布。

Agent 工作流的最低可用硬件指导¶

u/MexInAbu 提问你认为本地 Agent 工作流的最低性能（t/s）是多少？（得分 40，60 条评论）。u/triplebits（得分 8）给出最结构化回答：低于 15 t/s 会有明显卡顿，20-25 t/s 可用于规划任务，35+ t/s 则模型不再是瓶颈。社区希望看到按工作流类型绑定的标准化硬件建议。

4. 使用中的工具与方法¶

工具	类别	情感倾向	优势	局限性
Qwen 3.6 27B	本地 LLM（dense）	非常正面	RTX 5090 上 100 tps；Q4 可塞进单张 3090；适配 coding agent 使用	长上下文需要谨慎管理 KV cache
Qwen 3.6 35B-A3B	本地 LLM（MoE）	正面	Apple Silicon 上比 27B 快 8 倍；强 uncensored 衍生版（Heretic）	比 27B 更易受量化影响；低于 Q4 时 KLD 急剧变差
DeepSeek V4-Flash	开放 LLM（284B MoE）	正面	MacBook 上 2-bit quant 达到 21 t/s；MIT license；1M context	无多模态；token efficiency 低于 GPT-5.5
DeepSeek V4-Pro	开放 LLM（1.6T MoE）	褒贬不一	推理强；支持 Huawei 芯片	相比 GPT-5.5 有 10 倍 token 膨胀；社区认为 “hugely undertrained”
GPT-5.5	云端 LLM	偏正但混合	VoxelBench 分数最高；Image 2 全景生成；AA Index 60	持续啰嗦；编码前沿无推进
GPT Image 2	图像生成	非常正面	照片级输出；360 度全景；局部细节准确	给不存在的人打 privacy pixelation（有趣 artifact）
Heretic	Abliteration 工具	非常正面	AGPL-3.0；最佳衍生模型 KLD 0.0015；作者支持	成为抄袭目标；需要谨慎调参
vllm 0.19	Serving engine	非常正面	NVFP4+MTP；5090 上 Qwen 3.6 27B 100 tps；TurboQuant KV cache	峰值结果需要新硬件
llama.cpp	推理引擎	非常正面	支持 NVFP4/MXFP4；Mac 上 DS V4 Flash 21 t/s；硬件覆盖广	CPU/GPU hybrid 下 Windows 比 Linux 慢 100-143%
OpenCode	Agent scaffold	正面	支持本地模型；兼容 llama-server	需要手动配置
PaddleOCR-VL-1.5	Vision-language OCR	正面	通过 llama-server 处理复杂版面、表格、多语言文本	社区测试有限

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
Heretic Plagiarism Forensic Analysis	u/nathandreamfast	17 点代码比较，恢复被删除的 PyPI package	用 SHA-256 证据验证开源许可证违规	PyPI CDN recovery, code diffing	已发布	dreamfast.github.io/reaper-analysis
Qwen3.6-35B-A3B Heretic Uncensored	u/My_Unbiased_Opinion via llmfan46	KLD 0.0015 的 uncensored 模型，带独立 attention 参数	质量损失极小的 uncensored 本地模型	Heretic, Qwen 3.6	已发布	HuggingFace
Darwin-36B-Opus	u/jacek2023	Evolutionary model breeding：Qwen3.6-35B-A3B x Claude-distilled 变体	无需再训练的自动模型改进	Darwin V7, single GPU	已发布	HuggingFace
Qwen3.6 27B 100tps Stack	u/Kindly-Cantaloupe978	INT4 AutoRound + MTP，在 RTX 5090 上 100 tps、256K context	最大化本地推理吞吐	vllm 0.19, AutoRound	活跃	r/LocalLLaMA post
DeepSeek V4 Flash Local Inference	u/antirez	V4 Flash 在 MacBook M3 Max 上用 2-bit routed experts 达到 21 t/s	消费级硬件上的本地前沿模型	llama.cpp, custom quantizer	实验性	GitHub
c137 Structured Memory System	u/MontyOW	无 embeddings 的 structured storage 达到 90.4% LongMemEval-S	无 embedding 开销的长期记忆	3-stage pipeline, structured storage	活跃	c137.ai/research
PaddleOCR-VL Book OCR Pipeline	u/Final-Frosting7742	面向书籍的 layout detection、region OCR、Markdown+HTML table output	用本地 vision-language model 数字化书籍	PaddleOCR-VL-1.5, llama-server, Vulkan	已发布	GitHub
GeoGuessr Time Travel Clone	u/Proof-Square7528	批量生成 360 度历史全景	AI 生成历史街景体验	GPT Image 2 API	Demo	wen-ware.com
OpenAI Privacy Filter	OpenAI	PII detection and masking model	隐私保护文本处理	Small model, open weights	已发布	HuggingFace
Real-time EEG Meditation System	u/uisato	AI 解读实时脑信号，给出冥想引导提示	基于实时 EEG 的个性化冥想	OpenBCI, TouchDesigner, Python	Demo	r/singularity post
Qwen3.6-35B-A3B KLD Measurement Pipeline	u/Phaelon74	基于真实 GPU logits 的量化质量 KLD	权威量化质量比较	Modified vllm, RTX 6000	活跃	GitHub

6. 新动态与亮点¶

OpenAI 放弃 SWE Bench Verified，承认 Gaming¶

OpenAI 发布为什么我们不再评估 SWE Bench Verified，确认该 benchmark 已被 gaming。u/rm-rf-rm 在 r/LocalLLaMA 分享此事（得分 105，28 条评论）。u/noctrex（得分 9）指出 swe-rebench.com 可以作为不断刷新题目的替代。

NVIDIA 为 DeepSeek V4 提供 Day-0 Blackwell 支持¶

u/shikizen 报道 NVIDIA 在 1.6T 模型上推到每秒 3,500 tokens（得分 48，21 条评论），使用 Blackwell GPUs 并提供 day-0 DeepSeek V4 support。

Darwin-36B-Opus：Evolutionary Model Breeding 达到 88.4% GPQA¶

u/jacek2023 发布 Darwin-36B-Opus（得分 79，19 条评论），这是一个用 Qwen3.6-35B-A3B 与 Claude-distilled 变体自动进化 breeding 产生的模型。流程在单张 GPU 上不到一小时即可跑完，并在 GPQA Diamond 上达到 88.4%。

Speculative Decoding 让 Gemma-4-31B 达到 120-200 tok/s¶

u/Clasyc 报告 Gemma-4-31B + Gemma-4-E2B 的 speculative decoding 达到 120-200 tok/s（得分 22，14 条评论），适用于特定任务。

Structured Memory System 无 Embeddings 达到 LongMemEval-S 90.4%¶

u/MontyOW 发布一种 structured storage approach（得分 44，13 条评论），在 LongMemEval-S 上达到 90.4%、retrieval accuracy 98%，token 用量约为 embedding-based approaches 的一半。系统使用三阶段固定 pipeline（retrieve、answer、store），用 structured maps 代替 vector search。

LongMemEval-S 排行榜，显示 c137 系统通过结构化存储和多个模型后端达到 90.4% 总体成绩

Anthropic Job Exposure Data 揭示 60-80 点 Capability-Adoption Gap¶

u/Professional-Rest138 分析 Anthropic 的劳动力市场论文（得分 82，13 条评论），把理论 AI 能力和实际覆盖率之间的差距拆成五类：法律约束、集成摩擦、验证开销、工作流惯性和质量门槛。计算机和数学职业的理论能力为 94%，但实际覆盖率只有 33%。

7. 机会在哪里¶

[+++] 本地推理正在跨过 coding agents 的可用门槛。Qwen 3.6 27B 在 RTX 5090 上达到 100 tps，单张 RTX 3090 上达到 71-83 tok/s，DeepSeek V4 Flash 在 MacBook M3 Max 上达到 21 t/s，提供了三种不同硬件层级的可行本地编码方案。社区正在产出系统化量化数据（KLD measurements、accuracy recovery benchmarks、OS performance comparisons），但还没有统一工具把这些发现整理成硬件专属建议。构建一个 auto-configuration layer，根据硬件 profile 选择最佳 quantization、KV cache settings 和 serving parameters，可以填补明确缺口。（100 tps stack，3090 config，V4 Flash local）

[++] 开源许可证合规工具很有必要。HauhauCS/Heretic 案是靠手工取证分析恢复的 PyPI packages 才发现的。在来源不明模型每月下载量超过 500 万次的背景下，能大规模扫描代码级 derivation indicators（相同 typos、共享 function names、保留 parameter bounds）的自动工具，可以检测许可证违规。AGPL 明确要求标识衍生作品——验证合规的工具对模型创建者和用户都有价值。（抄袭分析）

[++] Token efficiency 正成为关键差异点。GPT-5.5 用少 2.5-10 倍的 token 达到与 DeepSeek V4-Pro 相当的结果。衡量并优化特定工作流 token efficiency 的工具——而不是只看原始能力 benchmark——可以满足增长中的需求。SWE Bench gaming 得到确认，也进一步把价值转向真实世界效率指标。（Intelligence density，SWE Bench）

[+] Evolutionary 和 hybrid model creation 正以极少算力产出强结果。Darwin-36B-Opus 在单张 GPU 上不到一小时，靠 automated breeding 达到 88.4% GPQA Diamond。Heretic uncensored model 靠 expert parameterization 达到 KLD 0.0015。这些技术让模型定制不再只属于有训练预算的人。（Darwin，Heretic model）

[+] AI 能力与部署之间的差距（Anthropic 数据显示 tech roles 理论 94%、实际 33%）最大来自 integration friction 和 verification overhead，而这两个障碍正在最快被削弱。针对这些具体障碍的工具拥有最直接的增长轨迹。（Anthropic analysis）

8. 要点总结¶

HauhauCS 抄袭案是本月本地 LLM 社区最重要的开源伦理事件。 该帖得分 442、166 条评论，Heretic 作者确认发现（得分 543），被指控者在 22 个模型上每月下载量超过 500 万次，这会重塑社区评估模型来源的方式。取证深度——SHA-256 验证下载、逐字 typo 匹配、相同 Optuna parameter bounds——为 derivation analysis 设立了新标准。（分析线程）
AI 辅助解决 Erdos Problem #1196 的证明已在 Lean 4 中形式化验证。 LLM 使用了一种“没人想到要用于这类问题”的新方法，证明已用约 4,000 行形式化代码机器验证。由于有形式化验证和 Terence Tao 直接参与，这与以往 AI 数学声称有质的不同。（Scientific American 讨论）
Qwen 3.6 27B 在单张 RTX 5090 上以 256K context 达到 100 tps。 经 vllm 0.19 使用 INT4 AutoRound quantization 和 MTP speculative decoding，创下新的消费级 GPU 速度纪录。同时，35B-A3B MoE 变体在 NVFP4 quantization 下 KLD（0.176）明显差于 INT8（0.007），实地报告也确认 MoE 比 dense 变体更容易受量化影响。（100 tps，KLD data）
DeepSeek V4-Pro 面临越来越多 token efficiency 批评。 TerminalBench 2.0 数据显示，它大约需要 GPT-5.5 的 10 倍 token，比 V3.2 更糟，尽管模型大了 2.5 倍。社区主导理论是该模型“hugely undertrained”，主要发布目标是 Huawei Ascend 芯片兼容。与此同时，antirez（Redis 创始人）让 V4 Flash 在 MacBook 上用 2-bit quantization 本地跑到 21 t/s，并称其为“在我电脑上运行的前沿模型”。（Token efficiency，Local V4）
GPT Image 2 是 GPT-5.5 发布周期中的明确赢家。 GeoGuessr time travel clone（得分 584）、照片级 Dhaka street scene（得分 318）和 VoxelBench 统治（2106 rating，96.1% win rate）展示的创意能力，是 GPT-5.5 文本模型的冗长抱怨无法匹配的。社区正在收敛到“强创意模型，持续冗长问题”。（GeoGuessr，VoxelBench）
Palantir 故事达到 1,070 分高峰，同时多个 AI 社会议题并行爆发。 加上 Met 警方调查、NSF board 被解雇（得分 481）、Microsoft buyouts（得分 164）、中国工人替代（得分 246）和 Gen Alpha AI girlfriends（得分 198），当天社会议题整体互动超过任何单一技术主题。这些担忧不再小众。（Palantir，NSF）
在 llama.cpp 的 CPU/GPU hybrid prompt processing 中，Linux 比 Windows 快 100-143%。 首个在相同硬件（RTX 5080 + i9-14900KF）上的系统 OS benchmark 显示，generation speed 只差 4-8%，但 hybrid CPU/GPU mode 下的 prompt processing 在 Linux 上快得多。这对运行会溢出到系统 RAM 的模型有实际影响。（OS benchmark）
Benchmark 信任继续受损。 OpenAI 自己关于放弃 SWE Bench Verified 的说明确认了 Goodhart's law 正在发挥作用。结合昨天的 benchmaxxing 讨论，社区对公开 benchmarks 越来越怀疑，转向 task-specific evaluations 和真实世界 field reports。（SWE Bench）

Reddit AI - 2026-04-26¶

1. 人们在讨论什么¶

1.1 HauhauCS 抄袭 Heretic 震动开源 LLM 社区 (🡕)¶

1.2 业余人士借助 AI 解出 60 年 Erdos 问题 (🡕)¶

1.3 Qwen 3.6 优化进入系统阶段 (🡒)¶

1.4 DeepSeek V4 第三天：Intelligence Density 批评升温 (🡖)¶

1.5 GPT-5.5 与 GPT Image 2：创意跃迁、文字冗余 (🡒)¶

1.6 社会议题：Palantir、科学政策、AI 替代 (🡒)¶

1.7 Google-Anthropic $40B 投资：Hedge 还是背书？ (🡒)¶

2. 令人困扰的问题¶

开源抄袭与许可证违规¶

DeepSeek V4 Pro Token 膨胀¶

GPT-5.5 冗长问题持续存在¶

NVFP4 量化质量不达预期¶

SWE Bench Gaming 得到确认¶

3. 人们期望的功能¶

Qwen 3.6 Coder 变体（或官方确认不再需要）¶

可靠的量化质量指导¶

面向新发布模型的 Speculative Decoding Draft Models¶

Agent 工作流的最低可用硬件指导¶

4. 使用中的工具与方法¶

5. 人们在构建什么¶

6. 新动态与亮点¶

OpenAI 放弃 SWE Bench Verified，承认 Gaming¶

NVIDIA 为 DeepSeek V4 提供 Day-0 Blackwell 支持¶

Darwin-36B-Opus：Evolutionary Model Breeding 达到 88.4% GPQA¶

Speculative Decoding 让 Gemma-4-31B 达到 120-200 tok/s¶

Structured Memory System 无 Embeddings 达到 LongMemEval-S 90.4%¶

Anthropic Job Exposure Data 揭示 60-80 点 Capability-Adoption Gap¶

7. 机会在哪里¶

8. 要点总结¶

📬 每日 AI 精选，直达你的收件箱