Reddit AI - 2026-04-26¶
1. 人们在讨论什么¶
1.1 HauhauCS 抄袭 Heretic 震动开源 LLM 社区 (🡕)¶
一起证据极其细致的抄袭案主导了 r/LocalLLaMA。u/nathandreamfast 发布 HauhauCS 发布的 abliteration 包抄袭 Heretic、未署名且违反许可证(得分 442,166 条评论),给出 17 点代码取证拆解。证据包括:Heretic v1.2.0 的 7/7 个模块文件名被保留,30/32 个 refusal markers 逐字相同(包括 “i an ai” 少了 “m” 这样的 typo),以及 30+ 个共享函数和类名。该包以 PolyForm Noncommercial 发布,违反了 Heretic 的 AGPL-3.0 许可证。
Heretic 作者 u/-p-e-w-(Philipp Emanuel Weidmann)发表最高赞评论(得分 543)回应:“我必须完全确认 OP 的发现和结论……两个代码库之间真的有数百处表层和深层相似。”他指出 SPDX headers、一个他“从未在文献中见过”的 geometric median 方法,以及 DatasetSpecification 字段都能证明这一点。他总结道:“如果你想基于 Heretic 构建自己的 abliteration 工具,我有个好消息:你不需要偷我的代码。我已经把它送给你了。”u/a_beautiful_rhind(得分 44)概括:“如果你做这种事,迟早会被发现。然后你会被曝光成一个大骗子。”
另外,u/My_Unbiased_Opinion 发布 Qwen3.6 35B A3B Heretic(KLD 0.0015!)不可思议的模型(得分 287,59 条评论),这是一个合法的 Heretic 衍生 uncensored 模型。u/-p-e-w-(得分 76)称赞作者“毫无疑问是 Heretic 的大师级用户”,并说他“在这里做的远不只是运行一个命令行程序”。
讨论要点: 社区正在明确区分合法开源衍生品(署名、保持同一许可证)和抄袭。分析的取证深度,加上 Heretic 作者的直接确认,让这起事件的证据罕见地扎实。
与前日对比: 昨天没有覆盖。这是一场新争议,很可能对 HauhauCS 的 22 个模型产生后续影响;这些模型合计每月下载量超过 500 万次。
1.2 业余人士借助 AI 解出 60 年 Erdos 问题 (🡕)¶
u/Marha01 分享 一名业余人士刚刚靠询问 AI 解出一个 60 年数学问题(得分 579,79 条评论),链接到一篇关于 Erdos Problem #1196 的 Scientific American 文章。LLM 采用了“一条完全不同的路线,用到了相关数学领域中很知名、但此前没人想到要用于这类问题的公式”。Terence Tao 审阅并缩短了证明。结果已经用约 4,000 行 Lean 4 代码得到形式化验证。
u/sckchui(得分 297)强调关键细节:“LLM 是在自己思考,也正因如此产出了一个丑陋答案。尽管如此,它写出的那堆乱糟糟内容(你也可以叫它 slop)包含一个新颖且可能重要的洞见,而人类专家至今都错过了它。”u/Peanut_Extreme_8208(得分 16)报告:“从数学界内部看,面对可能被 AI‘取代’的前景,确实有一种恐惧和沮丧感。”
讨论要点: Lean 4 的形式化验证让它区别于以往的 AI 数学声称。LLM 的贡献是一个新的概念连接,而不是暴力计算。
与前日对比: 昨天没有覆盖。这是一个新进展。
1.3 Qwen 3.6 优化进入系统阶段 (🡒)¶
Qwen 3.6 优化浪潮继续推进,出现新的速度纪录和量化数据。
u/Kindly-Cantaloupe978 发布 Qwen3.6-27B-INT4 在单张 RTX 5090 上以 256k context length 跑到 100 tps(得分 195,68 条评论),在昨天 80 tps 结果基础上,用 AutoRound INT4 quantization、MTP speculative decoding 和 vllm 0.19 的 fp8_e4m3 KV cache 进一步提升。u/Important_Quote_1180(得分 22)报告,在单张 RTX 3090 上用 TurboQuant 3-bit KV cache 和 125K 上下文达到 71-83 tok/s。
u/ROS_SDN 探索 Qwen3.6 35b a3b 的量化影响(得分 72,71 条评论),指出 MoE 变体在 Q4 和 Q8 之间存在“鲜明”的质量差异。u/LaurentPayot(得分 27)分享一张基准图,显示 accuracy recovery rates:UD-Q4_K_XL 在 22.4 GB 下恢复 98.5% 的 full-precision accuracy,而 UD-Q3_K_XL 在 16.8 GB 下达到 100.0%——这是反直觉结果,暗示更小的 quant 可能受益于更少生成 token。

u/Phaelon74 用改造过的 vllm pipeline 和真实 GPU logits 测量 Qwen3.6-35B-A3B 的 INT 与 NVFP4 quantizations KLD(得分 46,20 条评论)。数据显示,sakamakismile 的 NVFP4 KLD 最差,为 0.176,而 INT8 quantizations 的 KLD 低于 0.008。作者提醒:“NVFP4 cake,一如既往,是假的。”

u/boutell 写了一篇全面的 在 32GB RAM M2 MacBook Pro 上用 Qwen 3.6 35B-A3B 编程的实地报告(得分 68,43 条评论)。该模型在 adapter pattern 任务上成功(“构建一个兼容组件,能通过同一套测试”),但在基于几何的 CSS/PDF 定位 bug 上失败。作者总结说,它“需要比 Claude Code 更多引导”,但在结构化任务上优于手工实现。
u/Ok_Mine189 发布 基准:Windows 11 vs Lubuntu 26.04 on Llama.cpp(得分 57,61 条评论)。Linux 在所有模型上 token generation 快 4-8%,但头条结果是 CPU/GPU hybrid prompt processing:Linux 快 100-143%。u/ambient_temp_xeno(得分 37)解释:“问题并不是 windows 天然有缺陷……而是那个 cuda dev guy 不在乎 windows performance。”
讨论要点: 社区正在产出系统化量化数据,显示 MoE 35B-A3B 比 dense 27B 更容易受量化影响。基于 KLD 测量,对 NVFP4 的反弹正在增加。RTX 5090 上的速度纪录继续被刷新。
与前日对比: 昨天重点是 27B dense 的 KV cache quantization,以及 RTX 5090 上 80 tps。今天加入了 100 tps INT4 纪录、MoE 专属 KLD 测量、Windows vs Linux 基准和详细的 M2 实地报告。优化阶段正在产出越来越可执行的数据。
1.4 DeepSeek V4 第三天:Intelligence Density 批评升温 (🡖)¶
DeepSeek V4 叙事从发布热情转向对 token efficiency 的批判分析。
u/Mindless_Pain1860 发布 DeepSeek V4 Pro 的 Intelligence Density 下降(得分 209,88 条评论),展示 TerminalBench 2.0 数据,显示 V4-Pro 需要大约 GPT-5.5 的 10 倍 token 才能达到相近表现。selftext 指出,“甚至 non-thinking mode 用的 token 也明显多于 V3.2”。

u/Puzzleheaded-Drama-8(得分 136)坚持“undertrained”论点:“我预计未来几个月拿到新 checkpoints 时,这个模型会出现巨大提升。”u/TheKingOfTCGames(得分 46)指出:“GPT 5.5 专门针对 token efficiency 训练——它大约比 Opus 高效 3-5 倍,差不多是 Sonnet 的 10 倍。”u/Hyp3rSoniX(得分 25)给出战略解释:“我觉得 v4 发布的主要目标,是让这些模型能跑在 Huawei Ascend AI processors 上。”
u/antirez(Redis 创始人)发布 llama.cpp DeepSeek v4 Flash experimental inference(得分 41,37 条评论),在 128GB RAM 的 MacBook M3 Max 上运行,给 routed experts 做激进 2-bit quantization,同时 shared experts 用 Q8,达到 21 t/s。他报告:“第一次,即便用了这种选择性 2-bit quantization,我也感觉我的电脑上跑着一个前沿模型。”
讨论要点: 社区正在按变体拆分对 V4 的评价:Flash 仍是成本效率上的共识赢家,而 Pro 面临越来越多 token density 怀疑。Huawei 芯片兼容性理论为 Pro 不够亮眼的 token efficiency 提供了一个较宽容的解释。
与前日对比: 昨天覆盖了 V4 发布热度和 Flash 定价。今天,昨天初现的 intelligence density 批评显著增长(得分从 119 到 209),“undertrained”理论成了主导框架。antirez 的本地推理里程碑增加了新的实践维度。
1.5 GPT-5.5 与 GPT Image 2:创意跃迁、文字冗余 (🡒)¶
GPT-5.5 评估稳定在两个极点:令人印象深刻的创意能力,以及持续存在的啰嗦抱怨。
u/Proof-Square7528 发布 用 gpt-image-2 做 geoguessr time travel clone(得分 584,47 条评论),展示历史场景的 360 度全景。u/xirzon(得分 117)注意到一个有趣细节:“给不存在的人打 privacy pixelation 这点很妙。”u/Rare_Bunch4348 分享 ChatGPT 用 Image 2 打出的回归太疯狂了(得分 318,58 条评论),与 Nano Banana Pro 做并排对比。u/Able-Line2683(得分 115)说:“第二张图看起来像真实照片。”
u/Akashictruth 发布 GPT 5.5 Xhigh VoxelBench test(得分 176,35 条评论),展示包括 Spider-Man 和 NYC skyline 在内的 Minecraft voxel builds。VoxelBench 排行榜显示 GPT-5.5 xHigh 以 2106 分占据优势。

批评方面,u/No-Yesterday-1624 提问 GPT5.5 但为什么还是这么多 waffle?(得分 306,31 条评论)。u/RealCat7386(得分 53)说出了挫败感:“我只是问一个给客户看的汽车功能,它却给我一整篇安全考虑和市场趋势文章,而我只需要规格。”u/Calm-Branch1671(得分 9)给出模型对比:“我喜欢 Claude 4.6——它有点能抓住你的 vibe 和所需深度。”
u/artemisgarden 绘制 OpenAI 在 Artificial Analysis 上随时间变化的分数(得分 202,38 条评论),显示从 GPT-3.5(得分 9)到 GPT-5.5(得分 60)的轨迹。评论者指出 AI 生成图中的日期不准确。

讨论要点: GPT Image 2 是 GPT-5.5 发布中毫无争议的赢家。文本模型继续引发 “waffle” 抱怨。社区正在收敛到 Claude 适合精确回答、GPT 适合创意广度的判断。
与前日对比: 昨天覆盖 SimpleBench 分数和 “big model feel”。今天加入 GeoGuessr clone、Image 2 对比和啰嗦抱怨。评估正在稳定:强创意和多模态模型,持续存在的冗余问题。
1.6 社会议题:Palantir、科学政策、AI 替代 (🡒)¶
多个高互动帖子讨论 AI 的社会影响。
u/shikizen 发布 Palantir 员工正在谈论公司的“descent into fascism”(得分 1,070,130 条评论),引用 Ars Technica 关于内部 Slack 消息和一份建议美国考虑恢复征兵的 manifesto 的文章。u/5553331117(得分 284)并不意外:“很确定他们一直就是铁杆法西斯。那是他们的商业模式。”u/esporx 在 r/artificial 的 cross-post(得分 488,58 条评论)放大了这一信号。u/prisongovernor 补充真实世界后果:Met 在使用 Palantir AI 工具后调查数百名警员(得分 68,13 条评论)。
u/esporx 报道 Trump 解雇整个 National Science Board(得分 481,62 条评论)。u/Illuminatus-Prime(得分 136)说:“Trump 讨厌任何能证明他错的东西。”
在劳动力替代方面,u/Bharath720 发布 Microsoft 向高级员工提供自愿买断,涉及美国员工 7%(得分 164,36 条评论)。u/ada_stack(得分 16)观察:“如果连直接创造利润的高级工程师现在都被视为‘可替代’,那么对其他人的门槛只会越来越高。”u/chunmunsingh 分享 中国工人惊恐发现老板要求他们训练 AI 替代品(得分 246,24 条评论)。
u/Beautiful_Bee4090 发布 Gen Alpha 男孩更喜欢“AI girlfriends”而不是真人(得分 198,140 条评论)。u/Hartax_(得分 67)提供第一人称青少年视角:“以我和朋友的经历看,几乎没有女孩觉得我们有吸引力,我学校里只有少数人有真实 gf。这不是偏好问题,而是什么可获得的问题。”
讨论要点: Palantir 故事获得最强互动,但更广泛的模式同样值得注意:劳动力替代、科学政策冲击、AI surveillance 后果、青少年社交影响,同一天都获得了高独立互动。
与前日对比: 昨天覆盖 Palantir、Microsoft buyouts 和中国工人训练替代品。今天加入 NSF board 被解雇、Met 警方 Palantir 调查,以及 Gen Alpha AI relationships。Palantir 故事从 675 增至 1,070 分。社会担忧主题继续分化扩展。
1.7 Google-Anthropic $40B 投资:Hedge 还是背书? (🡒)¶
u/Ordinary-Cycle7809 讨论 Google 向 Claude 投资 $40,000,000,000 真的有点好笑(得分 193,142 条评论)。u/crystalpeaks25(得分 141)提供关键背景:“你知道 anthropic 是 Google 自家 Google Vertex AI 里使用最多的模型吧。当 Google 说某一部分收入来自 AI,他们指的是多数企业用户在 Vertex AI 里用 anthropic models。”u/EndOfWorldBoredom(得分 50)从金融角度解释:“Google 刚卖了低息 100 年期债券。他们正在把便宜资本投到能产生回报的地方。他们只是有科技投资组合的投行。”
讨论要点: 这笔投资被一致解读为金融 hedge,而不是对 Anthropic 技术的背书。Vertex AI 细节提供了最有说服力的解释。
与前日对比: 昨天引入 Google $40B 和 Amazon $5B 投资。今天讨论围绕 “hedge” 框架成熟起来,并加入具体 Vertex AI 背景。
2. 令人困扰的问题¶
开源抄袭与许可证违规¶
严重程度:High
HauhauCS 发布的 abliteration 包抄袭 Heretic 的 AGPL-3.0 代码,删除所有署名,并以 PolyForm Noncommercial 重新授权。证据包括逐字相同的 refusal markers 和保留下来的 typos。Heretic 作者 u/-p-e-w-(得分 543)确认:“这明显违反 AGPL 第 4 和第 5 条。也明显违反所有能想象到的伦理标准。”HauhauCS 在 22 个模型上每月下载量超过 500 万次,引发对所有模型来源的疑问。(抄袭分析)
DeepSeek V4 Pro Token 膨胀¶
严重程度:Medium
V4-Pro 在 TerminalBench 2.0 上大约需要 GPT-5.5 的 10 倍 token,而且即便 non-thinking mode 使用的 token 也明显多于 V3.2,尽管模型规模大了 2.5 倍。u/Mindless_Pain1860 记录了这次退化:“模型的 intelligence density 下降了,而不是提高。”(Intelligence density thread)
GPT-5.5 冗长问题持续存在¶
严重程度:Medium
u/No-Yesterday-1624 捕捉到这种挫败(得分 306):GPT-5.5 在回答中仍会产生过多 “waffle”。u/RealCat7386(得分 53)报告:“当我只是问给客户看的汽车功能时,它给我一整篇安全考虑和市场趋势文章,而我只需要规格。”社区将其归因于偏好更长输出的训练奖励结构。(冗长讨论)
NVFP4 量化质量不达预期¶
严重程度:Medium
u/Phaelon74 测量 Qwen3.6-35B-A3B 的 NVFP4 quantizations KLD,发现它们在相同比特宽度下明显弱于 INT quantizations。sakamakismile 的 NVFP4 变体 KLD 为 0.176,而同一基础模型的 INT8 为 0.007。“NVFP4 cake,一如既往,是假的。”(KLD 分析)
SWE Bench Gaming 得到确认¶
严重程度:Low
u/rm-rf-rm 发布 OpenAI 自己关于 为什么他们不再评估 SWE Bench Verified 的说明(得分 105)。u/Mashic(得分 82)引用 Goodhart's law。u/suicidaleggroll(得分 39)认为:“benchmarks 真的需要关闭,才能保持有效。”
3. 人们期望的功能¶
Qwen 3.6 Coder 变体(或官方确认不再需要)¶
u/ComplexType568 提问 Qwen3.5/3.6 Coder?(得分 91,53 条评论)。u/StardockEngineer(得分 73)回答:“我几乎觉得已经不需要了。”u/NNN_Throwaway2(得分 47)同意:“3.6 感觉完全可以就是那个 ‘coder’ release。”社区想要的要么是专用 coder 变体,要么是官方确认基础模型已经涵盖这个角色。
可靠的量化质量指导¶
量化方法大量增加(GGUF Q2-Q8、NVFP4、MXFP4、INT4 AutoRound、AWQ、GPTQ),还要横跨多样硬件,造成决策瘫痪。u/denis-craciun 询问 Unsloth models 真有我看到的那么好吗?(得分 100,162 条评论)。u/emprahsFury(得分 48)反驳营销说法:“q4 quant 就只是 q4 quant。每个人都在做 Unsloth 做的事。”用户想要不依赖供应商的质量指标。
面向新发布模型的 Speculative Decoding Draft Models¶
u/butterfly_labs 提问 现在有兼容 Qwen3.6 27B 的 DFlash draft model 吗?(得分 27,20 条评论)。Speculative decoding 的速度增益已经被证明(报告有 3 倍吞吐乘数),但兼容 draft models 继续落后于架构发布。
Agent 工作流的最低可用硬件指导¶
u/MexInAbu 提问 你认为本地 Agent 工作流的最低性能(t/s)是多少?(得分 40,60 条评论)。u/triplebits(得分 8)给出最结构化回答:低于 15 t/s 会有明显卡顿,20-25 t/s 可用于规划任务,35+ t/s 则模型不再是瓶颈。社区希望看到按工作流类型绑定的标准化硬件建议。
4. 使用中的工具与方法¶
| 工具 | 类别 | 情感倾向 | 优势 | 局限性 |
|---|---|---|---|---|
| Qwen 3.6 27B | 本地 LLM(dense) | 非常正面 | RTX 5090 上 100 tps;Q4 可塞进单张 3090;适配 coding agent 使用 | 长上下文需要谨慎管理 KV cache |
| Qwen 3.6 35B-A3B | 本地 LLM(MoE) | 正面 | Apple Silicon 上比 27B 快 8 倍;强 uncensored 衍生版(Heretic) | 比 27B 更易受量化影响;低于 Q4 时 KLD 急剧变差 |
| DeepSeek V4-Flash | 开放 LLM(284B MoE) | 正面 | MacBook 上 2-bit quant 达到 21 t/s;MIT license;1M context | 无多模态;token efficiency 低于 GPT-5.5 |
| DeepSeek V4-Pro | 开放 LLM(1.6T MoE) | 褒贬不一 | 推理强;支持 Huawei 芯片 | 相比 GPT-5.5 有 10 倍 token 膨胀;社区认为 “hugely undertrained” |
| GPT-5.5 | 云端 LLM | 偏正但混合 | VoxelBench 分数最高;Image 2 全景生成;AA Index 60 | 持续啰嗦;编码前沿无推进 |
| GPT Image 2 | 图像生成 | 非常正面 | 照片级输出;360 度全景;局部细节准确 | 给不存在的人打 privacy pixelation(有趣 artifact) |
| Heretic | Abliteration 工具 | 非常正面 | AGPL-3.0;最佳衍生模型 KLD 0.0015;作者支持 | 成为抄袭目标;需要谨慎调参 |
| vllm 0.19 | Serving engine | 非常正面 | NVFP4+MTP;5090 上 Qwen 3.6 27B 100 tps;TurboQuant KV cache | 峰值结果需要新硬件 |
| llama.cpp | 推理引擎 | 非常正面 | 支持 NVFP4/MXFP4;Mac 上 DS V4 Flash 21 t/s;硬件覆盖广 | CPU/GPU hybrid 下 Windows 比 Linux 慢 100-143% |
| OpenCode | Agent scaffold | 正面 | 支持本地模型;兼容 llama-server | 需要手动配置 |
| PaddleOCR-VL-1.5 | Vision-language OCR | 正面 | 通过 llama-server 处理复杂版面、表格、多语言文本 | 社区测试有限 |
5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 阶段 | 链接 |
|---|---|---|---|---|---|---|
| Heretic Plagiarism Forensic Analysis | u/nathandreamfast | 17 点代码比较,恢复被删除的 PyPI package | 用 SHA-256 证据验证开源许可证违规 | PyPI CDN recovery, code diffing | 已发布 | dreamfast.github.io/reaper-analysis |
| Qwen3.6-35B-A3B Heretic Uncensored | u/My_Unbiased_Opinion via llmfan46 | KLD 0.0015 的 uncensored 模型,带独立 attention 参数 | 质量损失极小的 uncensored 本地模型 | Heretic, Qwen 3.6 | 已发布 | HuggingFace |
| Darwin-36B-Opus | u/jacek2023 | Evolutionary model breeding:Qwen3.6-35B-A3B x Claude-distilled 变体 | 无需再训练的自动模型改进 | Darwin V7, single GPU | 已发布 | HuggingFace |
| Qwen3.6 27B 100tps Stack | u/Kindly-Cantaloupe978 | INT4 AutoRound + MTP,在 RTX 5090 上 100 tps、256K context | 最大化本地推理吞吐 | vllm 0.19, AutoRound | 活跃 | r/LocalLLaMA post |
| DeepSeek V4 Flash Local Inference | u/antirez | V4 Flash 在 MacBook M3 Max 上用 2-bit routed experts 达到 21 t/s | 消费级硬件上的本地前沿模型 | llama.cpp, custom quantizer | 实验性 | GitHub |
| c137 Structured Memory System | u/MontyOW | 无 embeddings 的 structured storage 达到 90.4% LongMemEval-S | 无 embedding 开销的长期记忆 | 3-stage pipeline, structured storage | 活跃 | c137.ai/research |
| PaddleOCR-VL Book OCR Pipeline | u/Final-Frosting7742 | 面向书籍的 layout detection、region OCR、Markdown+HTML table output | 用本地 vision-language model 数字化书籍 | PaddleOCR-VL-1.5, llama-server, Vulkan | 已发布 | GitHub |
| GeoGuessr Time Travel Clone | u/Proof-Square7528 | 批量生成 360 度历史全景 | AI 生成历史街景体验 | GPT Image 2 API | Demo | wen-ware.com |
| OpenAI Privacy Filter | OpenAI | PII detection and masking model | 隐私保护文本处理 | Small model, open weights | 已发布 | HuggingFace |
| Real-time EEG Meditation System | u/uisato | AI 解读实时脑信号,给出冥想引导提示 | 基于实时 EEG 的个性化冥想 | OpenBCI, TouchDesigner, Python | Demo | r/singularity post |
| Qwen3.6-35B-A3B KLD Measurement Pipeline | u/Phaelon74 | 基于真实 GPU logits 的量化质量 KLD | 权威量化质量比较 | Modified vllm, RTX 6000 | 活跃 | GitHub |
6. 新动态与亮点¶
OpenAI 放弃 SWE Bench Verified,承认 Gaming¶
OpenAI 发布 为什么我们不再评估 SWE Bench Verified,确认该 benchmark 已被 gaming。u/rm-rf-rm 在 r/LocalLLaMA 分享此事(得分 105,28 条评论)。u/noctrex(得分 9)指出 swe-rebench.com 可以作为不断刷新题目的替代。
NVIDIA 为 DeepSeek V4 提供 Day-0 Blackwell 支持¶
u/shikizen 报道 NVIDIA 在 1.6T 模型上推到每秒 3,500 tokens(得分 48,21 条评论),使用 Blackwell GPUs 并提供 day-0 DeepSeek V4 support。
Darwin-36B-Opus:Evolutionary Model Breeding 达到 88.4% GPQA¶
u/jacek2023 发布 Darwin-36B-Opus(得分 79,19 条评论),这是一个用 Qwen3.6-35B-A3B 与 Claude-distilled 变体自动进化 breeding 产生的模型。流程在单张 GPU 上不到一小时即可跑完,并在 GPQA Diamond 上达到 88.4%。
Speculative Decoding 让 Gemma-4-31B 达到 120-200 tok/s¶
u/Clasyc 报告 Gemma-4-31B + Gemma-4-E2B 的 speculative decoding 达到 120-200 tok/s(得分 22,14 条评论),适用于特定任务。
Structured Memory System 无 Embeddings 达到 LongMemEval-S 90.4%¶
u/MontyOW 发布一种 structured storage approach(得分 44,13 条评论),在 LongMemEval-S 上达到 90.4%、retrieval accuracy 98%,token 用量约为 embedding-based approaches 的一半。系统使用三阶段固定 pipeline(retrieve、answer、store),用 structured maps 代替 vector search。

Anthropic Job Exposure Data 揭示 60-80 点 Capability-Adoption Gap¶
u/Professional-Rest138 分析 Anthropic 的劳动力市场论文(得分 82,13 条评论),把理论 AI 能力和实际覆盖率之间的差距拆成五类:法律约束、集成摩擦、验证开销、工作流惯性和质量门槛。计算机和数学职业的理论能力为 94%,但实际覆盖率只有 33%。
7. 机会在哪里¶
[+++] 本地推理正在跨过 coding agents 的可用门槛。Qwen 3.6 27B 在 RTX 5090 上达到 100 tps,单张 RTX 3090 上达到 71-83 tok/s,DeepSeek V4 Flash 在 MacBook M3 Max 上达到 21 t/s,提供了三种不同硬件层级的可行本地编码方案。社区正在产出系统化量化数据(KLD measurements、accuracy recovery benchmarks、OS performance comparisons),但还没有统一工具把这些发现整理成硬件专属建议。构建一个 auto-configuration layer,根据硬件 profile 选择最佳 quantization、KV cache settings 和 serving parameters,可以填补明确缺口。(100 tps stack,3090 config,V4 Flash local)
[++] 开源许可证合规工具很有必要。HauhauCS/Heretic 案是靠手工取证分析恢复的 PyPI packages 才发现的。在来源不明模型每月下载量超过 500 万次的背景下,能大规模扫描代码级 derivation indicators(相同 typos、共享 function names、保留 parameter bounds)的自动工具,可以检测许可证违规。AGPL 明确要求标识衍生作品——验证合规的工具对模型创建者和用户都有价值。(抄袭分析)
[++] Token efficiency 正成为关键差异点。GPT-5.5 用少 2.5-10 倍的 token 达到与 DeepSeek V4-Pro 相当的结果。衡量并优化特定工作流 token efficiency 的工具——而不是只看原始能力 benchmark——可以满足增长中的需求。SWE Bench gaming 得到确认,也进一步把价值转向真实世界效率指标。(Intelligence density,SWE Bench)
[+] Evolutionary 和 hybrid model creation 正以极少算力产出强结果。Darwin-36B-Opus 在单张 GPU 上不到一小时,靠 automated breeding 达到 88.4% GPQA Diamond。Heretic uncensored model 靠 expert parameterization 达到 KLD 0.0015。这些技术让模型定制不再只属于有训练预算的人。(Darwin,Heretic model)
[+] AI 能力与部署之间的差距(Anthropic 数据显示 tech roles 理论 94%、实际 33%)最大来自 integration friction 和 verification overhead,而这两个障碍正在最快被削弱。针对这些具体障碍的工具拥有最直接的增长轨迹。(Anthropic analysis)
8. 要点总结¶
-
HauhauCS 抄袭案是本月本地 LLM 社区最重要的开源伦理事件。 该帖得分 442、166 条评论,Heretic 作者确认发现(得分 543),被指控者在 22 个模型上每月下载量超过 500 万次,这会重塑社区评估模型来源的方式。取证深度——SHA-256 验证下载、逐字 typo 匹配、相同 Optuna parameter bounds——为 derivation analysis 设立了新标准。(分析线程)
-
AI 辅助解决 Erdos Problem #1196 的证明已在 Lean 4 中形式化验证。 LLM 使用了一种“没人想到要用于这类问题”的新方法,证明已用约 4,000 行形式化代码机器验证。由于有形式化验证和 Terence Tao 直接参与,这与以往 AI 数学声称有质的不同。(Scientific American 讨论)
-
Qwen 3.6 27B 在单张 RTX 5090 上以 256K context 达到 100 tps。 经 vllm 0.19 使用 INT4 AutoRound quantization 和 MTP speculative decoding,创下新的消费级 GPU 速度纪录。同时,35B-A3B MoE 变体在 NVFP4 quantization 下 KLD(0.176)明显差于 INT8(0.007),实地报告也确认 MoE 比 dense 变体更容易受量化影响。(100 tps,KLD data)
-
DeepSeek V4-Pro 面临越来越多 token efficiency 批评。 TerminalBench 2.0 数据显示,它大约需要 GPT-5.5 的 10 倍 token,比 V3.2 更糟,尽管模型大了 2.5 倍。社区主导理论是该模型“hugely undertrained”,主要发布目标是 Huawei Ascend 芯片兼容。与此同时,antirez(Redis 创始人)让 V4 Flash 在 MacBook 上用 2-bit quantization 本地跑到 21 t/s,并称其为“在我电脑上运行的前沿模型”。(Token efficiency,Local V4)
-
GPT Image 2 是 GPT-5.5 发布周期中的明确赢家。 GeoGuessr time travel clone(得分 584)、照片级 Dhaka street scene(得分 318)和 VoxelBench 统治(2106 rating,96.1% win rate)展示的创意能力,是 GPT-5.5 文本模型的冗长抱怨无法匹配的。社区正在收敛到“强创意模型,持续冗长问题”。(GeoGuessr,VoxelBench)
-
Palantir 故事达到 1,070 分高峰,同时多个 AI 社会议题并行爆发。 加上 Met 警方调查、NSF board 被解雇(得分 481)、Microsoft buyouts(得分 164)、中国工人替代(得分 246)和 Gen Alpha AI girlfriends(得分 198),当天社会议题整体互动超过任何单一技术主题。这些担忧不再小众。(Palantir,NSF)
-
在 llama.cpp 的 CPU/GPU hybrid prompt processing 中,Linux 比 Windows 快 100-143%。 首个在相同硬件(RTX 5080 + i9-14900KF)上的系统 OS benchmark 显示,generation speed 只差 4-8%,但 hybrid CPU/GPU mode 下的 prompt processing 在 Linux 上快得多。这对运行会溢出到系统 RAM 的模型有实际影响。(OS benchmark)
-
Benchmark 信任继续受损。 OpenAI 自己关于放弃 SWE Bench Verified 的说明确认了 Goodhart's law 正在发挥作用。结合昨天的 benchmaxxing 讨论,社区对公开 benchmarks 越来越怀疑,转向 task-specific evaluations 和真实世界 field reports。(SWE Bench)