跳转至

Reddit AI - 2026-04-26

1. 人们在讨论什么

1.1 HauhauCS 抄袭 Heretic 震动开源 LLM 社区 (🡕)

一起证据极其细致的抄袭案主导了 r/LocalLLaMA。u/nathandreamfast 发布 HauhauCS 发布的 abliteration 包抄袭 Heretic、未署名且违反许可证(得分 442,166 条评论),给出 17 点代码取证拆解。证据包括:Heretic v1.2.0 的 7/7 个模块文件名被保留,30/32 个 refusal markers 逐字相同(包括 “i an ai” 少了 “m” 这样的 typo),以及 30+ 个共享函数和类名。该包以 PolyForm Noncommercial 发布,违反了 Heretic 的 AGPL-3.0 许可证。

Heretic 作者 u/-p-e-w-(Philipp Emanuel Weidmann)发表最高赞评论(得分 543)回应:“我必须完全确认 OP 的发现和结论……两个代码库之间真的有数百处表层和深层相似。”他指出 SPDX headers、一个他“从未在文献中见过”的 geometric median 方法,以及 DatasetSpecification 字段都能证明这一点。他总结道:“如果你想基于 Heretic 构建自己的 abliteration 工具,我有个好消息:你不需要偷我的代码。我已经把它送给你了。”u/a_beautiful_rhind(得分 44)概括:“如果你做这种事,迟早会被发现。然后你会被曝光成一个大骗子。”

另外,u/My_Unbiased_Opinion 发布 Qwen3.6 35B A3B Heretic(KLD 0.0015!)不可思议的模型(得分 287,59 条评论),这是一个合法的 Heretic 衍生 uncensored 模型。u/-p-e-w-(得分 76)称赞作者“毫无疑问是 Heretic 的大师级用户”,并说他“在这里做的远不只是运行一个命令行程序”。

讨论要点: 社区正在明确区分合法开源衍生品(署名、保持同一许可证)和抄袭。分析的取证深度,加上 Heretic 作者的直接确认,让这起事件的证据罕见地扎实。

与前日对比: 昨天没有覆盖。这是一场新争议,很可能对 HauhauCS 的 22 个模型产生后续影响;这些模型合计每月下载量超过 500 万次。

1.2 业余人士借助 AI 解出 60 年 Erdos 问题 (🡕)

u/Marha01 分享 一名业余人士刚刚靠询问 AI 解出一个 60 年数学问题(得分 579,79 条评论),链接到一篇关于 Erdos Problem #1196 的 Scientific American 文章。LLM 采用了“一条完全不同的路线,用到了相关数学领域中很知名、但此前没人想到要用于这类问题的公式”。Terence Tao 审阅并缩短了证明。结果已经用约 4,000 行 Lean 4 代码得到形式化验证。

u/sckchui(得分 297)强调关键细节:“LLM 是在自己思考,也正因如此产出了一个丑陋答案。尽管如此,它写出的那堆乱糟糟内容(你也可以叫它 slop)包含一个新颖且可能重要的洞见,而人类专家至今都错过了它。”u/Peanut_Extreme_8208(得分 16)报告:“从数学界内部看,面对可能被 AI‘取代’的前景,确实有一种恐惧和沮丧感。”

讨论要点: Lean 4 的形式化验证让它区别于以往的 AI 数学声称。LLM 的贡献是一个新的概念连接,而不是暴力计算。

与前日对比: 昨天没有覆盖。这是一个新进展。

1.3 Qwen 3.6 优化进入系统阶段 (🡒)

Qwen 3.6 优化浪潮继续推进,出现新的速度纪录和量化数据。

u/Kindly-Cantaloupe978 发布 Qwen3.6-27B-INT4 在单张 RTX 5090 上以 256k context length 跑到 100 tps(得分 195,68 条评论),在昨天 80 tps 结果基础上,用 AutoRound INT4 quantization、MTP speculative decoding 和 vllm 0.19 的 fp8_e4m3 KV cache 进一步提升。u/Important_Quote_1180(得分 22)报告,在单张 RTX 3090 上用 TurboQuant 3-bit KV cache 和 125K 上下文达到 71-83 tok/s。

u/ROS_SDN 探索 Qwen3.6 35b a3b 的量化影响(得分 72,71 条评论),指出 MoE 变体在 Q4 和 Q8 之间存在“鲜明”的质量差异。u/LaurentPayot(得分 27)分享一张基准图,显示 accuracy recovery rates:UD-Q4_K_XL 在 22.4 GB 下恢复 98.5% 的 full-precision accuracy,而 UD-Q3_K_XL 在 16.8 GB 下达到 100.0%——这是反直觉结果,暗示更小的 quant 可能受益于更少生成 token。

Qwen3.6-35B-A3B GGUF 评估图,显示不同量化等级的准确率恢复、模型大小和 token 数

u/Phaelon74 用改造过的 vllm pipeline 和真实 GPU logits 测量 Qwen3.6-35B-A3B 的 INT 与 NVFP4 quantizations KLD(得分 46,20 条评论)。数据显示,sakamakismile 的 NVFP4 KLD 最差,为 0.176,而 INT8 quantizations 的 KLD 低于 0.008。作者提醒:“NVFP4 cake,一如既往,是假的。”

Qwen3.6-35B-A3B 量化方法的 KL Divergence vs 文件大小散点图,显示 NVFP4 表现较差

u/boutell 写了一篇全面的 在 32GB RAM M2 MacBook Pro 上用 Qwen 3.6 35B-A3B 编程的实地报告(得分 68,43 条评论)。该模型在 adapter pattern 任务上成功(“构建一个兼容组件,能通过同一套测试”),但在基于几何的 CSS/PDF 定位 bug 上失败。作者总结说,它“需要比 Claude Code 更多引导”,但在结构化任务上优于手工实现。

u/Ok_Mine189 发布 基准:Windows 11 vs Lubuntu 26.04 on Llama.cpp(得分 57,61 条评论)。Linux 在所有模型上 token generation 快 4-8%,但头条结果是 CPU/GPU hybrid prompt processing:Linux 快 100-143%。u/ambient_temp_xeno(得分 37)解释:“问题并不是 windows 天然有缺陷……而是那个 cuda dev guy 不在乎 windows performance。”

讨论要点: 社区正在产出系统化量化数据,显示 MoE 35B-A3B 比 dense 27B 更容易受量化影响。基于 KLD 测量,对 NVFP4 的反弹正在增加。RTX 5090 上的速度纪录继续被刷新。

与前日对比: 昨天重点是 27B dense 的 KV cache quantization,以及 RTX 5090 上 80 tps。今天加入了 100 tps INT4 纪录、MoE 专属 KLD 测量、Windows vs Linux 基准和详细的 M2 实地报告。优化阶段正在产出越来越可执行的数据。

1.4 DeepSeek V4 第三天:Intelligence Density 批评升温 (🡖)

DeepSeek V4 叙事从发布热情转向对 token efficiency 的批判分析。

u/Mindless_Pain1860 发布 DeepSeek V4 Pro 的 Intelligence Density 下降(得分 209,88 条评论),展示 TerminalBench 2.0 数据,显示 V4-Pro 需要大约 GPT-5.5 的 10 倍 token 才能达到相近表现。selftext 指出,“甚至 non-thinking mode 用的 token 也明显多于 V3.2”。

TerminalBench 2.0 图表,对比 GPT-5.5 和 GPT-5.4 的 token 效率及 DeepSeek V4 变体

u/Puzzleheaded-Drama-8(得分 136)坚持“undertrained”论点:“我预计未来几个月拿到新 checkpoints 时,这个模型会出现巨大提升。”u/TheKingOfTCGames(得分 46)指出:“GPT 5.5 专门针对 token efficiency 训练——它大约比 Opus 高效 3-5 倍,差不多是 Sonnet 的 10 倍。”u/Hyp3rSoniX(得分 25)给出战略解释:“我觉得 v4 发布的主要目标,是让这些模型能跑在 Huawei Ascend AI processors 上。”

u/antirez(Redis 创始人)发布 llama.cpp DeepSeek v4 Flash experimental inference(得分 41,37 条评论),在 128GB RAM 的 MacBook M3 Max 上运行,给 routed experts 做激进 2-bit quantization,同时 shared experts 用 Q8,达到 21 t/s。他报告:“第一次,即便用了这种选择性 2-bit quantization,我也感觉我的电脑上跑着一个前沿模型。”

讨论要点: 社区正在按变体拆分对 V4 的评价:Flash 仍是成本效率上的共识赢家,而 Pro 面临越来越多 token density 怀疑。Huawei 芯片兼容性理论为 Pro 不够亮眼的 token efficiency 提供了一个较宽容的解释。

与前日对比: 昨天覆盖了 V4 发布热度和 Flash 定价。今天,昨天初现的 intelligence density 批评显著增长(得分从 119 到 209),“undertrained”理论成了主导框架。antirez 的本地推理里程碑增加了新的实践维度。

1.5 GPT-5.5 与 GPT Image 2:创意跃迁、文字冗余 (🡒)

GPT-5.5 评估稳定在两个极点:令人印象深刻的创意能力,以及持续存在的啰嗦抱怨。

u/Proof-Square7528 发布 用 gpt-image-2 做 geoguessr time travel clone(得分 584,47 条评论),展示历史场景的 360 度全景。u/xirzon(得分 117)注意到一个有趣细节:“给不存在的人打 privacy pixelation 这点很妙。”u/Rare_Bunch4348 分享 ChatGPT 用 Image 2 打出的回归太疯狂了(得分 318,58 条评论),与 Nano Banana Pro 做并排对比。u/Able-Line2683(得分 115)说:“第二张图看起来像真实照片。”

u/Akashictruth 发布 GPT 5.5 Xhigh VoxelBench test(得分 176,35 条评论),展示包括 Spider-Man 和 NYC skyline 在内的 Minecraft voxel builds。VoxelBench 排行榜显示 GPT-5.5 xHigh 以 2106 分占据优势。

VoxelBench 实时排行榜,显示 GPT-5.5 xHigh 以 2106 评分和 96.1% 胜率领先,Gemini 3.1 Pro Preview 以 1725 居次

批评方面,u/No-Yesterday-1624 提问 GPT5.5 但为什么还是这么多 waffle?(得分 306,31 条评论)。u/RealCat7386(得分 53)说出了挫败感:“我只是问一个给客户看的汽车功能,它却给我一整篇安全考虑和市场趋势文章,而我只需要规格。”u/Calm-Branch1671(得分 9)给出模型对比:“我喜欢 Claude 4.6——它有点能抓住你的 vibe 和所需深度。”

u/artemisgarden 绘制 OpenAI 在 Artificial Analysis 上随时间变化的分数(得分 202,38 条评论),显示从 GPT-3.5(得分 9)到 GPT-5.5(得分 60)的轨迹。评论者指出 AI 生成图中的日期不准确。

OpenAI 旗舰模型在 Artificial Analysis Index 上的智能分数时间线,从 GPT-3.5 的 9 分到 GPT-5.5 的 60 分

讨论要点: GPT Image 2 是 GPT-5.5 发布中毫无争议的赢家。文本模型继续引发 “waffle” 抱怨。社区正在收敛到 Claude 适合精确回答、GPT 适合创意广度的判断。

与前日对比: 昨天覆盖 SimpleBench 分数和 “big model feel”。今天加入 GeoGuessr clone、Image 2 对比和啰嗦抱怨。评估正在稳定:强创意和多模态模型,持续存在的冗余问题。

1.6 社会议题:Palantir、科学政策、AI 替代 (🡒)

多个高互动帖子讨论 AI 的社会影响。

u/shikizen 发布 Palantir 员工正在谈论公司的“descent into fascism”(得分 1,070,130 条评论),引用 Ars Technica 关于内部 Slack 消息和一份建议美国考虑恢复征兵的 manifesto 的文章。u/5553331117(得分 284)并不意外:“很确定他们一直就是铁杆法西斯。那是他们的商业模式。”u/esporxr/artificial 的 cross-post(得分 488,58 条评论)放大了这一信号。u/prisongovernor 补充真实世界后果:Met 在使用 Palantir AI 工具后调查数百名警员(得分 68,13 条评论)。

u/esporx 报道 Trump 解雇整个 National Science Board(得分 481,62 条评论)。u/Illuminatus-Prime(得分 136)说:“Trump 讨厌任何能证明他错的东西。”

在劳动力替代方面,u/Bharath720 发布 Microsoft 向高级员工提供自愿买断,涉及美国员工 7%(得分 164,36 条评论)。u/ada_stack(得分 16)观察:“如果连直接创造利润的高级工程师现在都被视为‘可替代’,那么对其他人的门槛只会越来越高。”u/chunmunsingh 分享 中国工人惊恐发现老板要求他们训练 AI 替代品(得分 246,24 条评论)。

u/Beautiful_Bee4090 发布 Gen Alpha 男孩更喜欢“AI girlfriends”而不是真人(得分 198,140 条评论)。u/Hartax_(得分 67)提供第一人称青少年视角:“以我和朋友的经历看,几乎没有女孩觉得我们有吸引力,我学校里只有少数人有真实 gf。这不是偏好问题,而是什么可获得的问题。”

讨论要点: Palantir 故事获得最强互动,但更广泛的模式同样值得注意:劳动力替代、科学政策冲击、AI surveillance 后果、青少年社交影响,同一天都获得了高独立互动。

与前日对比: 昨天覆盖 Palantir、Microsoft buyouts 和中国工人训练替代品。今天加入 NSF board 被解雇、Met 警方 Palantir 调查,以及 Gen Alpha AI relationships。Palantir 故事从 675 增至 1,070 分。社会担忧主题继续分化扩展。

1.7 Google-Anthropic $40B 投资:Hedge 还是背书? (🡒)

u/Ordinary-Cycle7809 讨论 Google 向 Claude 投资 $40,000,000,000 真的有点好笑(得分 193,142 条评论)。u/crystalpeaks25(得分 141)提供关键背景:“你知道 anthropic 是 Google 自家 Google Vertex AI 里使用最多的模型吧。当 Google 说某一部分收入来自 AI,他们指的是多数企业用户在 Vertex AI 里用 anthropic models。”u/EndOfWorldBoredom(得分 50)从金融角度解释:“Google 刚卖了低息 100 年期债券。他们正在把便宜资本投到能产生回报的地方。他们只是有科技投资组合的投行。”

讨论要点: 这笔投资被一致解读为金融 hedge,而不是对 Anthropic 技术的背书。Vertex AI 细节提供了最有说服力的解释。

与前日对比: 昨天引入 Google $40B 和 Amazon $5B 投资。今天讨论围绕 “hedge” 框架成熟起来,并加入具体 Vertex AI 背景。


2. 令人困扰的问题

开源抄袭与许可证违规

严重程度:High

HauhauCS 发布的 abliteration 包抄袭 Heretic 的 AGPL-3.0 代码,删除所有署名,并以 PolyForm Noncommercial 重新授权。证据包括逐字相同的 refusal markers 和保留下来的 typos。Heretic 作者 u/-p-e-w-(得分 543)确认:“这明显违反 AGPL 第 4 和第 5 条。也明显违反所有能想象到的伦理标准。”HauhauCS 在 22 个模型上每月下载量超过 500 万次,引发对所有模型来源的疑问。(抄袭分析

DeepSeek V4 Pro Token 膨胀

严重程度:Medium

V4-Pro 在 TerminalBench 2.0 上大约需要 GPT-5.5 的 10 倍 token,而且即便 non-thinking mode 使用的 token 也明显多于 V3.2,尽管模型规模大了 2.5 倍。u/Mindless_Pain1860 记录了这次退化:“模型的 intelligence density 下降了,而不是提高。”(Intelligence density thread

GPT-5.5 冗长问题持续存在

严重程度:Medium

u/No-Yesterday-1624 捕捉到这种挫败(得分 306):GPT-5.5 在回答中仍会产生过多 “waffle”。u/RealCat7386(得分 53)报告:“当我只是问给客户看的汽车功能时,它给我一整篇安全考虑和市场趋势文章,而我只需要规格。”社区将其归因于偏好更长输出的训练奖励结构。(冗长讨论

NVFP4 量化质量不达预期

严重程度:Medium

u/Phaelon74 测量 Qwen3.6-35B-A3B 的 NVFP4 quantizations KLD,发现它们在相同比特宽度下明显弱于 INT quantizations。sakamakismile 的 NVFP4 变体 KLD 为 0.176,而同一基础模型的 INT8 为 0.007。“NVFP4 cake,一如既往,是假的。”(KLD 分析

SWE Bench Gaming 得到确认

严重程度:Low

u/rm-rf-rm 发布 OpenAI 自己关于 为什么他们不再评估 SWE Bench Verified 的说明(得分 105)。u/Mashic(得分 82)引用 Goodhart's law。u/suicidaleggroll(得分 39)认为:“benchmarks 真的需要关闭,才能保持有效。”


3. 人们期望的功能

Qwen 3.6 Coder 变体(或官方确认不再需要)

u/ComplexType568 提问 Qwen3.5/3.6 Coder?(得分 91,53 条评论)。u/StardockEngineer(得分 73)回答:“我几乎觉得已经不需要了。”u/NNN_Throwaway2(得分 47)同意:“3.6 感觉完全可以就是那个 ‘coder’ release。”社区想要的要么是专用 coder 变体,要么是官方确认基础模型已经涵盖这个角色。

可靠的量化质量指导

量化方法大量增加(GGUF Q2-Q8、NVFP4、MXFP4、INT4 AutoRound、AWQ、GPTQ),还要横跨多样硬件,造成决策瘫痪。u/denis-craciun 询问 Unsloth models 真有我看到的那么好吗?(得分 100,162 条评论)。u/emprahsFury(得分 48)反驳营销说法:“q4 quant 就只是 q4 quant。每个人都在做 Unsloth 做的事。”用户想要不依赖供应商的质量指标。

面向新发布模型的 Speculative Decoding Draft Models

u/butterfly_labs 提问 现在有兼容 Qwen3.6 27B 的 DFlash draft model 吗?(得分 27,20 条评论)。Speculative decoding 的速度增益已经被证明(报告有 3 倍吞吐乘数),但兼容 draft models 继续落后于架构发布。

Agent 工作流的最低可用硬件指导

u/MexInAbu 提问 你认为本地 Agent 工作流的最低性能(t/s)是多少?(得分 40,60 条评论)。u/triplebits(得分 8)给出最结构化回答:低于 15 t/s 会有明显卡顿,20-25 t/s 可用于规划任务,35+ t/s 则模型不再是瓶颈。社区希望看到按工作流类型绑定的标准化硬件建议。


4. 使用中的工具与方法

工具 类别 情感倾向 优势 局限性
Qwen 3.6 27B 本地 LLM(dense) 非常正面 RTX 5090 上 100 tps;Q4 可塞进单张 3090;适配 coding agent 使用 长上下文需要谨慎管理 KV cache
Qwen 3.6 35B-A3B 本地 LLM(MoE) 正面 Apple Silicon 上比 27B 快 8 倍;强 uncensored 衍生版(Heretic) 比 27B 更易受量化影响;低于 Q4 时 KLD 急剧变差
DeepSeek V4-Flash 开放 LLM(284B MoE) 正面 MacBook 上 2-bit quant 达到 21 t/s;MIT license;1M context 无多模态;token efficiency 低于 GPT-5.5
DeepSeek V4-Pro 开放 LLM(1.6T MoE) 褒贬不一 推理强;支持 Huawei 芯片 相比 GPT-5.5 有 10 倍 token 膨胀;社区认为 “hugely undertrained”
GPT-5.5 云端 LLM 偏正但混合 VoxelBench 分数最高;Image 2 全景生成;AA Index 60 持续啰嗦;编码前沿无推进
GPT Image 2 图像生成 非常正面 照片级输出;360 度全景;局部细节准确 给不存在的人打 privacy pixelation(有趣 artifact)
Heretic Abliteration 工具 非常正面 AGPL-3.0;最佳衍生模型 KLD 0.0015;作者支持 成为抄袭目标;需要谨慎调参
vllm 0.19 Serving engine 非常正面 NVFP4+MTP;5090 上 Qwen 3.6 27B 100 tps;TurboQuant KV cache 峰值结果需要新硬件
llama.cpp 推理引擎 非常正面 支持 NVFP4/MXFP4;Mac 上 DS V4 Flash 21 t/s;硬件覆盖广 CPU/GPU hybrid 下 Windows 比 Linux 慢 100-143%
OpenCode Agent scaffold 正面 支持本地模型;兼容 llama-server 需要手动配置
PaddleOCR-VL-1.5 Vision-language OCR 正面 通过 llama-server 处理复杂版面、表格、多语言文本 社区测试有限

5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
Heretic Plagiarism Forensic Analysis u/nathandreamfast 17 点代码比较,恢复被删除的 PyPI package 用 SHA-256 证据验证开源许可证违规 PyPI CDN recovery, code diffing 已发布 dreamfast.github.io/reaper-analysis
Qwen3.6-35B-A3B Heretic Uncensored u/My_Unbiased_Opinion via llmfan46 KLD 0.0015 的 uncensored 模型,带独立 attention 参数 质量损失极小的 uncensored 本地模型 Heretic, Qwen 3.6 已发布 HuggingFace
Darwin-36B-Opus u/jacek2023 Evolutionary model breeding:Qwen3.6-35B-A3B x Claude-distilled 变体 无需再训练的自动模型改进 Darwin V7, single GPU 已发布 HuggingFace
Qwen3.6 27B 100tps Stack u/Kindly-Cantaloupe978 INT4 AutoRound + MTP,在 RTX 5090 上 100 tps、256K context 最大化本地推理吞吐 vllm 0.19, AutoRound 活跃 r/LocalLLaMA post
DeepSeek V4 Flash Local Inference u/antirez V4 Flash 在 MacBook M3 Max 上用 2-bit routed experts 达到 21 t/s 消费级硬件上的本地前沿模型 llama.cpp, custom quantizer 实验性 GitHub
c137 Structured Memory System u/MontyOW 无 embeddings 的 structured storage 达到 90.4% LongMemEval-S 无 embedding 开销的长期记忆 3-stage pipeline, structured storage 活跃 c137.ai/research
PaddleOCR-VL Book OCR Pipeline u/Final-Frosting7742 面向书籍的 layout detection、region OCR、Markdown+HTML table output 用本地 vision-language model 数字化书籍 PaddleOCR-VL-1.5, llama-server, Vulkan 已发布 GitHub
GeoGuessr Time Travel Clone u/Proof-Square7528 批量生成 360 度历史全景 AI 生成历史街景体验 GPT Image 2 API Demo wen-ware.com
OpenAI Privacy Filter OpenAI PII detection and masking model 隐私保护文本处理 Small model, open weights 已发布 HuggingFace
Real-time EEG Meditation System u/uisato AI 解读实时脑信号,给出冥想引导提示 基于实时 EEG 的个性化冥想 OpenBCI, TouchDesigner, Python Demo r/singularity post
Qwen3.6-35B-A3B KLD Measurement Pipeline u/Phaelon74 基于真实 GPU logits 的量化质量 KLD 权威量化质量比较 Modified vllm, RTX 6000 活跃 GitHub

6. 新动态与亮点

OpenAI 放弃 SWE Bench Verified,承认 Gaming

OpenAI 发布 为什么我们不再评估 SWE Bench Verified,确认该 benchmark 已被 gaming。u/rm-rf-rmr/LocalLLaMA 分享此事(得分 105,28 条评论)。u/noctrex(得分 9)指出 swe-rebench.com 可以作为不断刷新题目的替代。

NVIDIA 为 DeepSeek V4 提供 Day-0 Blackwell 支持

u/shikizen 报道 NVIDIA 在 1.6T 模型上推到每秒 3,500 tokens(得分 48,21 条评论),使用 Blackwell GPUs 并提供 day-0 DeepSeek V4 support。

Darwin-36B-Opus:Evolutionary Model Breeding 达到 88.4% GPQA

u/jacek2023 发布 Darwin-36B-Opus(得分 79,19 条评论),这是一个用 Qwen3.6-35B-A3B 与 Claude-distilled 变体自动进化 breeding 产生的模型。流程在单张 GPU 上不到一小时即可跑完,并在 GPQA Diamond 上达到 88.4%。

Speculative Decoding 让 Gemma-4-31B 达到 120-200 tok/s

u/Clasyc 报告 Gemma-4-31B + Gemma-4-E2B 的 speculative decoding 达到 120-200 tok/s(得分 22,14 条评论),适用于特定任务。

Structured Memory System 无 Embeddings 达到 LongMemEval-S 90.4%

u/MontyOW 发布一种 structured storage approach(得分 44,13 条评论),在 LongMemEval-S 上达到 90.4%、retrieval accuracy 98%,token 用量约为 embedding-based approaches 的一半。系统使用三阶段固定 pipeline(retrieve、answer、store),用 structured maps 代替 vector search。

LongMemEval-S 排行榜,显示 c137 系统通过结构化存储和多个模型后端达到 90.4% 总体成绩

Anthropic Job Exposure Data 揭示 60-80 点 Capability-Adoption Gap

u/Professional-Rest138 分析 Anthropic 的劳动力市场论文(得分 82,13 条评论),把理论 AI 能力和实际覆盖率之间的差距拆成五类:法律约束、集成摩擦、验证开销、工作流惯性和质量门槛。计算机和数学职业的理论能力为 94%,但实际覆盖率只有 33%。


7. 机会在哪里

[+++] 本地推理正在跨过 coding agents 的可用门槛。Qwen 3.6 27B 在 RTX 5090 上达到 100 tps,单张 RTX 3090 上达到 71-83 tok/s,DeepSeek V4 Flash 在 MacBook M3 Max 上达到 21 t/s,提供了三种不同硬件层级的可行本地编码方案。社区正在产出系统化量化数据(KLD measurements、accuracy recovery benchmarks、OS performance comparisons),但还没有统一工具把这些发现整理成硬件专属建议。构建一个 auto-configuration layer,根据硬件 profile 选择最佳 quantization、KV cache settings 和 serving parameters,可以填补明确缺口。(100 tps stack3090 configV4 Flash local

[++] 开源许可证合规工具很有必要。HauhauCS/Heretic 案是靠手工取证分析恢复的 PyPI packages 才发现的。在来源不明模型每月下载量超过 500 万次的背景下,能大规模扫描代码级 derivation indicators(相同 typos、共享 function names、保留 parameter bounds)的自动工具,可以检测许可证违规。AGPL 明确要求标识衍生作品——验证合规的工具对模型创建者和用户都有价值。(抄袭分析

[++] Token efficiency 正成为关键差异点。GPT-5.5 用少 2.5-10 倍的 token 达到与 DeepSeek V4-Pro 相当的结果。衡量并优化特定工作流 token efficiency 的工具——而不是只看原始能力 benchmark——可以满足增长中的需求。SWE Bench gaming 得到确认,也进一步把价值转向真实世界效率指标。(Intelligence densitySWE Bench

[+] Evolutionary 和 hybrid model creation 正以极少算力产出强结果。Darwin-36B-Opus 在单张 GPU 上不到一小时,靠 automated breeding 达到 88.4% GPQA Diamond。Heretic uncensored model 靠 expert parameterization 达到 KLD 0.0015。这些技术让模型定制不再只属于有训练预算的人。(DarwinHeretic model

[+] AI 能力与部署之间的差距(Anthropic 数据显示 tech roles 理论 94%、实际 33%)最大来自 integration friction 和 verification overhead,而这两个障碍正在最快被削弱。针对这些具体障碍的工具拥有最直接的增长轨迹。(Anthropic analysis


8. 要点总结

  1. HauhauCS 抄袭案是本月本地 LLM 社区最重要的开源伦理事件。 该帖得分 442、166 条评论,Heretic 作者确认发现(得分 543),被指控者在 22 个模型上每月下载量超过 500 万次,这会重塑社区评估模型来源的方式。取证深度——SHA-256 验证下载、逐字 typo 匹配、相同 Optuna parameter bounds——为 derivation analysis 设立了新标准。(分析线程

  2. AI 辅助解决 Erdos Problem #1196 的证明已在 Lean 4 中形式化验证。 LLM 使用了一种“没人想到要用于这类问题”的新方法,证明已用约 4,000 行形式化代码机器验证。由于有形式化验证和 Terence Tao 直接参与,这与以往 AI 数学声称有质的不同。(Scientific American 讨论

  3. Qwen 3.6 27B 在单张 RTX 5090 上以 256K context 达到 100 tps。 经 vllm 0.19 使用 INT4 AutoRound quantization 和 MTP speculative decoding,创下新的消费级 GPU 速度纪录。同时,35B-A3B MoE 变体在 NVFP4 quantization 下 KLD(0.176)明显差于 INT8(0.007),实地报告也确认 MoE 比 dense 变体更容易受量化影响。(100 tpsKLD data

  4. DeepSeek V4-Pro 面临越来越多 token efficiency 批评。 TerminalBench 2.0 数据显示,它大约需要 GPT-5.5 的 10 倍 token,比 V3.2 更糟,尽管模型大了 2.5 倍。社区主导理论是该模型“hugely undertrained”,主要发布目标是 Huawei Ascend 芯片兼容。与此同时,antirez(Redis 创始人)让 V4 Flash 在 MacBook 上用 2-bit quantization 本地跑到 21 t/s,并称其为“在我电脑上运行的前沿模型”。(Token efficiencyLocal V4

  5. GPT Image 2 是 GPT-5.5 发布周期中的明确赢家。 GeoGuessr time travel clone(得分 584)、照片级 Dhaka street scene(得分 318)和 VoxelBench 统治(2106 rating,96.1% win rate)展示的创意能力,是 GPT-5.5 文本模型的冗长抱怨无法匹配的。社区正在收敛到“强创意模型,持续冗长问题”。(GeoGuessrVoxelBench

  6. Palantir 故事达到 1,070 分高峰,同时多个 AI 社会议题并行爆发。 加上 Met 警方调查、NSF board 被解雇(得分 481)、Microsoft buyouts(得分 164)、中国工人替代(得分 246)和 Gen Alpha AI girlfriends(得分 198),当天社会议题整体互动超过任何单一技术主题。这些担忧不再小众。(PalantirNSF

  7. 在 llama.cpp 的 CPU/GPU hybrid prompt processing 中,Linux 比 Windows 快 100-143%。 首个在相同硬件(RTX 5080 + i9-14900KF)上的系统 OS benchmark 显示,generation speed 只差 4-8%,但 hybrid CPU/GPU mode 下的 prompt processing 在 Linux 上快得多。这对运行会溢出到系统 RAM 的模型有实际影响。(OS benchmark

  8. Benchmark 信任继续受损。 OpenAI 自己关于放弃 SWE Bench Verified 的说明确认了 Goodhart's law 正在发挥作用。结合昨天的 benchmaxxing 讨论,社区对公开 benchmarks 越来越怀疑,转向 task-specific evaluations 和真实世界 field reports。(SWE Bench