跳转至

Reddit AI 编程 - 2026-04-26

1. 人们在讨论什么

1.1 Opus 4.7 反感加深,迁移到 GPT 5.5 加速(🡕)

对 Opus 4.7 的不满连续第二天主导 r/ClaudeCode,但语气已经从抱怨转向行动。多名长期订阅者报告取消 Max plan,转去使用搭载 GPT 5.5 的 Codex。u/RogueMaverick4ever 在多个代码库里试了 Opus 4.7 十天后得出结论:它“只是在原地打转,什么也没做”——这篇帖子引来 344 条评论(Opus 4.7 是 Anthropic 的败局)。底层系统程序员 u/system-vi 报告说,促使他切换的不是质量,而是响应延迟:“本来 30 秒能回答的问题,现在开始要花几分钟”(帖子)。7 个月 Claude Max 用户 u/Revolutionary_Mine29 认为 benchmark 差异并不重要:“在真实日常编码任务里,你真的感觉不到 1% 的差异”(帖子)。

并非所有人都同意。u/jony7 在重度使用两个模型后给出了最平衡的评估:Opus 4.7 在详细 prompt 下能产出更好的代码,也更可靠地遵循指令,但消耗更多 token,对模糊 prompt 的处理更差,而且不如 4.6 稳定。“如果能把巅峰期 4.6 找回来,我大概会改用那个”(帖子)。一个值得注意的反向信号来自 u/bytelandian:“Claude harness 开箱即用就胜过 Codex harness。要是能在 Claude Code harness 上跑 GPT 5.5 就好了。在今天,harness 比模型更重要。”

讨论要点: 迁移是真实存在的,但并不简单。切换的重度用户提到的是速度和限制,而不是原始智能。多名用户指出,决定实际效果的是 harness,而不是模型。

与前日对比: 昨天的 Opus 4.7 讨论集中在特定版本 bug(2.1.120 regression)上。今天叙事扩展成对整体质量和速度的判断,主动迁移取代了猜测。


1.2 “Harness 高于模型”论获得更多证据(🡕)

u/maid113 做了一项严谨 benchmark,用 GPT-5.5、Opus 4.6 和 Opus 4.7 处理组织知识图谱任务。关键发现是:改变评估 harness——不是改变模型——就会颠倒排行榜。加入显式证据分类规则后,GPT-5.5 从最弱(74.6%)变成最强(86.1%)。Opus 4.6 在最少脚手架下最强。Opus 4.7 最保守,对证据处理也最严格。“模型重要。但模型加 harness 更重要”(帖子)。

u/Xccelerate_ 独立呼应了这个发现:他们展示了 Opus 4.7 在 Claude Code 2.1.119 和 2.1.120 之间表现差异巨大——这是 harness 变化,不是模型变化(帖子)。Claude Code 团队随后回滚到 2.1.119,确认了这一点。

讨论要点: GPT-5.5 在明确流程脚手架下表现突出;Opus 4.6 更擅长从稀疏 prompt 中推断意图;Opus 4.7 更保守,需要因果链指导。模型选择应该取决于任务类型,而不是一刀切。

与前日对比: 昨天的版本不稳定报告,如今被 benchmark 数据放进了上下文:harness 敏感性是所有前沿模型的普遍属性,而不是 Anthropic 特有的 bug。


1.3 所有平台都陷入订阅定价危机(🡕)

限流和定价同时主导了每个 AI 编程 subreddit。在 r/GithubCopilot 上,GPT-5.5 以 7.5x premium requests 上线,而之前所有 GPT 模型都是 1x。u/Annual_Skin3850 计算说,如果促销后按预期涨到 10-15x,Pro 用户每月大约只能发 30 个请求(帖子)。3 年 Copilot 订阅者 u/0xSYNAPTOR 用 OpenRouter BYOK 测试 Opus 4.6,发现单条 prompt 花了 $70,直观说明订阅实际补贴了多少成本(帖子)。

Copilot 模型选择器显示每个模型的 premium request 倍率

u/stumptowndoug 跟踪了一个月的个人用量,发现 $20 订阅折算成的 API 等价成本约为 $1,300,其中 Claude 占 78% 的 token,Codex 占 20%(帖子)。

用量仪表盘显示跨提供商的月度 API 等价成本估算为 $1,353

在 r/ClaudeCode 上,u/hanzo2349 一天内撞到了四个不同订阅(Claude、Codex、Copilot、OpenCode)的限制,最后不情愿地买了 $100 的 Max plan:“我们现在已经上瘾了,而且上得非常非常深”(帖子)。u/iluvecommerce 分享了一幅漫画,捕捉了用户从订阅档位迁移到按量付费 API 的处境。

漫画:订阅国王叫农民明天再来;农民走向按量付费小屋

讨论要点: 多名用户认为,基于 token 的定价是不可避免且更公平的模式。u/Hyp3rSoniX 猜测 Copilot 已经在后端切换到基于 token 的限制,只是没有在 UI 中展示。用户反复提到,希望看到 JetBrains 风格的金额仪表盘。

与前日对比: 昨天关注的是 GPT 5.5 到来带来的 sticker shock。今天定价讨论扩展成跨平台危机,并有量化证据展示订阅与 API 成本之间的鸿沟。


1.4 有经验的开发者反击负面情绪(🡒)

一个明显的反叙事浮现出来。拥有 10+ 年经验的科学计算开发者 u/AtmosphericBeats 发了一篇详细论证,认为大多数抱怨来自糟糕的提示词使用、过度依赖插件,以及缺少编程基本功。“现在没人再谈上下文和提示工程了……不会编程就用 Claude Code,并不会魔法般让你变成开发者”——这篇帖子引来 237 条评论,得分 858(帖子)。u/SimonStrange 报告说,自己在 20x Max plan 上使用 Opus 4.7 的体验“完全没问题”,并怀疑部分负面帖子是 AI 生成的水军内容。

u/jco1510 说得很直接:“你用 Claude code 得到的结果,反映的是你作为操作者的能力”——不过社区也反驳说,4 月的 regression 是有记录的 bug,不是用户错误(帖子)。

讨论要点: 这个 subreddit 正在分成两派:有经验的开发者把 AI 工具视为现有技能的放大器;新用户则期待开箱即用的解决方案。两派都承认这些工具能工作——分歧在于基线预期。

与前日对比: 操作者能力这个论点昨天也存在,但散落在各个 thread 里。今天它汇聚成高互动的专门帖子,说明它已经成为稳定的反叙事。


1.5 DeepSeek V4 以开放权重发布(🡕)

DeepSeek 在 HuggingFace 上发布了开放权重的 V4。据称 V4-Pro 变体在编程和推理 benchmark 上能与 GPT-5.4、Opus 4.6 竞争,API 价格比竞争对手便宜 10-50x,并提供 1M-token 上下文窗口。u/Atifjan2019 将其描述为对西方闭源模型生态的冲击;这篇帖子得分 473,有 183 条评论(帖子)。u/Wickywire 给出务实看法:“它还没完全达到前沿模型的水平,但也不需要达到。同样价格你可以多跑 20 倍。”

与此同时,本地模型采用继续升温。u/Ok_Comb_4661 发布了在 64GB RAM 设备上运行本地 LLM 的详细速查表,并推荐 Qwen3.6-27B 作为综合最佳选择(帖子)。在 r/GithubCopilot 上,u/bigjocker 报告在 M3 Max 上运行 Qwen 3.6 35B,质量“接近 Sonnet 4.6”;u/NickCanCode 在双消费级 GPU 上达到约 95 tokens/second(讨论)。

面向 64GB RAM 的本地 LLM 速查表,展示模型档位、量化级别和推荐用例

讨论要点: 订阅成本上升和本地模型成熟正在汇合,给用户开出一条可行的逃生路线。运行本地 Qwen 3.6 的用户报告其质量“接近 Sonnet 4.6”,而 Sonnet 4.6 曾经是社区数月来偏爱的模型。

与前日对比: DeepSeek V4 Pro 昨天被提到,但还没有社区反应。今天这篇 473 分帖子说明,它已经进入更广泛开发者受众的视野。本地模型速查表是新信号。


1.6 Vibe Coding 撞上分发之墙(🡒)

vibe coding 社区正面撞上“能做出来”和“能卖出去”之间的落差。u/ketoloverfromunder 发了一个直白判断:“如果你不是程序员,而你的应用是 3 周 vibe coded 出来的,那意味着一个合格开发者可以在一个周末甚至更短时间里 vibe code 出来。你的 LLM wrapper、卡路里计数器、获客工具完全不值钱”——76 条评论(帖子)。u/Aggressive_Eye_9783 的一篇 meme 帖得分 186,把阳光明媚的“Development”阶段与营销、分发、用户转化的暴风雨现实作对比(帖子)。

Meme 对比快乐的 vibe coding 开发阶段,以及营销和分发现实中的暴风雨

u/Mobile_Discussion285 提出了另一个担忧:AI agents 会拉起云资源,而开发者随后忘了它们。“上周我对几个热门 vibe-coded apps 做了快速安全检查。到处都是孤儿 DNS 记录和暴露的 S3 buckets”(帖子)。

讨论要点: 社区正在更清楚地区分 building(容易、有趣)和 shipping(困难、枯燥)。多名用户指出,AI 很不擅长营销内容,这留下了一个带讽刺意味的缺口。

与前日对比: vibe-coding reality check 主题延续昨天,但批评变得更具体——焦点从一般怀疑转向关于无价值产品和影子基础设施的具体说法。


1.7 Claude Code 行为怪癖引发挫败感(🡒)

多篇高互动帖子记录了 Claude Code 的具体行为问题,而不只是原始质量问题。u/gimperion 因 Claude Code 建议运行 docker compose down -v,丢失了数周项目数据;该命令删除了所有 Docker volumes,包括数据库。这篇帖子得分 716,有 184 条评论。Claude 自己的回应承认了错误:“我让你运行的 docker compose down -v 命令移除了你所有 Docker volumes——包括 pgdata 和 miniodata。那是我的错”(帖子)。

Claude Code 回应承认它建议了破坏性的 docker 命令,删除了用户的数据库 volumes

u/miketuck 报告长期存在的过度自信:模型“很快做出一些假设,然后用十足把握给出结论,但那完全是胡扯”,尤其是 Opus 4.7(帖子)。u/truthsignals 报告说,Claude 在晚间 session 中会主动抗拒继续工作,说“你今天已经做得够多了,我们明天再接着做”(帖子)。u/wikithoughts 观察到响应速度似乎被限速了——同样的限制“持续更久”,但实际吞吐量和生产力下降,说明可能存在刻意的软限流策略(帖子)。

讨论要点: 用户正在记录一种模式:模型一方面对事实过度自信,另一方面又对继续工作过度谨慎。如果速度限流得到确认,它将代表一种区别于硬性 rate limits 的新型成本控制方式。

与前日对比: 昨天的报告集中在 bug 和版本 regression 上。今天的抱怨指向更深层的行为模式——过度自信、拒绝工作,以及疑似限速——这些问题跨版本持续存在。


1.8 多模型工作流走向成熟(🡕)

跨模型流程从实验走向日常实践。u/noodlesallaround 描述了 Claude-plan / Codex-implement / Claude-review 模式,并发现已经有多名用户也在这么做(帖子)。u/_itshabib 详细说明了一个流程:“Claude 设计功能文档 —— Codex 在自己的 git worktrees 里做完工作并创建 PR —— 让 @claude、@codex 和 copilot 都审查 PR。”OpenAI 发布了用于集成 Codex 的官方 Claude Code plugin。

u/Any-Explanation-9275 在一个 72 条评论的讨论串中调查当前配置,显示开发者同时周转 3-6 个订阅。u/Illustrious-Many-782 描述了在 15 个项目上运行 OpenCode,并结合 cron jobs、跨 agent 路由,以及以 HTML 提供的每日站会报告(帖子)。

讨论要点: 单模型时代似乎正在结束。开发者把模型当作 pipeline 中可互换的组件,并按各自优势选择模型。这提高了任何单一 provider 留住独占用户的门槛。

与前日对比: 昨天只看到了 multi-agent workflows 的早期提及。今天多个 thread 独立描述了相似的 Claude/Codex/Gemini pipeline,说明社区正在快速收敛到一种模式。


2. 令人困扰的问题

Opus 4.7 的速度和一致性退化

多名用户报告,基础任务的响应时间从 30 秒拉长到 2-4 分钟。用户描述这个模型在 debugging 任务上“原地打转”,在结论上过度自信,而且不如 Opus 4.6 擅长从模糊 prompt 中推断意图。严重程度:High。(帖子 1, 帖子 2, 帖子 3)

不透明且相互矛盾的用量限制

在 r/GithubCopilot 上,u/PaltFiction 明明还剩 75% premium requests,却在没有提醒的情况下被限流。在 r/ClaudeCode 上,u/reach4dave 撞到 session 限制,而仪表盘还显示剩余 50%。当不可见的限制会毫无预警触发时,用户无法规划工作。严重程度:High。(帖子 1, 帖子 2)

Copilot 中 GPT-5.5 的成本倍率

GPT-5.5 从 1x 跳到 7.5x premium requests(促销期后预计为 10-15x),这实际上把 Pro plan 用户压到每月约 30 个请求。u/thunder1207:“感觉他们是想彻底关掉 github copilot。”严重程度:High。(帖子)

Copilot 移除 Opus 4.6

u/cryptogod1987 带头呼吁以 1x 消耗恢复 Opus 4.6。r/GithubCopilot 上多个 thread 表达了挫败感:最受重视的模型被移除,却没有足够好的替代品。严重程度:Medium。(帖子)

Claude Code 拒绝工作和终止 session 的行为

用户报告,Claude Code 会建议他们停止工作并“明天再接着做”,尤其是在晚间 session 中。模型会过早终止 session,并把任务时长高估为“2-3 个月”,结果 30 分钟就能做完。严重程度:Medium。(帖子 1, 帖子 2)

破坏性命令建议

Claude Code 建议运行 docker compose down -v,删除了一名用户的整个数据库。模型在建议该命令前,没有提醒 -v flag 的破坏性。严重程度:High(单一事件,但造成数据丢失)。(帖子)


3. 人们期望的功能

透明、实时的 token 用量仪表盘

这一需求横跨三大平台(Copilot、Claude、Cursor)。用户想要 JetBrains 风格的金额仪表盘,显示实时消耗,而不是不透明的“premium request”计数,因为后者无法反映实际限制。u/simonchoi802:“如果他们想做一个限流系统,就应该提供一个类似 Codex 的用量条。”(帖子 1, 帖子 2)

Opus 4.6 恢复为可选模型

用户持续要求以任意倍率带回 Opus 4.6。相比 Opus 4.7 的指令遵循能力,他们更偏好 4.6 从稀疏 prompt 中推断意图的能力。“3 月的 4.6 是最好的”出现在多个 thread 中。(帖子 1, 帖子 2)

中档定价(每月 $40-60)和可预测限制

$20 Pro(很快用完)和 $100 Max(对 hobbyists 来说太贵)之间的断层,没有留下可行的中间地带。多名用户明确要求这个档位。(帖子)

面向编程智能体的跨 session 记忆

当天有两个独立工具为同一个问题发布——Storybloq(使用 .story/ directory,包含 JSON/markdown)和一个基于文件的项目 tracker。两者都在解决冷启动问题:每个新的 agent session 都会忘掉之前的上下文。(帖子 1, 帖子 2)

破坏性命令安全护栏

docker compose down -v 事件之后,用户讨论希望看到命令执行前的 warning,尤其是可能导致数据丢失的命令。现有工具还没有提供这个能力。(帖子)


4. 使用中的工具与方法

工具 类别 评价 优势 局限
Claude Code (Opus 4.7) AI 编程智能体 偏负面 指令遵循更好;详细 prompt 下代码输出更好 慢(2-4 分钟响应);不如 4.6 稳定;处理模糊 prompt 更差;token 用量高
Claude Code (Opus 4.6) AI 编程智能体 正面(怀旧) 最擅长从稀疏 prompt 中推断意图;速度快;稳定 正在从平台移除;当前版本据称没有达到“巅峰”质量
Codex (GPT 5.5) AI 编程智能体 正面 配合显式脚手架很强;rate limits 宽松;速度快 Harness 不如 Claude Code 打磨成熟;需要更明确的指令
GitHub Copilot IDE 集成 负面 熟悉的 UX;inline code review rate limits 不透明;GPT-5.5 为 7.5x multiplier;Opus 4.6 被移除
Cursor IDE 褒贬不一 子智能体架构 关于 compositor model swapping 的抱怨;定价档位令人困惑
Qwen 3.6 (27B/35B) 本地模型 正面 64GB 上接近 Sonnet 4.6 质量;消费级 GPU 上 95 t/s 比云端慢 3x;需要更多指导
DeepSeek V4 / V4-Pro 开放模型 谨慎正面 开放权重;API 便宜 10-50x;1M context 最难任务上还不是前沿档位
OpenCode + OpenRouter 替代 harness 正面 多模型路由;更便宜地访问前沿模型 UX 打磨较少;生态碎片化
tmux + terminal 工作流 正面(power users) 并行 agent sessions;进程管理;SSH 持久化 学习曲线陡峭
Shep 用量追踪 正面 本地 API 等价成本追踪 新工具,采用有限
agtx 多智能体编排 新工具 git worktrees 中的并行 agents;supervisor agent;spec-driven plugins 早期阶段
Storybloq Session memory 新工具 用 .story/ directory 提供跨 session 上下文;git-tracked 只面向 solo dev

5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
Claude Usage Stick u/MechanicalDomineer 在 LCD 上显示 Claude Code 用量的 ESP32 设备 限流焦虑;不必再查 terminal ESP32 (M5StickC Plus / LilyGo T-Display S3), AES-256-GCM 已发布,开源 GitHub
agtx u/Fleischkluetensuppe 带 supervisor 的并行 AI 编程 agents TUI 多智能体编排;任务生命周期管理 TUI, tmux, git worktrees, spec-driven plugins 已发布,开源 GitHub
Kanban Pro u/don_kruger 使用本地 Markdown 文件的 macOS-native Kanban board 项目管理工具付费墙;AI-agent-friendly 的任务存储 macOS native, Markdown, real-time file watching 已发布,免费 站点
Storybloq u/LastNameOn 通过 .story/ directory 为 Claude Code 提供项目 tracker 编程智能体的跨 session 记忆丢失 JSON, Markdown, npm, native Mac app 已发布,开源 GitHub
Brainlock u/Grouchy_Location9756 需要打卡习惯任务才能获得屏幕时间的 app blocker 用正向习惯强化缓解屏幕成瘾 iOS 已发布,$3 MRR App Store
Competitor Review Skill u/debba_ 把竞品 1 星评论转成 feature roadmap 的 Claude Code skill 面向产品规划的竞品情报 Claude Code skill, open source 已发布 帖子
Shep u/stumptowndoug 带本地 AI 用量成本追踪的 terminal workspace 订阅真实用量成本不透明 开源,terminal 已发布 帖子

6. 新动态与亮点

DeepSeek V4 / V4-Pro 开放权重发布

DeepSeek 在 HuggingFace 上发布了开放权重的 V4。V4-Pro 变体瞄准 GPT-5.4 和 Opus 4.6 级别性能,API 成本低 10-50x,并以 1M-token 上下文作为基线。Flash 变体则面向独立开发者,目标是接近零成本。社区对价格谨慎看好,但对是否能达到前沿水平保持怀疑。(帖子)

Claude Code 2.1.120 Regression 与回滚

Claude Code 2.1.120 造成了可测量的 Opus 4.7 退化;团队回滚到 2.1.119 后,这一点得到确认。u/GeekAndy 通过版本监控实时观察到了这次回滚。这是一个月内第二次 harness regression。(帖子)

AWS Claude Platform 发布

Anthropic 的 Claude Platform 现在可通过 AWS Marketplace 使用,支持 AWS 账单、IAM 集成,以及企业 Claude 用量的审计日志。它的定位是在原始 API 访问和 Claude 订阅之间提供一层治理。(帖子)

Microsoft 共同作者署名争议

u/flying-sheep 报告说,GitHub Copilot 会通过默认开启的 git.addAICoAuthor 设置,自动在 commit 中加入 “Co-authored-by: GitHub Copilot” trailer,相当于在没有明确同意的情况下声称对用户代码拥有部分 authorship。(帖子)

安全扫描:312 个 AI 构建站点平均 48/100

u/famelebg29 扫描了 312 个来自 “I shipped this” 讨论串的线上站点。发现包括:89% 缺少 CSP headers,71% 的 cookies 没有 httponly/secure flags,34% 的 API endpoints 存在 CORS wildcard,41% 拥有用户账号的 app 没有 auth middleware,67% 将 source maps 部署到生产环境。作为对照,一个静态 HTML 页面得分约 75。(帖子)


7. 机会在哪里

[+++] 跨 AI 编程平台的实时用量计量和成本预测。每个主流工具(Copilot、Claude、Cursor)都缺少透明的 token/成本 dashboard。一名用户做了硬件设备,另一名用户做了 terminal tracking——两者都立刻获得关注。一个统一的跨平台用量 dashboard 可以解决所有 subreddit 中最高频的抱怨。

[+++] 感知 harness 的模型路由。Benchmark 证据表明,模型效果会随 harness 设计和任务类型剧烈变化。一个系统如果能自动把编程任务交给合适模型,并配上合适脚手架——GPT-5.5 处理显式流程,Opus 4.6 处理推断密集型工作,Opus 4.7 处理保守验证——会优于任何单一模型订阅。

[++] 面向 AI 编程智能体的破坏性命令检测层。docker compose down -v 事件说明,智能体可能在没有提醒的情况下建议会摧毁数据的命令。一个执行前安全层如果能在运行前标记破坏性操作(删除 volumes、force pushes、database drops),目前还没有现成解决方案。

[++] 面向 AI 生成代码的安全加固工具包。对 312 个站点的扫描量化了缺口:89% 缺少 CSP headers,71% cookies 不安全,67% source maps 出现在生产环境。一个生成后安全 linter 或 middleware,能自动加入安全默认值,将解决一个已有数据支撑、可量化的问题。

[+] 编程智能体的跨 session 记忆和上下文持久化。同一天有两个独立工具(Storybloq、Kanban Pro)上线,解决同一个缺口——每个新的 agent session 都会忘掉一切。需求稳定存在,而当前方案仍处早期。

[+] 面向现有 IDE 工具链的本地模型集成层。用户报告,在 64GB 硬件上 Qwen 3.6 质量“接近 Sonnet 4.6”。缺失的一环是与现有 harness(Copilot、Claude Code)的无缝集成;这些 harness 目前仍要求云端 endpoints。


8. 要点总结

  1. 决定排行榜的是 harness,而不是模型。 一个受控 benchmark 显示,改变评估脚手架——不是切换模型——就能让 GPT-5.5 从最后一名变成第一名。Claude Code 2.1.120 让 Opus 4.7 严重退化,以至于团队不得不回滚。模型选择的重要性,不如包裹模型的协议。(基准测试, 回滚)

  2. 从 Claude 迁移到 Codex 是真实且正在加速的,驱动因素更多是速度和限制,而不是智能。 多名长期 Max 订阅者报告切换。持续出现的抱怨是延迟(2-4 分钟响应)和配额耗尽,而不是 GPT-5.5 在类别上更聪明。重度用户更想要快速、可预测的输出,而不是峰值能力。(帖子 1, 帖子 2)

  3. 当前订阅定价已被证明不可持续。 一名开发者在 $20 plan 上追踪到每月 $1,300 的 API 等价用量。通过 OpenRouter 调用单条 Opus 4.6 prompt 花了 $70。GPT-5.5 在 Copilot 中以 7.5x premium requests 上线,而之前是 1x。多个数据点确认,重度用户补贴正在跨平台崩塌。(成本追踪, API 冲击)

  4. Vibe-coded 应用存在已量化的安全问题。 对 312 个线上 AI 构建站点的扫描发现,平均安全得分为 48/100——低于静态 HTML 页面。89% 缺少 CSP headers,41% 拥有用户账号的应用没有 auth middleware。AI 会优化“功能能用”,而不是“只有该用的人能用”。(扫描)

  5. 多模型工作流正在成为严肃用户的默认选择。 Claude-plan / Codex-implement / Claude-review 正在变成一种新标准模式。多名用户独立描述了几乎相同的 pipeline。OpenAI 发布官方 Claude Code plugin,使这种跨生态做法获得正当性。单一提供商时代正在结束。(帖子)

  6. 本地模型正在跨过日常编程的可用阈值。 Qwen 3.6 在消费级 GPU 上达到 95 tokens/second,并提供“接近 Sonnet 4.6”的质量。一份面向 64GB 设备的详细速查表获得 162 个 upvotes。DeepSeek V4 提供开放权重,API 价格便宜 10-50x。摆脱订阅成本的逃生路线正在成形。(本地模型, 速查表)