跳转至

Twitter AI 编程 - 2026-04-10

1. 人们在讨论什么

1.1 多模型反思进入主流(🡕)

当天遥遥领先的头部推文来自 @satyanadella(score 2551.6,873 点赞,238 收藏)。他 认可 了 GitHub Copilot CLI 的多模型反思循环:“你现在可以把多模型反思循环作为 reviewer 来用。它对及早捕捉问题很有帮助,能避免问题滚大。” 他引用了 @burkeholland,后者描述了 GitHub Research 团队发布的 “Rubber Duck” 智能体——一个来自不同 AI 家族的自动 reviewer,会在智能体工作流的关键检查点触发。

Rubber Duck 的工作方式,是把主编程模型(如 Claude Sonnet)与另一个家族的 reviewer(如 GPT-5.4)配对,利用不同偏差和盲点来捕捉会累积放大的错误。GitHub 博客文章 报告称,Claude Sonnet 搭配 GPT-5.4 Rubber Duck,在 SWE-Bench Pro 上补上了 Sonnet 与更昂贵 Claude Opus 之间 74.7% 的性能差距;复杂的多文件任务提升最大,最多达到 4.8%,这些任务需要 70+ 步。该功能通过 /experimental flag 启用。

回复中出现了不同阵营。@the_vc_intern 划清了界限:模型切换(Cursor 已经支持)和一个模型主动审查另一个模型的输出并不是一回事——“这才是这里真正重要的部分。” @XExarKun 认为,Microsoft 应该训练一个有竞争力的第一方模型,而不是依赖 Codex 和 Opus,并称这对“更大的用户基础”来说是一次错失机会。

@martinwoodward(GitHub)强化了定位:“GitHub Copilot CLI 才是方向。它完全跨平台、跨模型,并且内置跨模型家族 rubber ducking,这不仅能提升 SweBench 分数,也能在真实表现上带来很大提升。”

1.2 Codex 追求 taste,同时撞上限流(🡖)

@CtrlAltDwayne(229 点赞)给出了 当天最尖锐的模型批评:“Codex 说实话已经几乎完美。OpenAI 唯一需要修的是缺少 taste。如果 GPT-5.4 拥有 Opus 4.6 或 Gemini 3.1 Pro 的 taste,那就完美了。” @logonx2421 澄清 了区别:“不是 taste,是 execution。GPT 知道什么是好 taste……但当它真正尝试‘做需要 taste 的事情’时,输出的 tokens 很糟。我觉得这是 RL 的问题。” @leetllm 排列了 当前层级:“GPT 5.4 很聪明,但感觉对编程太泛化。Codex 5.3 在严格遵循指令上强得多,但 Opus 4.6 仍然是我实际 vibecoding 的日常主力。”

与此同时,Codex Plus 限流引发尖锐抱怨。@develogue 报告,仅 10 分钟就烧掉 5 小时限制的 30% 和周限制的 4%,在 2x bonus 结束后称 Codex “按这个速度根本不能用”。附图确认限流仪表盘显示用量快速消耗。

Codex Plus 用量仪表盘显示短暂使用后,5 小时限制剩余 70%、周限制剩余 68%

@0x99_Ethan 呼应 了这种挫败感:“Codex Plus 的 5 小时限制不断打断我的工作……我宁愿在 2 天内用完一个 Plus 账号的配额。我真的很讨厌在心流里突然被切断。”

@HF_Trader 提供 了一个具体迁移故事:在用 Claude Code 做系统化交易数月后,他切到 Codex 5.4 “extra high”,发现“完全不是一个世界”。具体胜利是修复执行时序问题:系统在 bar close 时发送市价单,而不是在 next bar open 时发送。这个问题 Claude Code 很难处理,但 Codex 一次就解决了。

1.3 Vibe coding 进入后代码阶段(🡕)

一组推文显示,“vibe coding” 正在越过最初的构建阶段,进入营销、产品管理和哲学讨论。

@LunaBitar(380 点赞,71 收藏)分享了 一个醒目的轨迹:“30 天内把我的祈祷 app 从 0 增长到 500 用户,发布后一次都没碰代码库,只是每天做营销。” 她把 TikTok 带来的“随机爆红”和 Instagram 带来的“稳定观看”归功为下载量来源,并把这种转变描述为用营销治好了自己的 “vibe coding addiction”。

@alexatallah 观察到 民主化角度:“比起 vibe coding,我更喜欢看非技术朋友尝试它,然后意识到自己突然能做多少事情。”

@jaequery 提出 一个战略问题:“在 AI vibe coding 时代,MVP 这个概念还成立吗?如果你现在可以瞬间交付一个功能齐全的产品,你应该这么做吗?” 16 条回复说明大家真的不确定:当实施成本接近零时,范围克制是否仍然重要。

@kkmaway 承认 这种吸引力:“vibe coding 很上瘾……你不知道自己在做什么……而你有一个助手在试图理解你可能在想什么……然后你从那里继续迭代。”

1.4 CLI 工具生态碎片化又重新组合(🡒)

AI 编程 CLI 空间同日出现了发布、上线和平台动作。

@GHCopilotCLILog 宣布 Copilot CLI v1.0.24,包含 5 项功能:自定义智能体模型字段现在接受显示名和供应商后缀(例如 “Claude Sonnet 4.5”、“GPT-5.4 (copilot)”);重新设计退出界面;preToolUse hooks 支持 modifiedArgs 和 additionalContext 字段;支持 --remote flag 做会话同步;并在崩溃后恢复终端状态。@qweikeris 在回复中 提出 MCP 配置碎片化问题:“.mcp.json 文件是否也能用于 VSCode?还是我们需要分别为 Copilot CLI、VSCode、Visual Studio 和 Copilot Code Agent 维护各自的 mcp.json 文件?”

@chenzeling4 分享 了 OpenClaude,这是一个开源编程智能体 CLI,可在单一终端工作流中支持 200+ 模型。GitHub repository 显示它采用 MIT license、v0.1.8,并支持 OpenAI-compatible APIs、Gemini、GitHub Models、Codex OAuth、Ollama 和 Atomic Chat。功能包括保存提供商配置、MCP 集成、slash commands,以及捆绑 VS Code extension。推文称该项目有 20.4K GitHub stars。

OpenClaude GitHub README 显示功能列表、badges 和安装说明

@jezell 强调 了 SuperConductor,这是一个基于 GPUI(Zed 的 GPU 加速框架)的纯 Rust 原生 macOS 智能体管理器。该工具在隔离 Git worktrees 中提供无限并行智能体会话,启动时间低于 50ms,并可配合 Claude Code、Codex、Gemini CLI 和其他智能体使用。Jezell 质疑,既然 OpenAI 自己的 Rust codebase 已经存在,为什么 Codex desktop app 没有采用 GPUI。

@7a7zz 询问 如何在 OpenCode Go 中为 explore agent 配置一个更小模型,并标记了创建者 @thdxr:“它消耗了我很多 opencode go 用量。” OpenCode 通过分层 opencode.json 配置系统支持按智能体配置模型。


2. 令人困扰的问题

Codex Plus 在 bonus 移除后的限流(High)

Codex Plus 的 2x bonus 结束后,立刻出现摩擦。@develogue 10 分钟内烧掉 5 小时限制的 30%,称 Codex “按这个速度根本不能用”。@0x99_Ethan 描述 了心流状态中被持续打断。两位用户都表示愿意为不间断访问付更多钱,说明当前定价档位与高级用户消耗模式不匹配。

模型 taste 与 UI 质量差距(Medium)

多位用户聚焦同一个抱怨:当前编程模型在被要求 critique 时能识别好设计,但在生成 UI、文案和审美选择时产出平庸。@CtrlAltDwayne 把它表述为 “缺少 taste”。@logonx2421 将其归因于 RLHF 训练,并指出早期 GPT-5.0(Horizon Beta)版本感觉“更擅长 UI,也更讨人喜欢”。这是当前 reward modeling 的结构性限制,而不是功能缺口。

Vibe coding 带来的死代码积累(Medium)

@robin_liquidium 警告 “vibe coding 会制造大量死代码”,并建议定期运行 Knipdelete all dead code. read knip docs and use it.)。Knip 是一个综合性开源工具,可以在 JavaScript/TypeScript 项目中查找未使用的文件、导出、依赖和类型,支持 100+ 框架插件。底层问题是:AI 智能体会投机性地添加代码,却很少清理自己没有使用的东西。

Claude Code 成了自己的最大敌人(Low)

@followmarko 用 Claude Code 诊断 一个 CPU 问题,结果发现罪魁祸首就是 Claude Code 自己。Telegram plugin 每次会话启动都会生成一个新的 bun server.ts 进程,却从不杀掉旧进程,累积出几十个孤儿进程,消耗 1,852 分钟 CPU 时间(30+ 小时)和总计 150% CPU。

Claude Code 输出诊断出 orphaned Telegram plugin processes 消耗 1,852 分钟 CPU time


3. 人们期望的功能

具备审美判断的编程模型

@CtrlAltDwayne 描述 的理想状态是“一个拥有 Opus 4.6 或 Gemini 3.1 Pro taste 的 GPT-5.4 模型”。@founderengineer 补充,更好的 UI 和文案会让 Codex 具备决定性优势。“triple threat”——代码正确性、审美 taste 和清晰写作——仍没有被任何单一模型做到。

可配置子智能体模型以控制成本

@7a7zz 询问 有没有办法在 OpenCode Go 中把更小、更便宜的模型分配给 explore agent,因为后者在常规文件搜索中消耗了不成比例的配额。更广泛的需求是:根据任务复杂度做 per-agent model routing,让昂贵模型负责生成,而廉价模型负责探索和索引。

AI Studio 成为完整开发环境

@OfficialLoganK(Google,201 点赞)回应 了关于 AI Studio vibe coding 限制的反馈,询问它是从搜索还是基础模型知识获取信息。@FerTech 描述 了想把 AI Studio 当作“处理一切的核心开发工具”的需求,并建议接入第三方 APIs:“我有 Fireworks AI FirePass 计划,每周 $7 就能无限使用 Kimi 2.5。” 原型工具和生产 IDE 之间的差距仍然很大。

跨编辑器统一 MCP 配置

@qweikeris 质疑,.mcp.json 是否能跨 Copilot CLI、VS Code、Visual Studio 和 Copilot Code Agent 使用,还是每个工具都需要单独配置文件。当前碎片化迫使开发者为同一组 MCP 服务器维护平行配置。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
GitHub Copilot CLI 编程智能体 正面 多模型 Rubber Duck 审查、跨平台、跨模型 skills、v1.0.24 模型名灵活性 Microsoft 产品之间 MCP config 碎片化
Codex (OpenAI) 编程智能体 褒贬不一 强 one-shot 问题解决能力、Codex 5.3 擅长遵循指令、iOS/macOS plugins 2x bonus 移除后限流严苛;GPT-5.4 缺少审美 taste
Claude Code 编程智能体 褒贬不一 系统化编程、Firebase/API setup 能力强 plugin 导致资源泄漏(orphaned processes);长会话 context rot
Opus 4.6 Foundation Model 正面 多位用户称其为 vibe coding 日常主力;审美质量好 成本;并不总在所有 agent harnesses 中可用
OpenClaude 开源 CLI 正面 200+ models、单一工作流;保存 provider profiles;MCP、VS Code extension v0.1.8,早期阶段
SuperConductor Agent Manager 正面 纯 Rust/GPUI、原生 macOS、无限并行 agent sessions、Git worktree 隔离 仅 macOS,Alpha 阶段
OpenCode Go 编程智能体 褒贬不一 75+ models、分层 config、subagent 支持 Explore agent 消耗过多配额,缺少 per-agent model override
AI Studio (Google) 原型工具 褒贬不一 适合原型和验证 还不能替代完整 IDE;vibe coding 中存在搜索/知识缺口
Knip 死代码检测 正面 查找未使用 files、exports、deps、types;100+ framework plugins 仅 JavaScript/TypeScript
MSSQL Extension + Copilot 数据库工具 正面 自定义指令注入 SQL 标准,让 Copilot 生成符合团队规范的 T-SQL 需要预先准备架构文档

5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
OpenClaude @chenzeling4 / Gitlawb 面向 200+ 云端和本地模型的开源编程智能体 CLI AI 编程工具之间的 provider lock-in Node.js、OpenAI-compatible APIs、MCP Shipped (v0.1.8, 20.4K stars) GitHub
SuperConductor @berryxia 用于并行 AI 编程智能体编排的原生 Rust macOS app 同一 repo 上运行多个 agents 时的上下文切换和 Git conflicts Rust、GPUI、Metal Alpha mainstream.dev
Codex Plugins for iOS/macOS @Dimillian / OpenAI 用于构建、调试、迁移 iOS/macOS apps 的官方 plugins Agents 缺少 Apple platform domain knowledge Swift、SwiftUI、Xcode toolchain Shipped GitHub
Prayer App (unnamed) @LunaBitar 30 天增长到 500 用户的移动祈祷 app 个人 productivity/spiritual tool Vibe-coded、marketing-driven growth Shipped (500 users) 推文
Copilot SQL Architecture Teaching @AzureSQL Data Exposed episode,讲解通过 MSSQL extension 向 Copilot 注入 SQL standards Copilot 生成 generic SQL,而不是团队一致的 T-SQL VS Code、MSSQL extension、custom instructions Shipped 推文

OpenClaude 把多提供商问题整合到一个 CLI 中。通过 /provider 保存提供商配置,让开发者可以在 OpenAI、Gemini、GitHub Models、Codex OAuth、Ollama 和 Atomic Chat 之间切换,而不用来回折腾环境变量。捆绑的 VS Code extension 提供启动集成和主题。项目还镜像到 GitLawb 的去中心化托管,表明其押注提供商无关基础设施。

SuperConductor 处理的是同一仓库上运行多个智能体的工作流瓶颈。它把每个智能体隔离在自己的 Git worktree 中,并用 GPU 渲染终端(借助 Metal 达到低于 50ms 的启动时间)避免 Claude Code 和 Codex 在同一个 working tree 上操作时出现 merge conflicts 和 context pollution。选择 GPUI 而不是 Electron 或 Tauri 是刻意的:@jezell 指出,OpenAI 自己的 Codex codebase 就是 Rust,因此 Electron desktop app 的架构选择令人困惑。


6. 新动态与亮点

GitHub Copilot CLI 发布 Rubber Duck 跨模型审查

Rubber Duck 智能体 代表了 AI 编程工具处理质量保证方式的结构性变化。Copilot CLI 现在不再依赖单一模型自我审查(这会放大自身盲点),而是在关键检查点触发来自不同模型家族的 reviewer——规划之后、复杂落地过程中、测试执行前。跨家族方法能发现无限循环、被覆盖的 dictionary keys 和跨文件依赖错误等同家族审查系统性漏掉的问题。SWE-Bench Pro 上 74.7% 的差距补齐提供了硬证据:review 中的模型多样性,可以在不增加额外成本的情况下带来可衡量的可靠性提升。

GitHub 暂停 Copilot Pro 免费试用

@GHchangelog 宣布,由于“免费试用系统的滥用显著上升”,新的 Copilot Pro trials 已暂停。现有 trials 和所有免费/付费订阅不受影响。暂停是临时措施,GitHub 正在构建更好的保护机制。这一点值得注意,因为它说明 AI 编程工具免费层已经有足够吸引力,开始遭遇规模化系统滥用。

OpenAI 发布面向 Apple 平台的官方 Codex Plugins

@PaulSolt 强调,OpenAI 官方 Codex plugins 上线,包括 build-ios-apps 和 build-macos-apps,由 @Dimillian 与 OpenAI 团队创建。这些插件不只是代码生成:它们处理 Swift/SwiftUI 脚手架、构建/调试循环、Liquid Glass 迁移、用于智能体调试的遥测集成,以及 App Store 准备工作。这些插件编码了 Apple Human Interface Guidelines 和公证工作流,给 Codex 提供基础模型无法仅靠训练数据复现的领域知识。可通过 codex /plugins插件仓库 获取。

Copilot CLI v1.0.24 提升模型灵活性

v1.0.24 release 移除了多模型工作流中的一个摩擦点:自定义智能体模型字段现在可以接受来自 VS Code 的人类可读显示名和供应商后缀(例如 “Claude Sonnet 4.5”、“GPT-5.4 (copilot)”),不再要求内部模型标识符。其他改进包括 preToolUse hooks 支持 modifiedArgs 和 additionalContext、--remote flag 支持会话同步,以及 OOM crashes 或 segfaults 后恢复终端状态。


7. 机会在哪里

[+++] 强:多模型审查作为平台功能。 Rubber Duck 智能体证明,跨模型审查可以在不增加额外成本的情况下补上中档与顶级模型的大部分质量差距。每个 AI 编程工具——Cursor、Codex、Claude Code、OpenCode——都可以落地类似跨家族审查循环。能把这件事做得无缝且可配置的团队(选择 reviewer model、设置 checkpoint frequency、调整 feedback granularity),会拿下重视可靠性的市场分段。(satyanadella, Rubber Duck blog)

[++] 中等:原生智能体编排 GUI。 SuperConductor 的纯 Rust/GPUI 路线证明,GPU 加速原生 app 在多智能体工作流中明显优于 Electron。管理并行智能体会话、提供 Git worktree 隔离、键盘驱动界面和实时终端渲染的工具市场仍然广阔。今天只有 macOS 得到服务;Windows 和 Linux 仍未覆盖。(jezell, berryxia)

[++] 中等:Vibe code 卫生工具。 死代码积累、孤儿进程和无人管理依赖,正在成为 AI 辅助开发的系统性副产品。把清理集成进 vibe coding 循环的工具——智能体会话之后自动运行 Knip、管理 agent plugins 的进程生命周期、修剪依赖——可以处理越来越多开发者直到危机出现前都忽略的维护负担。(robin_liquidium, followmarko)

[+] 新兴:面向成本优化的按智能体模型路由。 高级用户撞上限流,是因为探索和生成任务消耗同一份昂贵模型配额。一个能把廉价模型自动分配给文件搜索、上下文收集和规划,同时把昂贵模型留给代码生成和审查的路由层,会显著延长有效使用时间。OpenCode Go 的 config system 理论上支持这一点;还没有工具把它自动化。(7a7zz, develogue)

[+] 新兴:构建后的 vibe coding 打法。 LunaBitar 从 0 到 500 用户的故事暴露了一个未被服务的细分市场:能构建但不知道如何发布的 vibe coder。UGC 策略、TikTok/Instagram 渠道选择、数据分析解读和基于用户数据的迭代,都是 AI 工具可以教授或自动化的技能。(LunaBitar)


8. 要点总结

  1. 跨模型审查是今天最高杠杆的质量提升手段。 Satya Nadella 对 Rubber Duck 智能体的认可,加上 SWE-Bench Pro 上 74.7% 的差距补齐,确立了多模型反思作为严肃 AI 编程工作流的新基线。该技术模型无关,任何工具都能落地。(satyanadella)

  2. Codex 存在质量上限,而限流让这种上限更难忍受。 用户称赞 Codex 的原始问题解决能力,但持续指出它在 UI 和文案上的审美 taste 不足。再叠加 2x bonus 移除后的激进限流,结果是它在最不该的时候挫伤了最投入的用户。(CtrlAltDwayne, develogue)

  3. Vibe coding 正在制造许多实践者尚未承认的维护债。 死代码积累、孤儿 plugin processes 和未审查依赖,是没人阅读的 AI 生成代码带来的可预期后果。能长期维护项目的实践者,会是那些现在就把 Knip 等清理工具接入工作流的人。(robin_liquidium)

  4. CLI 智能体版图正在碎片化为多个专门细分。 Copilot CLI 占据跨模型审查,Codex 占据带领域 plugins 的 one-shot 问题解决,OpenClaude 占据多提供商灵活性,OpenCode Go 占据可配置子智能体,SuperConductor 占据并行编排。没有单一工具在所有维度占优,这会推动高级用户走向多工具组合。(chenzeling4, jezell)

  5. Vibe coding 生命周期现在已经延伸到代码之后。 LunaBitar 的祈祷 app 故事——发布后不碰代码,30 天获得 500 用户——以及 jaequery 关于 MVP 是否仍有意义的问题,都说明 AI 辅助开发的瓶颈正在从构建转向营销、分发和产品判断。能成功的开发者,会是那些意识到 shipping 不再是最难部分的人。(LunaBitar, jaequery)

  6. 平台特定智能体知识正在成为竞争护城河。 OpenAI 面向 iOS/macOS 的 Codex plugins 编码了 Apple HIG、notarization、Liquid Glass migration 和构建/调试循环——这些领域知识不是通用模型仅凭训练数据就能复现的。相同模式会在每个主要平台重复:Android、Unity、Unreal、embedded systems。谁先发布 domain plugins,谁就占据开发者关系。(PaulSolt)