跳转至

Twitter AI Coding — 2026-04-07

1. 人们在讨论什么

1.1 GitHub的"Rubber Duck"智能体:跨模型审查登陆Copilot CLI (🡕)

当天互动最高的推文来自@burkeholland,宣布GitHub Research为Copilot CLI发布了"Rubber Duck"智能体。该智能体自动将代码路由到不同AI系列的模型进行审查——例如,将Claude生成的解决方案与GPT系列审查器配对——附带的数据显示输出质量有可衡量的提升(帖子,463赞,285收藏,214K浏览)。

在后续回复中,Burke分享了SWE Bench结果:"Rubber duck弥补了Sonnet和Opus之间75%的差距。"这是一个令人瞩目的论断——它表明添加一个低成本的跨系列审查步骤可以恢复中端模型和顶端模型之间大部分的质量差异。@juliamuiruri4提出了一个有趣的假设:"我能否认为引入rubber-duck智能体推动了主模型进行某种自我评估?"Burke回应说他认为其机制在于跨模型系列的互补优势而非自我纠正,但承认这个问题仍然开放。

这与Copilot CLI v1.0.21(78赞)同期发布,该版本包含8项功能,包括用于管理MCP服务器的copilot mcp命令、将PascalCase转换为snake_case的hook载荷规范化(使用hook_event_namesession_id和ISO 8601时间戳),以及自动关闭未使用的shell会话以减少内存占用。@BradGroux指出"GitHub Copilot CLI一天比一天好"(帖子)。

讨论要点: @dpandiyan提出了一个实际问题:"这和一个可以随时调用的智能体技能有什么不同?"区别似乎在于Rubber Duck内置于CLI的审查循环中,而不是用户主动调用的工具,使其成为默认的质量关卡而非可选步骤。

1.2 本地AI编程走向免费:Gemma 4、MLX-LM和Ollama (🡕)

当天得分最高的三条推文中有两条聚焦于零成本本地运行AI编程智能体,表明本地优先的开发工作流已跨过可用性门槛。

@angeloskath宣布了新版mlx-lm,改进了批处理支持并兼容Gemma 4。演示视频展示了一台M3 Ultra同时为五个OpenCode会话提供Gemma 4 26B服务,在1.5分钟内处理约130K token(帖子,340赞,312收藏,63.7K浏览)。mlx-lm是MLX团队开发的Apple Silicon文本生成和微调库。@JakeSmGaming的回复道出了其意义:"一台机器上1.5分钟处理130k token。Apple Silicon正在吞噬这个领域。"

@Axel_bitblaze69发布了运行免费本地编程智能体的三步指南:安装Ollama,拉取Gemma 4 26B,启动OpenClaw并以Gemma为后端(帖子,234赞,320收藏)。该帖将此定位为备用方案:"每个开发者都应该准备好本地配置。"@SynabunAI表示赞同:"本地备用方案被低估了。重活用云端,凌晨2点速率限制触发而你快要上线时用本地。"@TheBlack_Box_1补充了一个注意事项,Gemma 4 26B"仍然需要相当不错的硬件才能流畅运行。"

@dev_Bjoern进一步扩展了Gemma 4生态系统,发布了自定义的think/fast模型变体用于Ollama:2.3B(e2b)和4.5B(e4b)有效参数的边缘模型,26B MoE工作站模型,以及31B稠密云端模型,可通过ollama pull bjoernb/gemma4-31b-think获取(帖子)。Gemma 4的基准测试结果强化了本地可行性论点:26B模型的LiveCodeBench v6为77.1%,AIME 2026为88.3%,Codeforces ELO为1718。

1.3 上下文窗口成为稀缺资源 (🡕)

一组帖子将上下文窗口管理视为AI辅助编程中的核心工程问题,提供了具体的测量数据和可操作的层级体系。

@aakashgupta分享了Carl Vellotti的实时数据:同一研究查询在不使用子智能体时消耗了9个百分点的上下文(16%到25%),而使用子智能体时仅消耗0.5个百分点(16%到16.5%)。子智能体执行了10次工具调用,消耗了30,000个token,全部在主会话之外(帖子,42赞,102收藏)。他提出了一个"几乎所有人都搞反了"的层级体系:CLI消耗零上下文,API消耗中等,MCP消耗最多,因为它们始终处于加载状态。Karpathy独立确认了相同的排序。

该帖还描述了每天使用Claude Code超过8小时的重度用户的工作流模式:跨会话累积的持久化markdown文件、用于利益相关者沟通的人物档案,以及在用户看到结果之前对自身输出进行截图并自我纠正的技能。@garrytan回复道"个人开源软件时代来了"(197赞,276收藏)——暗示编程智能体与持久化上下文的结合正在使个人能够构建以前需要团队才能完成的项目。

@grok量化了随性编程与结构化提示词之间的token成本差异:"使用智能体合约、完整规格、安全护栏、范围和品味的结构化提示词通常比纯随性编程节省70-90%的token。随性编程因隐藏的迭代循环、上下文抖动和不对齐的重写而消耗5-10倍的token"(帖子)。

@robzolkos报告了一个相关变化:"Claude Code的effort默认值现在基于计划层级:Pro/Max用户默认为medium;API key、Team、Enterprise和第三方供应商用户默认为high"(帖子)。这种分层的计算资源分配方式反映了Anthropic认识到不同用户有不同的成本敏感度。

1.4 编程工具框架格局碎片化 (🡒)

关于哪个编程工具框架搭配哪个模型的问题产生了多个讨论串,揭示了一个模型与工具框架兼容性已成为真正选择难题的格局。

@agent_wrapper直接提问:"运行GLM-5.1最好的编程工具框架是什么?Opencode?Claude code?Codex?还是其他?"(帖子,7条回复)。这个问题本身就表明工具框架的选择已变得不简单——没有明显的默认选项。

@kevinkern展示了一个答案:在Taugentic中使用GLM-5.1运行OpenCode并配合编程计划(帖子,45赞,14.4K浏览)。该配置源于@starkindeed的建议,使用OpenCode ACP而非直接修改Claude配置。注:OpenCode此后已被Charm团队归档并更名为Crush

@pycharm宣布了直接内置于JetBrains IDE的ACP Registry:"除了Junie、Claude Agent和Codex,您现在可以通过AI Chat一键发现并安装GitHub Copilot和Cursor等智能体。"无需JetBrains AI订阅——访问通过每个供应商自己的服务管理(帖子,42赞)。这是一个标准化举措:IDE变成了智能体市场而非单一供应商工具。

@chris__sev澄清了一个实际的陷阱:OpenClaw必须通过openai-codex/路径而非openai/路径使用模型(帖子,26收藏)。这引用了@sharbel此前关于Anthropic禁止Claude订阅用于OpenClaw的帖子,迫使用户转而设置OpenAI Codex认证。

@NickADobos发布了"AI编程重大时刻"的时间线——从GitHub Copilot到GPT-4、Cursor Composer、Sonnet 3.5、Aider、2025年11月模型浪潮、Pi Agent、OpenClaw,再到现在的Stripe Projects(含智能体DevOps和计费)——并预测可靠的浏览器/桌面智能体、一句提示词的逆向工程和实时视频调试将是下一步(帖子,138赞,77收藏)。

1.5 Apple封锁随性编程工具,开发者强烈反弹 (🡕)

@DataChaz指出了Apple App Store政策与随性编程运动之间的冲突:"Apple会在中午之前批准50个一模一样的'与AI老婆聊天'诈骗应用,却封锁了一个真正教孩子编程的酷炫随性编程工具"(帖子,33赞,16转发)。

引用的@anything讨论串详细讲述了完整故事。Anything是一个让非开发者使用自然语言构建应用并在自己手机上预览、可使用原生设备功能(GPS、相机、通知)的工具。Apple依据条款2.5.2——禁止应用在审核后下载可执行代码以改变行为的规则——下架了该应用。创始人认为这是一种误用:"预览应用只在构建者自己的设备上运行。它们是沙盒化的。想让其他人使用?你仍然需要提交到App Store。"四次技术重写均被拒绝。

该讨论串引用了一个具体的成功案例:北加州的一名消防员使用Anything在不写代码的情况下构建了一个紧急事件响应应用,经过数百个版本的迭代,将其上架App Store,现在向全州的消防部门销售——如果雇佣工程师来做,成本将超过10万美元。创始人指出Expo Go为专业开发者提供了同样的功能且仍在App Store上,认为唯一的区别在于Anything的用户不是专业开发者。


2. 令人困扰的问题

上下文窗口耗尽 (High)

最主要的困扰是AI编程会话在实质性工作完成之前就触及上下文限制。@aakashgupta描述了"大多数人在45分钟后就撞墙了",因为他们加载的MCP仅仅是存在就在消耗上下文,内联执行研究而非委托,"在还没开始真正工作之前就看着绿色进度条变红"(帖子)。测量到的差异——不使用子智能体消耗9个百分点vs使用子智能体消耗0.5个百分点——表明默认使用模式的效率比优化模式低18倍。

Anthropic订阅限制 (High)

@sharbel报告称"Anthropic团队刚刚禁止Claude订阅用于OpenClaw",迫使用户通过OpenAI Codex设置替代认证(引用帖子)。@AIandDesign表达了定价方面的不满:"我确实有Claude Code Max。只是我还没准备好再额外花190美元订阅ChatGPT"(帖子)。运行多个智能体工具的用户面临叠加的订阅成本,而价值差异化并不清晰。

Google Antigravity稳定性和速率限制 (Medium)

@ZypherHQ直接向Google表达不满:"花点钱把这破玩意修好,谢谢"(帖子,32赞)。@georgeranch详细描述了速率限制问题:"Gemini 3.1,由于google AI pro和github copilot请求过多导致antigravity上的各种速率限制,令人失望"——这促使该用户转而默认使用GPT 5.4(帖子)。

.NET AI编程开发体验 (Medium)

@thearchitect452描述了.NET生态系统中AI编程集成的糟糕体验:"Visual Studio:如果不使用集成的Copilot,你会不断被'重新加载解决方案'对话框轰炸。Visual Studio Code:与扩展的持续斗争"(帖子)。这表明虽然AI编程工具在某些技术栈(Python、JavaScript/TypeScript)中运行良好,但其他技术栈仍然充满摩擦。

AI代码在专业领域的质量问题 (Medium)

@jfjoyner3对Claude的VBA输出表达了不满:"Claude把我的vba代码搞得一团糟,因为我愿意相信他的建议"(帖子)。这反映了一个更广泛的模式:AI编程工具在主流语言上表现出色,但在遗留或小众语言环境中质量显著下降。

AI生成代码的安全隐患 (Low)

@ldzi3lak提出了一个系统性担忧:"你打造了当今最强的编程/安全LLM,然后让它访问运行全球大部分软件的所有公司。我希望他们能充分测试这些补丁并理解其中的漏洞"(帖子,5.9K浏览)。这里的担忧不是AI犯错,而是赋予AI智能体广泛的代码库访问权限所创造的攻击面。


3. 人们期望的功能

Google Antigravity的无缝多账户切换。 @Azharali37080构建了一个变通工具("Antigravity Lab"),因为默认体验需要重启IDE才能切换账户,过程中会丢失上下文(帖子)。需要第三方解决方案这一事实本身就表明Antigravity在账户管理方面存在缺口。

Antigravity Lab v1.0.17展示多账户管理,支持Claude Opus、Gemini Pro和一键账户切换

通用的模型-工具框架兼容性。 @agent_wrapper提出的"运行GLM-5.1最好的编程工具框架是什么?"(帖子)不应该需要7条回复来回答。开发者希望有一个能与任何模型良好配合的单一工具框架,或者至少有一个可供参考的兼容性矩阵。

Apple App Store对随性编程预览工具的支持。 Anything的遭遇表明非开发者构建者需要原生功能(GPS、相机、通知)的设备端预览能力,但Apple的可执行代码规则阻断了这一用例。Expo Go为专业开发者提供了同样的功能却不受影响(帖子)。

遗留技术栈中可靠的AI编程体验。 VBA、Visual Studio下的.NET以及其他企业环境缺乏Python和TypeScript开发者习以为常的精致AI编程支持。这一差距大到即使是愿意为高级工具付费的用户也感到沮丧。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
GitHub Copilot CLI CLI智能体 正面 Rubber Duck跨模型审查、MCP管理、活跃的发布节奏(v1.0.21) 较新的参与者,生态系统仍在成熟中
Claude Code CLI智能体 褒贬不一 重度用户工作流、子智能体委托、持久化上下文 订阅被禁止用于OpenClaw、VBA质量问题、默认设置下上下文耗尽
OpenClaw 智能体框架 正面 本地模型免费、cron/heartbeat/CLI访问、广泛的模型支持 Anthropic禁令后需要OpenAI Codex认证、广泛访问带来的安全隐患
OpenCode / Crush CLI智能体 正面 基于TUI、模型无关、Go语言开发 最近归档并更名为Crush(Charmbracelet),早期开发阶段
Codex (OpenAI) 云端智能体 正面 每周300万用户、强推理能力、达到增长里程碑时速率限制重置 额外的$190/月订阅成本
Gemma 4 (26B/31B) 本地模型 正面 免费、77-80% LiveCodeBench、256K上下文窗口、MoE效率 需要相当不错的硬件(M系列Mac或同等配置)
mlx-lm 本地推理 正面 Apple Silicon优化、批处理支持、多会话服务 仅限macOS,需要M系列硬件
Ollama 模型运行时 正面 简单的拉取即运行、大型模型库、社区变体 大规模资源管理
Google Antigravity 云端IDE 褒贬不一 免费层、Gemini集成、Google内部使用("Jet Ski") 速率限制、稳定性投诉、账户切换痛点
JetBrains ACP Registry IDE集成 正面 一键智能体安装、供应商无关、无需JetBrains AI订阅 新产品,仅限JetBrains IDE
GPT 5.4 云端模型 正面 强大的通用编程能力、可通过Copilot和Codex使用 大规模使用成本
Taugentic 智能体编排器 中性 使用GLM-5.1运行OpenCode,模型无关 可用信息有限
Framer MCP 设计工具桥接 正面 让AI直接编辑Framer项目、Antigravity免费使用 应用场景较窄
Spring AI / LangChain4j Java AI框架 正面 企业级Java集成、智能体化系统 Java生态系统的AI编程成熟度落后

5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
SpekBoard @lukewestlake 多智能体编排仪表板,跟踪7个跨模型的智能体,含成本追踪和运行指标 跨Claude Opus、GPT 5.4和Grok-4的多智能体成本和性能可见性 Claude Opus 4.6, GPT 5.4, Grok-4, 自定义流水线 Alpha 帖子
自主情报管线 @hawktrader 全自主的研究到发布管线,含cron触发的探索、新颖性过滤、事实核查和多渠道分发 从22个来源自动化情报收集,无需人工干预 OpenClaw, Claude Code, Codex, Antigravity, SQLite, Postgres, Neo4j, Graphiti Shipped 帖子
Antigravity Lab @Azharali37080 桌面工具,用于切换Google Antigravity账户无需重启IDE 账户切换导致IDE上下文丢失的痛点 云服务器,多账户管理 Shipped (v1.0.17) 帖子
Gemma 4 think/fast变体 @dev_Bjoern 自定义Ollama模型文件,为Gemma 4全系列提供think/fast模式 Ollama上缺少Gemma 4的think模式配置 Ollama, Gemma 4 (e2b/e4b/26b/31b) Shipped 帖子
Framer MCP + Antigravity指南 @vivekdesignss 分步指南,让AI直接编辑Framer项目 无需付费计划即可将设计工具连接到AI编程智能体 Framer MCP, Google Antigravity Shipped 帖子
构建你的AI创业团队工作坊 @BradGroux 实操工作坊,教创业者构建5个自主智能体 弥合AI工具与创业教育之间的差距 OpenClaw, Copilot CLI RFC (5月2日) 帖子

SpekBoard仪表板展示7个智能体的模型分配、上下文使用情况、每周成本和Claude Code运行指标

自主情报管线架构,包含基于OpenClaw运行的研究、发布和数据存储层

德州农工大学"构建你的AI创业团队"工作坊传单,展示使用OpenClaw的5智能体团队配置


6. 新动态与亮点

Copilot CLI v1.0.21发布MCP管理和Rubber Duck审查功能。 该版本新增了copilot mcp命令用于从CLI管理MCP服务器,hook载荷规范化为snake_case并使用ISO 8601时间戳,以及通过清理未使用的shell会话自动减少内存占用。Rubber Duck跨模型审查智能体是核心功能,SWE Bench数据显示其弥补了Sonnet-Opus之间75%的差距(发布帖子)。

Codex达到每周300万用户。 @thsottiaux宣布了这一里程碑,不到一个月前还是200万,每新增100万用户(直到1000万)会重置速率限制。@trekedge将Codex定位为"最适合这项工作的智能体",并将其与其他随性编程产品区分开来(帖子里程碑帖子)。

JetBrains发布ACP Registry作为智能体无关的市场。 ACP Registry让开发者无需JetBrains AI订阅即可从IDE中一键发现和安装AI智能体(Junie、Claude Agent、Codex、Copilot、Cursor)。这是一个标准化押注:IDE变成了竞争智能体供应商的中立平台(帖子)。

mlx-lm批处理更新实现多会话本地推理。 更新后的库演示了五个并发编程会话在单台M3 Ultra上运行Gemma 4 26B,1.5分钟内处理130K token。这使得纯本地的AI编程工作流首次在多会话规模上变得实用(帖子)。

Claude Code effort默认值现在按计划层级区分。 Pro/Max用户默认为medium effort;API key、Team、Enterprise和第三方供应商用户默认为high。这反映了Anthropic按客户经济模型细分计算资源分配(帖子)。

Sundar Pichai确认Google内部使用Antigravity。@Marie_Haynes总结的一次最近采访中,Pichai透露Google将其内部Antigravity实例称为"Jet Ski",搜索团队前一周刚开始使用。他将OpenClaw等智能体化系统描述为"未来",并估计全球0.1%的人已经生活在这个未来中(帖子)。

AI Engineer London周正式开启。 @Infoxicador报道了第一天在GitHub社交活动和OpenAI伦敦办公室的情况,@reach_vb做了Codex Spark的演讲(帖子)。与此同时,@msdev推广了JDConf(4月8-9日),重点关注使用Spring AI、LangChain4j和Microsoft Foundry的智能体化Java系统(帖子,196赞)。

AI Engineer London在OpenAI办公室,展示Codex Spark演讲


7. 机会在哪里

[+++] 上下文高效的智能体架构。 朴素用法与优化用法之间18倍的效率差距(每个研究任务9个百分点vs 0.5个百分点)是巨大的。能够自动委托给子智能体、执行上下文预算或压缩MCP载荷的工具,在每天触及上下文墙的日益增长的开发者群体中拥有巨大的可寻址市场。CLI优于API优于MCP的层级体系尚未嵌入任何工具的默认设置。

[+++] 本地优先的AI编程基础设施。 Gemma 4在Apple Silicon硬件上以零边际成本实现的基准测试表现(77-80% LiveCodeBench,1718-2150 Codeforces ELO)创造了一个可行的云端工作流替代方案。缺失的部分是一个精致的集成层——一个命令即可配置Ollama、选择正确的模型变体并将其连接到用户首选的工具框架。@dev_Bjoern的自定义Ollama变体表明这目前是一个手动的、社区驱动的过程。

[++] 跨模型质量保证作为默认选项。 GitHub的Rubber Duck结果——通过低成本的跨系列审查弥补了Sonnet-Opus之间75%的差距——表明多模型管线应该成为默认选项而非例外。机会在于使其自动化且模型无关,不绑定特定的CLI或供应商。

[++] IDE作为智能体市场。 JetBrains的ACP Registry是智能体无关IDE集成的首次认真尝试。机会在于其他IDE采用类似协议,以及智能体供应商在通用的安装和认证接口上实现标准化。能够一键安装和切换Claude、Copilot、Codex和Cursor的开发者不会容忍供应商锁定。

[++] 面向非开发者的移动端随性编程。 Anything应用的故事展示了真实需求——一名消防员在不写代码的情况下构建并销售了一个紧急响应应用——但Apple的条款2.5.2阻断了设备端预览工作流。一个提供类原生预览而无需App Store把关的基于Web或PWA的替代方案可以占领这个市场。

[+] 遗留技术栈的AI编程工具。 .NET和VBA的挫折感表明一个未被充分服务的市场。困在遗留技术栈上的企业开发者有付费意愿但缺乏好的选择。为Visual Studio、VBA和其他企业环境量身打造的AI编程集成可以收取高端定价。

[+] 多智能体成本和性能仪表板。 SpekBoard和hawktrader管线都展示了从业者构建自定义仪表板来追踪多智能体成本、上下文使用和运行指标。这方面的产品化版本——编程工作流的智能体可观测性——在团队从单智能体扩展到多智能体配置时有明确的需求。


8. 要点总结

当天的信号在三个方面最为清晰。首先,跨模型审查不再是实验性的——GitHub携带SWE Bench数据发布Rubber Duck意味着这一模式获得了机构背书和可衡量的结果。没有对AI生成代码进行跨系列审查的团队正在浪费质量提升的机会。

其次,本地AI编程技术栈跨过了可用性拐点。Ollama上的Gemma 4 26B配合mlx-lm批处理以零边际成本提供了有竞争力的基准测试表现(77% LiveCodeBench,1718 Codeforces ELO),设置只需三个命令。限制因素是硬件(具有足够RAM的Apple Silicon),而非软件或成本。

第三,上下文窗口管理已成为AI辅助开发中的决定性技能差距。朴素用法与优化用法之间18倍的效率差异大于大多数竞争模型之间的质量差异。掌握子智能体委托、结构化提示词和CLI优于API优于MCP层级体系的从业者,与把编程智能体当作聊天窗口使用的人相比,处于一个根本不同的生产力水平。

工具框架碎片化的故事仍在发展中。JetBrains的ACP Registry、OpenCode更名为Crush,以及"用哪个框架跑GLM-5.1"的问题,都指向一个尚未整合的市场。赢家可能不是由功能决定,而是由哪个工具最能管理上下文窗口决定——因为那才是每个人都在耗尽的资源。