跳转至

Twitter AI Coding -- 2026-04-23

1. 人们在讨论什么

1.1 GPT-5.5"Spud"发布,声称编码能力实现阶跃式提升 🡕

当天最重大的新闻是GPT-5.5正式发布,代号"Spud"。@danshipper发布了最详尽的从业者评测(249赞,20,105次浏览,118次收藏),基于在Every进行的三周早期测试:"它在我们的高级工程师基准测试中得了62/100分。Opus 4.7只得了33/100分。"评测指出GPT-5.5是"第一个能够在需要删除和重构大量现有代码库的复杂重构任务中表现出色的模型",也是"大约一年来第一个让我们的作者从Claude转向的OpenAI模型"。测试消耗了超过9亿个token。不过,danshipper指出GPT-5.5"在计划质量上仍不及Opus 4.7",在"前端和全栈产品开发"方面也是如此。

@jetbrains确认(9赞,534次浏览):"在我们的首批早期测试中,速度提升了最多3倍。"@DeryaTR_分享了(42赞,1,485次浏览)来自GPT Pro Community早期测试组的反馈:"这是相比GPT-5.4的重大升级,前端表现堪称惊艳。"

@soft_servo展示了(34赞,29次收藏)首个机器人应用案例:"用GPT 5.5氛围编程做机器人!这是一个7自由度机械臂的URDF,包含运动学功能、自定义GUI和STEP零件/装配体,100%在Codex中生成。如果用传统方式拼接半打工具,类似的成果需要花我好几周时间。"

讨论要点:@navigateny问danshipper是否已经用GPT-5.5替代Opus 4.7。评测承认Opus在计划质量和全栈设计方面仍有优势,因此这是"各有所长"的格局,而非明确的胜负。

与前日对比: 4月22日,GPT-5.5还只是Codex模型选择器中的一个泄露信息和Polymarket上的一个预测。今天它已是一个正式发布的产品,配有从业者基准测试、IDE厂商确认和领域专项演示。叙事从猜测转向了评估。


1.2 Codex模型元数据确认GPT-5.5引发层级重组 🡕

在正式发布前数小时,多位用户发现了Codex模型描述的变更,确认GPT-5.5即将上线。@chetaslua记录了(184赞,11,557次浏览)codex-rs/models-manager/models.json中的一次提交,显示GPT-5.4的描述从"Latest frontier agentic coding model"改为"Strong model for everyday coding",其default_reasoning_level从"medium"改为"xhigh"。GPT-5.4-Mini也被类似降级,从"Smaller frontier"改为"Small, fast, and cost-efficient"。

GitHub commit diff showing GPT-5.4 description changed from Latest frontier agentic coding model to Strong model for everyday coding in codex-rs models-manager models.json

@HarshithLucky3捕获了同一差异(43赞,4,217次浏览)。@linie_oo补充了Polymarket的背景信息:GPT-5.5在4月23日发布的预测概率升至89%,交易量达$254,358。

Polymarket showing GPT-5.5 release probability at 89 percent for April 23 with 254K volume and whale positions

Chetaslua还指出了一个更广泛的行业趋势:"OpenAI有Spud,Anthropic有Mythos。据报道两者都是更智能的预训练模型,对扩展推理链的依赖更少。效率和速度就是新的智能。"

讨论要点:@yyhh6tgg63536的回复对Anthropic的类比提出质疑:"Mythos基本上等于不存在。他们连算力都不够,何必给他们信用。"

与前日对比: 4月22日,模型选择器泄露显示GPT-5.5与"arcanine"和"glacier-alpha"等代号并列。今天的元数据变更提供了更明确的信号:OpenAI正在围绕新版本重新定位其整个模型层级。


1.3 GitHub Copilot Business注册暂停,算力短缺加剧 🡕

@GHchangelog正式宣布(57赞,10,507次浏览,16次收藏):"针对Free和Team计划的组织,GitHub Copilot Business的新自助注册已暂停。"更新日志确认现有客户仍可添加席位。

@ecommerceshares以讽刺口吻形容(64赞,12,381次浏览):"$MSFT已经封锁了Token海峡。新的GitHub Copilot付费客户不再被接受。Token短缺是全球经济面临的最大威胁。"

@filip_a__提供了具体的频率限制(4赞,2,258次浏览):"VS Code内的GitHub Copilot每月给你500次Sonnet请求,大约每天16次,月费$10。$40/月的方案给你1500次,大约每天50次。"

讨论要点: 回复中弥漫着算力焦虑。@LeoMosqueraUN写道:"如果连拥有全球最大GPU集群之一的Microsoft都不得不暂停Copilot新注册,AI算力短缺显然已经非常严重。"@sarahbeige反驳:"我们需要的是更高效的模型,而不是更贪婪的模型。"

与前日对比: 4月22日,Copilot的故事是关于基于token的计费细节($19/月获得$30额度)。今天供给侧约束正式浮出水面:GitHub无法接纳新的企业客户。结合计费变更,这确认了补贴时代正在终结。


1.4 OpenCode和开源模型作为Claude Code替代方案崛起 🡕

用户从Claude Code迁移到OpenCode配合开源模型的趋势在多篇帖子中浮现。@_toddanderson描述了一套完整的替代工作流(3赞,144次浏览,6次收藏):"过去两周我每天大约交付两个企业级功能,完全不受AI宕机影响。"他的技术栈:OpenCode TUI用于先规划后构建,Hermes Agent用于代码库全局分析,GLM 5.1或Kimi K2.6等开源模型,"目前每天大约$5-$7,使用量还挺大的。相比一个80%时间可用的$200/月方案,这个投资回报率好得多。"

@DeepakNesss分享了(2赞,116次浏览)一个OpenCode Go使用仪表盘:"过去几天我一直在大量使用OpenCode,现在觉得之前在Claude Max上花的钱都白费了。"

OpenCode Go subscription dashboard showing Rolling Usage 50 percent, Weekly Usage 44 percent, Monthly Usage 27 percent with usage meters

@0xEvinho宣布(5赞,91次浏览):"终于取消了我的Claude Max订阅,改用了Poe的订阅方案。把它接入OpenCode后简直太爽了,有一大堆模型可选——Gemini 3.1、Gemma 4 31b、DeepSeek v3.2。"

@riyazmd774声称(12赞,103次浏览,13次收藏):"Kimi K2.6就是开源版的Opus4.7,但便宜7倍。"@E_s_h_a__回复道:"说实话,这些模型之间的差距缩小得有点吓人。"

讨论要点:@justsisyphus量化了成本优势:"想象一下,你可以用gpt-5.5和kimi k2.6互相辩论来开发一个功能,只需$25(opencode go + openai plus)。你不需要claude code。"

与前日对比: 4月22日,OpenCode以$10的价格被赞为"靠谱",社区热情高涨。今天迁移叙事更加具体:详细的每日成本、具体的企业交付效率,以及取消Claude订阅的实际行动。


1.5 GStack将Claude Code变成AI工程团队 🡒

@ycombinator宣布了(39赞,1,576次浏览,15次收藏)GStack,这是YC CEO Garry Tan构建的开源工具包:"GStack将Claude Code变成一个AI工程团队——配备办公时间、设计、代码审查、QA和浏览器测试等专项技能。"Office Hours技能"以真实的YC合伙人面谈为原型,在你写下第一行代码之前对你的想法进行压力测试。"

讨论要点:@emonuxui观察到:"不再是一个通用智能体,而是获得了模拟真实团队运作方式的专业角色。"@katrin_fwa持怀疑态度:"这就是戴了顶更花哨帽子的Claude。还是不会比你发布得更快。"

与前日对比: 4月22日,智能体技能生态正在规范化,Google Cloud和PixiJS发布了各自的技能。今天,YC CEO发布了一个基于技能的Claude Code框架,为技能即团队角色的模式增添了重要的权威性。


1.6 Google Antigravity:安全威胁持续,心智份额停滞 🡖

@ransomnews警告(3赞,179次浏览)"假冒Google工具中隐藏零检测恶意软件"——木马化的Antigravity下载会植入窃取浏览器会话和token的信息窃取程序。

Fake Antigravity installs enable rapid session hijacking attacks, headline from ransomNews

@BenjaminDEKR延续了心智份额流失的话题(20赞,5,654次浏览):"你们还记得Google Antigravity吗。"回复从@DumbEinstein的"它在一两周后似乎就失去了所有广告或推广"到@TravisMcDonald的"它是个vscode分支,但我偶尔还是会用"不等。

@nathanclark_诊断了问题(24赞,1,792次浏览):"Antigravity/Gemini CLI的工具链做得太差了。它在@droid里表现还不错……Google只需要:1. 让模型、工具链、UI以统一的方式协调对齐 2. 消除模型做的那些侵蚀可靠性的小蠢事。"

与前日对比: 4月22日,Antigravity的故事是一个已修补的严重RCE漏洞和木马化下载。今天木马化下载的故事仍在持续,心智份额的叙事("你们还记得吗")也在延续。根本问题不变:Google拥有有能力的模型,但工具链整合不佳。


1.7 GitHub Copilot数据训练退出截止日期临近 🡕

@jordanicruz分享了(1赞,22次浏览)一张GitHub仪表盘横幅的截图:"4月24日起,除非你选择退出,否则我们将开始使用GitHub Copilot交互数据进行AI模型训练。"

GitHub dashboard banner stating On April 24 we will start using GitHub Copilot interaction data for AI model training unless you opt out

该通知给用户到4月24日的时间,以便在GitHub账户设置中检查偏好。原始文本为葡萄牙语,表明该通知正在国际范围内推送。

与前日对比: 4月22日,Copilot数据的故事是关于CLI遥测追踪哪个AI智能体驱动了每条命令。今天范围扩大到Copilot交互数据被用于模型训练,且退出截止日期迫在眉睫。


2. 令人困扰的问题

Codex在高峰需求期间的容量限制 -- High

@CtrlAltDwayne记录了(16赞,645次浏览)Codex的连接问题:"今天开始注意到Codex连接问题在增加。让我怀疑OpenAI是否在算力端做了什么调整。"截图显示了"Reconnecting... 2/5, 3/5"消息的循环。@ZypherHQ提出了(29赞,4,057次浏览,23条回复)一个详细的解决方案:"在高峰时段,启用'慢速模式'以减少推理量。"@MelansonIndus报告(0赞,144次浏览):"github copilot上的每个ai模型都出了问题。"

Codex reconnection loop screenshot showing repeated Reconnecting messages cycling through attempts

GitHub Copilot频率限制推动用户升级至更高层级 -- Medium

@filip_a__量化了(4赞,2,258次浏览)这种压力:"VS Code内的Github Copilot每月给你500次Sonnet请求,大约每天16次,月费$10。$40/月的方案给你1500次,大约每天50次。Claude Design的使用限制更差。"@HighKoalas承认(8赞,1,344次浏览):"他们确实削弱了,但$10/月你仍然能获得大量的sonnet访问权。"@cmdcntr观察到:"每个人都以为GitHub Copilot是一个简洁的订阅服务。它正在变成多个AI提供商的计费中心。"

Copilot自动补全质量停滞不前 -- Low

@WarrenInTheBuff问道(5赞,479次浏览):"现在值得再试试github copilot吗?它有变好吗?"回复意见严重分化。@thepanta82说:"比三年前稍微好了一点点。不适合智能体化编程。"@Shreyassanthu77直言不讳:"访问LLM的API?还不错。自动补全?简直是垃圾。"@devinbgoble给出了反面意见:"比Claude code的bug少多了,而且你能用更多模型。"


3. 人们期望的功能

面向智能体工作流的算力感知调度

@ZypherHQ描述了(29赞,4,057次浏览,23条回复)一种Codex的"慢速模式":在高峰时段减少推理(用户自选),在低谷时段提升速度,外加用于过夜任务的睡眠模式。23条回复表明这引起了共鸣。随着Copilot(暂停注册)和Codex(重连循环)的token供应趋紧,需求侧调度将帮助用户优化受限的算力预算。

稳定、不受宕机影响的编码智能体技术栈

@_toddanderson构建了一个变通方案(3赞,144次浏览,6次收藏):OpenCode + Hermes Agent + 开源模型,每天$5-7,专门为了避免Claude Code宕机。需求在于能够在模型和提供商之间自动故障转移、不中断工作流的弹性多提供商架构。@MikeWithAHotDog对氛围编程的可持续性表示怀疑:"你要花10倍的时间修bug和清理工作区。"

跨工具链输出质量对比

@kylejeong展示了(15赞,584次浏览,7次收藏)同一模型(Claude 4.6 Sonnet)在Claude Code与OpenCode中产生了截然不同的输出:"cc生成了一个超紧凑格式的HTML文件,但opencode写了一个python脚本。"这表明需要一种系统化的工具链对比工具,在保持模型不变的前提下评估不同智能体的输出质量。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
OpenAI Codex + GPT-5.5 智能体平台 (+) 高级工程师基准测试62/100(vs Opus 33/100);JetBrains称速度提升3倍;首个能处理复杂重构的模型;自动审查模式上线 在计划质量和全栈设计上不及Opus;发布当天出现连接问题
GitHub Copilot 云端IDE智能体 (+/-) $10/月仍可访问Sonnet;Copilot Chat调试功能改进;gh skill包管理器发布 Business注册暂停;基础层级每月仅500次Sonnet请求;自动补全质量停滞;4月24日数据训练退出截止日期
Claude Code 终端智能体 (+/-) 数据集中31次提及;GStack增加团队角色技能;kylejeong展示了优秀的紧凑输出 使用限制和宕机推动用户迁移至OpenCode;在社区工具链投票中被评为C级
OpenCode 开源终端智能体 (+) 每天$5-7即可获得企业级输出;丰富的模型选择(GLM 5.1、Kimi K2.6、MiMo V2);v1.14.21新增C#/Kotlin的LSP拉取诊断 需手动配置模型;Agent Vault集成仍待合并
Google Antigravity IDE (-) 据nathanclark_称底层Gemini模型表现"还不错" 存在木马化下载;工具链/CLI用户体验遭批评;心智份额持续流失
Hermes Agent 智能体工具链 (+) 与OpenCode配合进行代码库级分析;通过VPS支持开源模型 需要单独设置;生态系统尚处早期
OpenCode Go 模型订阅 (+) 低成本访问Kimi K2.6、GLM-5.1、MiMo V2;滚动/周/月使用量仪表 仅限OpenCode生态系统;仍有使用量上限

5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
GStack @garrytan(YC CEO) 将Claude Code变成拥有专项技能的AI工程团队 单一智能体缺乏办公时间、设计审查、QA、浏览器测试的角色专业化 Claude Code, Agent Skills Shipped(开源) Announcement
Agent Vault(OpenCode支持) @dangtony98 + chris-d-edwards AI智能体的凭证代理和安全中介 智能体处理凭证不安全;缺乏统一认证层 Go, agent-vault CLI PR merged(外部贡献) Post
Codex Auto-review OpenAI 支持更长的自主Codex工作流,减少人工审批 智能体工作流中人工审批的瓶颈 Codex Shipped Announcement
7DOF Robot Arm @soft_servo 包含运动学、GUI、STEP零件的URDF机械臂,100%在Codex中生成 手动机器人CAD/代码集成耗时数周 Codex, GPT-5.5, URDF Alpha(演示) Post
Gameclaw @learntouseai Codex技能,将草图和精灵图转化为可玩的浏览器游戏原型 游戏原型制作需要手动Phaser/Matter设置 Codex, Phaser, Matter.js Shipped Post
OpenCode v1.14.21 @OpenCodeLog C#/Kotlin的LSP拉取诊断、会话压缩、Mistral Small推理 缺少语言服务器支持;会话中的token浪费 OpenCode Shipped Changelog
gh skill GitHub 智能体技能的包管理器:搜索、安装、固定版本、更新 缺乏发现/管理智能体技能的标准化方式 GitHub CLI v2.90.0 Shipped Post

6. 新动态与亮点

GPT-5.5代表了一个新的模型类别:快速、友好且智能体化

GPT-5.5不仅仅是一次渐进式模型升级。@danshipper报告它在高级工程师基准测试中得了62/100分,而Opus 4.7得了33/100分,同时它还"快速友好"到足以在写作任务中替代Claude。@chetaslua描述了更广泛的转变:"据报道两者都是更智能的预训练模型,对扩展推理链的依赖更少。效率和速度就是新的智能。"在单一模型中集强大的编码能力、通用知识工作能力和速度于一体,这是全新的。

OpenCode x Tencent Hy3 Preview免费两周

@opencode宣布了(35赞,528次浏览)一项合作:"OpenCode x Tencent Hy3 Preview——免费两周。Hy系列中最强:256K上下文窗口,推理能力,纯文本,295B(A21B)。"值得注意的是,一个中国基础模型通过主流开源编码智能体免费提供,将可访问的模型生态扩展到了美国提供商之外。

GitHub Copilot Chat获得结构化堆栈跟踪分析

@GHchangelog发布了(11赞,1,285次浏览)网页版Copilot Chat的改进调试功能。该功能现在提供结构化的根因分析:哪里出了什么问题、为什么出错、基于代码引用证据的最可能根因、置信度以及建议修复方案。

工具链质量比模型选择更重要

@kylejeong展示了(15赞,584次浏览)Claude 4.6 Sonnet在Claude Code(超紧凑HTML速查表)和OpenCode(格式化摘要的Python脚本)中产生了截然不同的输出。@FUCORY发布了一份社区工具链排名:S级(Amp、Pi、Smithers),A级(Conductor、OpenCode TUI、Warp),B级(Codex、Antigravity),C级(Claude Code、Gemini CLI、Cursor),D级(Copilot、Windsurf)。规律:工具链实现现在比底层模型更能产生差异化。

基础设施工程师纠正模型路由的错误信息

@thsottiaux反驳了(216赞,4,259次浏览)关于不同客户端获得不同模型质量的说法:"不是真的。请不要传播错误信息。无论客户端是什么(pi、opencode、openclaw等),请求都应该发送到相同的集群。"这是当天互动量第二高的帖子,表明人们对客户端特定限流的担忧非常普遍。


7. 机会在哪里

[+++] 多提供商弹性层 -- Codex在发布当天出现重连循环(@CtrlAltDwayne截图)。GitHub Copilot暂停了Business注册(@GHchangelog更新日志)。Claude Code宕机推动用户转向OpenCode(@_toddanderson工作流)。一个能在Codex、Claude Code、OpenCode Go和开源模型之间自动故障转移的路由层——在切换过程中保持会话上下文——解决了当每个主要提供商同时遇到容量限制时最紧迫的基础设施痛点。

[+++] 碎片化技术栈中的Token成本优化 -- GPT-5.5强大但昂贵。开源替代方案(Kimi K2.6、GLM 5.1)声称以7倍更低的成本提供可比质量(@riyazmd774声称)。@_toddanderson在OpenCode上每天花$5-7,而Claude每月$200。@filip_a__计算出Copilot基础层级每天约16次Sonnet请求,月费$10。一个能跨提供商在各价位对实际任务完成质量进行基准测试、并将任务路由到满足质量阈值的最便宜模型的工具,在补贴终结之际满足了结构性需求。

[++] 智能体技能生态基础设施 -- GStack(@garrytan)为Claude Code增加了团队角色技能。gh skill(GitHub CLI v2.90.0)增加了智能体技能的包管理器。这延续了4月22日Google Cloud和PixiJS技能发布的势头。技能格式正在达到临界规模,但仍缺乏发现机制、版本管理和跨工具链兼容性测试。一个技能注册中心或市场将加速采用。

[++] 智能体工作流调度与限流 -- @ZypherHQ提出了(23条回复)Codex的高峰/非高峰调度方案。Codex Auto-review支持更长的自主运行。随着智能体在无人监督下运行数小时,用于在非高峰时段调度计算密集型任务、批量处理非紧急工作以及管理并发智能体会话的工具,将帮助用户最大化受限的token预算。

[+] 智能体安全与凭证管理 -- Agent Vault合并了OpenCode支持,为AI智能体提供凭证中介服务。随着用户使用API密钥和数据库访问权限让智能体操作生产系统,对安全凭证隔离、审计日志和权限范围控制的需求日益增长。这是早期阶段的基础设施,随着自主工作流(Codex Auto-review)延长智能体运行时间,它将变得至关重要。


8. 要点总结

  1. GPT-5.5"Spud"发布,拥有迄今为止编码模型中最强的从业者基准测试成绩。 高级工程师基准测试62/100分,而Opus 4.7为33/100分;JetBrains称速度提升3倍;首个能很好处理复杂多文件重构的模型。然而,它在计划质量和全栈设计方面仍落后于Opus。(@danshipper评测@jetbrains速度声明

  2. 算力容量限制现在同时冲击每个主要AI编码提供商。 GitHub暂停了Copilot Business注册。Codex在GPT-5.5发布当天出现重连循环。Claude Code宕机持续推动用户迁移。Token短缺已不再是单一提供商的问题。(@GHchangelog公告@CtrlAltDwayne截图

  3. 开源模型以前沿模型成本的一小部分产出企业级成果。 多位从业者报告通过OpenCode使用Kimi K2.6、GLM 5.1和MiMo V2,每天$5-7即可交付生产级功能,而Claude Max每月$200。在可比输出下,成本差距已达5-10倍。(@_toddanderson工作流@DeepakNesss转向

  4. 工具链质量现在比模型选择更能产生差异化。 同一模型在不同工具链中产生截然不同的结果。社区层级列表将OpenCode TUI和Conductor排在Claude Code和Cursor之上。启示:智能体框架与底层模型同等重要。(@kylejeong对比@FUCORY排名

  5. 智能体技能生态正在围绕包管理和团队角色进行整合。 GitHub发布了gh skill作为跨平台包管理器。YC的Garry Tan开源了带有专项团队角色技能的GStack。模式正从通用智能体转向由角色专项智能体组成的编排团队。(@jfversluisgh skill@ycombinatorGStack

  6. GitHub Copilot的数据训练政策变更设定了退出截止日期。 从4月24日起,除非用户明确选择退出,否则GitHub将使用Copilot交互数据进行AI模型训练。结合注册暂停和计费变更,这加速了从补贴工具向变现平台的转型。(@jordanicruz截图