Twitter AI Coding - 2026-05-13¶
1. 人们在讨论什么¶
1.1 GitHub Copilot 账单冲击引发大规模流失决策 🡖¶
当天最主导的、非 Antigravity 相关的话题,是 GitHub Copilot 的 token 计费转型。围绕这一变化,社区出现了一波帖子,展示当前按固定费率计费与 6 月 1 日生效的按量计费模型之间极其夸张的成本差距。Ed Zitron 的帖子以一张 Reddit 截图为核心:同一份 4 月用量,当前账单是 39 美元,按量计费则是 5,851.77 美元——这成了问题最清楚的表述。他随后给出的分析更令人不安:到 2025 年底,GitHub Copilot 的年经常性收入(ARR)达到 10.8 亿美元,但用户每月消耗的 token 额度却是订阅费对应价值的 300%–1,000%,意味着每月有数亿美元在补贴重度使用者。GitHub 当天也作出回应,公布了新的套餐结构,包括 Max 套餐和 flex 额度。
@edzitron 报道(636 个点赞,63 次转发,26,539 次浏览,65 次收藏)称,一位 Reddit 用户对 2026 年 4 月用量的模拟显示:当前账单为 39 美元,而按量计费则是 5,851.77 美元——对单个用户来说,成本上涨了 150 倍。该 Reddit 帖子有 372 个赞同 和 174 条评论。

在后续讨论串里,edzitron 认为 GitHub Copilot 是 Anthropic 的“一个重要 API 客户——这门生意会在 2026 年 6 月 1 日实际上终结”,并判断绝大多数 Copilot 订阅用户都会流失。他的 流失预测帖(23 个点赞,2,968 次浏览)贴出了两条 Reddit 帖子作为实时佐证:一位用户的费用从 10 美元涨到 177.22 美元(“按我现在的用量/工作流,GC 显然不行……我的第一反应是用 Claude Pro + Claude Code,每月 20 美元”),另一位则从 47.27 美元涨到 3,962.04 美元(“我一直很喜欢 GitHub 和 GHCP,但这个价格真的不如另找别家,或者本地部署”)。


@JamesMontemagno 宣布(48 个点赞,12 条回复,8,036 次浏览,30 次收藏)了 GitHub 当天的回应:新的 flex 额度和 Max 套餐。Pro(10 美元/月)现在总共包含 15 美元额度(基础 10 美元 + flex 5 美元);Pro+(39 美元/月)总共包含 70 美元额度(基础 39 美元 + flex 31 美元);新的 Max 套餐(100 美元/月)总共包含 200 美元额度。博客文章确认,代码补全不计入 AI 额度。

讨论要点: Montemagno 那条帖子的回复分成了两派:一派认为 flex 额度足够安心,另一派则认为重度智能体用户仍然会超额。edzitron 线程里还有回复指出,这一变化大概率也会影响 Cursor、Augment Code 以及其他一直在补贴重度使用的 AI 编程订阅。
与前日对比: 5 月 12 日,账单讨论还停留在单个组织的 3.2 倍成本模拟,以及从模型选择器里移除 GPT Codex 5.3。到了 5 月 13 日,社区从“模拟”转向了“公开表态”:多位用户直接宣布自己要取消 Copilot,迁移到 Claude Code。
1.2 Google I/O 前夕,Google 关闭 Antigravity 的猜测爆红 🡖¶
当天互动量最高的帖子,只问了一个简单问题:Google 要关掉 Antigravity 吗?它获得了 313,583 次浏览、229 条回复、26 次引用和 177 次收藏,成为 5 月 13 日 AI 编程领域最广泛看到的讨论。
@hiarun02 发帖(1,568 个点赞,229 条回复,313,583 次浏览,177 次收藏)称,Google 看起来正在关闭 Antigravity,并询问是否还有开发者在做这个产品。附图是 Antigravity 自己的模型选择器,显示 Gemini 3.1 Pro (High)、Gemini 3.1 Pro (Low) [New]、Gemini 3 Flash、Claude Sonnet 4.6 (Thinking)、Claude Opus 4.6 (Thinking) 和 GPT-OSS 120B (Medium)——这说明产品仍在运行,模型选项也还活跃,但已经没有新更新。
![Antigravity 模型选择器,显示可用模型:Gemini 3.1 Pro (High)、Gemini 3.1 Pro (Low) [New]、Gemini 3 Flash、Claude Sonnet 4.6 (Thinking)、Claude Opus 4.6 (Thinking)、GPT-OSS 120B (Medium)](https://pbs.twimg.com/media/HILrRIQacAAVigI.jpg)
@LexnLin 问道(92 个点赞,11 条回复,4,508 次浏览),再过一周就是 Google I/O,Antigravity 会不会迎来回归,并指出上一次更新日志已经快一个月前了。截图显示版本是 1.23.2,日期为 2026 年 4 月 16 日——只有 MCP server 加载和工作区专属设置的 bug 修复。

@Presidentlin 列出(24 个点赞,6 条回复,683 次浏览)了对 Google 的期待:便宜的 Flash 模型、强大的 Pro 模型、可用的 Gemini app 搜索、Antigravity 的更新(“2026 年 4 月 16 日是最后一次更新。它死了吗?”),以及把 Gemini Code Assist 和 Antigravity 的额度分开计算。
@anshulkr713 反驳(130 个点赞,2,981 次浏览)说:“这是因为 Sundar,Google 才能在从 Cloud 到 AI(Gemini、Veo、antigravity)再到硬件(TPUs)的各个领域都领先。”——他把 Antigravity 列作 Google 目前的一个 AI 胜利点。这个反驳在回复串里拿到了 130 个赞。
@rseroter 转发链接(13 个点赞,12 次收藏,601 次浏览)了一篇 HowToGeek 文章,文章认为 Antigravity 在编程上胜过 Claude——但前提是用户别再把它当成传统程序员来用。
讨论要点: hiarun02 那条帖子的回复里,既有悲观者(“试过了,跟 claude code 比简直烂透了”),也有观望者(“Google I/O 下周就来了,他们大概会宣布点什么”)。社区对“关闭”这个说法的反应,暴露出 Google 和其开发者社区之间信息流有多弱——当天没有任何官方声明出来直接否认这类猜测。
与前日对比: 5 月 12 日,Antigravity 还只是上下文架构讨论里的一个对照项。到了 5 月 13 日,人们开始认真追问它还有没有未来,而 Google I/O 的临近把这种不确定感进一步放大了。
1.3 OpenCode 桌面版性能冲刺与生态扩张 🡕¶
5 月 13 日,OpenCode 同时吸引了来自核心团队(性能工作)和更广泛社区(精选关注者名单、RealPython 教程、测试基础设施探索)的多条讨论。
@LukeParkerDev 报道(55 个点赞,11 条回复,4,903 次浏览),OpenCode 桌面版的会话启动时间现在约为 40 毫秒,而在真实数据上之前大约要 20 秒——提升约 500 倍。这项工作还降低了空闲 CPU 占用和重新布局时间,并消除了闪烁。Parker 指出,Linux 和 macOS 本来就已经很快;这次提升主要惠及 Windows 用户。
@MichelleBakels 整理(28 个点赞,1,342 次浏览)了一份 OpenCode 员工的精选 X 列表,用户可以直接关注团队,或者把一个 OpenCode 团队标签页加到自己的信息流里。这份列表还引来了 @ThePrimeagen 的回复,他开玩笑说这是在追踪 Dax 的 insult 次数。
@realpython 发布(2 个点赞,245 次浏览,3 次收藏)了一篇 28 分钟的教程《How to Use OpenCode for AI-Assisted Python Coding》,内容涵盖安装、使用免费的 Gemini API key 完成设置,以及日常工作流。文章把 OpenCode 描述为支持 75+ 个 AI 提供商,并提供一个用于每个项目上下文的 AGENTS.md 配置文件。
@jlongster 探索(15 个点赞,1,786 次浏览)了 Bombadil(来自 @owickstrom)的 TUI 版本,把它当作 OpenCode 的测试框架,称其“现在还太底层,但很有潜力”。
讨论要点: 核心团队的性能帖、社区关注者名单、以及主流出版物的教程同时出现,说明 OpenCode 正在从早期采用者走向一线实践者。RealPython 教程(面向中级 Python 开发者,默认读者没有 AI 编程工具经验)是更广泛采用的领先信号。
与前日对比: 5 月 12 日,OpenCode 还是被放在 Claude Code 和 Cursor 一起讨论的上下文架构框架中的一个名字。5 月 13 日则显示它已经成为一个有明确焦点的讨论对象和投资对象,甚至得到了大型 Python 教育网站的官方文档支持。
1.4 把技能当代码:EvoSkill、Hermes-Agent 与 1,453 条目库 🡕¶
多条独立帖子汇聚到同一个结论:技能(编码智能体行为的 SKILL.md 文件)正在成为 AI 编程智能体提升能力的主要单位——不是微调,不是新模型版本。
@yasenka244 描述(19 个点赞,10 条回复,112 次浏览)了两个开源发布,把这个观点具象化:SentientAGI 的 EvoSkill 会读取智能体失败的地方、改写技能文件夹、评估结果,并保留胜出的版本——不重训、不需要集群、也不需要版本锁定的 checkpoint。NousResearch 的 Hermes Agent 则在一个本地 CLI 里打包了 83 个技能和 28 个工具。帖子把两者描述为可组合:EvoSkill 负责增长文件夹,Hermes 负责运行它。

@thegreatest_sv 分享(12 个点赞,10 次收藏,266 次浏览)了一位 Google Cloud AI Director 的个人智能体手册:22 个技能、7 条斜杠命令、一个 6 阶段流水线(DEFINE→/spec、PLAN→/plan、BUILD→/build、VERIFY→/test、REVIEW→/review+/code-simplify、SHIP→/ship),以及三种智能体人格。它兼容 Claude Code、Cursor、Antigravity、OpenCode 和 Gemini CLI。

@aiecosystemhq 记录(4 个点赞,75 次浏览,1 次收藏)了 Antigravity Awesome Skills 库(名称带历史包袱,但该库是跨平台的)已经有 1,453+ 个智能体技能,可通过 npm 安装,覆盖 Claude Code、Cursor、Codex CLI、Gemini CLI、Antigravity、Kiro、OpenCode、GitHub Copilot 等。技能按角色分组,并以工作流驱动的执行轨道来组织。

讨论要点: yasenka244 那条讨论串里,有回复质疑这种可组合性:“你怎么防止 EvoSkill 优化的是评测,而不是真实任务?”——这是一个技术上很重要的批评,指向技能评估中的 Goodhart 定律。没有回复正面回应这一点。
与前日对比: 5 月 12 日,技能生态的体现还是 Antigravity Awesome Skills 库条目(1,453 个)和 Hedgineer 插件市场。5 月 13 日则加入了自我改进的维度(EvoSkill)以及由实践者撰写的手册这一独立工件。
1.5 上下文工程进入实践者词汇 🡕¶
5 月 13 日有两条帖子把上下文工程——即刻意控制 AI 编程智能体能看到哪些 token 的做法——从 Karpathy 的会议演讲,推到了实践者的经济学层面。来自 AI Ascent 2026 的 Karpathy 引语,是当天最可执行的一句短语。
@dunik_7 发帖(16 个点赞,744 次浏览)给出了经济账:一次典型的 Claude Code 会话会自动加载 47,000 个 token 的仓库上下文,然后用户要求 Claude 修 30 行,接着 Claude 读完这 47,000 个 token 去找那 30 行,返回一个 200 token 的修复,再重复 50 次。成本:35 美元/天。发出去的信号:30 行。结论是:“你付的钱不是让 Claude 修 bug。你付的钱是让 Claude 把整个仓库读 50 遍,好找到那 30 行。” 引用的出处是 Karpathy 在 AI Ascent 2026 的话:“上下文工程是新的 vibe coding。”
@nicdunz 观察到(29 个点赞,4 条回复,976 次浏览)同样的现象,但从用户体验角度说:“OpenAI 确实做对了什么,因为我会本能地想离 Codex 和我的电脑远一点,因为我知道它在干活,最好别去打扰它。” 回复进一步强化了这一点:“当你不再盯着它,它会更好用。”
讨论要点: dunik_7 的帖子回复不多,但收到了 3 次收藏——这说明从业者已经在默默接受这笔账,而不是公开争论。Karpathy 的署名给了这句话权威性:他先提出了“vibe coding”,现在又把上下文工程定位成下一层能力。
与前日对比: 5 月 12 日讨论的是上下文架构(分层的 CLAUDE.md 文件、技能文件夹、hooks)这一结构性方案。5 月 13 日则补上了单位经济学的论证——问题不再是“如何组织上下文”,而是“无序上下文到底要花多少钱”。
1.6 vibe coding:有争议的术语,有争议的实践 🡒¶
5 月 13 日的 vibe coding 争论贯穿始终,且出现了三种截然不同的立场:权威批评(Uncle Bob)、务实辩护(Emergent Labs / YC 总裁 Garry Tan)、以及反文化式抵制(那位坚持 100 天不 vibe coding 的游戏开发者)。
@unclebobmartin 宣称(76 个点赞,16 条回复,3,559 次浏览):“vibe coding 就是在没有仪表的情况下在云端飞行。”《Clean Code》作者 Uncle Bob Martin 用了一个航空隐喻:IFR(仪表飞行)和 VFR(目视飞行)——vibe coding 相当于在需要仪表的条件下飞行,却什么仪表都没有。@MrCollison 回复:“我们需要一个词,来形容这种 vibe coding:代码确实会走 PR 流程,也有标准。或者我们可以把 vibe coding 改叫建筑赌博。” @GeorgePaulChi 回复:“vibe coding 在你不得不在六个月后维护生产里的那些 vibes 之前,一切都很好。”
@hamptonism 通过(16 个点赞,15 次收藏,3,636 次浏览)Emergent Labs 给出反方论证:vibe coding 工具能把你从 0 带到 1,但之后就会卡住;Emergent 用 Claude 给智能体提供规划、构建、调试、交付能力——把产品从 1 推到 100。YC 和 Anthropic 合作伙伴的可信度,被多条引用转发拿来背书。
@Gatsz01 宣布(64 个点赞,17 次转发,15 次收藏,376 次浏览)了一个 100 天挑战:从零开始做一个游戏,不用游戏引擎,也不 vibe coding,手写 C++。较高的收藏数(376 次浏览对应 15 次收藏)表明,实践者社区对“先手工、后自动化”这一立场有明显共鸣。
@tetranow 引用(6 个点赞,1,023 次浏览)了 Garry Tan(YC)在播客中的话:“最讨厌 vibe coding 和 AI 的那些工程师,恰恰是最该拥抱它们的人。”
讨论要点: 这些立场正在变得更硬,而不是彼此靠拢。Uncle Bob 的比喻能打动经验丰富的工程师;Garry Tan 的挑战则能打动那些认为工程门槛才是真问题的人。
与前日对比: 5 月 12 日的重点是把上下文架构当成让 AI 编程更可靠的一门学科。5 月 13 日则把更深的问题摆上台面:AI 辅助编程到底是一种正当的工程实践,还是一场没有仪表的赌博?
1.7 微软的 AI 战略开始分叉:Copilot 计费 vs. 并购转向 🡒¶
当 GitHub Copilot 的计费转型引发用户流失时,Reuters 的报道显示,微软正在公司层面悄悄调整 AI 战略——探索收购 AI 编程初创公司,以降低对 OpenAI 的依赖。Cursor / SpaceX 的细节则成了当天最出人意料的竞争事实。
@wallstengine 报道(107 个点赞,11 次转发,15,194 次浏览),引述 Reuters:微软曾考虑收购 Cursor,但因与 GitHub Copilot 相关的反垄断担忧而退却。微软现在正与斯坦福背景的扩散式 LLM 初创公司 Inception 进行谈判,M12(Microsoft Ventures)此前已加入 Inception 的 5,000 万美元种子轮。@faststocknewss 补充(5,220 次浏览)说,SpaceX 在微软退出后不久买下了 Cursor,而且 SpaceX 也曾接触过 Inception。根据法庭证词,微软已在 OpenAI 投资和基础设施上花费超过 1,000 亿美元。
讨论要点: @norveclifinance 的回复提醒说:“OpenAI 自己的 CFO 据称警告过,如果收入增长不够快,公司可能难以支付未来的算力合同。”这让微软的多元化不再像投机,而更像风险管理。
与前日对比: 5 月 12 日把 Grok Build(xAI)报道为 IDE 市场的新入局者。5 月 13 日则揭示 SpaceX 现在拥有 Cursor——这是更关键的竞争变化,但在财务评论账号之外几乎没有被讨论。
2. 令人困扰的问题¶
GitHub Copilot 按量计费冲击¶
严重度:高。6 月 1 日的计费转型是当天最受讨论的痛点。大量重度使用 Copilot 智能体功能的用户——长时间智能体运行、前沿模型、多步骤工作——发现自己的固定费率订阅,实际只覆盖了他们真实成本的 3 倍到 150 倍。真正的挫败感不在于转型本身,而在于惊喜的规模:用户从来不知道自己到底消耗了多少。多条带截图的 Reddit 帖子显示,个人用户立刻决定取消订阅,迁移到 Claude Code 或本地方案。讨论中的绕行方案,要么是新的 Max 套餐(100 美元/月,对应 200 美元额度),要么是把编码工作切换到 Claude Code + Claude Pro(20 美元/月)。
Claude Code 在会话中途触发硬性限额¶
严重度:中。数据集里有一张图显示:“你的使用额度已用尽。请在下午 5:03 再试。”——这是 Claude Code 的限额错误。它会打断正在进行的智能体会话。痛点不在提示本身,而在时机:在智能体运行中途撞上限额,会强制工作停摆,而且在限额重置前没有恢复路径。
Gemini CLI / Antigravity 的响应速度与更新节奏¶
严重度:中。@bedros_p 发帖(13 个点赞,1,100 次浏览)称 Gemini CLI “没法用”——响应要一个小时,启动也慢,而且跟踪问题的 GitHub issue 被关闭,理由是“不是优先事项”。Antigravity 的停滞(自 4 月 16 日起没有更新日志)进一步加剧了这种观感:Google 的两个 AI 编程界面似乎同时被降级处理。有人猜测 Antigravity 可能会再次改名(类似 Bard→Gemini,IDX 又改了两次),这反映出社区对 Google 产品命名不稳定的疲劳。
Codex 服务器过载与连接失败¶
严重度:中。@9hills 记录(9 个点赞,2,517 次浏览)了一次 Codex 的 service_unavailable_error,其中 "code":"server_is_overloaded"。回复串显示,这类问题越来越常见。一位实践者表示,自己已经给所有较长的 Codex / Claude Code 任务加了三道保护:断点恢复、中间产物 checkpoint,以及失败时只把错误片段反馈回去。@android_poet 记录了一个 Codex WebSocket/HTTPS 传输错误,出现 BadRecordMac,并在完成前断开流。
安全研究被 AI 安全护栏阻断¶
严重度:中(对安全研究人员而言)。@sixhobbits 发了一组多图截图,显示 Claude Code 在一项正当安全调查中进行拦截(“请帮我理解昨天那起 tanstack 和 mistral-ai 供应链攻击”),并返回一个 API 错误,引用 Anthropic 的使用政策,要求用户填写“Cyber Verification Program”表单。ChatGPT 也把同一个会话标记为“可能存在网络安全风险”,并给出其“Trusted Access for Cyber”项目链接。两个工具都给合法事件响应加了摩擦。那些“已授权”的安全研究人员,与正在调查真实事件、而且这些事件影响到自己代码库的开发者之间的差距,并没有被这两个验证项目解决。
3. 人们期望的功能¶
订阅工具里透明的 token 记账¶
运行智能体工作流的用户,希望在触达限额或遭遇意外账单之前,就能知道自己已经消耗了多少 token——而不是事后才知道。Copilot 的账单冲击,是多年不透明 PRU 记账的后果。多条帖子都表达了一个愿望:在智能体会话过程中看到实时仪表板,显示 token 消耗速度,而不仅仅是事后使用报告。@dunik_7 精准地说出了这个需求:“你付的钱不是让 Claude 修 bug。你付的钱是让 Claude 把整个仓库读 50 遍,好找到那 30 行。” 一个能在执行智能体循环前就展示上下文大小的 token 高效模式,既能解决成本问题,也能解决惊喜问题。机会:直接。
不把笔记本绑在身边也能用的移动端智能体访问¶
@biraj21_ 在 ProductHunt 上发布(24 个点赞,7 次转发,675 次浏览)了 Shellular,正是为了解决这个问题:一个移动应用(iOS + Android),让手机能访问完整开发环境,包括运行中的 Claude Code、Codex、OpenCode、Copilot CLI 和 Pi 会话,还带有 terminal、localhost 和 browser DevTools。relay server 是开源的。产品推出时配的 hook 是“是不是已经厌倦了到处背着笔记本,只因为你的智能体还在跑?”——这也说明这个痛点是真实且可变现的。机会:竞争型(回复里还提到了 Lunel,作为类似产品)。
Google I/O 的 AI 编程公告(Antigravity、Gemini CLI)¶
多条帖子反映出一个具体的未满足需求:Google 对 Antigravity 和 Gemini CLI 路线图的清晰表态。用户不是在要新功能;他们在要信号。“它死了吗?”以及“Google I/O 会不会回归?”这些都是决定开发者是否值得投入时间学习这些工具的实际问题。根据线程里没有任何官方回复这一点来看,Google Developer 项目在这个领域似乎并没有积极的社区运营。机会:愿景型(取决于 Google 的真实意图)。
不靠微调就能自我改进的智能体技能¶
@yasenka244 其实已经点出了这个需求:有一种方式,能让智能体在特定任务上变强,但不用重训模型、不需要自建集群,也不需要锁定某个 checkpoint。EvoSkill + Hermes-Agent 给出了一部分答案。缺失的部分是评估设计——正如回复里所说,技能进化的质量,取决于它优化的基准测试。一个能针对特定代码库或任务类型生成基准测试的工具,可以把这个闭环补上。机会:直接、正在形成中。
面向生产级 AI 编程负载的稳定费率 API 访问¶
@TheGeorgePu 直白地说出了(21 个点赞,12 条回复,1,077 次浏览)这个需求:“稳定费率 API 的时代结束了。”他给出的回应——用两块 A100,以 50 美元微调一个 4B 模型——不是产品,而是一种抗议。底层愿望是:API 定价不要无预告地变化,模型不要悄悄退化,平台关系要支持对提示工程的长期投入。机会:直接,而且对生产级 AI 编程团队来说迫切。
4. 使用中的工具与方法¶
| 工具 | 类别 | 评价 | 优势 | 局限 |
|---|---|---|---|---|
| Claude Code | AI 编程智能体(CLI) | (+/-) | 从 Copilot 迁移的默认选择;适合智能体式运行;Claude Code 负责人 2 天内交付了 49 个功能 | 中途触发硬限额;不加管理时,加载 47,000 token 上下文每天要花 35 美元 |
| OpenAI Codex | AI 编程智能体(CLI) | (+/-) | 自主 / goal 模式;使用广泛;适合长任务 | 服务器过载;WebSocket 连接失败;考虑迁移的用户批评其界面 |
| OpenCode | AI 编程智能体(CLI + 桌面版) | (+) | 会话启动速度提升 500 倍;支持 75+ 个 AI 提供商;Real Python 教程已发布;开发活跃 | TUI 测试基础设施仍处早期 |
| GitHub Copilot | AI 编程助手(IDE) | (-) | 新的 flex 额度;Max 套餐价值;WinUI 插件;CLI 状态栏 | 对智能体用户的账单冲击;Opus 价格涨了 3 倍;重度用户成本差异达 150 倍;GPT Codex 5.3 未经通知被移除 |
| Google Antigravity | AI 编程智能体(IDE) | (+/-) | 多模型支持(Gemini、Claude、GPT-OSS);有 KDNuggets 教程;在一些比较中仍活跃 | 自 4 月 16 日起无更新日志;社区对是否关闭充满不确定;Gemini CLI 性能问题(响应要 1 小时) |
| Cursor | AI 编程 IDE | (+) | 被 SpaceX 收购(新的投资信号);在微软并购讨论中被当作参照 | 今天没有直接关于功能的帖子 |
| EvoSkill(SentientAGI) | 智能体自我改进 | (+) | 不微调就能改写并评估技能文件夹;支持 Claude Code、OpenCode、Codex、Goose、OpenHands;Apache 2.0 | 存在 Goodhart 定律风险:优化的是评测,不一定是真实任务表现 |
| Hermes-Agent(NousResearch) | 本地智能体运行时 | (+) | 一个本地 CLI 里集成 83 个技能、28 个工具;一等公民级的技能文件夹支持;Apache 2.0 | v0.13;仍处早期 |
| Shellular | 移动端开发环境 | (+) | 手机上的完整开发环境(terminal、智能体、localhost、DevTools);iOS + Android;relay server 开源 | 新产品;历史记录有限 |
| Orca(stablyai) | 智能体编排器 | (+) | 在并行 worktree 中运行 Claude Code / Codex / OpenCode;跟踪 /goal 进度;支持 macOS / Windows / Linux | 发布时互动量较低(34 个点赞) |
| WinUI Agent Plugin | 领域专用技能 | (+) | 为 WinUI 开发提供端到端循环(scaffold→build→run→test);更节省 token;理解 XAML / MVVM | 仅限 Windows 领域 |
| Chrome DevTools MCP | 浏览器调试 MCP | (+) | 39.3K stars;TypeScript;性能 trace、网络与控制台检查、可靠的 Chrome 自动化 | 依赖外部 Chrome |
| GPT-5.5(多个提供商) | LLM | (+/-) | 适合设计工作(Copilot);github-copilot-direct 访问最快(14.1s)且最省 token | 价格翻倍;openai:gpt-5.5@high 是三种访问路径里最慢、最贵的;微调 API 被移除 |
| Ollama | 本地模型运行时 | (+) | 与 OpenCode 一起用于本地 AI 编程家用实验室搭建 | 需要自有硬件;设置复杂 |
整体满意度呈现出很清晰的分裂:价格可预测、与使用量匹配的工具(Claude Code、OpenCode、本地 Ollama)在社区中的口碑上升;而最近涨价或计费不透明的工具(GitHub Copilot、通过 OpenAI 直连的 GPT-5.5)则在失分。迁移方向也很明确:从 GitHub Copilot 迁往 Claude Code(Twitter 上转发的多条 Reddit 帖子已确认),也有人转向 Codex(订阅方式)或本地 / Ollama 作为抗议。@xoofx 的三提供商基准图显示,用同一个模型(GPT-5.5 High)时,github-copilot-direct 比 openai:gpt-5.5@high 更快,也更省 token——这是一条真正有成本意义的提供商路由洞察。

5. 人们在构建什么¶
| 项目 | 构建者 | 功能 | 解决的问题 | 技术栈 | 阶段 | 链接 |
|---|---|---|---|---|---|---|
| Orca | @JinjingLiang(stablyai) | 在并行 worktree 中运行 Claude Code、Codex、OpenCode 的 AI 编排器 | 跟踪多个并发智能体会话中的 /goal 进度 | macOS/Windows/Linux;支持任意 CLI 智能体 | 已发布 | github.com/stablyai/orca |
| Shellular | @biraj21_ | 让手机可访问完整开发环境的移动应用 | 智能体运行时还得把笔记本绑在身边 | iOS + Android;relay server 开源;支持 5 个智能体 | 已发布 | ProductHunt 发布 |
| WinUI Agent Plugin | @Niels9001(Microsoft) | 用于 WinUI 和 Windows App SDK 开发的智能体技能 | 通用智能体不懂 WinUI / XAML 细节 | GitHub Copilot CLI 和 Claude Code 的技能插件 | 已发布 | devblogs.microsoft.com |
| Academic Research Skills for Claude Code | @PrakashS720(Imbad0202) | 面向学术研究流水线的 10 个专用智能体(引用搜集、伪造参考文献检测、同行评审模拟) | 一篇 15,000 字论文的成本只相当于一杯咖啡;AI 研究中的引用幻觉 | Claude Code CLI / VS Code / JetBrains;v3.7.0;CC BY-NC 4.0 | 已发布 | 插件:academic-research-skills |
| KimiFlare | @sinasanm | 用于 AI 驱动服务的 kill switch 仪表盘,带预飞行安全检查(ARM SYSTEM、DISABLE AUTH、CUT OFF PROXY) | 在没有服务团队权限时紧急关闭 AI 服务 | macOS 原生应用 | 已发布 | x.com 帖子 |
| GEO/SEO Analysis Skills | @HowToAI_ | 用于生成式引擎优化分析的 Claude Code 技能(11 个技能、5 个并行智能体、6 个 schema 模板、PDF 报告) | AI 搜索正在吞噬传统搜索;只有 23% 的营销人员在投资 GEO | Claude Code 技能 | 已发布 | x.com 帖子 |
| Local AI Coding Agent Home Lab | @vspinmaster | 用 OpenCode + Ollama 搭建的离线 AI 编程 home lab | API 成本与隐私顾虑,转向本地开发 | OpenCode + Ollama;自托管 | 已发布 | virtualizationhowto.com |
重要项目说明:
Orca(stablyai)是当天技术上最有新意的项目。它解决的是并行智能体管理:在多个 Git worktree 中同时运行 Claude Code、Codex 和 OpenCode,并在一个仪表盘里统一跟踪。/goal 进度跟踪功能直接回应了 Karpathy 所说的上下文工程里的可观测性缺口——你无法管理你无法衡量的东西。发布时即支持 macOS、Windows 和 Linux。
Academic Research Skills for Claude Code 面向学术界即将到来的“vibe coding”时刻。v3.7.0 版本包括一个 7 模式的阻断检查清单用于完整性门控、基于过往作品样本的风格校准、一个专门攻击论文的 Devil’s Advocate 智能体,以及同行评审模拟。它的理念很明确:“AI is your copilot, not the pilot.” 该工具引用 Lu et al.(2026, Nature 651:914–919)——《The AI Scientist》——来定义全自动研究会在哪些地方失败,以及为什么人类在环是设计前提。

KimiFlare 把 kill switch 做进了 AI 服务栈里——这是面向生产级 AI 系统的治理工具,而不是开发工具。预飞行安全检查 UI(针对 ARM SYSTEM、DISABLE AUTH、CUT OFF PROXY 的 COVER 复选框)说明,至少有一部分构建者已经把 fail-safe 机制视作一级需求。
6. 新动态与亮点¶
SpaceX 现在拥有 Cursor¶
根据 Reuters(被两条推文引用),SpaceX 在微软因与 GitHub Copilot 所有权相关的反垄断担忧而放弃交易后不久,就收购了 Cursor。SpaceX 也曾接触过 Inception(那家扩散式 LLM 初创公司)。一家航空航天公司拥有第二大常用的 AI 编程 IDE,这件事出乎意料,而且目前分析还很少。其战略理由——Cursor 是为了内部使用、投资回报,还是作为一个 AI 编程平台下注——在现有来源里并没有解释。
《context engineering is the new vibe coding》——Karpathy 在 AI Ascent 2026¶
Andrej Karpathy 创造了 “vibe coding” 这个词;现在他把 context engineering 描述为下一层能力。这一命名马上就有了实际含义:提出 vibe coding 这个名字的人,如今又说在它之上还有一项大多数实践者还没掌握的技能。@dunik_7 那段经济分析(通过加载 47,000 个 token 50 次来用 35 美元/天修 30 行)提供了 Karpathy 这句话所预示的具体成本信号。
GitHub Copilot 曾以订阅价值的 300%–1,000% 在补贴用户¶
Ed Zitron 对计费转型的分析——基于那张显示 5,851.77 美元用量对比 39 美元订阅费的 Reddit 截图——意味着 GitHub Copilot 在重度智能体用户身上一直承担着巨大的结构性亏损。对于某些用户群体来说,在 10.8 亿美元 ARR 的同时还要承担 300%–1,000% 的用量补贴,6 月 1 日的转型不只是价格变化;它也是对用户在不知情中获得的多年价值,进行一次追溯式重定价。
WinUI Agent Plugin:作为领域专用包的技能¶
微软的 WinUI Agent Plugin 是平台厂商推出的第一个大型领域专用技能包(不是第三方的)。它表明,平台方已经开始把“技能即包”视为为特定框架扩展 AI 编程智能体的支持方式——不是文档,不是 API,而是可由智能体执行的技能文件。
AI Engineer Singapore 2026 议程(5 月 15–17 日)¶
@nshawbin 发布了他们参加 AI Engineer Singapore 2026 的个人日程:3 天共 24 场 session,类别包括 software、agents、coding agents、design、physical AI。值得关注的 session 包括:“Building a Guide, Verify, Solve Loop for your Coding Agents with Software Factory”、“What We Learned From Analyzing Five Million Vibecoded PRs”、“Designing the Agent-Native IDE: When Designers Ship the Code”、“Toward World Models: From Language to Physical Intelligence.” 这场大会在本数据日期两天后开始,代表了社区的线下聚集点。
7. 机会在哪里¶
[+++] 面向 AI 编程智能体的 token 高效上下文管理层 —— 多个独立信号都指向这里:Karpathy 的“context engineering is the new vibe coding”这句引语、@dunik_7 那组显示“无序上下文”会让 30 行工作每天花 35 美元的计算,以及 Copilot 的账单冲击,全部都在说明同一个缺口。一个能按 token 成本分析智能体会话、建议排除哪些上下文、并在执行前展示每次智能体调用成本的工具,既有消费者端需求(看账单的开发者),也有企业端需求(CTO 的成本治理)。目前没有工具直接解决这一点。xoofx 的 provider 路由洞察(对同一个模型而言,github-copilot-direct 比 openai:gpt-5.5@high 快 20%,token 也更少)还说明,路由优化本身也很有价值。
[+++] 从 GitHub Copilot 迁移到替代方案的工具 —— 流失浪潮已经显现,而且正在进行中。用户正在手动评估 Claude Code、Codex、OpenCode 和本地 Ollama 方案。一个能帮助迁移 Copilot 设置、CLAUDE.md 等价物和技能配置的工具——或者能按用户的真实工作流对这些替代品做基准测试——会正好落在市场需求上。Claude Code 是当前最主要的迁移目标;能降低切换成本的工具,和 Anthropic 的利益方向高度一致。
[++] 针对特定代码库的自我改进技能文件夹 —— EvoSkill + Hermes-Agent 在通用层面证明了这个概念。真正还没被充分挖掘的是代码库专属版本:让 EvoSkill 从你仓库里的具体模式、失败模式和测试套件中学习。缺失的部分是基准测试生成——从用户自己的代码库中创建有意义的任务集,以指导技能进化。这是一个直接、技术性很强、但目前只被开源项目部分覆盖的机会。
[++] 领域专用智能体技能包 —— WinUI 插件建立了这个模式:平台厂商发布一个技能包,让 AI 智能体在自己的领域里更可靠。这个模式同样适用于每一个利基框架(游戏开发、React Native 移动开发、嵌入式系统、数据管道、科学计算)。在通用工具跟上之前先在特定领域取胜,是近期机会。Academic Research Skills 插件说明,就连学术工作流也可以被打包。
[+] 移动优先的智能体监督与控制 —— Shellular 今天已经发布,直接解决了一个真实痛点(笔记本绑身边)。更大的机会不只是远程访问,而是移动优先的监督:当智能体到达决策点时通知你、一个 kill switch(像 KimiFlare 那样)、对高风险操作的审批流。智能体在你不在场的情况下运行这一范式,创造了一类新的移动原生工具,不需要把桌面 IDE 移植到手机上。
[+] 面向 AI 编程助手的安全研究员档位 —— sixhobbits 的供应链攻击调查同时被 Claude 和 ChatGPT 拦住了。两个工具都把用户导向“Trusted Access for Cyber”和“Cyber Verification Program”——但这些路径是按专业安全公司设计的,不是给那些在调查自己依赖项真实事故的开发者准备的。给需要做合法安全事件响应、但又不想加入正式 cyber 项目的开发者提供一个轻量级验证档位,会降低摩擦并提升信任。
8. 要点总结¶
-
GitHub Copilot 6 月 1 日的计费转型已经在驱动迁移决策。 多位 Reddit 用户贴出了账单模拟,显示成本上涨了 17 倍到 150 倍,至少两人公开表示要切换到 Claude Code。同日公布的 flex 额度和 Max 套餐是留存回应,但信任受损——从补贴到惊喜——仍在持续。(edzitron)
-
Google Antigravity 27 天不更新,是社区对 Google AI 编程投入最在意的点。 当天浏览量最高的帖子(313,583 次)是一个问题,而不是抱怨——这对 Google 更糟,因为它传递的是不确定,而不是挫败。Google I/O 的时间点意味着下周会被迫做出回应。(hiarun02)
-
OpenCode 正在全线加速。 会话启动速度提升 500 倍、主流 RealPython 教程、以及精选社区关注列表在同一天出现——这说明这个工具正进入一个增长阶段,实践者采用正在反过来推动开发优先级。(LukeParkerDev)
-
“context engineering is the new vibe coding” 是当天最有代表性的实践者引语。 Karpathy 在 AI Ascent 2026 的这个表述,对应着一个明确的经济解释:无序上下文每天要花 35 美元,才能完成 30 行工作。其含义是,token 效率现在已经是一项一等公民式的工程能力,而不是优化项。(dunik_7)
-
SpaceX 现在拥有 Cursor。 这条消息来自 Reuters 报道,被两条推文引用,但几乎没人讨论。它是当天结构上最出人意料的竞争变化:一家航空航天公司拥有了数据集中被第二多提到的 AI 编程 IDE。(faststocknewss)
-
技能正在成为智能体改进的主要单位,而不是模型更新。 EvoSkill(SentientAGI)+ Hermes-Agent(NousResearch)证明了这个概念:冻结模型 + 进化中的技能文件夹,能在领域任务上取得更好表现,而无需重训。1,453 条目的 Antigravity Awesome Skills 库量化了整个生态所处的位置。(yasenka244)
-
访问模型时用哪个提供商,和模型本身一样重要。 xoofx 的基准测试显示,对同一个任务和同一个模型,github-copilot-direct 访问 GPT-5.5 High 比 openai:gpt-5.5@high 快 22%,输入 token 也少 18%。提供商路由优化是一条尚未被充分挖掘的成本杠杆。(xoofx)