Twitter AI Coding - 2026-06-06¶

1. 人们在讨论什么¶

1.1 技能、spec 和画布成了协调层 🡕¶

5 个信号都指向同一转向：围绕智能体的协调层——spec、技能、插件和画布——比原始上下文长度更重要。最强的流程类帖子关注的不是单纯把更多指导塞进更长的提示词，而是如何让智能体行为可移植、可检查、可治理。

@rohanpaul_ai 认为（24 次点赞、5 条回复、1,713 次浏览、20 次收藏），GitHub 的 Spec Kit 会在写代码前强制先走一遍 spec 优先流程，从而修正 vibe coding。之所以重要，是因为随帖附上的仓库截图以及公开仓库/文档把流程说得很具体——specify、plan、tasks、implement——而且覆盖 30+ 个编程智能体集成，让 spec 变成可执行契约，而不是用完即弃的文档（仓库, 文档）。回复则把一线使用者的判断说得更明白：有人说真正持久的优势正在转向 spec、评估和治理工具链；也有人说，没有真正 spec 阶段的智能体，仍会自信地交付错误代码。

Spec Kit 仓库截图，显示这是一个拥有 109K+ stars 的面向 AI 编程智能体的 spec 驱动开发工具包

@DanKornas 认为（13 次点赞、3 条回复、466 次浏览、5 次收藏），编程智能体不需要更多上下文，它们需要更好的技能：按需加载的可复用指令集，而不是整段粘贴进提示词。这与公开的 Agent Skills 规范一致：它定义了以 SKILL.md 为基础、支持渐进披露的目录结构；GitHub 推出的 gh skill 则把安装、版本锁定和发布能力带了进来，让可移植技能能跨 Copilot、Claude Code、Cursor、Codex 和 Gemini CLI 使用（规范, 更新日志）。

@JohannesVink 指出（1 次点赞、2 条回复、264 次浏览、1 次收藏），他团队的标准仓库技能在新的 Copilot app 里无法加载，而 GitHub 自家的文档目前也只把技能支持范围列在云端智能体、代码审查、CLI 和 VS Code 的智能体模式（文档）。与此同时，@GHchangelog 报道（12 次点赞、1,233 次浏览、5 次收藏），VS Code 1.122 现在已支持面向 Copilot CLI 的企业托管插件，让管理员能把共享 hooks、MCP 配置和基线标准同时分发到两个客户端（更新日志）。

GitHub 的 Copilot app 文档和发布博客在界面层也指向同一方向：画布是通过 /create-canvas 创建的双向工作界面，而整个 app 被定位成一个由工作树支撑、面向智能体原生开发的控制中心；工作可以直接在共享界面上被检查和引导，而不是埋在聊天记录里（文档, 博客）。

讨论要点： 有价值的分歧不在于技能是否存在，而在于每个新的智能体界面是否真的把它们带过去了。文档、插件发布和 Johannes Vink 的抱怨放在一起说明，标准的成熟速度已经快过产品一致性。

与前日对比： 6 月 5 日已经把文档优先的运行框架设计抬了起来。到 6 月 6 日，这条线又进一步推进到可移植 spec、可安装技能、企业分发和基于画布的工作界面。

1.2 领域调优工作流胜过通用提示词 🡕¶

4 条技术帖子之所以重要，是因为它们把 AI 编程装进了边界清晰、可测试的闭环：温室控制、Pine Script 回测、本地代码审查和安全评估。共同点不是更好的通用聊天提示词，而是更紧的任务专用运行框架。

@VaibhavSisinty 报道（100 次点赞、2 条回复、5,007 次浏览、65 次收藏），北海道一位西兰花农民虽然没有正式编程背景，却已经通过 Codex 运营温室。这个说法之所以不只是一个温情故事，是因为附图展示了日文温室控制面板图、控制器接线和电机部件，而推文里还描述了手机控制通风口、传感器监控、AI 生成接线图，以及一个协调地块、工人和任务的数据库。

附在 Codex 农场故事中的温室电机控制系统图，包含控制器接线和电气部件

@Axel_bitblaze69 展示（1 次点赞、2 条回复、89 次浏览、2 次收藏）了一条工作流：Claude 把口述或书面的交易策略转换成 Pine Script，由 TradingView 跑回测，用户在检查收益曲线、回撤、交易次数以及图表层面的视觉正确性之后再继续迭代。最关键的细节，是他坚持让 Claude 先列出歧义而不是猜测；另一个亮点则是一条基于 MCP 的路径：Claude Code 可以把代码推到 TradingView、编译、读取报错，再把回测结果拉回同一个会话。

@df00z 表示（2 次点赞、2 条回复、239 次浏览），在一台 Ampere Altra 系统上通过 OpenCode 本地运行 Qwen 3.6 35b a3b，在不使用 GPU 的情况下，代码输入吞吐大约是每秒 120 个 token，输出大约是每秒 20 个。附上的 diff 截图展示了真实的代码审查场景，以及 token 和成本读数；后续回复还说，加入 3080 并通过 Vulkan 后，输入吞吐大约达到每秒 250 个 token，输出达到每秒 35 个，同时还能在项目里纠正 Opus 4.8 写的代码。

@trynullsec 表示（24 次点赞、6 条回复、337 次浏览、5 次收藏），Nullsec S1 在安全场景下达到了 0.94 的精确率和 0.91 的召回率，并且在误报控制上优于 Codex 5.3 和 Claude Opus 4.7。这组基准细节目前只公开到推文和图片这一步，但它仍值得注意，因为这次卖点明确是面向特定领域的安全审查，而不是又一个通用型编程助手。

讨论要点： 这些帖子一再站在专业化而不是通用化一边：先把歧义问清楚，接上合适的外部工具，在本地硬件上做审查，或者直接在真正重要的任务上跑基准。

与前日对比： 本周更早的时候，最响亮的帖子还在谈控制平面和 Antigravity 界面。到 6 月 6 日，注意力转向了这些界面到底用来做什么：用于可测试的领域专用闭环。

1.3 定价压力仍是中心议题 🡒¶

经济性仍是讨论中心。最强的定价帖子不是抽象抱怨；它们讲的是行为已经改变、大家立刻去找补贴额度，以及与更低成本或自托管替代方案的直接比较。

@slicknet 表示（83 次点赞、16 条回复、6,860 次浏览），改价之后，仅仅 5 天非常轻度的 GitHub Copilot 使用，就已经吃掉了 33% 的月度 token 配额。回复把这件事变成了更强的证据：有人说只用了 2 次 Opus 就冲到 50%，有人说自己现在基本只用 Copilot 做 PR 审查，还有人说 6 月新额度第一天就被烧完，于是转去了 Blackbox AI。

@0x_beni_ 分享（26 次点赞、9 条回复、841 次浏览、25 次收藏）一个 Codex for Open Source 套餐：提供 6 个月带 Codex 的 ChatGPT Pro、来自 OpenAI 100 万美元 Codex Open Source Fund 的 API 额度，以及有条件的 Codex Security 访问。截图让这种补贴变得非常具体，而回复也重要，因为维护者马上就说自己已经去申请了。

截图列出 Codex for Open Source 套餐：包含 6 个月 ChatGPT Pro、API 额度，以及有条件的 Codex Security 访问

/last30days 的 README 也在从构建者一侧讲同一套经济性逻辑：它把自托管、用户自带 key 的安装方式，直接拿来对比每月 $15-$20 的付费搜索产品，并把价值落在“用你自己的 API key”，而不是再租一层订阅（仓库）。

讨论要点： 回复已经很战术化：盯 token 倍率、削减用量、切换工具，或者去申请额度。争论已经从“AI 编程值不值得付费？”变成了“哪类工作该放到哪种计费模型上？”

与前日对比： 6 月 5 日已经出现了把工作路由到免费模型和企业补贴的做法。到 6 月 6 日，这种压力仍在，只是“消耗速度 vs 补贴”的取舍被说得更直白了。

1.4 构建者补上了智能体周围缺失的基础设施 🡕¶

4 条构建者帖子聚焦的不是模型 IQ，而是智能体周围缺失的基础设施：一个项目打通了被锁住的数据源，一个把 GitHub 的运行时开放出来供嵌入使用，另外两个则为权限和移动访问做了控制平面。

@sharbel 展示（21 次点赞、8 条回复、600 次浏览、23 次收藏）了 /last30days，这是一个会并行搜索 Reddit、X、YouTube、TikTok、Hacker News、Polymarket、GitHub 和网页的技能，然后按真实互动量和市场活动给结果打分，再综合成一份简报。README 截图之所以重要，是因为它展示了如何把它安装到 Claude Code、Codex、Cursor、Copilot、Gemini CLI 和 50+ 个智能体宿主；而公开 README 解释了更深的主张：没有哪个 AI 原生就拥有全部这些来源，因此真正的价值来自用用户自带的 key 和一套设置流程打通这些封闭花园（仓库）。

README 截图展示 /last30days 可安装到 Claude Code、Codex、Cursor、Copilot、Gemini CLI 和其他智能体宿主

@MichaelGannotti 把 GitHub Copilot SDK 定义为这样一个时刻：Copilot app、CLI、云端自动化以及合作伙伴构建的智能体应用背后的运行时，开始变成公共基础设施。GitHub 的 GA 更新日志也印证了这一点：SDK 现在已在 6 种语言上稳定可用，并公开了运行时的规划、工具调用、hooks、MCP 支持和 BYOK 选项，而团队无需从零自建编排层（仓库, 更新日志）。

@__morse 表示（2 次点赞、3 条回复、104 次浏览），最新的 Kimaki 版本现在会在 10 分钟后自动拒绝 OpenCode 的权限提示，除非关键工具调用需要 Discord 批准，否则会话就能继续往前走。Kimaki 的网站解释了为什么需要这个功能：它把 Discord 频道变成项目、讨论串变成会话，加上队列和工作树，在手机上提供 diff 视图，并复用现有的 Claude 或 ChatGPT/Codex 订阅，而不是再引入按 token 计费（网站）。

@itsnishu 分享（9 次点赞、5 条回复、168 次浏览）了 Sakura，一个尚在开发中的移动应用，用来控制本地 Claude、Codex 和 OpenCode 会话，并直接访问终端和文件系统。截图和项目目录图片显示，它已经有一个早期的 TypeScript/React 风格构建，里面包含 App.tsx、CLAUDE.md、AGENTS.md、package.json 和 tsconfig，这让这条帖子看起来更像真实原型，而不是概念草图。

讨论要点： /last30days 下的回复立刻追问选择性路由，以及会话在重启后能否继续存活。构建者看到的缺口不是模型智能，而是编排。

与前日对比： 6 月 5 日还主要在原则层面讨论控制平面。到 6 月 6 日，构建者已经把具体产品做出来了。

2. 令人困扰的问题¶

账单冲击与配额不透明¶

严重程度：高。@slicknet 表示（83 次点赞、16 条回复、6,860 次浏览），非常轻度的 GitHub Copilot 使用在 5 天内就吃掉了 33% 的月度 token 配额，而回复把痛点说得很具体：有人 2 次 Opus 使用后就打到 50%，有人把 Copilot 缩减到只做 PR 审查，还有人说 6 月额度第一天就被烧光，随后切到 Blackbox AI。与此同时，@0x_beni_ 分享（26 次点赞、9 条回复、841 次浏览、25 次收藏）了一个价值 1,200 美元的 Codex for Open Source 套餐，大家马上就去申请了；而 @sharbel 那条帖子下还有回复在问，/last30days 能不能只按查询路由真正需要的来源，以减少 token 消耗。这个问题值得构建，因为用量规划现在已经成了产品问题：人们正根据消耗速度主动调整工具、工作负载和审批阈值。

技能与治理标准跑在产品一致性前面¶

严重程度：中高。@DanKornas 认为（13 次点赞、3 条回复、466 次浏览、5 次收藏），更好的技能胜过更大的上下文窗口，而 GitHub 的 gh skill 预览以及开放的 Agent Skills 规范，也通过可移植、可版本化的跨宿主安装印证了这一点（更新日志, 规范）。但 @JohannesVink 展示（1 次点赞、2 条回复、264 次浏览、1 次收藏），新的 Copilot app 仍然无法加载仓库托管技能，尽管 GitHub Docs 说技能适用于云端智能体、代码审查、CLI 和 VS Code 的智能体模式（文档）。这个问题值得构建，因为团队现在已经有了一种可移植的智能体行为打包方式，但仍不能指望每个产品界面都以同样方式尊重它。

智能体会话仍会卡在审批和重启上¶

严重程度：中高。@__morse 表示（2 次点赞、3 条回复、104 次浏览），Kimaki 现在会在 10 分钟后自动拒绝 OpenCode 的权限提示，只把关键调用升级到 Discord 批准，这种设计本身就说明默认行为太容易死锁。@sharbel 那条帖子下的一条回复说，很多宿主仍缺少能在重启后幸存、且不会悄悄截断的会话；而 @itsnishu 分享（9 次点赞、5 条回复、168 次浏览）了 Sakura，作为面向本地 Claude、Codex 和 OpenCode 会话的移动绕行方案。这个问题值得构建，因为长时间运行的智能体工作仍会被审批弹窗、重启以及只能守在桌前的控制方式卡住。

单一供应商宕机仍会让编码工作停摆¶

严重程度：高。@The_Cyber_News 报道（5 次点赞、1 条回复、259 次浏览），一次宕机影响了 claude.ai、Claude API、Claude Code 和 Claude Cowork，而链接文章称中断始于 6 月 5 日 15:08 UTC，并在 18:27 UTC 完全恢复（文章）。@df00z 本地运行（2 次点赞、2 条回复、239 次浏览）Qwen 通过 OpenCode 的反例之所以重要，是因为它说明了为什么用户想要不绑定单一托管提供商的可行兜底路径。这个问题值得构建，因为宕机现在打断的是手头的编码工作流，而不只是随手聊天的会话。

3. 人们期望的功能¶

可在所有智能体界面上工作的可移植 spec 与技能层¶

人们想要的是一层可复用的流程层，能跟着他们在 Copilot、Claude Code、Codex、Cursor 和更新的应用界面之间移动。@rohanpaul_ai 把 Spec Kit 定义为阻止智能体在规则还没说清前就跳进代码的一种方式，而 @DanKornas 把可复用技能定义为阻止大家把所有规则都塞进提示词的方式。缺失的一块是“一致性”：@JohannesVink 展示（1 次点赞、2 条回复、264 次浏览、1 次收藏），Copilot app 今天仍会打破这一预期，哪怕 GitHub 正在推出 gh skill 和企业托管插件。现有标准只能部分满足这一需求，但产品层仍然参差不齐。机会：直接且有竞争性。

预算感知路由与用量可见性¶

人们其实在要求一种工具：能预估消耗、把工作路由到最便宜但仍可行的模型，并在他们撞墙之前解释用量。@slicknet 展示（83 次点赞、16 条回复、6,860 次浏览），当前的 token 计费即便对轻度用户也会很意外，而 @0x_beni_ 分享（26 次点赞、9 条回复、841 次浏览、25 次收藏）的，则是一种面向开源维护者的额度与套餐绕行方案。最明确的诉求出现在 @sharbel 那条帖子下的一条回复里：他们问 /last30days 能不能只路由查询真正需要的来源，而不是每次都为所有来源买单。补贴额度、BYOK 和自托管工具今天只能部分解决这个问题，但解决不了规划和可预测性。机会：直接。

远离工位时，仍能保住会话状态、审批和上下文的远程控制¶

构建者想离开工位又不丢会话，也不被审批卡死。@itsnishu 分享（9 次点赞、5 条回复、168 次浏览）了 Sakura，把它作为面向本地 Claude、Codex 和 OpenCode 会话的手机控制器；而 @__morse 分享（2 次点赞、3 条回复、104 次浏览）了 Kimaki 的做法：自动拒绝过期的权限提示，只把关键调用升级处理，让长时间会话继续推进。@sharbel 那条帖子下的一条回复又补充说，很多宿主仍不能在重启之间干净地保住会话状态，而 GitHub 的 Copilot app/文档则把画布定位成共享工作界面的起点，而不是现成的解决方案（文档, 博客）。这些组件都已经存在，但用户还得自己把它们缝起来。机会：直接。

带真实评估闭环的领域专用智能体套件¶

最强的技术帖子指向一种需求：智能体套件必须足够懂某个领域，能问出正确的澄清问题，产出可验证的工件，并用领域指标而不是通用代码质量来衡量结果。@trynullsec 报道（24 次点赞、6 条回复、337 次浏览、5 次收藏）了一个安全调优模型的精确率和召回率数字；@Axel_bitblaze69 展示（1 次点赞、2 条回复、89 次浏览、2 次收藏）了一条 Claude 到 TradingView 的回测闭环；而 @VaibhavSisinty 报道（100 次点赞、2 条回复、5,007 次浏览、65 次收藏）了一个与硬件图纸和传感器操作绑定的 Codex 温室控制工作流。通用前沿智能体今天只能部分覆盖这一需求，但眼下的证据更偏向缩窄上下文加上明确评估。机会：有竞争性且仍在浮现。

4. 使用中的工具与方法¶

工具	类别	评价	优势	局限
Spec Kit	工作流工具包	(+)	强制执行 spec -> plan -> tasks -> implement 流程，可跨 30+ 个智能体集成使用	需要前置写作，本身也解决不了下游产品界面的兼容缺口
Agent Skills	技能打包标准	(+/-)	可移植的 SKILL.md 目录、渐进披露、版本锁定、可跨宿主复用行为	Copilot app 等宿主上的支持仍然不均匀
GitHub Copilot App / Canvases	智能体工作区	(+/-)	由工作树支撑的会话、My Work 控制中心、共享画布、`/create-canvas` 工作流	仍在技术预览，当前仓库技能兼容性也有缺口
GitHub Copilot SDK	运行时 / SDK	(+)	稳定运行时、6 种语言、自定义工具、hooks、MCP、BYOK	团队仍得自己搭 UX、审批模型和产品界面
Codex / ChatGPT Pro	智能体运行时	(+/-)	可信的非工程师运营工作流、面向开源的额度补贴、不断扩展的远程/移动访问	token 经济性和对补贴的依赖仍是核心问题
Claude Code	智能体 CLI	(+/-)	擅长领域闭环、歧义处理和 MCP 辅助工作流	托管服务宕机和单一供应商依赖仍是风险
OpenCode + local Qwen	开放 / 本地运行时	(+)	可信的本地代码审查、开放模型灵活性、普通硬件上的实用吞吐	需要手动配置、硬件调优，以及额外的会话/权限工具
Kimaki	编排层	(+)	Discord 频道即项目、讨论串即会话、队列、工作树、手机 diff 查看器、复用订阅	绑定 Discord/OpenCode，且仍在解决审批和会话生命周期摩擦
Nullsec S1	专用安全模型	(+)	明确给出精确率/召回率框架，并在安全场景下误报更低	目前公开证据仍只限于厂商自己的基准帖子

工具版图里，最受正面评价的是结构层——spec、技能、运行时和编排包装层；而昂贵的托管智能体收到的评价最复杂。最常见的绕行方式，是在模型外再包一层流程：先写 spec 再写代码，用技能替代整段提示词转储，加上 Discord 或移动控制平面，或者用本地开放模型做溢出与兜底审查。最清晰的迁移路径，是从单一界面的提示词循环，转向打包好的流程加多界面控制；最清晰的竞争态势，则是想拥有整条闭环的托管运行时，与让这些运行时更便宜、更可移植或更可控的包装工具之间的竞争。

5. 人们在构建什么¶

项目	构建者	功能	解决的问题	技术栈	阶段	链接
Spec Kit	GitHub	面向 AI 辅助开发的 spec 驱动工作流工具包	防止需求漂移和提示词优先导致的返工	Specify CLI、Markdown spec、斜杠命令/技能、30+ 个智能体集成	已发布	仓库, 文档
/last30days	mvanhorn	一个会按互动量和市场活动给来源打分的跨平台研究技能	打通封闭花园平台，让一个智能体能跨这些来源搜索最近 30 天	Agent Skill、分来源连接器、用户 API key/浏览器会话、综合层	已发布	仓库
GitHub Copilot SDK	GitHub	把 Copilot 的智能体运行时嵌入应用、服务和内部工具	避免为智能体原生产品自建编排栈	Node.js/TypeScript、Python、Go、.NET、Java、Rust、Copilot CLI server、JSON-RPC、hooks、MCP	已发布	仓库, 更新日志
Kimaki	Tommy	面向 OpenCode 项目和会话的 Discord 控制界面	让远程智能体工作能跨项目、审批、队列和手机审查继续推进	`npx kimaki`、Discord、OpenCode、工作树、diff 查看器、订阅 OAuth	已发布	网站
Sakura	@itsnishu	面向本地 Claude、Codex 和 OpenCode 会话的移动控制器	让构建者在离开工位时也能引导本地智能体、终端和文件	TypeScript/React 风格移动应用、本地会话桥、终端/文件系统访问	Alpha	推文

Spec Kit 是“流程即产品”最清晰的例子。它的公开仓库和文档在动手前就把需求、计划和任务变成一等工件，而 @rohanpaul_ai 那条帖子（24 次点赞、5 条回复、1,713 次浏览、20 次收藏）下的回复也把理由说透了：如果 spec 太弱，智能体就会开始猜。

/last30days 把同样的原则用在研究而不是编码上。它的独特之处不只是来源数量，而是把 Reddit、X、YouTube、TikTok、Hacker News、Polymarket、GitHub 和网页搜索打包成一个可安装技能，并能跨许多智能体宿主使用；而回复一上来就在追问路由效率和会话耐久性。

GitHub Copilot SDK、Kimaki 和 Sakura 从 3 个不同角度展示了同一种构建模式。GitHub 在开放运行时，Kimaki 用 Discord 讨论串、队列、工作树和适合手机的审查界面去包装现有运行时，而 Sakura 则在把本地会话推向直接的移动控制界面。触发这些构建反复出现的痛点，不是原始模型能力不够，而是编排、权限处理、状态连续性和远程访问。

6. 新动态与亮点¶

安全调优模型开始比拼精确率，而不只是模型名望¶

@trynullsec 报道（24 次点赞、6 条回复、337 次浏览、5 次收藏），Nullsec S1 在安全场景下达到 0.94 精确率和 0.91 召回率，同时在误报上优于 Codex 5.3 和 Claude Opus 4.7。公开证据目前只限于公司自己的推文和基准图片，因此这更该被读作厂商说法，而不是独立验证过的排行榜；但这种定位仍值得注意，因为它是在用领域精度而不是通用基准名气来销售一个贴近编程场景的模型。

本地开放模型代码审查不再像玩具¶

@df00z 报道（2 次点赞、2 条回复、239 次浏览），Qwen 3.6 35b a3b 通过 OpenCode 在一台以 CPU 为主的 Ampere Altra 机器上本地审查 Opus 4.8 写的代码；后续回复还称，在通过 Vulkan 接入 3080 后，吞吐更高。真正让这条帖子值得注意的是附上的代码差异截图：它展示了一次真实代码审查，以及 token 和成本读数，于是“本地开放模型越来越好”不再只是模糊判断，而变成了一份具体工作流报告。

代码差异截图显示 OpenCode 正在审查 C 源码改动，并显示 token 数和 0 美元本地成本读数

Claude 的可靠性成了工作流问题，而不只是状态页上的一条通知¶

@The_Cyber_News 报道（5 次点赞、1 条回复、259 次浏览），6 月 5 日的一次宕机影响了 claude.ai、Claude API、Claude Code 和 Claude Cowork。链接文章补上了运营细节：事故从 15:08 UTC 开始，各模型变体是分阶段恢复的，直到 18:27 UTC 才完全恢复（文章）。这之所以重要，是因为 AI 编程工作流如今把这些服务当作主动构建界面，而不再只是可有可无的助手。

图示总结了 6 月 5 日影响 claude.ai、Claude API、Claude Code 和 Claude Cowork 的宕机

7. 机会在哪里¶

[+++] 面向智能体宿主的可移植流程层 — 证据横跨第 1、2、3 和 5 节：Spec Kit、Agent Skills、gh skill、企业托管插件和 Copilot 画布都指向对可复用行为的需求——它必须能跨产品延续，而 Johannes Vink 对 Copilot app 的抱怨说明缺口依然真实。这类机会很强，因为用户和平台正在从两端收敛到同一个原语。

[++] 预算感知路由与支出控制 — 证据来自 Copilot 的消耗抱怨、Codex 面向开源的额度套餐、/last30days 的路由提问，以及 Kimaki 对复用现有订阅的强调。这类机会为中等，因为痛点尖锐、足以改变行为，但市场里已经有不少局部绕行方案。

[++] 稳定的远程控制与会话连续性 — 证据来自 Kimaki 的权限兜底、Sakura 的移动控制器、/last30days 回复中对重启安全会话的讨论，以及 Copilot app 朝可检查共享界面推进的方向。这类机会为中等，因为多个构建者已经在证明需求存在，但还没有哪条路径明显占据主导。

[+] 内置评估的领域专用智能体套件 — 证据来自 Nullsec S1 的安全基准说法、Claude 到 TradingView 的回测闭环、本地 Qwen 代码审查，以及 Codex 温室控制故事。这类机会仍在浮现，因为这些用例很有说服力，但仍分散在不同领域里，而且大多只是以个体实践者的报告形式出现。

8. 要点总结¶

协调层正在移到提示词之上。 最强的流程证据来自 Spec Kit、Agent Skills、企业托管插件和 Copilot 画布：它们都在把行为打包到一次性提示词循环之外。（来源）
最可信的 AI 编程案例都做了领域调优，而且可验证。 温室控制图、Pine Script 回测、本地代码审查 diff，以及安全精确率/召回率数字，都比模糊的“AI 会写代码”说法更有说服力，因为它们展示了评估闭环。（来源）
经济因素如今与模型质量一样，正在塑造产品使用方式。 一位 Copilot 用户在 5 天轻度工作里就用掉了 33% 的月度额度，而另一条帖子则在宣传面向开源维护者的 6 个月 Codex 补贴。（来源）
构建者正在竞相补齐缺失的智能体基础设施。 /last30days、Copilot SDK、Kimaki 和 Sakura 都在攻击编排缺口——跨平台数据访问、运行时嵌入、审批处理和远程控制——而不是原始生成质量。（来源）