跳转至

Hacker News AI - 2026-05-26

1. 人们在讨论什么

5 月 26 日,Hacker News 上共出现 95 条 AI 帖子,高于 5 月 25 日的 76 条。总积分从 236 升至 337,但评论量从 205 降到 112,这说明注意力分散到了一个更广、且更偏向构建者的场域,而不是收缩成一场巨大的争论。Show HN 数量从 22 条增至 30 条;前 10 条帖子仍拿走了当天 112 条评论中的 95 条;最强的信号则集中在三个问题上:如何让智能体安全接入真实系统,如何给它们提供持久记忆和可度量的上下文,以及如何证明那些雄心勃勃的智能体架构确实有效。

1.1 执行控制层开始贴近生产环境 (🡕)

当天最强的 HN 发布,并不是又一个编程智能体壳层产品,而是如何让智能体越过 API 边界,进入遗留企业软件,同时又不把真正的难点伪装成“写提示词”。

fchishtie 发布了 《Launch HN: Minicor (YC P26) – Windows desktop automations at scale》(62 积分,44 评论)。HN 帖子称,Minicor 源于一些客户被没有可写 API 的桌面系统卡住的场景,并认为一旦这些自动化开始规模化运行,脚本编写、编排和调试都会变成生产问题。Minicor 站点 则把这个论点落得很具体:自愈型智能体、Windows VM 或浏览器部署、本地或云端支持、完整的视频回放与日志、HIPAA 和 SOC 2 定位,以及声称可达 93%-96% 的点击准确率,而更朴素的桌面操作方案只有 80%-85%。

回复一上来就把问题推向生产边界,而不是再讨论这个品类本身。throw03172019(得分 0)问,在涉及 PHI 时,截图、视频以及 JSON 输入输出要如何处理;ilundin(得分 0)问,在很多国家里,让云端 LLM 去判断患者或客户截图,是否一开始就行不通;a-dub(得分 0)则问,随机性智能体的稳态错误率,与确定性桥接相比到底如何,以及平台究竟暴露了多少可观测性。这强烈说明,HN 现在已经把这类桌面操作智能体当作基础设施,而不是实验室演示。

低热度发布则从其他角度补齐了同一层控制面。olafmol 发布了 《Show HN: Chunk sidecars for validating agent-generated code before pushing to CI》(1 积分,2 评论);CircleCI 表示,这个工具会在轻量 microVM 中运行由 hooks 驱动、与 CI 对齐的微型构建,在 60 秒内返回反馈,并在内部实验中把重试回路的 token 用量降低 3-5 倍。etgpao 发布了 《Show HN: PrismCat – Local transparent proxy and debugging console for LLM APIs》(2 积分,2 评论);PrismCat README 介绍的是一个本地透明代理,可记录完整的请求与响应流量,包括 SSE 流,让团队能检查自己的封装层和智能体到底发出了什么。

讨论要点: HN 越来越不关心智能体“能不能动起来”,而更关心一次运行是否具备确定性、可观测性、合规性,以及失败时是否容易调试。

与前日对比: 5 月 25 日把信任问题往外推到了客户消息和拟人化对话;5 月 26 日则把它拉回企业执行层:桌面、CI 镜像、截图、日志,以及故障级联之前的安全控制面。

1.2 记忆、回放与结构化推理,正变成明确的支撑层 (🡕)

第二个主题是上下文基础设施。开发者反复表达的是,一旦真实团队需要审查、回放和衡量智能体工作,单靠原始上下文窗口和通用工具调用就不够了。

midas 发布了 《Show HN: MCPs aren't enough, give Codex/Claude accurate memory of everything》(16 积分,2 评论)。Timeglass 把自己定位为真正“了解你的工作”的 AI:它会把公司活动、工具和上下文连接起来,让 AI 能回答问题并采取行动;这比再暴露一个 MCP 端点要更有野心得多。bhavya6187 发布了 《Show HN: Vibeshub – Git for your vibe code transcripts》(2 积分,0 评论),主张只看一份 diff 和一条 PR 评论,不足以审查 vibe coding 生成的改动;vibeshub 站点仓库 展示了可回放的 Claude Code 轨迹、密钥脱敏,以及与 PR 绑定、受 GitHub 访问控制约束的会话历史分享。

其他开发者则从智能体循环内部切入同一个问题。SQLv2 发布了 《Show HN: I open-sourced two AI agents with real memory (chat and voice, MIT)》(5 积分,0 评论);synapcores-agent README 明确把数据库本身当成记忆层,用于召回、RAG、工具路由和生成。finnworks 发布了 《Show HN: skills-for-humanity – 171 structured reasoning skills for Claude Code》(12 积分,2 评论);其 README 说,这个包提供横跨 27 个类别的 171 套可复用推理流程,全部由 /think 入口统一路由,而不是临时拼凑提示词。

gkarthi2800 还补充了 《Is Claude Code Getting Worse? How to Measure Degradation with OpenTelemetry》(5 积分,0 评论),文中主张团队应关注每 token 产出比、上下文膨胀、缓存未命中、子智能体数量膨胀,以及被拒绝的编辑,而不只是原始 token 支出。这用运营语言说的是同一个意思:只有当团队能判断额外上下文到底有没有回报时,记忆才有价值。

讨论要点: 共同诉求不是更大的模型,而是持久状态、可回放的推理,以及能把智能体工作变成团队可检查、可分享、可治理对象的度量与观测。

与前日对比: 5 月 25 日已经出现项目状态 Markdown 和持久记忆层;5 月 26 日则把范围从单次会话连续性,扩大到了组织记忆、PR 轨迹分享,以及整支智能体队列的遥测。

1.3 证明能力和安全拒答,比单纯炫耀智能体数量更重要 (🡕)

第三个主题是可信度。HN 仍然会关注宏大的系统宣称,但最能获得牵引力的帖子,是那些要么激进做了基准测试,要么明确承认在该拒答的时候就该拒答的项目。

ammar_x 分享了 《DeepSWE: A contamination-free benchmark for long-horizon coding agents》(14 积分,3 评论)。DeepSWE 博客 称,这个基准覆盖 91 个仓库、5 种语言上的 113 个任务,使用以行为为中心的提示,并发现验证器之间的分歧远低于经审计的 SWE-bench Pro 试验。就连 dnnssl2(得分 0)那条带着怀疑的回复,也不是在反对做基准测试;他问的是,如果成绩已经达到 70%,是不是说明这个基准太容易了。这依然是在要求更好的度量,而不是否定这个前提。

在讨论面上,akrylov《Multi-Agent is a snake oil》(5 积分,5 评论)中认为,单个强智能体在许多领域仍然胜过“委员会式”方案,因为多智能体设置会带来延迟、成本、协同失败和提示词稀释。ddp26(得分 0)回复说,多智能体系统需要自己证明那部分额外成本是值得的;cheevly(得分 0)则认为,它们最有用的时候,是把真正的大上下文工作切分开来。

anttihero 发布了 《Show HN: Lavern: an open-source multi-agent legal system (Apache 2.0)》(4 积分,2 评论);Lavern README 值得注意的,与其说是“67 个智能体”的宣称,不如说是它明确承认:这套架构能跑通,工程也不是纸上谈兵,但相较于一个提示词调得很好的单模型,它的质量上限仍未被证明。vforno 发布了 《Show HN: Judicex – Open-source legal AI that abstains instead of hallucinating》(5 积分,0 评论);Judicex README 强调有据可依、范围受限、拒答和对话这几种状态,并要求引用只绑定到检索到的证据。

讨论要点: HN 并没有直接否定那些雄心勃勃的智能体系统。它奖励的是两类构建者:要么能拿出可信基准,要么能在证据不足时安全地失败。

与前日对比: 5 月 25 日的信任问题,聚焦在人们是否该让 AI 进入人类消息渠道;5 月 26 日则把可信性测试转向内部机制:系统能不能证明自己,以及在做不到时能不能干净地拒答。


2. 令人困扰的问题

生产级智能体在真实系统的复杂边界上仍然会失效

《Launch HN: Minicor (YC P26) – Windows desktop automations at scale》(62 积分,44 评论)是当天最清晰的挫败点,因为创始人把 30% 以上的失败率、每月数千条支持工单,以及脆弱的自动化维护描述为核心问题,而不是模型调用本身。回复把故障模式说得更具体:throw03172019(得分 0)担心截图和日志里的 PHI;ilundin(得分 0)质疑,让云端去判断敏感屏幕内容,在法律上是否可行;a-dub(得分 0)则问,随机性智能体在稳态可靠性上,与确定性桥接相比到底如何。《Show HN: Chunk sidecars for validating agent-generated code before pushing to CI》(1 积分,2 评论)和 《Show HN: PrismCat – Local transparent proxy and debugging console for LLM APIs》(2 积分,2 评论)在开发者工具侧显示出同样的痛点:故障暴露得太晚,或者真实请求路径太不透明,无法快速调试。严重程度:高。人们现在靠确定性执行、microVM 验证、回放日志和本地代理来应对,但生产边界依旧脆弱。值得为之构建:是,且非常直接。

当智能体上下文被困在会话里,团队审查仍然会失灵

《Show HN: MCPs aren't enough, give Codex/Claude accurate memory of everything》(16 积分,2 评论)、《Show HN: Vibeshub – Git for your vibe code transcripts》(2 积分,0 评论)和 《Show HN: I open-sourced two AI agents with real memory (chat and voice, MIT)》(5 积分,0 评论)之所以存在,都是因为一旦周边推理蒸发,智能体输出就很难审查。Vibeshub 的 HN 帖子说,一个很大的 diff 加上一条 PR 评论,不足以看懂 vibe coding 工作;而 Timeglass 明确主张的,则是一个更广义的记忆层——它理解公司活动、工具和上下文,而不只是聊天窗口。SynapCores 项目则把同一抱怨继续下推到架构层,直接把数据库本身当成记忆。严重程度:高。当前的权宜方案是可回放轨迹、持久化存储和上下文连接器,但它们仍分散在不同产品和团队里。值得为之构建:是,且非常直接。

如果没有度量或保守拒答行为,就没人相信智能体质量宣称

《DeepSWE: A contamination-free benchmark for long-horizon coding agents》(14 积分,3 评论)、《Is Claude Code Getting Worse? How to Measure Degradation with OpenTelemetry》(5 积分,0 评论)和 《Multi-Agent is a snake oil》(5 积分,5 评论)都指向同一个信任缺口。开发者感觉,基准污染、无法验证的提升宣称,以及昂贵的多智能体架构,已经跑在了证据前面。当天最可信的几个反例也承认这一点:《Show HN: Lavern: an open-source multi-agent legal system (Apache 2.0)》(4 积分,2 评论)说,它的工程并不是纸上谈兵,但相对于单个强模型的质量优势仍只是一个假设;而 《Show HN: Judicex – Open-source legal AI that abstains instead of hallucinating》(5 积分,0 评论)则把有依据、范围受限或直接拒答的回答放在产品中心,而不是假装模型总是知道答案。严重程度:高。人们目前靠临时评估、遥测仪表盘、人工闸门和拒答契约来应对,但可靠证明仍然很少。值得为之构建:是,且非常直接。


3. 人们期望的功能

持久的组织记忆和面向智能体工作的审查轨迹

《Show HN: MCPs aren't enough, give Codex/Claude accurate memory of everything》(16 积分,2 评论)、《Show HN: Vibeshub – Git for your vibe code transcripts》(2 积分,0 评论)和 《Show HN: I open-sourced two AI agents with real memory (chat and voice, MIT)》(5 积分,0 评论)都指向同一个缺失层:能跨过聊天会话、并且对队友、审查者和未来接手者仍然清晰可读的持久记忆。这是现实需求,不是抽象愿望。今天的工具分别覆盖了轨迹、记忆召回或公司上下文的一部分,但当天没有任何一个方案能在同一套栈里把这三者都干净地解决掉。机会:非常直接。

能看见智能体实际所见内容的内环验证与可观测性

《Launch HN: Minicor (YC P26) – Windows desktop automations at scale》(62 积分,44 评论)、《Show HN: Chunk sidecars for validating agent-generated code before pushing to CI》(1 积分,2 评论)和 《Show HN: PrismCat – Local transparent proxy and debugging console for LLM APIs》(2 积分,2 评论)表明,开发者要的不只是事后复盘。他们想要的是:智能体工作流能在真实环境里直接验证,记录精确的请求与屏幕上下文,并在 CI 或生产系统吞下损失之前,让故障容易回放。这个需求之所以紧迫,是因为当前的权宜方案,本质上都是给那些仍然太晚才暴露故障的系统补控制。机会:非常直接。

把基准测试、遥测与安全拒答结合起来的智能体 QA

《DeepSWE: A contamination-free benchmark for long-horizon coding agents》(14 积分,3 评论)、《Is Claude Code Getting Worse? How to Measure Degradation with OpenTelemetry》(5 积分,0 评论)、《Show HN: Judicex – Open-source legal AI that abstains instead of hallucinating》(5 积分,0 评论)和 《Show HN: Lavern: an open-source multi-agent legal system (Apache 2.0)》(4 积分,2 评论)从不同角度描述了同一个未被满足的需求:如何知道一个智能体是在变好、在退化,还是已经跑到了它所掌握证据之外。基准测试、仪表盘和拒答契约各自只覆盖了问题的一部分。市场仍然缺少一个把它们串起来的整体质量层。机会:非常直接。

面向具体岗位的可复用推理与工作流包,而不是泛化提示词

《Show HN: skills-for-humanity – 171 structured reasoning skills for Claude Code》(12 积分,2 评论)最明确地表达了这种需求,但 《Show HN: Lavern: an open-source multi-agent legal system (Apache 2.0)》(4 积分,2 评论)和 《Show HN: Judicex – Open-source legal AI that abstains instead of hallucinating》(5 积分,0 评论)也指向同一个方向。人们要的不是一个更强的聊天框,而是面向特定决策、调查、审查和受监管工作流的可复用方法。目前已有一些项目在尝试,但它们要么是很宽泛的认知库,要么是很窄的垂直系统。机会:竞争性。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
Minicor 桌面自动化 / RPA (+/-) 确定性的 Python 工作流、自愈恢复、可观测性,以及本地或云端部署 隐私与合规问题始终居于核心位置,遗留 UI 的脆弱性也不会消失
Timeglass 记忆 / 组织上下文 (+) 连接公司活动、工具与上下文,让 AI 不只围绕单个聊天回答问题 公开证据仍停留在高层描述,对底层栈和真实边界的细节还很少
skills-for-humanity 推理技能库 (+) 171 套可复用方法、清晰的过程化输出,以及面向 Claude Code 的 /think 路由器 依赖有纪律的使用方式,且自身并不解决执行、记忆或审查
PrismCat LLM 可观测性代理 (+) 透明切换 base_url、抓取 SSE、回放、请求覆写,以及本地 SQLite 存储 多了一层需要运行的组件,而且它只能看见 API 层,而不是完整应用状态
chunk sidecars 验证 / microVM 工作流 (+) 与 CI 一致的验证、hook 驱动的反馈、快照,以及更低的重试回路 token 成本 以 CircleCI 为中心的工作流和远程配置开销,让它比纯本地工具更重
DeepSWE 基准测试 / 评估 (+) 无污染任务、覆盖多样 repo,以及行为验证器,让模型对比更清晰 基准饱和,以及围绕基准“刷分”,仍是长期风险
OpenTelemetry 生产力监测 遥测 / 度量 (+) 每 token 产出比让上下文膨胀、缓存未命中、子智能体成本和被拒绝的编辑都变得可见 需要埋点和解读,而且它衡量生产力的直接性高于代码质量
Lavern 法律多智能体系统 (+/-) 有证据支撑的辩论、人工闸门、EU/本地模式,以及明确的验证层 架构复杂度高,且没有公开基准证明它优于更简单的系统
Judicex 法律 AI 工作台 (+) 拒答优先的回答契约、证据绑定引用、本地 SQLite 栈,以及无 LLM 模式 仍处于早期 Alpha 阶段,且法律场景过窄,限制了即时的广泛采用
vibeshub 轨迹分享 / 审查上下文 (+) 可回放的 PR 关联轨迹、自动密钥脱敏,以及受 GitHub 访问控制约束的分享 仍是早期产品,目前对以 Claude Code 为中心的团队最容易理解

整体情绪更偏向那些约束或暴露智能体行为的工具,而不是承诺更多自治的工具。光谱上更受正面评价的是 PrismCat、chunk sidecars、DeepSWE、skills-for-humanity、Judicex 和 vibeshub,因为它们都让工作变得更可读。混合评价则集中在 Minicor 和 Lavern 这类系统上:底层需求真实存在,但可靠性、隐私或质量证明的负担仍然很重。

常见的权宜方案非常一致:把验证前移到内环,把上下文外化到轨迹或数据库,再用明确的度量替代“凭感觉信任”。迁移模式已经从原始的“聊天 + 工具”转向分层基础设施——记忆、回放、可观测性、基准测试套件和人工闸门。竞争压力增长最快的,是那些让智能体在 API 之外操作真实系统的企业执行控制层,以及试图占据编程智能体上下文层的记忆和审查产品。


5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
Minicor fchishtie 为没有 API 的遗留系统构建并运行桌面自动化 在不依赖脆弱一次性桌面脚本的前提下,把 AI 部署进核心记录系统 Windows VM/浏览器自动操作, Python 工作流, API 触发器, 反思智能体 Beta 版 帖子, 站点
Timeglass midas 把公司活动、工具与上下文连接给 AI 的记忆层 Codex/Claude 工作流缺少准确的跨工具记忆 SaaS 上下文层, 工具/活动连接器, AI 助手 Beta 版 帖子, 站点
skills-for-humanity finnworks 把 171 套推理方法打包成 Claude Code skills 用可复用的决策与分析流程替代模糊提示词 JavaScript, npm, Claude Code skills 已发布 帖子, 仓库
DeepSWE ammar_x 在原始任务上对长时程编程智能体做基准测试 受污染或薄弱的评估会掩盖模型真实差异 Harbor/Pier 任务格式, 隔离环境, 程序验证器 已发布 帖子, 仓库, 博客
PrismCat etgpao 面向 LLM API 的透明本地代理和调试器 隐藏的 SDK 提示词注入,以及难以调试的流式/工具调用故障 Go, SQLite, 单个二进制, HTTP 代理 已发布 帖子, 仓库
chunk sidecars olafmol 在 commit 或 push 前运行远程 microVM 验证 当 CI 失败暴露出来时,智能体上下文往往已经往前走了 Go CLI, microVM sidecars, Firecracker, E2B, CircleCI Beta 版 帖子, 仓库
Lavern anttihero 带有辩论和人工闸门的多智能体法律审查与起草系统 需要可审计、且有证据支撑审查的法律 AI 工作流 TypeScript, React 仪表盘, Anthropic/Mistral/Ollama, MCP 工具 Alpha 版 帖子, 仓库
Judicex vforno 在证据不足时会选择拒答的证据驱动法律 AI 工作台 在不产生幻觉答案、也不被 SaaS 锁定的前提下做法律起草和案情分析 Python, Flask, SQLite, Ollama/OpenAI/Anthropic, MCP Alpha 版 帖子, 仓库
vibeshub bhavya6187 托管可回放的 Claude Code 轨迹,并把它们关联到 PR 在缺少智能体推理上下文时审查 vibe coding 生成的 diff FastAPI, React/Vite, GitHub OAuth, Claude Code 插件 Beta 版 帖子, 站点, 仓库

Minicor 之所以重要,是因为它把桌面操作问题翻译成了企业运营语言,而不是演示语言。产品叙事的重点是确定性工作流、恢复能力、可观测性和部署灵活性,而 HN 基本都在追问隐私、合规和可靠性的边界条件,而不是这个用例是否存在。

Timeglass、vibeshub 和 skills-for-humanity 展示出一条围绕智能体脚手架的清晰横向构建路线:一个要做全组织记忆,一个要做可回放的审查上下文,一个要做可复用的推理方法。共同触发因素是,团队不再相信原始聊天历史或裸 diff 足以承载审查与协同所需的上下文。

DeepSWE、Lavern 和 Judicex 说明,证明能力与安全性正在变成产品特性本身。DeepSWE 试图可信地衡量长时程编程能力,而 Lavern 与 Judicex 则在受监管工作流上下注了不同路线:一个是多智能体辩论加人工闸门,一个是失败即拒答的证据约束。chunk sidecars 和 PrismCat 则从执行侧补齐同一模式,把验证和可观测性变成一等公民,而不是可有可无的收尾工作。


6. 新动态与亮点

企业级桌面操作带来了当天的爆发式发布

《Launch HN: Minicor (YC P26) – Windows desktop automations at scale》 拿到了 62 积分和 44 条评论,这只占当天总积分的 18%,却占了全部讨论的 39%。这之所以重要,是因为它表明:当智能体离开软件仓库,开始接触医疗、金融等遗留桌面核心系统时,HN 会给出明显超出平均水平的关注。最强的问题都围绕 PHI、本地部署和可观测性,这正是一个生产级市场的典型声音。

面向消费端的亲密关系 AI 引发了当天最尖锐的反弹之一

《AI Startup Says It Will Pay People $2k a Month to Masturbate》(29 积分,31 评论)是当天第二大的讨论线程。Decrypt 称,Joi AI 正在招募 10 名测试者,用 4 周时间评估与情绪匹配的 AI 引导自慰体验,报酬为 2,000 美元;它把这件事定位成产品反馈,同时也想借此引发围绕数字亲密关系的讨论。HN 的回复大多并不买账:da-x(得分 0)问,这是不是已经到了“AI 荒诞巅峰”;dpark(得分 0)则说,这个品类非常反乌托邦。

法律 AI 在多智能体野心与保守拒答之间分化

《Show HN: Lavern: an open-source multi-agent legal system (Apache 2.0)》《Show HN: Judicex – Open-source legal AI that abstains instead of hallucinating》 放在一起值得注意,因为它们在同一垂直领域里体现了相反的产品直觉。Lavern 把辩论、验证循环和人工闸门分布在 67 个智能体角色之间;Judicex 则押注证据绑定引用、本地控制和明确的拒答状态。共同信号是,法律 AI 构建者现在把工作流安全和证据当成差异化能力,而不是事后补上的东西。

基准测试和遥测正在变成产品,而不只是内部杂务

《DeepSWE: A contamination-free benchmark for long-horizon coding agents》《Is Claude Code Getting Worse? How to Measure Degradation with OpenTelemetry》 显示,度量正在变成一等产品能力。一个试图在基准层修复评估质量;另一个则主张用运营仪表盘,在团队从速度上感受到之前,就发现上下文膨胀和每 token 产出效率下降。这是从“相信演示”转向“给系统上仪表盘”的重要转变。


7. 机会在哪里

[+++] 真实系统中智能体的执行控制与可观测性 —— Minicorchunk sidecarsPrismCat 分别从桌面工作流、与 CI 一致的验证,以及 API 层黑盒日志切入同一个缺口。这个机会很强,因为需求已经被明确说出、具有操作性,而且与故障成本直接绑定。

[+++] AI 工作的记忆、可追溯性与审查上下文 —— Timeglassvibeshubsynapcores-agent 表明,团队希望智能体工作能跨过会话,并且对审查者和同事仍然清晰可读。这同样很强,因为这种痛点在产品、角色和工作流阶段里反复出现。

[++] 把评估、遥测与安全拒答结合起来的智能体 QA —— DeepSWEOpenTelemetry 监测文章 在推动度量,而 JudicexLavern 展示了,在受监管工作里,安全契约和人工闸门可以如何补足这些度量。这个机会是中等强度,因为需求明确存在,但这个品类还没完全成形。

[+] 面向角色的推理与工作流包 —— skills-for-humanityLavernJudicex 都说明,相比再做一个通用助手,可复用的特定工作流程更有吸引力。这个信号还在浮现,不算主导趋势,但很一致。


8. 要点总结

  1. HN 最强的需求是受约束的执行,而不是不受约束的自治。 Minicor、PrismCat 和 chunk sidecars 之所以获得关注,是因为它们让智能体行为更可观测、可回放,或者更容易在损害扩散前把验证做完。(来源, 来源, 来源)
  2. 记忆和审查上下文,正在变成编程智能体周边的独立产品层。 Timeglass、vibeshub 和 SynapCores 都默认:缺的不是又一次工具调用,而是队友可以检查和复用的持久上下文。(来源, 来源, 来源)
  3. 智能体质量宣称,现在要么拿出真实度量,要么明确拒答。 DeepSWE 和 OpenTelemetry 监测文章在推动更好的评估与退化跟踪,而 Judicex 和 Lavern 则说明,受监管工作中的构建者越来越把证据契约和人工闸门当成差异化能力。(来源, 来源, 来源, 来源)
  4. 可复用流程,正比泛化提示词更像一个明确的产品卖点。 skills-for-humanity 直接打包推理方法,而那几个法律项目打包的是工作流逻辑,而不只是“和模型聊天”。(来源, 来源, 来源)
  5. 当商业化越过社会信任边界时,AI 仍会立刻触发反弹。 Joi AI 那条线程收到了 31 条评论,主要引发的是“AI 荒诞巅峰”和反乌托邦反应,而不是好奇,这提醒我们:一个品类的关注度可以很快从新奇翻转成厌恶。(来源)