跳转至

YouTube AI 报告 - 2026-05-02

1. 人们在讨论什么

1.1 类人机器人从纪录片走向工厂车间 🡕

五支视频合计 340K 播放量,覆盖从调查新闻到独家工厂参观的类人机器人内容,使它成为按总触达计算的主导主题,也是按日环比指标看增长最快的主题。

类人机器人,以及炒作与现实之间的差距 | Bloomberg Primer

Bloomberg Originals(5M 订阅者)的 24 分钟调查纪录片继续加速,目前达到 217K 播放量——比前一天的 190K 增加 27,665,是数据集中最大绝对播放量增幅。该片覆盖训练数据缺口、工厂试验、全球竞争和数十亿美元投入,并得出结论:病毒式演示与生产部署之间的差距仍然很大(类人机器人,以及炒作与现实之间的差距)。

Figure 首次完整总部参观:从实验室到工厂车间

Sourcery with Molly O'Shea(39.5K 订阅者)发布了 Figure 机器人总部首次完整园区参观,创始人兼 CEO Brett Adcock 出镜。72 分钟视频走访系统集成实验室、类人机器人测试设施和 BotQ 制造车间(Figure 首次完整总部参观)。75K 播放量和 457 条评论——数据集中第二高评论数,对这个规模的频道来说互动率异常高。上传时间为 2026-05-01。

来自中国的新 AI 机器人突破人类极限

AI Revolution 报道了 AGIBOT 的新类人机器人阵容、韩国自修复人工肌肉(Seoul National University,发表于 Science Advances)、北京类人机器人半程马拉松,以及 Physical Intelligence 的 pi-0.7——一个通用机器人模型,展现出组合泛化能力,能重新组合来自不同任务的技能,解决训练数据中从未出现过的问题(来自中国的新 AI 机器人突破人类极限)。41K 播放量。

AI News 报道了 Amazon 与 NEURA Robotics 合作,借助 AWS 将 4NE1 类人机器人部署到物流环境,以及 Agile Robots 在 Hannover Messe 2026 展出的 71 自由度 Agile 1 类人机器人(Amazon GEN 3.5 AI 机器人发布)。PRO ROBOTS 报道了 Humanoid Robot EXPO Tokyo 和 Hannover Messe 2026 的亮点(日本与德国 AI 机器人)。

与前日对比: 2026-05-01 报告覆盖了 Bloomberg 的纪录片(当时 190K 播放量)和 AI Revolution,同时还包括 Figure 的制造规模化以及 Amazon/NEURA。本数据集新增 Figure 总部参观——这是机器人公司首次把完整园区开放给镜头——使叙事从“炒作 vs. 现实”的框架,转向更具体的制造证据。Bloomberg 的 +27K 日增长也说明,这部调查纪录片正在触达 AI 小众圈层之外的主流观众。

1.2 AI 推理基础设施获得独立聚光灯 🡕

一支新的推理工程技术深挖视频进入数据集,并成为整体播放量第四高的视频。

为什么推理很难..

Caleb Writes Code(77K 订阅者)发布了 15 分钟技术讲解,覆盖推理挑战:模型加载方法(mmap、标准量化)、量化格式(GGUF、AWQ、EXL2、FP8、NVFP4)和推理引擎(llama.cpp、vLLM、SGLang、TensorRT-LLM、TGI)。视频讲解了预填充、解码、并发和调度——从模型加载到服务化的完整栈(为什么推理很难..)。118K 播放量和 4,826 点赞数——数据集中第二高点赞数,仅次于 IBM 的智能体技能讲解。

RAG、GraphRAG 和上下文工程如何改善 AI 性能

IBM Technology 发布了一支 Martin Keen 出镜的新视频,把上下文工程作为一个明确命名的学科来讲解:RAG、GraphRAG 和精确检索如何提升 AI 的匹配度、治理和性能(RAG、GraphRAG 和上下文工程如何改善 AI 性能)。8.9K 播放量,560 点赞数。上传时间为 2026-05-02。

与前日对比: 2026-05-01 报告没有专门的推理或基础设施主题。Caleb 这支 118K 播放量视频的出现——且点赞播放比达到 4.1%,位居数据集前列——说明此前数据集尚未浮现的技术基础设施内容,存在强烈的潜在需求。

1.3 GPT Image 2.0 测评进入平台期 🡒

两支 GPT Image 2.0 测评视频仍在数据集中,合计 239K 播放量和 920 条评论,但增长已经明显放缓。

Nano Banana 终于被拉下王座。GPT-Image 2.0 完整测试

Futurepedia 将 ChatGPT Images 2.0 与此前的头部模型正面对比,结论是 “Nano Banana” 已被拉下王座。测评覆盖写实效果、角色一致性、复杂文字生成和风格复现(Nano Banana 终于被拉下王座。GPT-Image 2.0 完整测试)。134K 播放量(较前日 +849),3,870 点赞数。

新的 AI 图像生成器胜过一切

AI Search 发布了 35 分钟深度评测,用 100 个海报、桌面窗口、精灵图、数据可视化、漫画、UI 设计、地图、棋盘和空间理解任务测试 GPT Image 2.0(新的 AI 图像生成器胜过一切)。105K 播放量(+1,001),700 条评论——数据集中最高评论数。

与前日对比: 两支视频都出现在 2026-05-01 报告中,指标几乎相同。日增长率已经降到 1% 以下,说明这些视频基本已经覆盖了目标受众。前一份报告还包含 Baidu 的 ERNIE-Image 开源替代方案,但它已从本数据集中退出。

1.4 AI 编程工具扩展到内容创作 🡒

两支视频延续了前几天的 AI 编程叙事,但使用场景已经扩展到代码之外。

Codex 2026 完整课程:全新最佳 AI 编程工具

Riley Brown 的 OpenAI Codex 近 2 小时完整课程继续增长,目前达到 98K 播放量(较前日 +3,591)。视频展示了 Codex 作为由 GPT 5.5 驱动的多用途智能体:iOS 应用设计、落地页、投资人演示文稿和社交媒体自动化——远远超出传统编程范围(Codex 2026 完整课程)。

这个 Claude 技能可以自动创建 UGC 视频(Claude + Seedance 2.0)

Jason Lee 发布了一支教程,介绍如何结合 Claude Code 技能和 Seedance 2.0 自动化创建 UGC(用户生成内容)视频。该工作流会克隆竞品广告、生成脚本,并在无需手动剪辑或编程的情况下产出成片(这个 Claude 技能可以自动创建 UGC 视频)。12.6K 播放量。上传时间为 2026-05-01。

与前日对比: 2026-05-01 报告覆盖了 AI 编程对开发团队的影响(Molist,252K 播放量)、AI 编程对就业的影响(SimonDev,64K 播放量)和 Codex。这些高互动讨论视频——重点在后果——已经从本数据集中退出,取而代之的是实用教程。对话已经从“AI 编程会破坏什么”转向“AI 编程除了代码还能构建什么”。

1.5 小模型与递归扩展继续增长 🡕

前一份报告中小模型主题的两支视频都继续加速。

关于训练前沿小模型,我学到的一切 -- Maxime Labonne, Liquid AI

AI Engineer 发布了 Maxime Labonne 关于 Liquid AI 前沿小模型后训练的演讲。Labonne 是 LLM Course 的作者(GitHub 星标 >70K),他分享了 LFM2.5 配方:同策略偏好对齐、智能体化强化学习,以及带迭代式模型合并的课程训练。他还讨论了 1B 参数规模推理模型中的“灾难循环”及其解决方案(关于训练前沿小模型,我学到的一切)。28.7K 播放量(较前日 +5,938),886 点赞数。

递归是 AI 的下一条扩展定律

Y Combinator(2.2M 订阅者)发布了一场关于 HRM(Hierarchical Recursive Models)和 TRM(Transformer Recursive Models)的讨论:一个 700 万参数模型借助递归推理时计算,在 ARC Prize 任务上的表现超过规模大 1000 倍的模型(递归是 AI 的下一条扩展定律)。7.1K 播放量(较前日 +3,080,76% 增长率——数据集中最快百分比增长)。

与前日对比: 两支视频都出现在 2026-05-01 报告中。Labonne 的演讲增长 26%,Y Combinator 的视频增长 76%,说明这些技术讨论正在找到并扩大受众。与参数规模扩展相对的“小而高效”反叙事正在获得牵引力。

1.6 AI 智能体教育内容延续 🡒

什么是 AI 智能体技能,以及它们如何工作

IBM Technology 的 Martin Keen 智能体技能讲解视频继续稳步增长,目前达到 156K 播放量和 4,789 点赞数——高于 2026-05-01 报告中的 153K。该视频讲解智能体技能、LLM、RAG 和 MCP 如何结合来支撑工作流自动化(什么是 AI 智能体技能,以及它们如何工作)。这是该视频第四次出现在报告中,从 65.6K(2026-04-22)增长到 156K。

与前日对比: 2026-05-01 报告包含 Hannah Fry 的病毒式智能体风险实验(166K 播放量、16K 点赞数)和 IBM 的 OpenClaw 框架视频。二者都已从本数据集中退出。这里的智能体讨论收窄为教育内容,IBM 的智能体技能讲解是唯一高互动条目。


2. 令人困扰的问题

类人机器人炒作快于部署

Bloomberg 的纪录片(217K 播放量、250 条评论)框定了核心挫败感:公司拿出令人印象深刻的演示并吸引数十亿美元投资,但真实工厂部署仍受限于训练数据稀缺和非结构化环境复杂性。Figure 总部参观(75K 播放量、457 条评论)提供了部分反证——展示了真实制造基础设施——但参观工厂与大规模交付机器人之间的差距,仍是核心张力(类人机器人,以及炒作与现实之间的差距)。严重程度:中——这主要是投资者和行业层面的担忧,但主流可见度正在上升。

推理复杂度被低估

Caleb Writes Code 的视频(118K 播放量、4,826 点赞数)回应了一个具体挫败:训练模型和高效服务模型之间存在缺口。量化格式(GGUF、AWQ、EXL2、FP8、NVFP4)和推理引擎(llama.cpp、vLLM、SGLang、TensorRT-LLM、TGI)的数量太多,造成了碎片化格局;实践者必须在速度、质量和内存之间做复杂取舍,却缺少清晰指导(为什么推理很难..)。严重程度:高(对实践者而言)——4,826 点赞数(4.1% 点赞播放比)显示出强烈共鸣。

AI 图像生成改进消耗完注意力

两支 GPT Image 2.0 测评视频合计 239K 播放量,但日增长率低于 1%。这说明图像生成测评的受众已经被充分覆盖——最初的兴奋已经过去,观众在等待下一次能力跃迁,而不是继续观看同一版本的更多测评。严重程度:低。


3. 人们期望的功能

清晰的推理引擎选择指南

Caleb 的视频走查了五个推理引擎和六种量化格式,但底层需求是一个决策框架:在给定模型规模、硬件预算和延迟目标时,实践者应该选择哪种引擎与量化组合?该视频的高互动(4,826 点赞数)说明实践者正在主动寻找这类指导(为什么推理很难..)。机会:直接——能够自动化引擎/量化选择的工具或文档。

能在端侧可靠运行的小模型

Labonne 的演讲描述了这样一种需求:1GB 以下的模型,既能遵循指令,也能调用工具,同时不会出现灾难循环或能力干扰。当前方案需要多阶段后训练配方(SFT、偏好对齐、智能体化 RL),大多数实践者很难使用(关于训练前沿小模型,我学到的一切)。机会:竞争性——Liquid AI、Apple 和其他公司都在积极追逐这一方向。

超越演示的类人机器人基准测试

Bloomberg 的纪录片和多支机器人发布视频凸显了一个共同愿望:为真实世界环境中的类人机器人能力建立标准化、可复现的基准测试。当前证据由宣传演示和北京半程马拉松这类计时展演构成——二者都无法提供可靠的性能对比(类人机器人,以及炒作与现实之间的差距)。机会:愿景型——需要行业协同。


4. 使用中的工具与方法

工具 类别 评价 优势 局限
Codex / GPT 5.5 AI 编程智能体 (+) 多用途:代码、设计、演示文稿、社交自动化;插件 生态锁定;生成输出缺少质量门禁
Claude Code + Skills AI 编程智能体 (+) Skill 系统支持领域专用自动化(如 UGC 视频) 需要编写 skill;生态较新
Seedance 2.0 AI 视频生成 (+) 与 Claude 集成,可自动化生产 UGC 小众;大规模质量未验证
GPT Image 2.0 AI 图像生成(闭源) (+) 写实效果、文字渲染、角色一致性、空间理解 闭源/商业化;API 定价
llama.cpp 推理引擎(本地) (+) 格式支持广;支持 CPU 和 GPU 并发服务时相对 vLLM/SGLang 有性能取舍
vLLM 推理引擎(服务化) (+) 并发请求吞吐量高 设置比 llama.cpp 更复杂
SGLang 推理引擎(服务化) (+) 结构化生成;性能有竞争力 较新;社区较小
TensorRT-LLM 推理引擎(NVIDIA) (+/-) 针对 NVIDIA GPU 优化 供应商锁定;配置复杂
GGUF / AWQ / EXL2 量化格式 (+/-) 让大模型能在较小硬件上运行 生态碎片化;质量-速度取舍不清晰
FP8 / NVFP4 量化(NVIDIA) (+) 现代 NVIDIA GPU 原生硬件支持 仅限 NVIDIA
LFM2.5 小语言模型(Liquid AI) (+) 1GB 以下、工具调用、指令遵循 需要多阶段后训练;1B 规模会出现灾难循环
MCP 智能体协议 (+) 跨供应商:IBM、Anthropic、Codex 落地形态碎片化
RAG / GraphRAG 检索架构 (+) 上下文工程可改善 AI 性能 落地质量不一
pi-0.7 机器人基础模型 (+) 组合泛化;可处理训练数据之外的任务 研究阶段;机器人平台有限

推理工具格局明显碎片化:五个不同引擎和六种量化格式争夺实践者注意力,而且还没有能覆盖所有使用场景的明确赢家。在 AI 编程领域,Codex 和 Claude Code 正在分化——Codex 走向通用智能体(设计、演示文稿、自动化),Claude 则走向基于 skill 的领域专门化(UGC 视频创作)。智能体协议层(MCP、RAG、GraphRAG)继续作为编程和企业智能体使用场景之间的连接组织。


5. 人们在构建什么

项目 构建者 功能 解决的问题 技术栈 阶段 链接
LFM2.5 Maxime Labonne / Liquid AI 具备工具调用能力的前沿小模型(<1GB) 无需云依赖的端侧 AI 门控短卷积、偏好对齐、智能体化 RL Shipped Liquid AI
HRM / TRM Researchers(由 YC 报道) 递归推理模型 小模型在推理任务上达到 SOTA 递归推理时计算 Research YC discussion
pi-0.7 Physical Intelligence 通用机器人基础模型 无需任务专用训练的组合式任务泛化 视觉-语言-动作模型 Research Blog post
Figure Humanoids / BotQ Figure (Brett Adcock) 拥有完整内部制造体系的类人机器人 将类人机器人生产从原型扩展到工厂 系统集成实验室、BotQ 制造 Manufacturing Figure HQ Tour
AGIBOT Humanoids AGIBOT A2 Ultra、A3、G2、Genie 系列机器人 工业与物流自动化 Physical AI Production AGIBOT
4NE1 / Neuraverse NEURA Robotics + Amazon 具备 AWS 驱动共享智能的类人机器人 借助云连接学习推进物流自动化 AWS、Neuraverse 平台 Partnership AI News coverage
Claude UGC Skill Jason Lee 基于竞品广告自动创建 UGC 视频 消除广告创作中的手动视频剪辑 Claude Code、Seedance 2.0 Shipped Tutorial

Figure 的总部参观是数据集中最详细的制造证据。Brett Adcock 走访了每个部门——给机器人做压力测试的系统集成实验室、类人机器人测试楼层,以及 Figure 的制造设施 BotQ。参观展示的是真实生产基础设施,不是渲染图或演示,这使它区别于其他机器人公告。

Physical Intelligence 的 pi-0.7代表了机器人学习的一次质变:该模型展现出组合泛化能力,可以重新组合来自不同训练任务的技能,解决从未训练过的新问题,包括让一个新机器人平台在没有洗衣专用训练数据的情况下叠衣服。


6. 新动态与亮点

推理工程成为独立内容类别

Caleb Writes Code 的 “Why Inference is hard..”(118K 播放量、4,826 点赞数)是本数据集系列中第一支专门聚焦推理基础设施、而不是模型能力的高互动视频。该视频的成功——点赞数在数据集中排名第二——说明随着更多实践者从训练走向部署,推理复杂度正在成为首要关切。五个引擎和六种量化格式的格局,反映出基础设施层仍处于活跃竞争中(为什么推理很难..)。

Figure 向镜头开放工厂

Sourcery 对 Figure 完整园区的 72 分钟参观,是类人机器人公司首次向媒体完整开放制造运营。一个 39.5K 订阅者频道获得 457 条评论,说明观众强烈关注并好奇:脱离宣传视频后,机器人制造到底是什么样(Figure 首次完整总部参观)。

上下文工程成为明确学科

IBM Technology 的新视频明确把“上下文工程”框定为一种独立实践——如何构建 RAG、GraphRAG 和检索 pipeline 来提升 AI 性能。底层技术并不新,但把它们命名并系统化为一门学科,说明 AI 基础设施栈正在成熟(RAG、GraphRAG 和上下文工程如何改善 AI 性能)。

美国对中国 AI 芯片限制继续扩大

Fox Business 关于美国对华虹 AI 芯片技术出口管制的报道增长 +6,279 播放量(从 19.4K 到 25.6K),是数据集中第二快增长率。190 条评论说明,这一话题在典型 AI 受众之外也引发了活跃的政治参与(美国阻止先进 AI 芯片技术流向中国华虹)。


7. 机会在哪里

[+++] 推理工具与决策框架——Caleb 关于推理复杂度的 118K 播放量视频,加上五个引擎和六种量化格式构成的碎片化格局,指向一个明确缺口:实践者需要能基于硬件、模型和延迟约束推荐或自动化选择引擎与量化方案的工具。4,826 点赞数(4.1% 点赞播放比)确认了强需求。IBM 的上下文工程视频提供了互补的基础设施信号。

[+++] 类人机器人制造基础设施——Bloomberg 的纪录片(217K 播放量,日增 +28K)、Figure 的工厂参观(76K 播放量、457 条评论)和另外五支机器人视频显示出持续动能。机会不在于造机器人本身,而在于支撑基础设施:感知系统、训练数据 pipeline、仿真环境和制造工具。

[++] 高效小模型与递归架构——Labonne 的 LFM2.5 配方和 Y Combinator 的递归推理报道都显著增长(分别 +26% 和 +76%)。帮助实践者训练、部署和优化 1B 以下参数模型的工具、服务和基础设施,正在获得一个增长且越来越技术化的受众。

[++] 面向非代码创意工作的 AI 编程工具——Riley Brown 的 Codex 课程(98K 播放量)展示了该工具用于设计、演示文稿和社交自动化。Jason Lee 的 Claude UGC skill 展示了自动化视频广告创作。这个模式是:AI 编程工具正在扩展到内容创作、营销和业务运营。能让非开发者也用上这种扩展能力的平台,还有增长空间。

[+] AEO (AI Engine Optimization)——Ahrefs 的课程(2.6K 播放量,+281)继续把 AEO 定义为一门学科。数字不大,但来源权威,而且随着 AI 搜索引擎成为主要内容发现渠道,结构性顺风仍在。


8. 要点总结

  1. 类人机器人是主导主题,由 Bloomberg 快速增长的纪录片和 Figure 前所未有的工厂参观推动。 Bloomberg 单日增长 +28K 播放量至 217K;Figure 总部参观从一个 39.5K 订阅者频道获得 457 条评论——这是数据集中最高的互动/订阅者比。叙事正在从“炒作 vs. 现实”转向展示真实制造基础设施。(类人机器人,以及炒作与现实之间的差距Figure 首次完整总部参观

  2. 推理基础设施首次成为高互动独立话题。 Caleb Writes Code 对量化格式和推理引擎的技术讲解获得 118K 播放量和 4,826 点赞数,暴露出实践者对模型部署指导的强需求,而不只是训练模型的需求。(为什么推理很难..

  3. AI 编程叙事从后果转向能力。 前一日数据集包含对 AI 编程影响团队和就业的高互动讨论(Molist 252K 播放量,SimonDev 64K)。这些视频已从本数据集中退出,取而代之的是展示 Codex 和 Claude 扩展到内容创作、营销自动化和 UGC 视频生产的实用教程。(Codex 2026 完整课程Claude + Seedance 2.0

  4. 小模型和递归扩展研究继续加速。 Y Combinator 的递归推理视频单日增长 76%(最快百分比增长),而 Labonne 的 Liquid AI 演讲增长 26%。二者都用具体证据挑战“越大越好”的范式,说明架构创新可以用一小部分算力解锁能力。(关于训练前沿小模型,我学到的一切递归是 AI 的下一条扩展定律

  5. GPT Image 2.0 测评已经平台化。 Futurepedia 和 AI Search 的两支测评虽然合计 239K 播放量,但日增长都低于 1%,说明观众对这一代图像 AI 的关注已经饱和。下一波互动可能需要新的能力发布。(Nano Banana 终于被拉下王座新的 AI 图像生成器胜过一切