从模型到 Agent：参加 2026 火山引擎原动力大会后，对 AI 下一阶段的几点思考

AI洞察

2026-06-25·#大模型 #Agent #企业AI #火山引擎 #多模态 #AI趋势

2026 火山引擎原动力大会 FORCE 入场广场 — 2026 火山引擎原动力大会（FORCE'26 Summer）入场广场，地面 Logo 和立体装置相当有气势

这两天参加了字节火山引擎 2026 原动力大会。

相比把它看作一次产品发布会，我更愿意把它看作一个观察 AI 行业阶段变化的窗口。

过去两年，行业大部分注意力都集中在大模型本身：模型参数、能力榜单、推理成本、上下文长度、多模态能力。但这次大会给我的感觉是，讨论正在发生变化——从"模型有多强"，逐步转向"模型如何进入产业与企业"。

两天的主题变化也很清晰。第一天主要围绕底层能力，包括大模型、多模态、AI Infra 和算力基础设施；第二天则明显转向应用侧，尤其是 Agent 在企业中的落地方式。

这也代表了行业正在进入的新阶段：模型能力仍然重要，但真正的问题开始变成——有了 AI 之后，我们到底怎么用它。

大会核心趋势判断：LLM统一、多模态突破、企业Agent成熟 — 大会第一天的核心趋势判断幻灯片，三个方向基本代表了当前行业共识

一、模型竞争还会继续，但多模态可能成为突破口

大模型的竞争不会停止，这是确定的。

尤其是在 Coding Agent 这类场景中，本质仍然是语言模型能力的竞争：理解复杂需求、处理长上下文、进行多步推理与稳定执行。从实际使用体验来看，国内模型在这一方向上仍然处于追赶阶段，主流开发场景依然以 OpenAI 和 Claude 为主。原因也很直接：Coding Agent 拼到最后，拼的还是基础模型能力。

但另一个方向正在变得越来越重要：多模态，尤其是图像与视频生成。

这次火山展示的 Seedance 2.5 给我的印象很深。视频生成不仅是模型问题，更是数据问题。而字节的短视频生态、创作者体系与反馈闭环，本质上构成了非常强的数据优势。

豆包视频生成模型 Seedance 2.5 — Seedance 2.5 发布现场：突破故事边界、全模态参考扩容、逐拍视频编辑、拥抱全球创作者

Seedance 生成的短片《渔村里的画家》在主会场演示 — 主会场演示 Seedance 生成的短片《渔村里的画家》，舞台 FORCE 背景下效果震撼——这是中国视频生成能力的一次集中展示

所以未来的格局可能是：语言模型持续竞争，但多模态——尤其是视频方向——有机会成为中国 AI 的突破口。

二、Agent 进入企业：最大挑战不是 AI，而是组织

三类企业Agent：生产型、决策辅助型、流程执行型 — 企业 Agent 的三种形态分工清晰：生产型负责交付物、决策辅助型支持判断、流程执行型推进闭环

如果说模型解决的是能力问题，那么 Agent 解决的是使用方式问题。但从企业视角看，目前还没有标准答案。

个人使用 AI 和企业使用 AI，是完全不同的两件事。

对个人来说，目标很简单：提高效率。但对企业来说，AI 必须嵌入组织结构之中，而组织天然意味着：权限、流程、责任、协作、安全与审计。所以很多企业 AI 系统的复杂度，本质不是技术复杂，而是组织复杂。

如果回到第一性原理，很多流程并不是完成任务必须存在的——但只要企业结构不变，这些流程就一定会继续存在。因此，企业 Agent 面临的核心问题不是"能不能做"，而是：如何进入组织，并逐步改变组织的工作方式。

「打造数字员工经营体系」——可见、可控、可度量，针对管理者、IT人员、运维人员、业务人员四类角色分层设计

目前来看，最确定的落地场景是研发全生命周期。从需求分析、产品设计、架构设计、编码实现、代码审查、测试验证、缺陷修复，到文档与交付，AI 正在逐步进入整个研发链路。它不是替代某个岗位，而是在重构整个研发体系的效率模型。

但在销售、运营、供应链等更复杂的业务流程中，AI 的渗透仍然处于早期阶段——问题已经从技术能力转向组织如何使用 AI。所以未来一段时间，企业 Agent 仍然会处于百家争鸣的探索阶段。

三、展区观察：AI + 硬件在扩展边界，但载体仍未确定

展区 AI 基础设施展台：豆包大模型日均 Tokens 调用量突破 180 万亿 — 展区数据点：截至 2026 年 6 月，豆包大模型日均 Tokens 调用量突破 180 万亿，算力基础设施的规模已经相当可观

展区中更吸引注意力的，往往是 AI 与硬件结合的产品。

比如一些 AI 毛绒玩具。表面上看是"会聊天的玩具"，但本质变化在于：大模型让交互从规则驱动变成理解驱动，能力边界被重新定义。

展区 AI 毛绒玩具：发光眼睛的智能毛球 — 展区里的 AI 毛绒玩具，发光的眼睛背后是大模型驱动的理解能力——硬件壳子没变，但交互的本质变了

展区 AI 智能硬件：书桌反射护眼台灯配合 VR 投影交互 — 展区里的 AI 硬件产品：护眼台灯结合 VR 投影交互，代表了大模型能力向消费硬件渗透的典型路径

另一个让我印象较深的是涂鸦智能这一类平台。它们更像是在做 AIoT 的中间层能力：连接设备、封装控制能力，并将 AI 能力嵌入其中，让硬件厂商可以快速构建智能产品。这与中国的制造业生态非常契合——过去缺的是"智能"，现在 AI 正在补齐这一层。

但问题在于：AI 的最终载体还没有出现。

这些产品很热闹，但是否会成为下一代稳定入口，还无法判断。纯软件应用的护城河往往较弱，一旦模型能力变化，应用形态就可能被重新定义。长期来看，真正的壁垒可能来自：数据、场景、交互入口，以及软硬件结合的新形态。

四、从 ArkClaw 看 AI 产品形态：方向成立，但还在探索

这次大会我也体验了 ArkClaw。整体感受是：方向正确，但产品形态尚未收敛。

AgentKit 完整架构：身份鉴权、Policy、注册中心、运行时、沙箱、评测、可观测、Memory、Knowledge — AgentKit 作为企业级 Agent 基础设施，涵盖从身份鉴权到知识库的完整运行层

ArkClaw 本质是在做云端 Agent Workspace，让 Agent 从"对话工具"变成具备运行环境、工具调用与任务执行能力的系统。这个方向我认可，原因很现实：

在企业内部推广 AI 时，第一个阻力往往不是模型，而是环境问题——不会装工具、不会配环境、不会处理 Key。ArkClaw 在一定程度上降低了这个门槛。

但同时也带来另一个问题：环境简化了，但数据开始外移。这会立刻进入企业的安全、权限与合规问题。所以企业 Agent 的核心矛盾始终是：不仅要"能用"，还要**“敢用”**。

从产品形态看，字节体系里同时存在扣子、ArkClaw 等多条路线。从外部看会觉得存在一定重叠，但这其实是典型的大厂探索方式：在没有标准答案的阶段，通过"田忌赛马"让不同团队同时试错。本质是在回答同一个问题——未来 AI 的工作入口到底是什么？ 是开发平台，是 Coding Agent，是数字员工，还是新的系统入口？目前没有答案。

与此同时，当前云平台也尚未完成从 Cloud Native 到 AI Native 的转变。即便在统一平台内，开发者仍然需要处理 Key、Endpoint、资源配置等问题，本质仍然是"人组装系统"。而 AI Native 的方向应该是：用户只表达目标，系统自动完成资源组合与执行。

五、趋势判断：从模型能力走向系统结构

如果把这次大会的观察压缩成几个判断：

大模型竞争仍将长期持续，尤其是在 Coding Agent 方向，底层语言模型能力仍然是核心瓶颈。但多模态正在成为另一条关键路径，视频与图像生成可能成为中国 AI 更具优势的突破方向。

AI 在企业中的落地已经开始，但真正挑战不在技术，而在组织。目前最确定的价值来自研发全生命周期的提效，但进入业务流程后，问题会转变为组织如何使用 AI。

AI 最终会以什么形态存在，目前仍无定论。应用、平台、硬件都还在探索阶段，没有收敛。纯软件应用容易被模型能力吞噬，而新的交互入口仍在演化。

因此更现实的状态是：

AI 正在从局部场景渗透，而不是一次性形成终局。 它先改变一个个具体流程，再逐步重构系统结构。等这些变化累积到足够规模时，新的形态才会自然出现。

这篇是会后的即时记录，想法可能不够完整，欢迎讨论。

最后更新于 2026-06-27

老王太太 AI 奇遇记 AI 时代的软件工程，不再缺开发，而是缺质量