从模型到 Agent:参加 2026 火山引擎原动力大会后,对 AI 下一阶段的几点思考

2026 火山引擎原动力大会(FORCE'26 Summer)入场广场,地面 Logo 和立体装置相当有气势
这两天参加了字节火山引擎 2026 原动力大会。
相比把它看作一次产品发布会,我更愿意把它看作一个观察 AI 行业阶段变化的窗口。
过去两年,行业大部分注意力都集中在大模型本身:模型参数、能力榜单、推理成本、上下文长度、多模态能力。但这次大会给我的感觉是,讨论正在发生变化——从"模型有多强",逐步转向"模型如何进入产业与企业"。
两天的主题变化也很清晰。第一天主要围绕底层能力,包括大模型、多模态、AI Infra 和算力基础设施;第二天则明显转向应用侧,尤其是 Agent 在企业中的落地方式。
这也代表了行业正在进入的新阶段:模型能力仍然重要,但真正的问题开始变成——有了 AI 之后,我们到底怎么用它。

大会第一天的核心趋势判断幻灯片,三个方向基本代表了当前行业共识
一、模型竞争还会继续,但多模态可能成为突破口
大模型的竞争不会停止,这是确定的。
尤其是在 Coding Agent 这类场景中,本质仍然是语言模型能力的竞争:理解复杂需求、处理长上下文、进行多步推理与稳定执行。从实际使用体验来看,国内模型在这一方向上仍然处于追赶阶段,主流开发场景依然以 OpenAI 和 Claude 为主。原因也很直接:Coding Agent 拼到最后,拼的还是基础模型能力。
但另一个方向正在变得越来越重要:多模态,尤其是图像与视频生成。
这次火山展示的 Seedance 2.5 给我的印象很深。视频生成不仅是模型问题,更是数据问题。而字节的短视频生态、创作者体系与反馈闭环,本质上构成了非常强的数据优势。

Seedance 2.5 发布现场:突破故事边界、全模态参考扩容、逐拍视频编辑、拥抱全球创作者

主会场演示 Seedance 生成的短片《渔村里的画家》,舞台 FORCE 背景下效果震撼——这是中国视频生成能力的一次集中展示
所以未来的格局可能是:语言模型持续竞争,但多模态——尤其是视频方向——有机会成为中国 AI 的突破口。
二、Agent 进入企业:最大挑战不是 AI,而是组织

企业 Agent 的三种形态分工清晰:生产型负责交付物、决策辅助型支持判断、流程执行型推进闭环
如果说模型解决的是能力问题,那么 Agent 解决的是使用方式问题。但从企业视角看,目前还没有标准答案。
个人使用 AI 和企业使用 AI,是完全不同的两件事。
对个人来说,目标很简单:提高效率。但对企业来说,AI 必须嵌入组织结构之中,而组织天然意味着:权限、流程、责任、协作、安全与审计。所以很多企业 AI 系统的复杂度,本质不是技术复杂,而是组织复杂。
如果回到第一性原理,很多流程并不是完成任务必须存在的——但只要企业结构不变,这些流程就一定会继续存在。因此,企业 Agent 面临的核心问题不是"能不能做",而是:如何进入组织,并逐步改变组织的工作方式。

「打造数字员工经营体系」——可见、可控、可度量,针对管理者、IT人员、运维人员、业务人员四类角色分层设计
目前来看,最确定的落地场景是研发全生命周期。从需求分析、产品设计、架构设计、编码实现、代码审查、测试验证、缺陷修复,到文档与交付,AI 正在逐步进入整个研发链路。它不是替代某个岗位,而是在重构整个研发体系的效率模型。
但在销售、运营、供应链等更复杂的业务流程中,AI 的渗透仍然处于早期阶段——问题已经从技术能力转向组织如何使用 AI。所以未来一段时间,企业 Agent 仍然会处于百家争鸣的探索阶段。
三、展区观察:AI + 硬件在扩展边界,但载体仍未确定

展区数据点:截至 2026 年 6 月,豆包大模型日均 Tokens 调用量突破 180 万亿,算力基础设施的规模已经相当可观
展区中更吸引注意力的,往往是 AI 与硬件结合的产品。
比如一些 AI 毛绒玩具。表面上看是"会聊天的玩具",但本质变化在于:大模型让交互从规则驱动变成理解驱动,能力边界被重新定义。

展区里的 AI 毛绒玩具,发光的眼睛背后是大模型驱动的理解能力——硬件壳子没变,但交互的本质变了

展区里的 AI 硬件产品:护眼台灯结合 VR 投影交互,代表了大模型能力向消费硬件渗透的典型路径
另一个让我印象较深的是涂鸦智能这一类平台。它们更像是在做 AIoT 的中间层能力:连接设备、封装控制能力,并将 AI 能力嵌入其中,让硬件厂商可以快速构建智能产品。这与中国的制造业生态非常契合——过去缺的是"智能",现在 AI 正在补齐这一层。
但问题在于:AI 的最终载体还没有出现。
这些产品很热闹,但是否会成为下一代稳定入口,还无法判断。纯软件应用的护城河往往较弱,一旦模型能力变化,应用形态就可能被重新定义。长期来看,真正的壁垒可能来自:数据、场景、交互入口,以及软硬件结合的新形态。
四、从 ArkClaw 看 AI 产品形态:方向成立,但还在探索
这次大会我也体验了 ArkClaw。整体感受是:方向正确,但产品形态尚未收敛。

AgentKit 作为企业级 Agent 基础设施,涵盖从身份鉴权到知识库的完整运行层
ArkClaw 本质是在做云端 Agent Workspace,让 Agent 从"对话工具"变成具备运行环境、工具调用与任务执行能力的系统。这个方向我认可,原因很现实:
在企业内部推广 AI 时,第一个阻力往往不是模型,而是环境问题——不会装工具、不会配环境、不会处理 Key。ArkClaw 在一定程度上降低了这个门槛。
但同时也带来另一个问题:环境简化了,但数据开始外移。这会立刻进入企业的安全、权限与合规问题。所以企业 Agent 的核心矛盾始终是:不仅要"能用",还要**“敢用”**。
从产品形态看,字节体系里同时存在扣子、ArkClaw 等多条路线。从外部看会觉得存在一定重叠,但这其实是典型的大厂探索方式:在没有标准答案的阶段,通过"田忌赛马"让不同团队同时试错。本质是在回答同一个问题——未来 AI 的工作入口到底是什么? 是开发平台,是 Coding Agent,是数字员工,还是新的系统入口?目前没有答案。
与此同时,当前云平台也尚未完成从 Cloud Native 到 AI Native 的转变。即便在统一平台内,开发者仍然需要处理 Key、Endpoint、资源配置等问题,本质仍然是"人组装系统"。而 AI Native 的方向应该是:用户只表达目标,系统自动完成资源组合与执行。
五、趋势判断:从模型能力走向系统结构
如果把这次大会的观察压缩成几个判断:
大模型竞争仍将长期持续,尤其是在 Coding Agent 方向,底层语言模型能力仍然是核心瓶颈。但多模态正在成为另一条关键路径,视频与图像生成可能成为中国 AI 更具优势的突破方向。
AI 在企业中的落地已经开始,但真正挑战不在技术,而在组织。目前最确定的价值来自研发全生命周期的提效,但进入业务流程后,问题会转变为组织如何使用 AI。
AI 最终会以什么形态存在,目前仍无定论。应用、平台、硬件都还在探索阶段,没有收敛。纯软件应用容易被模型能力吞噬,而新的交互入口仍在演化。
因此更现实的状态是:
AI 正在从局部场景渗透,而不是一次性形成终局。 它先改变一个个具体流程,再逐步重构系统结构。等这些变化累积到足够规模时,新的形态才会自然出现。
这篇是会后的即时记录,想法可能不够完整,欢迎讨论。