开年以来,大模型吞噬应用的叙事持续引发市场担忧,并波及Adobe、Figma和美图旗下的一系列影像产品。近日,投资机构a16z团队在最新报告分析中驳斥了这一观点,认为在AI生成图像、视频、音频等媒体内容领域,并不存在“统治一切”的模型。“利用多模型能力并编排成工作流”的能力将是未来竞争的关键点。
不同于“大模型吞噬应用”的论调,a16z分析认为,AI生成确实能将原本需要摄影团队数周拍摄和漫长剪辑周期的流程,转化为几条提示词和一个可直接投入生产的资产库,但在AI图像、AI视频等领域并没有出现类似大语言模型(LLM)领域的垄断现象,使用者往往会同时使用十几个模型,而且在生成一个优质成品素材的过程中,很难通过一次推理调用即获得成功。
a16z解释说,这是因为该领域的每个模型都有强项和弱项,某个模型可能擅长写实图像,或动漫风格方面表现卓越,或具备强大的物理模拟能力,但这不意味着用户会用它来同时完成背景移除、声音生成或多镜头叙事场景等任务。在实践中,开发者会将多个模型串联:生成图像,再移除背景、放大分辨率、重新着色、保持风格一致......才能达到品牌级的一致性和质量,而这不是一次提示词就能做到的,也就是说,真正的工作单元不是“单个模型”完成的,而是通过“一个工作流”完成的。
a16z表示,基于上述多样化的需求,用户需要的是一种工作流平台或软件,这类平台不仅要能快速调用各类模型、高效处理用户请求,还要编排成多步骤的流水线且高效执行,并随着技术进化不断更迭新模型。
在a16z看来,随着大模型厂商的模型能力更为惊艳,能接入多种模型并编排成完整工作流的公司也将进一步提升自己核心竞争力,而且它们还能帮助模型厂商从原型深入生产一线。

未经允许不得转载:手机云川网 » a16z最新观点:AI影像的关键并非“单一模型”能力,而是“完整工作流”






