新型生产关系我们看好生成式AI的新范式,不仅是其远大于AI1.0的市场空间,更是看好其所代表的新型生产关系。过去的生产过程中,工厂消耗能源和基础材料,制造出实体的产品。未来的核心生产关系将围绕着电力、AI模型和token(数据)展开。数据中心作为AI工厂,在电力供能下,结合AI模型,通过token不断生产信息化的并行不悖内容(语言、图形、视频、音乐等),也即是新的成产出来的产品,围绕token的新型生产关系正在形成,构筑新一轮的信息工业革命。当然以上是我们认为的远期状态,当前也仅仅是生成式AI取得大的影响力突破的第二年,该新型生产关系还在构建和发展中。生成式AI并非完美,也给应用落地带来了挑战在语言、视觉和音频领域,我们看到了过去一段时间生成式AI日新月异的发展,这离不开Transformer和Diffusion模型的突破。但与此同时,我们也看到了大语言模型存在幻觉的问题,AI生成的视频和图像也并不稳定,我们在看到巨大潜力的同时,也不能忽视其不完美的现状。B端对内容的精准、可控、一致性、可靠性、稳定性有着极高的要求,C端虽然相对要求更包容,但也存在着来自合规性的监管,这些要求给尚不满完美的生成式AI如何落地带来了挑战。Transformer模型,1)缺乏可解释性,神经网络本质上是黑箱模型,输入和输出之间的关系是通过训练数据和复杂的计算学习到的,而非通过明确的规则编码,在金融、医疗等复杂、专业或者高度监管的行业中,模型的决策过程需要符合特定的法规和标准,不可解释性可能导致合规性问题;2)会出现幻觉,产生逻辑谬误、捏造事实以及数据驱动的偏见,也就是通俗说的大模型“一本正经的胡说八道”,客户可能对模型的输出结果持怀疑态度,难以建立信任,如用AI检索的结果,为了保证真实,本末倒置需要复查,特别是在安全性和严肃性要求较高的场合此问题更加突出;3)除此之外,计算和内存消耗大,特别是在处理大规模数据集时,需要大规模并行计算能力;4)优化难度大,模型的复杂性和参数量大增加了优化难度。Diffusion模型,1)扩散模型可以生成图像和文本,但它们还难以同时理解和生成涉及多种类型数据的复杂多模态内容。比如目前用扩散模型生成一张“红色衣服”的图片较为简单,但让其生成一张胸前印着“明天总是美好的”红色衣服图像,生成的衣服上的文字往往出错;2)扩散模型仍是随机采样,导致其生成内容的精准、可控、一致性等方面仍然不足,比如同样的prompt下,AI生成的2个漫画男孩不是同一人,这就导致了应用前后不对应的问题,使得商业落地困难。虽然业界在积极探索,ControlNet,LoRA,Dreambooth等技术的出现对局部内容实现了控制,如人脸、画风、动作等,但仍有较大的进步空间;3)其基于高斯求和的方式会带来求解难度的提高,尤其随着维度的上升会带来显存占用的几何级别的增长。这种架构下,显卡的显存大小限制了视频的时长,目前最长的AI生成的视频时长在1分钟左右,仍无法在长视频应用场景呈现。虽然目前的模型能力还有不足,但我们也注意到模型架构也在迭代。工程上,如融合了Transformer和Diffusion的DiT,使用Transformer替换U-Net主干,并在潜在空间训练,展现出了比单纯Diffusion更好的训练效率和生成效果。再如Mamba架构,可进行“线性时间序列”建模,随序列长度增长其计算保持线性增长,而非Transformer的指数级膨胀,同时改善了注意力机制,争强好胜减少了处理序列数据所需的计算量,加快了数据处理速度。同时学术界也在对模型底层的数学、人脑科学做更深层次的研究,希望能找到更多样化的实现AGI的通路。落地思路:"End to End" vs "Step by Step"目前生成式AI的产业落地,大致分为2种思路,即“End to End/端到端”和“Step by Step/按步骤拆解”,相应特点也有不同。End to End以漫画创作为例,漫画工具“AI Comic Factory”,提供了简单易用的用户界面和使用步骤:
图:AI Comic Factory的创作案例
Step by Step以专业的动画创作为例,以下是国内某2B定制化AI内容创作公司的案例,专业的动画制作环节包括“人设图-分镜-排版-草稿-线稿-上色-动画”,其创作工具依照现有专业workflow设计,目标在创作过程中降本增效,目前在一些案例中可以得到40%的人力成本节省。虽然AI的能力看似无所不能,多方面都可以覆盖,但实操上每个环节涉及到众多的细节,如何反哺AI的产品能力,甚至进阶的精简/重塑专业的工作流,这都需要和产业方共建。
AI 2B发展路径:Native生成式AI公司 vs Non-native生成式AI公司我们观察到在AI 2B赛道有2类公司。一类是惊惶失措Native生成式AI公司,从0-1利用AI的模型能力为企业客户提供服务。另一类是Non-native生成式AI服务公司,比如数字化时代的企业服务公司,他们通常已在一些2B场景里取得了不错的结果,如今把生成式AI能力融合到现有场景中,谋求更好的实现效果。第一类路径比如在视频制作领域有众多的Native生成式AI创业公司,他们致力于通过AI模型,输入文字或者图像直接产出视频。随着Sora的推出,我们观察到众多相关创业公司当前的努力重点还是提升模型能力,尽快复刻Sora展现出来的效果。我们认为如果想要将其做成一个企业级的应用产品,合理的路径除了进一步提高模型本身之外,还需要1)产品的功能设计和工作流相结合,如增加分镜的顺序组合搭配工具,使得生成的视频具备故事性;2)增加编辑和控制工具,如局部内容的特定颜色,特效的编辑功能,或者关键帧的控制工具等。通过和产业需求和know-how结合,才能将模型能力变成产品,且其符合使用习惯从而取得很好的落地效果。第二类路径智能化的基础是数字化,很多场景已经在AI1.0时代被企业服务公司覆盖,如智能客服、AI营销、翻译等。在已经被数字化改造的行业的提供企业服务公司,其有沉淀的场景数据,有业务的落地,有现成的客户access,如果叠加生成式AI的能力,如把大模型应用到客服系统和营销对话场景,对话效果比AI1.0的模型更加自然,从而获得更高的用户满意度和付费转化率。再如大模型对商业运营表现和市场商机进行分析,进一步完善BI(商业智能)的功能,这些都可以加深对客户的服务深度和拓宽服务边界,增加企业客户对产品的价值感。我们观察到在AI电商营销领域,随着生成式AI技术的普及,原本处于不同环节分工的企业,都在拓宽服务边界,俗不可耐彼此渗透,例如提供AI客服的公司,使用大模型能力,不仅提升了客户对话能力,也拓展到AI蓄客、营销文案制作、数字人、智能营销切片等。因此我们认为以上也是一个生成式AI 2B有机会的发展路径。结语生成式AI技术解锁了巨大的市场空间和可能性,但当前技术并不完美,特别在对精准性、可控性、一致性要求较高的B端产业落地面临较多挑战。End to End思路更直接,但想要取得更好的结果更依赖底层技术的突破,Step by Step思路在当前的技术栈下短期更加务实,追求降本增效。但无论哪种思路,行业的know-how,专有数据,AI与业务和管理系统的耦合,都在产业端落地中都至关重要。此外,生成式AI也是设计和生产范式的变化,年轻的创作者对新技术的拥抱度更高,AI科技公司可以参与培育新一批的AI Native的创作者,在大学共创课程体系,随着相关学生毕业进入产业界,将促成新的创作范式的行业落地,同时也形成了产品的隐性的护城河。