AI应用下一个焦点已现阿里、字节悄悄上线同类神器让梅西跳舞不在话下

《科创板日报》12月5日讯（编辑宋子乔） AI视频生成神器又来了。近日，阿里和字节跳动悄摸摸上线了各自的工具。

阿里推出了Animate Anyone，该项目由阿里巴巴智能计算研究院开发，你只需提供一个静态的角色图像（包括真人、动漫/卡通角色等）和一些动作、姿势（比如跳舞、走路），便可将其动画化，同时保留角色的细节特征（如面部表情、服装细节等）。

只要有一张梅西的照片，就能让“球王”摆各种Pose（见下图），按照这一原理，让梅西跳舞也不在话下。

新加坡国立大学和字节跳动则联合推出了Magic Animate，同样是利用AI技术，将静态图像变成动态视频。字节方面表示，在挑战性极高的TikTok舞蹈数据集上，Magic Animate生成的视频的真实度比最强基线提高了超过38%。

在图生视频项目上，阿里和字节齐头并进，几乎同一时间完成了论文发布、代码公开、测试地址公开这一系列操作，两者相关论文发布时间仅相差一天。

字节相关论文发布于11月27日：

阿里相关论文发布于11月28日：

两公司在Github上的开源文件还在不断更新中。

Magic Animate的开源项目文件包

Animate Anyone的开源项目文件包

这再次点出一个事实：视频生成是AIGC热门竞技项目，科技巨头、明星公司均密切关注并积极投入。据了解，Runway、Meta、Stable AI已经推出AI文生视频应用，Adobe也在近日宣布收购AI视频创作公司Rephrase.ai。

从上述两家公司的展示视频来看，生成效果有了十分显著的提升，流畅度、真实感更胜以往。一改当下图像/视频生成应用存在的缺点，如局部扭曲、细节模糊、不符合提示词、与原图有差别、掉帧、画面抖动。

这两个工具都是通过扩散模型（diffusion models）创造时间连贯的人像动画，其训练数据很多是一样的。两者都用到的Stable Diffusion是由CompVis、Stability AI和LAION的研究人员和工程师创建的文本到图像的潜在扩散模型，该模型使用来自LAION-5B数据库子集的 512x512图像进行训练。LAION-5B是目前存在的最大的、可免费访问的多模式数据集。

谈及应用，阿里的研究人员在论文中表示，Animate Anybody作为基础方法，未来有可能扩展到各种图生视频应用，该工具有许多潜在的应用场景，例如在线零售、娱乐视频、艺术创作和虚拟角色。字节跳动也强调Magic Animate展示了强大的泛化能力，可以应用到多个场景。

▌文生视频——多模态应用的“圣杯”

相较于文字和图片，视频在信息表达、画面丰富性及动态性方面有更大优势，视频可以结合文本、图像、声音及视觉效果，在单一媒体中融合多种信息形式。

这赋予了AI视频工具强大的产品功能，进而开拓出更广阔的应用场景。通过文本描述或其他简单操作，AI视频工具即可生成较高质量和完成度视频内容，这降低了视频创作门槛，让业外人士能够精准用视频进行内容展现，有望广泛赋能各细分行业的内容生产降本增效和创意输出。

国盛证券宋嘉吉此前指出，AI文生视频是多模态应用的下一站，是多模态AIGC“圣杯”，随着AI视频补齐了AI创作多模态的最后一块拼图，下游应用的加速时刻也将到来；申港证券表示，视频AI是多模态领域的最后一环；华泰证券表示，AIGC大潮已逐步从文生文和文生图转向文生视频领域，文生视频的高计算难度和高数据要求将支撑上游AI算力需求持续旺盛。

不过，大公司之间、大公司与初创企业间的差距不算大，甚至可以说处于同一起跑线。当前文生视频可公测应用较少，仅有Runway Gen-2、Zero Scope及Pika等少数几个。即便如Meta和谷歌这样的硅谷人工智能巨头，在文生视频上同样进展缓慢，它们分别推出的Make-A-Video和Phenaki均尚未公测。

究其原因，从技术方面来看，视频生成工具的底层模型及技术仍在优化。目前主流的文生视频模型主要依托Transformer模型和扩散模型。基于扩散模型的工具重在提升视频质量，虽然克服了效果粗糙、缺少细节的难题，但其视频时长短，均在4秒以内。

另一方面，扩散模型效果虽好，但其训练过程需要非常大的内存，算力需求较大，基本只有大公司以及拿到大笔投融资的初创新星才能负担得起模型的训练成本。