技术层面仍在追赶,海外开拓潜力巨大,中企发力AI文生视频产业

中华新闻网 2024-03-31 10:25

编者的话:近日,彭博社援引知情人士消息称,人工智能(AI)初创公司OpenAI正与好莱坞的电影公司、媒体高管和人才机构接触,鼓励电影制作人将其文生视频工具Sora整合到影视工作中。Sora发布于今年2月,仅基于文字,就可直接生成长达60秒“一镜到底”的视频。这一“革命性”创新将给行业带来怎样的冲击?中国国内相关行业发展的现状与前景怎样,海外竞争力如何?《环球时报》记者进行了调查。

大奖作品3天完成

黄楚杰是一名广告从业者,也是国内AI视频生成社区“离谱村”的负责人。今年2月,“离谱村”制作的一段3分钟的AI动画视频在美国麻省理工学院2024年“AI电影制作黑客马拉松”比赛上,获得了“最佳视频生成奖”。

黄楚杰告诉《环球时报》记者,他和团队抱着试试看的心态参赛,夺得大奖让他们感到“意外”,他感慨称,“这在没有AI技术的时代是不可想象的”。

当黄楚杰和团队得知比赛消息时,离作品提交所剩的时间已经不多,他组建的6人团队在短短3天内完成了参赛作品《离谱村的故事》,这个全部由AI制作的动画短片展现了一个奇幻的世界,里面有许多现实生活中不存在的生物,“茄子猪”“薯片花”“火龙果鱼”……看上去毫不相干的元素通过AI技术巧妙结合。除了充满奇思妙想的角色,黄楚杰和团队成员们还为视频创造了许多有趣的场景,并添加了音乐、音效和旁白。 

近年来,AI技术开始在各领域被广泛运用,AI生成功能在长文案、图片、视频、声音等领域不断突破。黄楚杰介绍说,《离谱村的故事》的制作中运用的是GPT-4文本生成模型,包括Pika、Runway、Pixverse在内的文生视频创作工具,以及如Midjourney、Suno、Audiobox等一系列图片或音效生成工具,“如果用传统的动画制作方式,我们6个人可能得需要3个月的时间。”

郎瀚威是国内外生成式AI产品业态的研究者,曾担任多个AI项目的顾问。他告诉《环球时报》记者,就文生视频工具的国际市场占有量而言,美国的Runway占有了七成以上市场,是绝对的头部。Rumway基于Gen-2模型研发,可实现影视级构图运镜,最新版本可生成4K画质视频,生成视频长度在4-16秒之间。

此前另一个引发广泛关注的文生视频模型PIKA Labs可生成3-7秒的视频,市场测评认为其语义理解能力强,画面一致性较佳。与Pika同期发布的还有Stablility AI,是全球首个基于图像模型StableDifision的文生视频应用。

作为ChatGPT的开发者,OpenAI一直在持续引领这一轮生成式AI的技术爆发。它于2月中旬推出了Sora,并展示了一系列高清视频剪辑的成果,立即引发了业界的“地震”。

《环球时报》记者了解到,OpenAI最新发布的文生视频模型Sora,也使用了Diffusion的模型,并叠加Transformer架构,其展示的效果相比其他的文生视频模型如Runway、Pika有了更显著的提升。具体优势包括灵活的视频尺寸和更长的视频时长、多模态的视频生成能力、视频时间线的灵活扩展等。对于Sora及其已发布的演示视频,黄楚杰用“非常震撼”来形容他的第一印象。他同时也开始思考,Sora的技术原理与应用前景如何,中企的机会点在哪里。

中国产品已经“出海”

黄楚杰说,这次麻省理工学院比赛的获奖者中,来自中国的团队占了大多数。他告诉记者,虽然在大模型的技术层面,国内距离海外的顶尖团队还有差距,但从文生视频技术应用的角度,以及在内容制作所需的想象力和讲故事的能力上,中国团队的竞争力不容小觑,“我们属于第一梯队”。

中企在国内市场的文生视频产业布局已在加速。国海证券在2023年年末发布的《AIGC专题报告》中,列举了部分国内文生视频模型,包括由清华团队发布的CogVideo、字节跳动推出的MagicVideo等。上个月,阿里云旗下魔搭社区上线文本生成视频大模型。快手方面亦宣布,正积极推进文生视频的技术研发。

海外市场方面,业内人士告诉《环球时报》记者,近年来,中国AI企业已经抓住文生视频这一快速发展赛道的风口,积极“出海”开拓市场。

国内最早成立的AI视频社区之一“故事接龙(StoryStorm)”的创始人宋东桓告诉《环球时报》记者,目前,至少有数十家中国企业拥有专门针对出海市场的文生视频工具产品或相关项目,主要目标市场为美国和欧洲。据介绍,“故事接龙”由500多名AI视频创作者组成,其中约100名核心成员是“中国AI内容生成领域的佼佼者”。

宋东桓列举了几个中国企业面向海外用户推出的AI文生视频工具,如PixVerse和NeverEnds。“尽管很多人不知道,但它们的确都是中国公司的产品。”宋东桓告诉《环球时报》记者,在“出海”的视频相关产品中,中国用户可能更熟悉CapCut,也就是国际版的剪映,目前它在全球的下载量已超5亿次。“CapCut虽然不是专门意义上的文生视频应用,但最近也新增了AI功能。”宋东桓说。

业内普遍认为,文生视频有望引领AI产业新一轮的景气度。业内人士预测,在今明两年里,AI生成的视频内容将有100倍的增量。中国AIGC产业联盟发起人倪考梦告诉《环球时报》记者,就当下的情况来看,说中国企业的产品数量占据了海外文生视频市场的半壁江山,也毫不夸张。

但也有观察人士认为,数量上的“半壁江山”,和海外技术领先产品在实际使用率及影响力上还存在差距。专业人士指出,尽管文生视频在技术层面没有很多超预期的挑战,但国内企业在追赶Sora的过程中也将受到算力、数据和工程能力等诸多现实约束。

商业发展路还很长

3月26日,OpenAI发布了首批拿到Sora授权的导演、艺术家们创作的7部短片,再一次为影视行业带来震撼。一些创作者称,借助文生视频工具,创作者可以产出曾经难以完成的作品与故事。郎瀚威表示,文生视频技术主要运用于故事片、纪录片、音乐MV等制作,将极大提高影视行业的效率。

“OpenAI正加速推动其文生视频产品Sora,并向好莱坞展开‘魅力攻势’。”美国科技媒体Mashable在25日的报道中称。“一切都只是时间问题。”知名影视制作人杰森·海勒曼认为,Sora的发布必然会引起电影公司和电影制片人的兴趣,若其有效与行业协同运作,整个影视行业的成本将会大大降低,就业岗位也会随之减少。OpenAI发言人在一份声明中称:“OpenAI会逐步地、有计划地进行创新,以确保每一步都是安全可控的,并让公众和行业逐渐适应新技术。”

游戏行业也将面临颠覆式变革。美国《福布斯》杂志举例称,Jabali是一家生成式AI游戏引擎初创公司,该公司开发的生成式AI游戏引擎可以让用户无需丰富的游戏开发知识,即可创建开发新游戏。Jabali已获500万美元的投资,创始团队由来自亚马逊、Meta、Zynga和微软的资深高管以及领先的人工智能研究人员组成。

清华大学新闻与传播学院博士后张家铖长期从事生成式AI相关领域的实践与研究,他告诉《环球时报》记者,上述领域以外,文生视频技术也将显著提高广告与营销行业的业务效率,VR(虚拟现实)和AR(增强现实)产业也有望受益于此。编剧出身的宋东桓告诉《环球时报》记者,借助AI的优势在于降低创作门槛,更会讲故事或更擅长表达的作者将具备相对较强的竞争力。

囿于技术、算力成本和普及度,眼下的文生视频产业离成熟化的商业发展,还有很长的一段路要走。张家铖认为,当前追赶Sora企业面临的技术痛点一是因果推断能力不足,造成物理层面呈现出的交互、运动出现误差;二是“幻觉问题”,“AI还是无法理解多个角色之间的交互,也有可能是算力不够,解决不了这么多细节”。

有业内人士称,当前即使Sora真的推向市场,能负担其高额算力成本的企业也在少数。上述人士告诉《环球时报》记者,用现在的Sora来制作一个1分钟的长镜头,其产生的算力成本或将比实拍还要高。“也许到了以后,技术上去了,用的人也越来越多了,算力成本下来后,商业化的路子才能打得更开。”

AI技术带来了创新和便利。但AI生成视频在迅速发展的同时,也可能带来如伦理和知识产权等方面的隐患,让公众对这一新技术既充满期待,又饱含担忧。对此,宋东桓坦言,在AI的时代,证明一个视频是人类制作而非AI工具生成的难度将越来越大。“今后或将采取倒逼原创者通过权证上链(上传到区块链)的方式,来自证作品的原创性。”

上一篇:碰瓷台海局势?日媒炒作日本拟将16处机场港湾定为“有事”据点,借口“涉台担忧”
下一篇:日本厚生劳动省将于31日调查小林制药和歌山县工厂