字节跳动旗下的研究人员最近展示了一款名为 OmniHuman-1 的全新人工智能系统,它能够生成目前看起来最为逼真的“深度伪造”视频。所谓“深度伪造”,就是利用人工智能技术将一个人的面部或其他特征合成到视频中,让其看起来像是在做某些从未真正做过的事情。

Screenshot_2025-02-04_at_11.15.25a_¯AM-transformed-1

如今,深度伪造技术已经非常普及。市面上有很多应用程序可以将某人的脸合成到照片中,或者让某人看起来像是说出了他们从未真正说过的话。不过,大多数深度伪造视频,尤其是视频类的,通常都存在一些明显的破绽,让人一眼就能看出是经过人工智能处理的。

然而,OmniHuman-1 似乎打破了这一局面。从字节跳动团队发布的精选视频来看,OmniHuman-1 生成的深度伪造视频几乎达到了以假乱真的程度。比如,它可以生成一段虚构的泰勒·斯威夫特(Taylor Swift)的表演视频,或者一个从未真正发生的 TED 演讲视频,甚至还能伪造一段爱因斯坦(Einstein)的讲座视频。

据字节跳动的研究人员介绍,OmniHuman-1 只需要一张参考图像和一段音频,比如语音或歌声,就能生成任意长度的视频片段。而且,生成的视频的宽高比和人物的身体比例(即人物身体在视频画面中所占的比例)都可以根据需要进行调整。

OmniHuman-1 基于 19000 小时的视频内容进行训练,这些视频的具体来源尚未公开。它不仅可以生成新的视频,还能对现有的视频进行编辑,甚至可以修改人物肢体的动作。其生成的结果非常逼真,令人惊叹。

当然,OmniHuman-1 并非完美无缺。字节跳动团队指出,如果参考图像质量较差,生成的视频效果也会大打折扣。此外,该系统在处理某些姿势时也会遇到困难,比如在一段视频中,人物举酒杯的动作看起来就有些奇怪。

尽管如此,OmniHuman-1 仍然远远超过了以往的深度伪造技术,堪称目前最先进的深度伪造系统之一。虽然字节跳动目前尚未对外发布该系统,但人工智能社区通常能够很快地逆向工程出类似的模型。

然而,OmniHuman-1 的出现也引发了诸多担忧。近年来,深度伪造技术被滥用的情况屡见不鲜。在摩尔多瓦,深度伪造视频描绘了该国总统玛娅·桑杜(Maia Sandu)辞职的场景。而在南非,一段伪造的说唱歌手埃米纳姆(Eminem)支持南非反对党的视频在该国选举前流传。

除了政治领域,深度伪造技术还越来越多地被用于实施金融犯罪。消费者被伪造的名人推荐虚假投资机会的深度伪造视频欺骗,企业也被深度伪造的冒充者诈骗了数百万美元。据德勤(Deloitte)统计,2023 年人工智能生成的内容导致了超过 120 亿美元的欺诈损失,预计到 2027 年,仅在美国就可能达到 400 亿美元。

面对深度伪造技术带来的诸多问题,去年 2 月,人工智能社区中有数百人签署了一封公开信,呼吁对深度伪造进行严格监管。目前,美国联邦层面尚未出台将深度伪造定为刑事犯罪的法律,但已有超过 10 个州制定了针对人工智能辅助伪装的法规。加利福尼亚州的法律——目前处于停滞状态——将是首个赋予法官权力,要求深度伪造发布者将其撤下,否则可能面临经济处罚的法律。

不幸的是,深度伪造视频很难被检测出来。尽管一些社交网络和搜索引擎已经采取措施限制其传播,但网络上深度伪造内容的数量仍在以惊人的速度增长。在 2024 年 5 月由身份验证公司 Jumio 进行的一项调查中,60% 的受访者表示在过去一年中遇到过深度伪造内容。

72% 的受访者表示,他们每天都在担心被深度伪造内容欺骗,而大多数人支持立法以应对人工智能生成的虚假内容的泛滥。


文章标签: #人工智能 #深度伪造 #技术突破 #伦理问题 #监管挑战

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。