字节跳动新系统让深度伪造视频逼真到惊人

字节跳动旗下的研究人员最近展示了一款名为 OmniHuman-1 的全新人工智能系统，它能够生成目前看起来最为逼真的“深度伪造”视频。所谓“深度伪造”，就是利用人工智能技术将一个人的面部或其他特征合成到视频中，让其看起来像是在做某些从未真正做过的事情。

Screenshot_2025-02-04_at_11.15.25a_¯AM-transformed-1

如今，深度伪造技术已经非常普及。市面上有很多应用程序可以将某人的脸合成到照片中，或者让某人看起来像是说出了他们从未真正说过的话。不过，大多数深度伪造视频，尤其是视频类的，通常都存在一些明显的破绽，让人一眼就能看出是经过人工智能处理的。

然而，OmniHuman-1 似乎打破了这一局面。从字节跳动团队发布的精选视频来看，OmniHuman-1 生成的深度伪造视频几乎达到了以假乱真的程度。比如，它可以生成一段虚构的泰勒·斯威夫特（Taylor Swift）的表演视频，或者一个从未真正发生的 TED 演讲视频，甚至还能伪造一段爱因斯坦（Einstein）的讲座视频。

据字节跳动的研究人员介绍，OmniHuman-1 只需要一张参考图像和一段音频，比如语音或歌声，就能生成任意长度的视频片段。而且，生成的视频的宽高比和人物的身体比例（即人物身体在视频画面中所占的比例）都可以根据需要进行调整。

OmniHuman-1 基于 19000 小时的视频内容进行训练，这些视频的具体来源尚未公开。它不仅可以生成新的视频，还能对现有的视频进行编辑，甚至可以修改人物肢体的动作。其生成的结果非常逼真，令人惊叹。

当然，OmniHuman-1 并非完美无缺。字节跳动团队指出，如果参考图像质量较差，生成的视频效果也会大打折扣。此外，该系统在处理某些姿势时也会遇到困难，比如在一段视频中，人物举酒杯的动作看起来就有些奇怪。

尽管如此，OmniHuman-1 仍然远远超过了以往的深度伪造技术，堪称目前最先进的深度伪造系统之一。虽然字节跳动目前尚未对外发布该系统，但人工智能社区通常能够很快地逆向工程出类似的模型。

然而，OmniHuman-1 的出现也引发了诸多担忧。近年来，深度伪造技术被滥用的情况屡见不鲜。在摩尔多瓦，深度伪造视频描绘了该国总统玛娅·桑杜（Maia Sandu）辞职的场景。而在南非，一段伪造的说唱歌手埃米纳姆（Eminem）支持南非反对党的视频在该国选举前流传。

除了政治领域，深度伪造技术还越来越多地被用于实施金融犯罪。消费者被伪造的名人推荐虚假投资机会的深度伪造视频欺骗，企业也被深度伪造的冒充者诈骗了数百万美元。据德勤（Deloitte）统计，2023 年人工智能生成的内容导致了超过 120 亿美元的欺诈损失，预计到 2027 年，仅在美国就可能达到 400 亿美元。

面对深度伪造技术带来的诸多问题，去年 2 月，人工智能社区中有数百人签署了一封公开信，呼吁对深度伪造进行严格监管。目前，美国联邦层面尚未出台将深度伪造定为刑事犯罪的法律，但已有超过 10 个州制定了针对人工智能辅助伪装的法规。加利福尼亚州的法律——目前处于停滞状态——将是首个赋予法官权力，要求深度伪造发布者将其撤下，否则可能面临经济处罚的法律。

不幸的是，深度伪造视频很难被检测出来。尽管一些社交网络和搜索引擎已经采取措施限制其传播，但网络上深度伪造内容的数量仍在以惊人的速度增长。在 2024 年 5 月由身份验证公司 Jumio 进行的一项调查中，60% 的受访者表示在过去一年中遇到过深度伪造内容。

72% 的受访者表示，他们每天都在担心被深度伪造内容欺骗，而大多数人支持立法以应对人工智能生成的虚假内容的泛滥。

搜索结果如下

阅读全文

字节跳动新系统让深度伪造视频逼真到惊人

也可以看看

宏碁推600Hz电竞屏，刷新率破纪录

阅读全文

PC游戏持续胜利，微软主机硬件收入拖累业绩

阅读全文

鼠托邦正式发售，萌鼠治国需平衡经济民生

阅读全文