PCWorld解释了为何人工智能生成的视频常显得扭曲失真,其核心在于提示词使用中的常见错误,这些错误会导致角色不一致、动作卡顿和渲染异常。

Cover Image

这些问题之所以重要,是因为包含多个主体、详细文字或多动作序列的复杂提示,超出了当前AI视频生成器的能力范围。

五大关键改进方法包括:简化提示词、聚焦单一主体、尽量减少文字元素、进行多次生成尝试,以及提供关于外观和环境的明确细节,而非模糊描述。

来自OpenAISoraVeo等AI工具承诺只需点击一下就能生成电影级质量的视频。然而,其结果有时看起来会显得虚假或扭曲。这通常不是模型本身的局限,而在于如何使用它。在本指南中,我们将分享五种经过验证的技巧,以显著提升你生成的AI视频质量。

1. 尽可能具体地描述主体

AI视频模型通常会自行填补空白,但这恰恰是问题所在。因此,你需要在描述中做到极其清晰。如果不具体,就会导致背景错误、物体扭曲或出现不想要的细节。与其使用笼统的描述如“创建一个10秒的猫咪玩耍片段”,不如采用以下更详细的描述:

  • 主体的外观

  • 环境与光照

  • 动作与氛围

沿用猫咪的例子,你可以这样写:

“一只白色爪子、棕色短毛的小家猫,正在玩一个松鼠形状的毛绒玩具。场景发生在一栋独立住宅明亮的客厅里,温暖的日光从左边的窗户照进来。地板是浅色木材铺就的,背景中可以看到模糊的沙发。猫咪用爪子轻推玩具,短暂地向后跳开,然后好奇地观察着它。氛围是平静、有趣且自然的,摄像机保持在猫咪的视线高度且不移动。”

2. 进行多次生成

AI视频的生成并非确定性的。这意味着即使使用完全相同的提示词,结果通常也会有显著差异。一个失败的视频并不自动意味着提示词不好。

有经验的用户会刻意创建同一片段的多版本。即使是动作、视角或时机上的微小变化,也可能带来天壤之别,从不合格到出奇地好。

一个简单的经验法则是:如果五到十次生成都无法产生令人信服的结果,那么问题不在于工具,而在于提示词。

3. 刻意保持场景简短且聚焦

大多数AI视频生成器设计用于制作仅持续几秒钟的简短、独立的序列。如果在单个片段中结合了多个动作、地点或视角变化,出错的可能性就会显著增加:角色突然改变外貌、物体消失、动作常常显得不自然或卡顿。

描述完整序列的提示词尤其成问题。以下是一个例子:

“一个人早上离开公寓,走过一条繁忙的街道,进入一家咖啡馆,点了一杯咖啡,在窗边坐下,若有所思地望向窗外。”

许多AI模型在描绘此类戏剧性情节时仍然非常不可靠。在下面生成的视频中,从一开始就出现了大量错误和不一致,因为序列显得顺序混乱:

更好的描述应该是:

“一个人坐在一家小咖啡馆的窗边座位上。温暖的光线从右侧照入。这个人正在喝咖啡,平静地望着窗外。摄像机是静止的,略微侧向面部高度。氛围平静而若有所思。”

根据此提示词生成的视频虽不完美,但效果更好:

4. 避免视频中出现文字

文字仍然是当前AI视频生成器最大的弱点之一。尽管许多模型在图像和动作上已经能达到很高的视觉质量,但在显示文字时,它们很快就会触及技术极限:字母改变形状,单词不完整,或者出现难以辨认的字符串。

主要问题在于较长的文本、变化的字体,或是书籍页面、路牌、包装标签等内容。AI需要显示的文字越多,出错的概率就越高。

如果视频中文字不可避免,你应有意识地减少文字量,只使用简单的单词或非常短的短语。

5. 限制画面中的物体数量

AI视频模型难以同时显示多个人物或物体。随着可见元素数量的增加,出错的可能性会显著上升:面孔改变、身体短暂融合,或者物体意外出现又消失。

当动作在时间或空间上被分隔开时,视频看起来会稳定得多。与其同时展示好几个人,不如逐个聚焦于他们。例如,摄像机可以从一个人摇摄到下一个人,或者将主角清晰地置于前景,而其他人则保持在画面之外。

一个例子:

“两个人相对而坐,交谈并打着手势,同时其他人在背景中走过。”

这个提示词更可能导致扭曲的面孔或不稳定的互动。下面是一个好得多的例子:

“一个人坐在桌旁说话。摄像机最初只显示这个人。然后摄像机慢慢摇摄到坐在对面的第二个人。在任何时候,两个人都没有同时完全处于焦点之中。”


文章标签: #AI视频 #提示词 #失真修复 #生成技巧 #视频质量

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。