PCWorld解释了为何人工智能生成的视频常显得扭曲失真,其核心在于提示词使用中的常见错误,这些错误会导致角色不一致、动作卡顿和渲染异常。

这些问题之所以重要,是因为包含多个主体、详细文字或多动作序列的复杂提示,超出了当前AI视频生成器的能力范围。
五大关键改进方法包括:简化提示词、聚焦单一主体、尽量减少文字元素、进行多次生成尝试,以及提供关于外观和环境的明确细节,而非模糊描述。
来自OpenAI的Sora或Veo等AI工具承诺只需点击一下就能生成电影级质量的视频。然而,其结果有时看起来会显得虚假或扭曲。这通常不是模型本身的局限,而在于如何使用它。在本指南中,我们将分享五种经过验证的技巧,以显著提升你生成的AI视频质量。
1. 尽可能具体地描述主体
AI视频模型通常会自行填补空白,但这恰恰是问题所在。因此,你需要在描述中做到极其清晰。如果不具体,就会导致背景错误、物体扭曲或出现不想要的细节。与其使用笼统的描述如“创建一个10秒的猫咪玩耍片段”,不如采用以下更详细的描述:
主体的外观
环境与光照
动作与氛围
沿用猫咪的例子,你可以这样写:
“一只白色爪子、棕色短毛的小家猫,正在玩一个松鼠形状的毛绒玩具。场景发生在一栋独立住宅明亮的客厅里,温暖的日光从左边的窗户照进来。地板是浅色木材铺就的,背景中可以看到模糊的沙发。猫咪用爪子轻推玩具,短暂地向后跳开,然后好奇地观察着它。氛围是平静、有趣且自然的,摄像机保持在猫咪的视线高度且不移动。”
2. 进行多次生成
AI视频的生成并非确定性的。这意味着即使使用完全相同的提示词,结果通常也会有显著差异。一个失败的视频并不自动意味着提示词不好。
有经验的用户会刻意创建同一片段的多版本。即使是动作、视角或时机上的微小变化,也可能带来天壤之别,从不合格到出奇地好。
一个简单的经验法则是:如果五到十次生成都无法产生令人信服的结果,那么问题不在于工具,而在于提示词。
3. 刻意保持场景简短且聚焦
大多数AI视频生成器设计用于制作仅持续几秒钟的简短、独立的序列。如果在单个片段中结合了多个动作、地点或视角变化,出错的可能性就会显著增加:角色突然改变外貌、物体消失、动作常常显得不自然或卡顿。
描述完整序列的提示词尤其成问题。以下是一个例子:
“一个人早上离开公寓,走过一条繁忙的街道,进入一家咖啡馆,点了一杯咖啡,在窗边坐下,若有所思地望向窗外。”
许多AI模型在描绘此类戏剧性情节时仍然非常不可靠。在下面生成的视频中,从一开始就出现了大量错误和不一致,因为序列显得顺序混乱:
更好的描述应该是:
“一个人坐在一家小咖啡馆的窗边座位上。温暖的光线从右侧照入。这个人正在喝咖啡,平静地望着窗外。摄像机是静止的,略微侧向面部高度。氛围平静而若有所思。”
根据此提示词生成的视频虽不完美,但效果更好:
4. 避免视频中出现文字
文字仍然是当前AI视频生成器最大的弱点之一。尽管许多模型在图像和动作上已经能达到很高的视觉质量,但在显示文字时,它们很快就会触及技术极限:字母改变形状,单词不完整,或者出现难以辨认的字符串。
主要问题在于较长的文本、变化的字体,或是书籍页面、路牌、包装标签等内容。AI需要显示的文字越多,出错的概率就越高。
如果视频中文字不可避免,你应有意识地减少文字量,只使用简单的单词或非常短的短语。
5. 限制画面中的物体数量
AI视频模型难以同时显示多个人物或物体。随着可见元素数量的增加,出错的可能性会显著上升:面孔改变、身体短暂融合,或者物体意外出现又消失。
当动作在时间或空间上被分隔开时,视频看起来会稳定得多。与其同时展示好几个人,不如逐个聚焦于他们。例如,摄像机可以从一个人摇摄到下一个人,或者将主角清晰地置于前景,而其他人则保持在画面之外。
一个例子:
“两个人相对而坐,交谈并打着手势,同时其他人在背景中走过。”
这个提示词更可能导致扭曲的面孔或不稳定的互动。下面是一个好得多的例子:
“一个人坐在桌旁说话。摄像机最初只显示这个人。然后摄像机慢慢摇摄到坐在对面的第二个人。在任何时候,两个人都没有同时完全处于焦点之中。”



