欢迎来到AI视频创作的新纪元
什么是图片到视频AI生成模型?
图片到视频AI生成模型,是一类人工智能应用,它们能够接收一张静态图片作为视觉起点,并结合用户提供的文本提示词,通过复杂的算法和深度学习网络,生成一段动态的视频片段。这些模型的核心在于理解图片中的内容、风格,并根据文本指令赋予其生命,创造出连贯、自然的运动和场景变化。
与传统的视频制作流程——涉及前期策划、拍摄、灯光、演员、后期剪辑、特效合成等诸多环节——相比,AI视频生成模型极大地降低了创作门槛。用户无需专业的摄影器材、复杂的编辑软件,甚至无需深厚的影视制作知识,仅凭创意和对提示词的巧妙运用,就能快速将脑海中的画面转化为动态影像。这不仅为专业创作者提供了全新的辅助工具,也为广大爱好者打开了视频创作的大门。
目前,业界涌现出多款备受瞩目的图片到视频AI模型,各有其特色与优势。其中包括:
- OpenAI Sora: 以其生成长达一分钟的高保真视频、对物理世界规律的模拟以及对复杂场景和情感的理解能力而闻名。
- Runway (Gen-4/Gen-4 Turbo): 专注于提供快速、可控且灵活的视频生成,强调与现有真人实景、动画及视觉特效(VFX)内容的无缝融合。
- Pika Labs: 提供了丰富的参数调整选项,允许用户对视频的帧率、运动强度等进行精细控制。
- Luma AI (Dream Machine): 致力于生成具有自然运动、逼真光照和逻辑事件序列的视频,并支持迭代式创作。
- 快手 Kling: 中国公司快手推出的模型,据称能够生成长达2分钟、1080p分辨率、30fps帧率的视频,并能较好地模拟真实世界的物理特性和大幅度运动。
- Google Veo: 谷歌推出的模型,强调对电影化语言的理解,能够根据“延时摄影”、“航拍”等术语生成相应效果的视频,并逐步集成音频生成能力。
这些模型的出现,标志着AI在创意内容生成领域取得了又一重大突破。
提示词——驾驭AI的缰绳
在AI视频生成的世界里,提示词 扮演着至关重要的角色。简单来说,提示词就是用户给予AI模型的具体指令或描述,用以告知模型期望生成的视频内容应该包含什么主体、发生什么动作、呈现何种风格、营造怎样的氛围,以及镜头如何运动等。
提示词的重要性不言而喻,它直接决定了AI生成视频的:
- 相关性: 生成的视频是否准确地反映了用户的意图和描述。
- 质量: 视频的视觉效果、动作的流畅度、细节的丰富程度等。
- 创意性: 能否跳出常规,生成出乎意料但又符合逻辑的精彩片段。
一个精心设计的提示词,如同骑手手中灵巧的缰绳,能够精准地引导AI这匹“骏马”奔向用户期望的艺术彼岸。反之,模糊、混乱或不当的提示词,则可能导致AI“迷失方向”,生成不尽如人意的结果。因此,掌握提示词的设计方法与技巧,是驾驭图片到视频AI模型的关键所在。
本教程的目标与读者对象
本教程的核心目标是为广大AI视频创作者,特别是初学者,提供一套通用、实用、易懂的图片到视频AI模型提示词设计方法与技巧。我们旨在通过系统性的讲解、丰富的案例和可操作的建议,帮助读者:
- 理解提示词的基本构成和核心要素。
- 掌握描述画面内容、动态变化、视觉风格和镜头语言的有效方法。
- 学习针对不同主流模型调整和优化提示词的策略。
- 了解高级提示技巧,提升创作的深度和广度。
- 避开常见的提示词设计误区,提高创作效率和成功率。
本教程主要面向以下读者群体:
- 对AI视频创作充满好奇和热情的初学者。
- 希望系统学习和提升提示词设计能力的内容创作者、设计师、营销人员等。
- 任何渴望利用AI技术将静态图像赋予动态生命,并进行创意表达的个人或团队。
无论您是刚刚接触AI视频生成的新手,还是希望进一步打磨提示词技巧的进阶用户,本教程都将力求为您提供有价值的指导和启发。
教程结构概览
为了帮助读者循序渐进地掌握提示词的奥秘,本教程将按照以下结构展开:
- 第一章:欢迎来到AI视频创作的新纪元 – 概述图片到视频AI模型、提示词的重要性及本教程的目标。
- 第二章:磨刀不误砍柴工——认识主流图片到视频AI模型 – 介绍各大主流模型的工作流程、特性、可调参数及提示词侧重点,为后续学习打下基础。
- 第三章:提示词设计的核心原则 – 阐述编写高效提示词应遵循的基本准则,如清晰性、简洁性、具体性等。
- 第四章:构建你的第一个提示词——基础元素解析 – 详细拆解构成提示词的各个基本元素,如主体、动作、场景等,并提供描述技巧。
- 第五章:让画面动起来——精准描述动态与变化 – 专注于如何用提示词描绘各种类型的运动,包括主体运动、场景互动和细微变化。
- 第六章:导演视角——用提示词掌控镜头语言 – 讲解如何通过提示词指定镜头类型、角度、运动方式和焦点,实现电影般的视觉叙事。
- 第七章:赋予灵魂——定义视频的风格、情绪与氛围 – 探讨如何运用关键词和描述来设定视频的整体艺术风格、情感基调和环境氛围。
- 第八章:进阶之路——高级提示词技巧与策略 – 介绍更复杂的提示词技巧,如多主体互动、复杂动作序列、情感表达、风格融合及利用模型特定参数等。
- 第九章:精益求精——提示词的迭代与优化 – 分享如何分析生成结果、调整提示词,以及利用种子等功能进行可控优化的方法。
- 第十章:避坑指南——常见错误与解决之道 – 总结初学者在编写提示词时容易犯的错误,并提供相应的解决方案。
- 结语:开启你的AI视频创作新篇章 – 总结核心技巧,鼓励持续探索,并展望AI视频生成的未来。
- 附录:实用资源库 – 提供常用关键词速查表、推荐学习资源和主流模型官方文档链接。
通过以上章节的学习,我们相信您将能够逐步建立起对图片到视频AI提示词设计的深刻理解,并熟练运用于自己的创作实践中。
磨刀不误砍柴工——认识主流图片到视频AI模型
在正式深入学习提示词设计之前,了解当前主流的图片到视频AI模型及其特性至关重要。这不仅能帮助我们选择合适的工具,更能让我们理解不同模型对提示词的偏好和处理方式,从而写出更具针对性的高效指令。
通用工作流程
尽管各个模型的用户界面和具体操作可能有所不同,但它们在将图片转化为视频时,通常遵循一个相似的核心工作流程:
- 上传输入图片: 用户选择一张静态图片作为视频生成的视觉基础和第一帧。图片的质量、构图、风格等都会对最终视频产生显著影响。
- 编写文本提示词: 用户根据创作意图,用文字描述希望视频如何从输入图片开始演变,包括主体的动作、场景的变化、镜头的运动、期望的风格和氛围等。这是整个流程中最考验技巧的一环。
- 调整参数: 大多数模型会提供一系列可调整的参数,如视频时长、分辨率、宽高比、运动强度、风格强度、种子值等。合理设置这些参数可以进一步精细化控制生成结果。
- 生成视频: AI模型接收图片、提示词和参数后,开始进行计算和渲染,最终输出一段视频。生成时间因模型的不同、提示的复杂度和所选参数而异。
- (可选)迭代优化: 如果初次生成的结果不完全符合预期,用户可以通过修改提示词、调整参数,或利用模型提供的特定功能(如固定种子值微调、视频扩展等)进行多次尝试,直至获得满意的效果。
理解这一通用流程有助于我们从宏观上把握AI视频创作的全貌。
各大模型特性概览与比较
接下来,我们将对几款主流的图片到视频AI模型进行更详细的介绍,重点关注其特性、可调整参数以及提示词的侧重点。
OpenAI Sora
- 特点: Sora是OpenAI开发的一款强大的文生视频及图生视频模型。它能够生成长达一分钟的视频,同时保持较高的视觉质量和对用户提示词的忠实度。Sora在理解和模拟物理世界运动、光照效果以及复杂的镜头调度方面表现出色,甚至可以生成包含多个角色、特定类型运动和精确主题背景细节的复杂场景。它不仅能根据文本提示创建视频,还能对现有静态图像进行动画处理,或扩展现有视频片段。
- 可调整参数 (参考其可能的API或集成平台):
- 分辨率: 如480p, 720p, 1080p。
- 宽高比: 常见的有16:9(横屏)、1:1(方形)、9:16(竖屏)。
- 视频时长: 虽然Sora本身有能力生成长达1分钟的视频,但具体应用接口可能会有如5秒、10秒、15秒、20秒等不同档位的选择。
- 风格预设: 可能提供如“电影感”、“3D动画”、“超现实”等风格选项。
- 变体数量: 一次生成多个视频变体供用户选择。
- 提示词特点: Sora能够理解非常详细和富有叙事性的提示词。用户可以大胆地描述场景的细节、角色的情绪和动作、环境的氛围乃至镜头的具体运动方式。由于其对物理世界的理解能力,描述符合现实逻辑的运动和交互往往能得到更好的结果。但同时,它也可能在处理复杂物理交互的精确性、长时间序列事件的因果关系以及某些空间细节(如左右区分)上存在不足。
Runway (Gen-4 / Gen-4 Turbo)
- 特点: Runway的Gen-4模型旨在提供快速、可控且灵活的视频生成体验,生成的视频可以无缝地与真人实拍、动画和视觉特效(VFX)内容相结合。它主要基于用户提供的输入图片和文本提示词来生成5秒或10秒的视频片段。Gen-4 Turbo作为其增强版,通常具有更快的生成速度和更低的积分消耗,适合用于初步探索和快速迭代。
- 可调整参数:
- 时长: 5秒或10秒。
- 分辨率与宽高比: 支持多种标准格式,如16:9 (1280×720), 9:16 (720×1280), 1:1 (960×960)等。
- 固定种子: 允许用户使用特定的种子值来生成具有相似运动风格的视频,便于在满意的基础上进行微调。
- 提示词特点: Runway Gen-4特别强调提示词的简洁性。官方建议从简单的提示开始,然后根据需要逐步添加细节进行迭代。核心在于专注于描述运动,而非重复描述输入图片中已有的视觉元素,因为过度描述图片细节可能导致运动减少或出现意外结果。此外,Gen-4鼓励使用积极正面的措辞来描述期望发生的事情,避免使用否定性词语(如“不要移动”),因为否定性提示可能不被支持或产生不可预测甚至相反的效果。在指代主体时,使用泛指(如“the subject”)有助于模型更专注于平滑的运动。
Pika Labs
- 特点: Pika Labs(通常简称为Pika)是一款广受欢迎的AI视频生成工具,支持文本到视频和图片到视频的转换。它以提供相对较多的参数控制而受到用户青睐,允许用户对生成视频的多个方面进行微调。
- 可调整参数:
- 帧率: 使用
-fps ##
参数,可设置范围通常在8-24之间(默认为24),数值越高视频越流畅。 - 运动强度: 使用
-motion #
参数,数值从1到4(默认为1),数值越高运动越剧烈。 - 引导强度: 使用
-gs ##
参数,推荐范围8-24(默认为12),数值越高,视频内容与文本提示的关联度越强。 - 否定提示: 使用
-neg
参数,后接不希望出现在视频中的内容描述,例如-neg morphing, noisy, bad quality
。 - 宽高比: 使用
-ar #:#
参数,如16:9, 9:16, 1:1, 4:5。若使用图片转视频,默认采用原图宽高比。 - 种子: 使用
-seed ###
参数,用于生成更一致的结果。固定种子值仅在提示词和否定提示词不变时保证一致性。
- 帧率: 使用
- 相机控制:Pika Labs允许用户通过参数控制镜头运动,但需要注意,一次生成通常只能使用一种镜头运动指令,不能组合使用。
- 缩放:
-camera zoom in
(放大),-camera zoom out
(缩小)。 - 平移:
-camera pan up
(上摇),-camera pan down
(下摇),-camera pan left
(左摇),-camera pan right
(右摇)。也支持组合方向,如-camera pan up left
。- 旋转:
-camera rotate clockwise
或-camera rotate cw
(顺时针),-camera rotate counterclockwise
或-camera rotate ccw
(逆时针),-camera rotate anticlockwise
或-camera rotate acw
(逆时针,acw可能为ccw的别称或特定方向)。
- 旋转:
- 提示词特点: Pika的提示词可以结合其丰富的参数进行构建。用户在描述场景和动作的同时,可以直接在提示词后附加这些参数来精确控制输出。例如,一个完整的Pika提示词可能看起来像这样(基于29的结构推演):“
/create prompt: 一只猫在草地上追逐蝴蝶,阳光明媚,微风拂过 -camera pan right -motion 2 -gs 15 -ar 16:9 -seed 12345
”。
Luma AI (Dream Machine – Ray2)
- 特点: Luma AI的Dream Machine,特别是其Ray2模型,专注于生成具有自然连贯运动、超逼真细节和逻辑事件序列的视频。它支持文本到视频和图片到视频生成,视频时长通常为5秒或10秒,但可以通过“扩展(Extend)”功能将视频延长至约30秒(尽管官方仍在努力突破此限制)5。Ray2模型的一大亮点是其对物理交互和真实光照的模拟能力。此外,Luma AI还支持为生成的视频添加音频(通过文本提示定义音频内容)5。
- 可调整参数:
- 时长: 5秒或10秒,可通过“Extend”功能延长。
- 分辨率: 支持540p, 720p, 1080p。
- 模型选择: 例如选择Ray2以获得最佳真实感和高级运动效果。
- 循环视频: 可以通过在提示词中加入“loop”或“looping video”,或在界面中选择相应选项,使视频无缝循环。
- 关键帧: Ray2支持开始和结束关键帧,允许用户定义视频的起始和目标视觉状态,模型会尝试平滑过渡。
- 提示词特点:Luma AI鼓励用户使用自然语言进行提示词描述,就像与Dream Machine对话一样。提示词应尽可能详细地描述期望的风格、情绪、光照和元素。它还支持一些高级功能,如:
- 风格参考 (@style): 上传一张图片作为风格指南,然后在提示词中使用
@style
配合描述。
- 风格参考 (@style): 上传一张图片作为风格指南,然后在提示词中使用
- 角色参考 (@character): 上传角色图片,使用
@character
配合提示词来保持角色一致性。- 相机运动: 支持如Pan (平移), Orbit (环绕), Zoom (缩放)等相机运动指令。
- 上下文保留: Dream Machine在同一个“画板(Board)”内会保留上下文,后续的生成会基于之前的创作进行演进,适合故事性创作。
快手 Kling
- 特点: Kling是由中国公司快手推出的AI视频生成大模型。其突出能力在于能够生成长达2分钟、1080p分辨率、30fps帧率的高质量视频。Kling致力于模拟真实世界的物理特性,能够生成具有大幅度且符合物理逻辑的运动,例如人物的复杂肢体运动和面部表情的细微变化。它采用了3D时空联合注意力机制,能更好地理解和生成时间与空间上复杂的动态关系。
- 可调整参数: 具体可调参数列表需要参考其官方平台(如快影APP内测或网页版)。但从行业对比来看,预计会包含常见的时长、分辨率、宽高比设置。7在对比中提到Kling AI拥有如平移、倾斜、缩放等传统相机控制功能。
- 提示词特点: 从其展示的案例(如“一个男人在吃面条”、“小男孩骑着自行车在公园里”)和能力描述来看,Kling的提示词应支持对主体、动作、场景以及运动方式的清晰描述。鉴于其强调物理真实性和大幅度运动,提示词中准确描述运动轨迹和力度可能会得到更好的效果。例如,一个简单的提示可以是:“一只小鸟在暴风雨的天空中飞翔,背景中电闪雷鸣。”。Kling也被认为在电影制作者友好的工具方面领先,如口型同步和基于前一帧扩展镜头的能力。
Google Veo (Veo 2 / Veo 3)
- 特点: Google Veo是谷歌在AI视频生成领域的力作。Veo 2能够将静态图片转化为长约8秒的视频片段,并展现出对电影化语言(如“timelapse”、“aerial shot”、“side-scrolling dolly”)的良好理解和呈现能力。Veo 3则更为强大,支持文本或图片输入生成高清视频,并且原生集成了音频生成功能,可以同步生成对话、环境音效和背景音乐,使得视频片段更具沉浸感和真实感。目前Veo 3主要通过Google的AI电影制作界面Flow在美国提供,需要特定的订阅计划。
- 可调整参数 (Veo 2 & Veo 3):
- 提示词长度 (Veo 2): 建议控制在30个单词以内,以保持清晰和专注。
- 宽高比 (Veo 3): 如16:9, 9:16。
- 视频时长 (Veo 3): 例如5到8秒之间的选择。
- 输出目录 (Veo 3): 指定视频存储位置。
- 种子 (Veo 3): 用于随机化视频生成。
- 人像生成设置 (Veo 3): 如“允许(仅限成人)”或“不允许”生成人脸。
- 提示词特点:Veo系列模型鼓励用户在提示词中:
- 优先描述运动和动作: 模型已经能从输入图片中“看到”外观,更需要的是关于场景如何展开的清晰指令。
- 精确且简洁: 清晰地指明主体、相机移动、动态效果或行为,避免冗余。
- 使用主动、中性的语言: 用中性名词和强有力主动动词(如“舞者升起”、“相机漂移”)。
- 仅描述动态元素: 省略图片中已有的静态视觉特征。
- 避免复杂性过载: 限制复合动作,追求单一连贯的动作或运动。
- 匹配相机与调性: 相机运动会深刻影响情绪,需与场景情感意图对齐。
- 支持详细的元素描述: 包括主体描述、背景/情境、动作、风格(如电影风格关键词:恐怖片、黑色电影;动画风格:卡通渲染)、相机运动(如航拍、第一人称视角、跟踪镜头)、构图(如特写、广角)等。
- 音频描述 (Veo 3): 可以清晰地指定是否需要音频,并用单独句子描述音效(如“背景中有水溅声”)或语音(如“红帽子男人说‘兔子在哪儿?’”)。
- 避免否定指令: 不要使用“不”、“没有”等指示性语言,而是直接描述不希望看到的内容(如想避免墙壁,可以在否定提示中写“墙壁”)。
主流模型特性与参数对比表
为了更直观地比较这些主流模型,下表总结了它们的一些关键特性和参数(信息基于当前研究材料,具体细节可能随模型更新而变化):表 1.3.2.7 特性/参数OpenA…o (Veo 2/3
特性/参数 | OpenAI Sora | Runway (Gen-4/Turbo) | Pika Labs | Luma AI (Dream Machine Ray2) | 快手 Kling | Google Veo (Veo 2/3) |
---|---|---|---|---|---|---|
核心优势 | 长视频、高保真、物理模拟 | 快速可控、VFX整合 | 参数丰富、相机控制细致 | 自然运动、真实光照、迭代创作、音频支持 | 长视频(可达2分钟)、物理真实、大幅度运动 | 电影化语言理解、原生音频集成 (Veo 3) |
输入类型 | 文本、图片、视频 | 图片、文本 | 文本、图片 | 文本、图片 (将支持视频) | 文本、图片 (可能支持视频) | 图片 (Veo 2), 文本、图片 (Veo 3) |
典型视频时长 | 最长1分钟 (接口可能限制为~20秒) | 5秒, 10秒 | 用户自定义 (受平台限制) | 5秒, 10秒 (可扩展至~30秒) | 最长2分钟 (10s默认, 可扩展) | ~8秒 (Veo 2), 5-8秒 (Veo 3接口示例) |
分辨率 | 480p, 720p, 1080p | 多种 (如1280×720) | 用户可调 (通过宽高比) | 540p, 720p, 1080p | 1080p (最高) | 高清 (Veo 3) |
宽高比 | 16:9, 1:1, 9:16 | 多种 (如16:9, 9:16, 1:1) | 可调 (-ar) | 平台预设或可调 | 可调 | 16:9, 9:16 (Veo 3) |
关键可调参数 | 风格预设、变体数量 | 固定种子 | fps, motion, gs, neg, seed | 循环、关键帧、模型选择 | 相机控制 (pan, tilt, zoom) | 种子、人像生成设置 (Veo 3) |
相机控制 | 提示词描述 | 提示词描述 (如 “locked camera”) | 参数指令 (zoom, pan, rotate) | 提示词指令 (Pan, Orbit, Zoom) | 参数指令 (pan, tilt, zoom) | 提示词描述 (如 “aerial view”) |
提示词侧重 | 详细叙事、物理逻辑 | 简洁、描述运动、积极措辞 | 结合参数精确控制 | 自然语言、风格/角色参考、上下文 | 物理真实、大幅度运动 | 运动描述、简洁精确、电影术语、音频 (Veo 3) |
否定提示 | 间接描述 (避免…) | 不支持,用积极措辞 | 支持 (-neg) | 间接描述 | 未明确 (可能通过描述实现) | 描述不希望看到的 (Veo 3) |
独特功能 | 视频扩展、图片动画 | Gen-4 Turbo (快速经济) | 音频生成、画板上下文、@style, @character | 口型同步、基于前一帧扩展 | 原生音频集成、Flow界面 (Veo 3) |
必备表格1:主流模型特性与参数对比表
深入理解这些模型的特性差异,是进行有效提示词设计的第一步。例如,对于Runway,简洁地描述核心运动是关键;而对于Sora或Veo,则可以尝试更富有叙事性和细节的提示。Pika Labs的用户则需要熟悉其特有的参数命令,以实现更精细的控制。
值得注意的是,所有图片到视频模型在处理输入图片时,往往将其视为视频的起始帧或重要的视觉锚点。这意味着文本提示词的核心任务是“激活”这张静态图片,赋予其动态的演变。因此,在为这类模型编写提示词时,应避免过度重复描述图片中已经清晰可见的静态元素,而是将笔墨更多地用于描述如何运动、发生什么变化、以及期望的动态过程。如果提示词过多地聚焦于静态描述,反而可能限制模型生成动态效果的能力,导致视频运动幅度不足或效果不自然。这一理念将贯穿本教程后续关于运动描述的章节。
此外,虽然各模型都致力于将文本指令转化为视频,但它们在“理解力”和“创造力”的平衡点上有所不同。一些模型可能更擅长忠实地执行具体指令(如Pika的参数化控制),而另一些模型则可能在更开放的描述下展现出更强的创意(如Sora的叙事生成)。用户在实践中,需要根据自己的具体项目需求——是追求快速迭代、精确控制,还是希望获得更具电影感的叙事效果或特定艺术风格——来选择合适的模型,并相应地调整提示词的策略。没有一种“万能”的提示词写法,真正的技巧在于理解并适应不同模型的“个性”。
提示词设计的核心原则
掌握了主流AI视频生成模型的基本特性后,我们便可以开始探讨提示词设计的核心原则。这些原则如同航海图上的基本准则,能帮助我们更有效地与AI沟通,引导其生成符合预期的视频内容。无论您使用哪款模型,遵循这些原则都能显著提高提示词的质量和最终视频的满意度。
清晰性
提示词的首要原则是清晰、明确,避免歧义。 AI模型虽然强大,但它毕竟不是人类,无法进行复杂的意图揣测。如果提示词含糊不清,或者使用了多义词而未加限定,AI就可能“误解”您的指令,生成与预期大相径庭的结果。
- 具体做法:
- 使用明确的词汇: 选择那些意义单一、指向清晰的词语。例如,与其说“一个动物跑过去”,不如明确指出是“一只金毛犬快速跑过草地”。
- 避免模棱两可的表述: 检查提示词中是否有容易引起误解的短语。例如,“让角色看起来很酷”,这里的“酷”可以有多种解释(冷静、时尚、厉害等),最好具体描述希望角色如何表现出“酷”的状态,比如“角色戴着墨镜,嘴角带着一丝不羁的微笑,倚靠在跑车旁”。
- 明确主体和动作的关系: 如果场景中有多个主体,要清晰说明各自的动作以及它们之间的互动关系。例如,“男人向女人递过一束玫瑰,女人微笑着接过”就比“男人和女人,玫瑰,微笑”要清晰得多。
正如DeepDreamGenerator的指南中所强调的,“艺术作品的主题不能模糊或不清晰,这是所有艺术的首要原则之一,AI艺术家也应遵循。”。Adobe Firefly的指南也指出,一个结构良好、简洁的提示有助于Firefly理解您想创建什么样的视频,避免歧义,并确保语言足够简单以便Firefly理解您的意图。
简洁性
在清晰的基础上,提示词应尽可能简洁。冗长、累赘的描述不仅可能增加AI的处理负担,还可能因为信息过载而稀释了核心指令的权重,导致AI抓不住重点。
- 具体做法:
- 去除不必要的修饰词: 只保留对表达核心意图和关键细节有帮助的词语。
- 避免重复信息: 如果输入图片已经清晰展示了某个静态特征(如颜色、基本外形),在文本提示中就不必再详细赘述,除非您希望它发生变化。
- 直奔主题: 省略寒暄、解释或命令式的语气(如“请你帮我做一个…”、“我希望看到…”),直接描述场景和动态。Runway的指南特别提到,其模型更适应视觉细节而非对话式元素,像问候或解释这样的内容会浪费宝贵的提示空间。getimg.ai也指出,对话式的提示风格(如“你能给我看一个日落吗?”)在视频生成中效果不佳,应直接描述场景:“金色的日落映照在平静的湖面,天空泛着柔和的光晕,树木在微风中轻轻摇曳。”。
- 一词多义的有效利用: 有时一个精准的词汇能胜过一长串描述。例如,用“黄昏”可能比“太阳快要落山,天色渐暗,天空呈现橙红色”更简洁有效。
虽然有些模型(如Adobe Firefly)宣称提示词没有严格的长度限制(例如Firefly支持最多1800个单词),但也同时指出“长提示并不总能产生更好的结果”。Google Veo 2则建议将提示词控制在30个单词以内,以保持清晰和专注。因此,在实践中,应力求用最少的词语传递最丰富而准确的信息。
具体性
具体性是清晰性的延伸,它要求我们尽可能详细地描述期望的视觉元素、动作细节、环境特征等,为AI提供足够的信息来构建画面。
- 具体做法:
- 描述主体的细节: 包括外观(如“穿着红色连衣裙的女孩”)、特征(如“有着蓝色眼睛的猫”)、情绪(如“脸上带着困惑表情的老人”)等。
- 明确动作的执行方式: 动作不仅仅是“移动”,还应包括速度、力度、轨迹、姿态等。例如,与其说“鸟儿飞翔”,不如说“一只蜂鸟在花朵间快速悬停,翅膀高速振动”。
- 描绘场景的环境要素: 包括地点(如“在熙熙攘攘的东京街头”)、时间(如“清晨的薄雾中”)、天气(如“大雨滂沱的夜晚”)、氛围(如“宁静祥和的乡村”)等。
- 使用描述性形容词和副词: 这些词语能极大地丰富画面的细节和质感。例如,“柔和的晨光”、“汹涌的海浪”、“缓慢而优雅地旋转”。
一个模糊的提示如“美丽的风景”,AI可能生成任何它认为“美丽”的“风景”。而一个具体的提示如“日落时分宁静的海滩,轻柔的海浪拍打着海岸,天空被染成橙色和粉色的色调”,则能引导AI生成更接近用户想象的画面。getimg.ai也强调,提供的视觉细节越多,模型就越能接近你的设想,例如“日落映照在有雾的湖面,缓慢的镜头平移,水中有倒影,天空呈现戏剧性的橙色和紫色。”。
结构化
虽然AI模型在一定程度上能理解自然语言,但采用一种相对结构化的方式组织提示词,有助于AI更好地解析各个元素及其关系,从而生成更准确、更符合逻辑的视频。
- 推荐的提示词结构:许多指南推荐了一种包含关键元素的结构,例如:
- Adobe Firefly 推荐结构:代码块 1.4.4 镜头类型描述 + 角…+ 地点 + 美学风镜头类型描述 + 角色 + 动作 + 地点 + 美学风格
- 例如:“特写镜头缓慢推近,一只白色大北极熊,表情沉思,它正轻柔而自信地走向冰面上先前打开的一个洞穴,准备在冰面下捕猎,地点荒凉多雪,远方有灰色云层缓慢移动,电影感,35mm胶片质感,高度细节,浅景深,背景虚化。”
- FlexClip 推荐结构:
主体 + 动作 + 场景 + (可选:镜头语言 + 光照 + 风格)
。 - 通用结构模板 (可灵活调整):
- 主体: 视频的核心是谁或什么?详细描述其外观、特征、情绪。
- 动作/事件: 主体在做什么?发生了什么?这是驱动视频故事情节的核心。
- 场景/环境: 动作发生在哪里?背景是怎样的?包括前景、背景、天气、时间等。
- 风格/美学: 期望视频呈现何种视觉风格(如电影感、动画、写实)、色调、氛围?
- 镜头参数 (可选): 镜头如何运动?景别是怎样的?光照如何?
- Adobe Firefly 推荐结构:代码块 1.4.4 镜头类型描述 + 角…+ 地点 + 美学风镜头类型描述 + 角色 + 动作 + 地点 + 美学风格
将最重要的细节放在提示词的开头,有助于确保AI首先关注这些核心元素。例如,如果作品的核心是一个宏伟古树,那么它应该成为描述的起点。
迭代与实验
AI视频生成是一个探索和发现的过程,很少能一次就获得完美结果。因此,迭代和实验是提示词设计中不可或缺的一环。
- 具体做法:
- 从简单开始,逐步完善: 如Runway所建议,从一个只包含最基本运动的核心提示开始,如果效果不错,再逐步添加更多元素(如主体动作、相机运动、场景运动、风格描述符)来优化输出。
- 小幅调整,观察变化: 每次只修改提示词中的一个或少数几个变量,观察其对生成结果的影响,这样更容易找到规律。
- 记录和学习: 记录下哪些提示词组合有效,哪些无效。观察他人分享的成功案例及其提示词,从中学习经验。
- 利用模型特性: 比如使用固定种子(Seed)功能,在对某个结果基本满意时,固定种子值,然后微调提示词的其他部分,以期在保持整体风格和运动相似的前提下进行改进。
正如DeepDreamGenerator的博文所言:“根据从观察和实验他人提示词中学到的东西,开始编写自己的提示词是下一步。最初的尝试可能并不总能产生预期的结果,这表明需要持续的实验和改进。”。
关注动态描述
对于图片到视频的生成模型而言,其核心任务是将静态图像转化为动态影像。因此,文本提示词的重点应放在描述“运动”和“变化”上,而不是过多重复输入图片中已有的静态信息。
- 具体做法:
- 明确指出哪些元素在动,以及如何动。
- 如果输入图片是一个男人,提示词不应是“一个穿着蓝色西装、打着红领带的高个黑发男人伸出手准备握手”,而更应是“男人伸出手臂准备握手,然后礼貌地点了点头”。后者更侧重于动作的描述。
- 避免过度描述图片细节,这可能导致运动减少或出现意外结果。AI已经通过图片获取了视觉信息,它更需要的是关于这些信息如何“活起来”的指令。
Google Veo 2的指南也强调,模型已经“看到”了你所选图片的外观,它接下来渴望的是关于运动和动作的清晰指导——告诉它你的场景如何展开,而不是它看起来怎么样。
使用积极措辞
许多AI模型在理解否定指令方面存在困难。直接使用“不要”、“避免”等词语,可能无法达到预期效果,甚至产生相反的结果。
- 具体做法:
- 用肯定句描述你希望发生的事情。 例如,与其说“相机不要晃动”,不如说“相机保持稳定”或“锁定的镜头”。
- 如果模型支持“否定提示词”参数(如Pika Labs的-neg),则应按照该模型的规范来使用,将不希望出现的内容填入否定提示词区域,而不是在主提示词中使用否定词。。Google Veo的文档也建议,不要使用指示性语言或像“no”或“don’t”这样的词,而是描述你不希望看到的东西,例如,如果你不想要墙壁或框架,可以在否定提示中写“墙壁,框架”。
Runway的Gen-4模型明确指出,它被设计用来解释描述视频中应该发生什么的提示,否定性措辞不受支持,并可能产生不可预测的结果。
遵循以上核心原则,将为您的AI视频创作打下坚实的基础。记住,编写提示词既是一门科学,也是一门艺术,需要不断的实践和感悟。在后续章节中,我们将更深入地探讨如何将这些原则应用于提示词的各个构成要素。
构建你的第一个提示词——基础元素解析
理解了提示词设计的核心原则后,我们现在来具体学习如何构建一个有效的提示词。一个完整的提示词通常由多个基础元素构成,它们共同向AI描绘出期望生成的视频蓝图。本章将逐一解析这些核心元素,并提供相应的描述技巧和范例。
一个结构化的提示词能够帮助AI更准确地理解你的意图。可以参考类似Adobe Firefly或FlexClip提出的结构,并根据具体模型和需求进行调整。一个通用的基础结构可以包含:主体 + 动作 + 场景/环境 + 风格/美学。在此基础上,还可以添加镜头描述、光照、情绪等更细致的元素,这些将在后续章节详述。
主体
主体是视频画面的核心焦点,是故事的承载者。清晰、具体地描述主体至关重要。
- 描述要点:
- 类别与身份: 是人、动物、物体,还是某种奇幻生物?例如:“一个年轻的女人”,“一只好奇的猫”,“一艘复古的宇宙飞船”。
- 外观特征: 年龄、性别(如果是人)、体型、毛发颜色、服装、配饰等。例如:“一位白发苍苍的老奶奶,戴着圆框眼镜,身穿碎花围裙”,“一只身形矫健的黑豹,皮毛油光锃亮”,“一辆布满涂鸦的黄色校车”。
- 数量: 单个主体还是多个主体?如果是多个主体,需要分别描述或用概括性词语(如“一群鸟”、“几个人”)。注意,某些模型如Adobe Firefly建议,超过四个主体可能会让模型混淆,推荐限制主体数量。
- 情绪与状态: 主体当前的情绪是喜悦、悲伤、愤怒、困惑,还是平静、专注、疲惫?例如:“一个面带微笑的小女孩”,“一只警惕地环顾四周的鹿”,“一个看起来心事重重的侦探”。
- 特殊属性: 如果主体具有非现实的特征,也需要明确指出。例如:“一个长着翅膀的精灵”,“一个身体由火焰构成的元素生物”。
- 技巧与范例:
- 使用具体的名词和形容词: “一个穿着考究西装的中年商人,表情严肃” 比 “一个男人” 信息量大得多。
- 从一般到特殊: 先定义大的类别,再添加细节。例如,先说“一辆车”,再补充“一辆红色的敞篷跑车,车型是1960年代的经典款”。
- 参考图片(如果适用): 对于图片到视频,输入图片本身就定义了主体的基本外观。此时,文本提示中对主体的描述可以更侧重于其即将发生的变化或需要强调的特征,避免与图片信息完全重复。
- 示例提示词(主体部分):
- “
A fluffy Pomeranian dog wearing a checkered bow tie and shirt
(一只毛茸茸的博美犬,戴着格子领结和格子衬衫)” - “
A stylish woman walks down a Tokyo street... She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick.
(一位时尚的女士走在东京街头……她穿着黑色皮夹克、红色长裙和黑色靴子,挎着一个黑色钱包。她戴着太阳镜,涂着红色口红。)” - “
A large polar bear with bright white fur looking pensive
(一只毛色亮白的大北极熊,神情忧郁)”
- “
动作
动作为静态的主体和场景注入了生命力,是视频区别于图片的关键。描述动作时,力求清晰、连贯、且符合视频的预期时长。
- 描述要点:
- 核心动作: 主体在做什么?是跑、跳、飞、说、笑、哭,还是更复杂的操作?
- 动作的性质: 动作是快速的、缓慢的、轻柔的、有力的、突然的,还是持续的?
- 动作的轨迹与方向: 如果是位移动作,主体从哪里移动到哪里?例如:“从左向右快速跑过”,“向上缓缓升起”。
- 与环境/其他主体的互动: 动作是否涉及到与场景中的物体或其他角色的交互?例如:“拿起桌上的杯子”,“与朋友热情拥抱”。
- 细微动作与表情变化: 除了大幅度的身体动作,眨眼、微笑、皱眉、手指轻敲等细微动作也能极大地丰富画面。例如:“她微微点头,嘴角扬起一丝微笑”。
- 技巧与范例:
- 使用生动的动词和副词: “
gracefully dancing
(优雅地跳舞)” ,“walking softly but confidently
(轻柔而自信地行走)”。 - 分解复杂动作: 如果一个动作序列比较复杂,可以尝试将其分解为几个关键步骤来描述,但要注意保持在短视频时长内的可实现性。避免在一个短片段中塞入过多不连贯的动作。
- 考虑物理规律: 描述的动作最好符合基本的物理原理,除非你特意追求超现实效果。
- 针对短视频优化: 动作描述应确保能在模型生成的几秒钟内(如5-10秒)完整自然地展现出来,避免动作进行到一半就戛然而止。
- 使用生动的动词和副词: “
- 示例提示词(动作部分):
- “…
the polar bear is walking softly but confidently toward a hole it has previously opened in the ice to hunt beneath the surface of the ice.
(…北极熊正轻柔而自信地走向它先前在冰上凿开的一个洞,准备在冰面下捕猎。)” - “…
A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow...
(…一只猫叫醒它熟睡的主人要早餐。主人试图不理会猫,但猫尝试了新的策略,最后主人从枕头下拿出一小袋秘密零食…)” (这是一个较长动作序列的例子,适用于Sora这类能处理更长时长的模型) - “
The subject runs across the dusty desert. Dust trails behind them as they move
(主体跑过尘土飞扬的沙漠。他们移动时,身后扬起一串尘土)”
- “…
场景/环境
场景为视频提供了故事发生的背景和舞台,它能极大地影响视频的氛围和可信度。
- 描述要点:
- 地点类型: 室内还是室外?是城市、乡村、森林、沙漠、海洋,还是某个特定的房间或建筑?
- 具体位置与地标: 如果有,可以指明。例如:“巴黎埃菲尔铁塔下”,“纽约时代广场的夜晚”,“宁静的日本禅意花园”。
- 时间与天气: 是白天还是夜晚?清晨、正午还是黄昏?天气是晴朗、阴雨、下雪,还是有雾?例如:“一个阳光明媚的午后”,“暴风雨来临前的阴沉天空”。
- 环境元素: 场景中包含哪些重要的背景物体或特征?如山脉、河流、树木、建筑、家具、天空的云彩等。例如:“背景是连绵起伏的雪山”,“房间里摆放着古董家具和一架钢琴”。
- 氛围与质感: 场景给人的整体感觉是怎样的?是繁华喧闹,还是宁静祥和?是古老破败,还是现代整洁?材质是粗糙的岩石,还是光滑的金属?
- 技巧与范例:
- 运用感官描述: 虽然AI主要处理视觉,但描述一些能引发联想的感官信息(如“空气中弥漫着花香”、“远处传来海浪声”——尽管AI不直接生成声音,但这有助于AI理解场景氛围)有时也能间接影响画面。
- 前景与背景: 可以分别描述前景和背景的元素,增加画面的层次感。
- 文化关键词: 使用特定的文化术语可以帮助AI生成具有特定地域或文化风格的场景,如“东方韵味”、“地中海风情”。
- 示例提示词(场景部分):
- “…
in a dim workshop
(…在一个昏暗的工作坊里)” - “…
on a park bench, the warm, golden sunlight filters through the trees
(…在公园的长椅上,温暖的金色阳光透过树木洒下)” - “…
the location is barren and snowy; gray clouds are moving slowly in the distance.
(…地点荒凉多雪;远处的灰色云层缓慢移动。)” - “
A serene beach at sunset with gentle waves crashing against the shore, the sky painted in hues of orange and pink.
(日落时分宁静的海滩,轻柔的海浪拍打着海岸,天空被染成橙色和粉色的色调。)”
- “…
风格/美学
风格决定了视频的整体视觉呈现和艺术调性。选择并准确描述风格,能让AI生成的视频更具个性和表现力。
- 描述要点:
- 艺术流派/媒介: 是写实、印象派、超现实主义、油画、水彩、素描、3D动画、像素艺术,还是电影感?
- 时代特征: 复古(如1920年代风格)、未来主义、蒸汽朋克、赛博朋克等。
- 特定艺术家/作品风格(部分模型可能支持): 提及著名艺术家或电影导演的风格,如“梵高风格”、“宫崎骏动画风格”、“王家卫电影色调”。(需注意模型是否能理解并实现这类风格模仿)
- 整体色调与色彩饱和度: 是明亮的、暗调的、单色的、高饱和度的,还是柔和的粉彩色系?
- 细节与质感: 是高度细节的、粗糙的、光滑的、颗粒感的(如胶片颗粒)?
- 情绪基调相关的视觉表现: 忧郁的(可能对应冷色调、低对比度)、欢快的(可能对应暖色调、高饱和度)、神秘的(可能对应暗调、特殊光效)。
- 技巧与范例:
- 使用明确的风格关键词: 如
cinematic
(电影感),photorealistic
(照片写实),anime style
(日本动画风格),watercolor
(水彩风格),cyberpunk
(赛博朋克),vintage film look
(复古胶片感)。 - 组合风格: 可以尝试组合不同的风格关键词,但要注意它们之间是否协调,避免冲突。
- 参考第七章“赋予灵魂”获取更详尽的风格关键词列表。
- 使用明确的风格关键词: 如
- 示例提示词(风格部分):
- “…
cinematic, 35mm film, highly detailed, shallow depth of field, bokeh.
(…电影感,35毫米胶片,高度细节,浅景深,背景虚化。)” - “…
vivid, hyper-saturated colors, anamorphic lens flare, retro color grading, chromatic aberration, film grain and light leaks, rolling shutter effect
(…鲜艳、超饱和的色彩,变形镜头光晕,复古调色,色差,胶片颗粒和漏光,卷帘快门效果)” - “…
A beautiful silhouette animation shows a wolf howling at the moon...
(…一个美丽的剪影动画展示了一只狼对着月亮嚎叫…)”
- “…
将这四个基础元素(主体、动作、场景、风格)清晰、具体、简洁地组合起来,就构成了一个有效的初始提示词。例如,一个结合了这些元素的简单提示词可以是:“一只戴着帽子的可爱小猫 (主体),在波光粼粼的蓝色海面上驾驶着一艘木船 (动作+场景),卡通动画风格 (风格)
” (改编自 20)。
在实践中,并非每个提示词都必须包含所有这些元素,或者严格按照某个顺序。关键在于根据创作需求,抓住核心,并用AI能理解的方式表达出来。随着经验的积累,你会逐渐形成自己的提示词构建习惯和技巧。
让画面动起来——精准描述动态与变化
视频的本质在于“动”,如何用提示词精准地描述和引导AI生成期望的动态与变化,是图片到视频创作的核心挑战之一。本章将深入探讨描述不同类型运动的技巧,帮助您让静态的画面真正“活”起来。
正如Runway的指南所强调,对于图片到视频模型,文本提示应主要用于描述运动,而不是重复描述输入图片中已有的视觉元素。AI已经通过图片掌握了场景的静态信息,它更需要的是关于“接下来发生什么”、“如何运动”的指令。
主体运动
主体运动是指画面中核心角色或物体的行为、姿态变化和物理移动。
- 描述物理移动:
- 动作类型: 跑、跳、走、飞、游泳、旋转、跌落、上升、漂浮等。
- 速度与节奏: 快速地、缓慢地、突然地、平稳地、有节奏地。例如:“
a slow-motion shot of waves crashing
(海浪缓慢拍打的慢动作镜头)” 2, “The subject turns slowly
(主体缓慢转身)”。 - 方向与轨迹: 向前、向后、向左、向右、向上、向下、盘旋、直线、曲线。例如:“
The subject on the left walks forward. The subject on the right remains still.
(左边的主体向前走。右边的主体保持静止。)”。 - 动作幅度: 大幅度的挥手、轻微的点头、完全伸展、蜷缩。
- 描述姿态与表情变化:
- 姿态: 站立、坐下、躺卧、弯腰、抬头、倾斜。例如:“
woman tilts her head upward, gazing at balloons
(女人仰起头,凝视着气球)”。 - 表情: 微笑、大笑、哭泣、皱眉、惊讶、沉思、愤怒。例如:“
The woman smiles and waves.
(女人微笑着挥手。)”。 - 手势与细微动作: 招手、指点、鼓掌、弹奏乐器、书写、眨眼。例如:“
She raises her hand.
(她举起手。)”。
- 姿态: 站立、坐下、躺卧、弯腰、抬头、倾斜。例如:“
- 描述变形与状态改变:
- 形态变化: 从一种形态转变为另一种形态。例如:“
the pile of rocks transforms into a humanoid made out of rugged volcanic rocks.
(一堆岩石变成了一个由崎岖火山岩构成的人形生物。)” , “a cat transforms into a dragon while running through a forest.
(一只猫在森林中奔跑时变成了一条龙。)”。 - 材质/颜色变化: 物体表面颜色或材质的改变。
- 出现与消失: 主体进入或离开画面。例如:“
A dog excitedly runs into the scene from off-camera
(一只狗兴奋地从镜头外跑进画面)”。
- 形态变化: 从一种形态转变为另一种形态。例如:“
- 技巧与范例:
- 使用强动词和精确副词: “
scurries away
(匆匆跑开)” , “walks confidently
(自信地走着)”。 - 多主体运动的清晰指代:当画面中有多个主体需要不同运动时,务必清晰指代。
- 使用位置描述:“
The subject on the left walks forward. The subject on the right remains still.
(左边的主体向前走。右边的主体保持静止。)”。 - 使用简单描述性标识:“
The woman nods. The man waves.
(女人点头。男人挥手。)”。
- 使用位置描述:“
- 避免在一个短片段内塞入过多复杂或不相关的动作。 保持动作的连贯性和单一性,尤其对于时长较短的视频生成模型。
- 使用强动词和精确副词: “
- 示例提示词(主体运动):
- “
A stylish woman walks down a Tokyo street filled with warm glowing neon... She walks confidently and casually.
(一位时尚的女士走在充满温暖霓虹灯光的东京街道上……她自信而随意地走着。)” - “
A cartoon kangaroo disco dances.
(一只卡通袋鼠跳迪斯科。)” - “
the mechanical bull as it runs across the desert.
(机械牛在沙漠中奔跑。)”
- “
场景/环境运动
场景运动是指背景环境元素自身的动态变化,或因主体运动而产生的互动效果。
- 描述环境元素的独立运动:
- 天气现象: 雨滴落下、雪花飘落、云层移动、闪电划过、风吹树叶摇晃。例如:“
raindrops falling
(雨滴落下)” , “gray clouds are moving slowly in the distance.
(远处的灰色云层缓慢移动。)”。 - 自然现象: 波浪翻滚、火焰燃烧、烟雾升腾、水面涟漪。例如:“
waves crashing against the rugged cliffs
(海浪拍打着崎岖的悬崖)” 1, “Dust trails behind them as they move
(他们移动时,身后扬起一串尘土)”。 - 物体运动: 旗帜飘扬、车轮转动、时钟指针移动。
- 天气现象: 雨滴落下、雪花飘落、云层移动、闪电划过、风吹树叶摇晃。例如:“
- 描述主体与环境的互动产生的运动:
- 脚印/水花: 人走在沙滩上留下脚印,物体落入水中溅起水花。
- 尘土/烟雾: 车辆驶过扬起尘土,爆炸产生浓烟。例如:“
the movement disturbs dust that trails behind the mechanical creature.
(运动扬起了跟在机械生物后面的灰尘。)”。 - 光影变化: 移动的物体投下变化的影子,光源晃动导致光斑移动。
- 场景的整体动态变化:
- 生长与凋零: 植物从发芽到开花,或叶子从翠绿变枯黄飘落(延时摄影效果)。
- 建造与 разрушение (destruction): 建筑物从无到有地搭建起来,或在灾难中逐渐坍塌。例如:“
As the camera pans up the Brooklyn bridge gets on fire and collapse
(当镜头向上平移时,布鲁克林大桥着火并坍塌)”。 - 时间流逝的视觉表现: 如延时摄影下的城市车流、星空轨迹。
- 技巧与范例(Runway Gen-4 提供的两种描述场景运动的方法):
- 暗示性运动:使用形容词来暗示运动。这种方式可能产生更自然的结果。
- 例如:“
The subject runs across the dusty desert
(主体跑过尘土飞扬的沙漠)” – “尘土飞扬的”暗示了因跑动而产生的尘土。
- 例如:“
- 描述性运动:直接描述运动的元素和方式。这种方式可以强调该元素。
- 例如:“
The subject runs across the desert. Dust trails behind them as they move
(主体跑过沙漠。他们移动时,身后扬起一串尘土)” – 直接描述了尘土的动态。
- 例如:“
- 如果暗示性运动效果不佳,可以尝试多次暗示或添加简单的直接描述来进一步强调。
- 暗示性运动:使用形容词来暗示运动。这种方式可能产生更自然的结果。
- 示例提示词(场景运动):
- “
A flock of paper airplanes flutters through a dense jungle, weaving around trees as if they were migrating birds.
(一群纸飞机在茂密的丛林中飞舞,像候鸟一样在树木间穿梭。)” - “
New York City submerged like Atlantis. Fish, whales, sea turtles and sharks swim through the streets of New York.
(纽约市像亚特兰蒂斯一样被淹没。鱼、鲸鱼、海龟和鲨鱼在纽约的街道上游弋。)” - “
golden sunset over a peaceful lake, soft glow in the sky, trees swaying gently in the breeze.
(金色日落映照在宁静的湖面,天空泛着柔和的光晕,树木在微风中轻轻摇曳。)”
- “
抽象概念的动态化
有时我们希望表达的是一种情绪、氛围或抽象概念的变化,而非具体的物理运动。这时,需要将这些抽象概念转化为可被AI理解的视觉动态描述。
- 技巧:
- 情感外化: 将内心情感通过角色的行为、表情或环境变化来体现。例如,表达“悲伤”,可以说“
A woman sits alone by a rain-streaked window, a single tear rolls down her cheek, the city lights blur in the background.
(一个女人独自坐在雨水模糊的窗边,一滴眼泪滑落脸颊,背景中的城市灯光变得模糊不清。)” - 氛围营造: 通过光影、色彩、天气、物体动态等组合来营造特定的氛围变化。例如,表达“神秘感增强”,可以说“
Fog slowly creeps into the ancient forest, shadows lengthen, and strange symbols on the old stones begin to glow faintly.
(雾气缓缓潜入古老的森林,影子拉长,古老石头上的奇怪符号开始微弱地发光。)” - 象征性运动: 使用具有象征意义的物体或运动来代表抽象概念。例如,用“破碎的镜子”象征关系的破裂,用“缓缓打开的门”象征新的开始。
- 避免直接使用过于概念化的语言。 Runway的指南指出,使用描述思想或感觉而非具体物理运动的提示词,可能会导致意外结果。应将抽象概念“翻译”成清晰、具体的物理动作或视觉变化。例如,不要说“主体体现了喜悦问候的精髓”,而应说“女人微笑着挥手”。
- 情感外化: 将内心情感通过角色的行为、表情或环境变化来体现。例如,表达“悲伤”,可以说“
运动的强度与幅度控制
不同的模型对运动强度和幅度的控制方式不同。
- 参数控制: Pika Labs 提供了
-motion #
(1-4) 参数来直接控制运动的剧烈程度。 - 描述词控制:对于没有直接参数的模型,可以通过描述词来影响运动强度。
- 轻微/细微运动: 使用如
subtle movement
(细微移动),gentle sway
(轻轻摇摆),slight tremor
(轻微震颤),faint shimmer
(微弱闪烁),slowly drifting
(缓慢漂移)。 - 剧烈/大幅度运动: 使用如
dramatic explosion
(剧烈爆炸),rapid acceleration
(快速加速),violent shaking
(猛烈摇晃),sweeping motion
(大幅度扫过),powerful surge
(强力涌动)。
- 轻微/细微运动: 使用如
- 结合相机运动: 相机运动的快慢和幅度也会间接影响感知到的主体或场景运动的强度。
在描述动态与变化时,始终牢记视频的时间限制。一个5秒的片段无法承载过于复杂或漫长的动作序列。因此,提示词应聚焦于在有限时间内能够清晰、完整展现的核心动态。对于需要更长叙事的复杂动作,可能需要生成多个片段再进行拼接,或者选择支持更长视频生成的模型(如Sora, Kling)。
通过以上对主体运动、场景运动、抽象概念动态化以及运动强度控制的探讨,希望能帮助您更精准地用提示词描绘出脑海中的动态画面,让AI为您创造出栩栩如生的视频作品。
导演视角——用提示词掌控镜头语言
在AI视频创作中,仅仅描述主体和动作是不够的。要想让视频更具表现力和叙事感,就需要像导演一样思考,运用镜头语言来引导观众的视线,营造特定的氛围和节奏。本章将详细介绍如何通过提示词来控制镜头的类型、角度、运动方式和焦点,让您的AI视频作品更上一层楼。
许多先进的AI视频模型,如OpenAI Sora、Runway、Luma AI、Google Veo以及Pika Labs等,都支持通过文本提示词来指定不同程度的镜头控制。
镜头景别
景别决定了画面中主体占据多大空间,以及展现多少背景环境,直接影响观众对主体和场景的感知。
- 常用景别关键词:
- 远景:展示广阔的环境,主体在画面中很小或不可见,常用于交代场景、建立地理位置或表现宏大场面。
- 示例:“
Extreme wide shot of a lone hiker in a vast desert landscape, emphasizing the scale and emptiness.
(广阔沙漠中孤独徒步者的远景镜头,强调规模感和空旷感。)” - 全景:展示主体的全身及其所处的直接环境,能看清主体的动作和大致轮廓。
- 示例:“
Full shot of a ballet dancer performing on a stage, showing her entire body and movement.
(芭蕾舞演员在舞台上表演的全景镜头,展示其完整的身体和动作。)” - 中景 (Medium Shot / MS):通常拍摄人物膝盖或腰部以上,能清晰展现人物的上半身动作和表情,是叙事中最常用的景别之一。
- 示例:“
Medium shot of two people having a conversation at a cafe table.
(两人在咖啡馆桌旁交谈的中景镜头。)” - 牛仔镜 (Cowboy Shot / Medium Long Shot / MLS):介于中景和全景之间,通常从人物大腿中部往上拍,最初用于西部片展示牛仔的枪套。
- 示例:“
Cowboy shot of a sheriff standing in front of a saloon, hand near his holster.
(警长站在酒吧前的牛仔镜头,手靠近枪套。)” - 近景:通常拍摄人物胸部以上,更聚焦于人物的面部表情和细微动作,能更好地传递情感。
- 示例:“
Medium close-up of a chef carefully garnishing a dish, focusing on his hands and concentrated expression.
(厨师仔细装饰菜肴的近景镜头,聚焦于他的手和专注的表情。)” - 特写:放大拍摄主体的某个局部,如人物的面部、眼睛、手,或物体的某个细节,用于强调、突出或展现强烈情感 。
- 示例:“
Close-up of a cat's eye, reflecting the city lights.
(猫眼的特写镜头,映照出城市灯光。)” - 大特写:比普通特写更近,极度放大某一细节,如眼睛的瞳孔、嘴唇的微动,营造强烈的视觉冲击或紧张感 。
- 示例:“
Extreme close-up of a blinking eye, cinematic film shot in 70mm.
(眨眼的眼睛的大特写,70毫米电影胶片拍摄。)”
- 使用技巧:
- 在提示词中明确使用这些景别关键词。例如,Adobe Firefly的提示结构建议将“镜头类型描述”放在开头。
- 考虑景别与叙事的关系:远景交代环境,中景推进故事,特写强调情感。
镜头角度
镜头角度是指摄像机相对于被摄主体的拍摄方向,不同的角度会赋予主体不同的视觉感受和象征意义。
- 常用镜头角度关键词:
- 平视镜头:摄像机与主体眼睛处于同一高度,是最自然、客观的视角,让观众感觉与主体平等。
- 示例:“
Eye-level shot of a teacher explaining a concept to students in a classroom.
(教室里老师向学生解释概念的平视镜头。)” - 仰视镜头:从下往上拍摄主体,使主体显得高大、有力、权威,或者具有压迫感。
- 示例:“
Low-angle shot of a towering skyscraper, making it look even more imposing.
(高耸摩天大楼的仰视镜头,使其看起来更加雄伟。)” - 俯视镜头:从上往下拍摄主体,使主体显得渺小、脆弱、无助,或者用于展现场景的全貌。
- 示例:“
High-angle shot of a person lost in a dense forest, conveying a sense of isolation.
(迷失在茂密森林中的人的俯视镜头,传达出孤立感。)” - 鸟瞰镜头:从正上方垂直向下拍摄,完全展现场景的平面布局,常用于表现秩序、混乱或上帝视角。
- 示例:“
Bird's-eye view of a bustling city intersection with cars and pedestrians moving like ants.
(繁忙城市十字路口的鸟瞰镜头,汽车和行人像蚂蚁一样移动。)” - 荷兰角/斜角镜头:摄像机倾斜拍摄,使画面中的水平线和垂直线都变成斜线,常用于表现不安、紧张、疯狂或动感。
- 示例:“
Dutch angle shot of a character running down a hallway, creating a sense of disorientation.
(角色跑过走廊的斜角镜头,营造出迷失方向的感觉。)” - 过肩镜头:摄像机从一个角色的肩膀后方拍摄另一个角色,常用于对话场景,将观众带入对话情境。
- 示例:“
Over-the-shoulder shot of a detective interrogating a suspect.
(侦探审问嫌疑人的过肩镜头。)” - 主观镜头/第一人称视角:模拟角色眼中看到的景象,让观众身临其境。
- 示例:“
POV shot from a race car driver's helmet, showing the track speeding by.
(赛车手头盔的第一人称视角镜头,展示赛道飞速掠过。)”
- 使用技巧:
- 将角度关键词与景别关键词结合使用,例如:“
Low-angle medium shot of a superhero landing.
(超级英雄落地的低角度中景。)” - 思考角度如何服务于你想表达的情感或主题。
- 将角度关键词与景别关键词结合使用,例如:“
镜头运动
镜头运动为画面增添了动感和节奏,引导观众的注意力,并能创造出丰富的视觉效果。
- 常用镜头运动关键词:
- 固定镜头/静态镜头:摄像机位置和角度均不发生变化,画面稳定,常用于强调构图或表现宁静、严肃的氛围。
- 示例:“
Static shot of a serene lake at sunrise.
(日出时宁静湖泊的固定镜头。)”
- 示例:“
- 推镜头:摄像机向主体靠近(物理移动或变焦),逐渐放大主体,用于强调细节、聚焦情感或增强紧张感。
- Dolly In: 摄像机实体向前移动。
- 固定镜头/静态镜头:摄像机位置和角度均不发生变化,画面稳定,常用于强调构图或表现宁静、严肃的氛围。
- Zoom In: 改变镜头焦距,主体在画面中变大,但透视关系不变。
- 示例:“
Slow zoom-in on the character's face as they receive surprising news.
(角色收到惊人消息时,镜头缓慢推向其面部。)” - 拉镜头:摄像机远离主体(物理移动或变焦),逐渐展现更广阔的环境,用于交代背景、缓和情绪或展示主体与环境的关系。
- 示例:“
Camera slowly zooms out from a close-up of buildings, revealing the entire illuminated skyline.
(镜头从建筑物的特写缓慢拉远,展现整个灯火辉煌的天际线。)” 22 - 摇镜头 (Pan Left/Right):摄像机在固定位置水平转动,用于展现宽广的场景、跟随水平移动的主体或在不同主体间切换焦点。
- 示例:“
Camera pans left across the bustling market, capturing the energy.
(镜头向左摇过熙熙攘攘的市场,捕捉其活力。)” - 틸트 (Tilt Up/Down):摄像机在固定位置垂直转动,用于展现高耸的物体、跟随垂直移动的主体或进行戏剧性的揭示。
- 示例:“
Tilt up from the character's shoes to their determined face.
(镜头从角色的鞋子向上틸트到其坚定的面容。)” - 移动镜头/跟拍镜头 (Tracking Shot / Dolly Shot / Trucking Shot):摄像机平行于主体运动或沿着特定轨迹移动,用于跟随运动的主体,保持主体在画面中的位置相对稳定。
- Tracking Shot: 跟随主体。
- Dolly Shot: 摄像机装在移动平台上前后移动。
- Trucking Shot (or Crab): 摄像机水平横向移动(向左
truck left
,向右truck right
)。
- Trucking Shot (or Crab): 摄像机水平横向移动(向左
- 示例:“
Tracking shot following a character running through a forest.
(跟拍镜头跟随角色跑过森林。)” 25
- 示例:“
- 升降镜头:摄像机整体垂直上升或下降,常用于改变视角高度或营造戏剧性效果。
- 示例:“
Crane shot revealing a hidden valley as the camera moves upwards.
(镜头上升,升降镜头展现出一个隐藏的山谷。)” - 环绕镜头 :摄像机围绕主体做圆形或弧形运动,用于多角度展示主体或营造眩晕、浪漫等氛围。
- 示例:“
Camera orbits around the couple dancing in the moonlight.
(镜头围绕在月光下跳舞的情侣环绕。)” - 手持摄影机效果:模拟手持拍摄的轻微晃动感,增加真实性、纪实感或紧张感。
- 示例:“
Handheld camera follows the protagonist through a chaotic escape scene.
(手持摄影机跟随主角穿过混乱的逃生场景。)” - 摇晃镜头: 给摄像机添加摇晃效果,常用于表现地震、爆炸或主观视角下的剧烈震动。
- 示例:“
- 使用技巧:
- 明确运动方向和速度: 如“
slowly zoom in
(缓慢推近)”,“fast pan right
(快速右摇)”。 - 组合运动(部分模型支持): 有些模型可能允许组合简单的运动,如“
camera pans left and tilts up
(镜头左摇并向上틸트)”。但要注意,过于复杂的组合可能导致AI难以理解或效果不佳。Pika Labs明确指出一次只能用一种镜头运动参数。 - 与主体动作配合: 镜头运动应服务于主体动作和叙事需求。
- 考虑模型限制: 某些模型对复杂镜头运动的理解和实现能力有限。Runway Gen-4的指南中提到,对于更复杂的电影运动术语,可以参考其Gen-3的相机控制文档。getimg.ai的Video Generator Director模式支持15种特定相机运动。
- 明确运动方向和速度: 如“
焦点与景深
焦点控制画面的清晰区域,景深则指焦点前后清晰范围的大小,它们共同影响画面的视觉重点和艺术效果。
- 常用焦点与景深关键词:
- 浅景深:主体清晰,背景和/或前景模糊,用于突出主体、营造唯美或梦幻氛围 。代码块 1.7.4 BokehBokeh (背景虚化)是其常见效果。
- 示例:“
Portrait of a woman with shallow depth of field, her eyes in sharp focus, background beautifully blurred.
(女性肖像,浅景深,眼睛清晰对焦,背景优美模糊。)”
- 示例:“
- 深景深 (Deep Focus):画面中从前景到背景都保持清晰,用于展现场景的全部细节或强调主体与环境的关系。
- 示例:“
Landscape shot with deep focus, showing the mountains in the distance and flowers in the foreground equally sharp.
(深焦风景照,远处的山脉和前景的花朵同样清晰。)” - 焦点转移 (Rack Focus / Focus Pull):在一个镜头内,焦点从一个主体平滑地转移到另一个主体,用于引导观众注意力或暗示两者关系。
- 示例:“
Rack focus from a coffee cup in the foreground to a person reading a book in the background.
(焦点从前景的咖啡杯转移到背景中读书的人。)” - 柔焦 (Soft Focus):画面整体略微模糊,没有绝对清晰的点,常用于营造梦幻、浪漫或怀旧的氛围,或柔化人物面部。
- 示例:“
A dream sequence with soft focus, giving it an ethereal quality.
(柔焦的梦境片段,赋予其空灵的质感。)”
- 浅景深:主体清晰,背景和/或前景模糊,用于突出主体、营造唯美或梦幻氛围 。代码块 1.7.4 BokehBokeh (背景虚化)是其常见效果。
- 使用技巧:
- 明确指出希望的景深效果和焦点位置。
- 景深效果通常与光圈大小(虽然AI不直接模拟光圈)和镜头焦距有关,但通过关键词可以直接指定。
镜头效果与特殊运镜
除了常规的运镜,还可以通过提示词尝试一些特殊的镜头效果。
- 延时摄影:将长时间记录的影像压缩成短时间播放,常用于表现云彩流动、日出日落、城市变迁、植物生长等。
- 示例:“
Timelapse of clouds moving across a mountain range from dawn to dusk.
(从黎明到黄昏,云层在山脉间移动的延时摄影。)” - 慢动作 :放慢动作的播放速度,用于强调细节、增强戏剧张力或表现优美的动态。
- 示例:“
A dancer performing a jump in slow-motion, her dress flowing elegantly.
(舞者慢动作跳跃,裙摆优雅飘动。)” - 高速摄影/快动作: 加快动作的播放速度,常用于表现快速过程或喜剧效果。
- 镜头光晕 (Lens Flare):强光源进入镜头时产生的耀斑效果,可以增加画面的真实感或营造某种氛围。
- 示例:“
Sunset scene with a warm lens flare as the sun dips below the horizon.
(日落场景,太阳沉入地平线时出现温暖的镜头光晕。)” - 鱼眼镜头: 产生强烈的桶形畸变,画面中央物体被放大,边缘物体被压缩并向外弯曲,视野极广,效果独特。
- 微距摄影: 极度接近拍摄微小物体,展现其惊人的细节。
将这些镜头语言的元素巧妙地融入提示词中,就如同给AI导演下达了清晰的拍摄指令。例如,一个综合性的镜头描述可以是:“Low-angle tracking shot following a herofigure walking through a desolated city, shallow depth of field, dust particles floating in the air, cinematic lighting.
(低角度跟拍镜头,英雄人物走过荒凉的城市,浅景深,空气中漂浮着尘埃颗粒,电影感光照。)”
记住,并非所有模型对所有镜头术语的理解都同样深入。建议从常用且明确的关键词开始,逐步尝试更复杂的描述,并通过实验来检验不同模型对特定镜头指令的反应。
赋予灵魂——定义视频的风格、情绪与氛围
当主体、动作和镜头都已设定,接下来便是为视频注入灵魂——通过定义其视觉风格、情感基调和整体氛围,使其不仅仅是动态的图像,更能触动人心,传递特定的信息和感受。本章将指导您如何运用关键词和描述性语言来精心雕琢视频的艺术特质。
视觉风格
视觉风格是视频给人的第一印象,它决定了画面的整体观感和艺术倾向。选择合适的风格关键词,能让AI朝着期望的美学方向进行创作。
- 常见视觉风格关键词分类与示例:
- 写实与摄影类 :
- 代码块 1.8.1 Photoreali…torealistiPhotorealistic (照片写实): 追求极致的真实感,细节丰富,如同真实照片或高清录像。
- 示例:“
Photorealistic portrait of an elderly fisherman, wrinkles and weathered skin highly detailed.
(老年渔夫的照片写实肖像,皱纹和饱经风霜的皮肤细节丰富。)”
- 示例:“
- 代码块 1.8.1-2 CinematicCinematic (电影感): 具有电影的质感,通常色彩丰富,有景深,构图讲究,光影富有戏剧性。
- 示例:“
A cinematic shot of a car driving on a winding coastal road at sunset.
(日落时分汽车行驶在蜿蜒海岸公路上的电影感镜头。)”
- 示例:“
Documentary style
(纪录片风格): 追求客观、真实,常伴随手持镜头感或自然光效。DSLR footage
(单反相机录像质感): 模拟数码单反相机拍摄的视频效果。Shot on 35mm film / 16mm film / 70mm film
(35mm/16mm/70mm胶片拍摄): 赋予画面胶片特有的颗粒感、色彩和动态范围。Vintage film look
(复古胶片感): 模拟老电影的色调、划痕、噪点等效果。RAW footage
(RAW格式素材感): 未经调色处理的原始素材感,色彩可能较平。
- 代码块 1.8.1 Photoreali…torealistiPhotorealistic (照片写实): 追求极致的真实感,细节丰富,如同真实照片或高清录像。
- 绘画与插画类:
- 代码块 1.8.1-3 Oil Painti…il PaintinOil Painting (油画): 笔触明显,色彩厚重,具有古典或印象派等多种油画风格。
- 示例:“
A landscape in the style of Van Gogh's oil paintings, with swirling brushstrokes.
(梵高油画风格的风景,带有旋转的笔触。)”
- 示例:“
- 代码块 1.8.1-4 WatercolorWatercolor (水彩): 色彩透明轻快,有水渍感,适合清新、梦幻的场景。
- 示例:“
A whimsical forest scene in watercolor style, soft greens and blues.
(水彩风格的奇幻森林场景,柔和的绿色和蓝色。)”
- 示例:“
- 代码块 1.8.1-5 Sketch / D…h / DrawinSketch / Drawing (素描/手绘): 线条为主,可以是铅笔、钢笔、炭笔等不同质感。
- 示例:“
Detailed ink sketch of an ancient castle.
(古老城堡的精细钢笔素描。)”
- 示例:“
Impressionism
(印象派): 强调光影和色彩的瞬间感受,笔触松散。Surrealism
(超现实主义): 梦幻、怪诞、不合逻辑的组合,挑战现实。Abstract art
(抽象艺术): 非具象,通过形状、色彩、线条表达概念或情绪。
- 代码块 1.8.1-3 Oil Painti…il PaintinOil Painting (油画): 笔触明显,色彩厚重,具有古典或印象派等多种油画风格。
- 动画与卡通类:
- 代码块 1.8.1-6 Anime styl…Anime stylAnime style (日本动画风格): 特有的角色设计(如大眼睛)、色彩运用和动态表现。
- 示例:“
A young sorcerer with glowing eyes, anime style, dynamic pose.
(闪耀双眸的年轻魔法师,日本动画风格,动态姿势。)”
- 示例:“
- 代码块 1.8.1-7 Cartoon st…rtoon stylCartoon style (卡通风格): 线条简洁,色彩鲜明,形象夸张可爱,适合儿童或轻松主题。
- 示例:“
A friendly robot waving hello, cartoon style with bold outlines.
(友好机器人挥手问好,粗线条卡通风格。)”
- 示例:“
- 代码块 1.8.1-8 3D Animati…ation / CG3D Animation / CGI (三维动画/计算机生成影像): 立体感强,模型光滑或有特定材质,常用于模拟现实或创造幻想世界。
- 示例:“
A futuristic city with flying vehicles, rendered in sleek 3D animation.
(未来城市与飞行器,以流畅的3D动画渲染。)”
- 示例:“
- 代码块 1.8.1-9 Pixel ArtPixel Art (像素艺术): 由像素点构成图像,具有复古游戏感。
- 示例:“
A knight fighting a dragon in 16-bit pixel art style.
(16位像素艺术风格的骑士斗恶龙。)”
- 示例:“
Stop Motion
(定格动画): 模拟逐帧拍摄物体微小移动再连续播放的效果。
- 代码块 1.8.1-6 Anime styl…Anime stylAnime style (日本动画风格): 特有的角色设计(如大眼睛)、色彩运用和动态表现。
- 特定主题/时代风格:
- 代码块 1.8.1-10 CyberpunkCyberpunk (赛博朋克): 未来都市、霓虹灯、高科技与社会底层对比、反乌托邦。
- 示例:“
A rainy cyberpunk street with neon signs reflecting on wet pavement.
(雨中的赛博朋克街道,霓虹灯招牌倒映在湿滑的路面。)”
- 示例:“
Steampunk
(蒸汽朋克): 维多利亚时代背景,以蒸汽动力、齿轮、黄铜等元素为特征的复古未来科技。Fantasy
(奇幻): 魔法、神话生物、史诗场景,可以是High Fantasy
(高度奇幻,如魔戒) 或Dark Fantasy
(黑暗奇幻,哥特氛围)。Sci-Fi / Futuristic
(科幻/未来感): 太空、外星人、先进科技、未来社会。Vintage / Retro
(复古): 模仿特定历史时期的风格,如20年代、50年代、80年代等。Minimalist
(极简主义): 简洁的线条、形状和色彩,强调功能性和空间感。Film Noir
(黑色电影): 低调光照、强烈对比、阴影、悬疑氛围,常为黑白。
- 代码块 1.8.1-10 CyberpunkCyberpunk (赛博朋克): 未来都市、霓虹灯、高科技与社会底层对比、反乌托邦。
- 写实与摄影类 :
- 使用技巧:
- 明确指定1-2个核心风格词。 过多不相关的风格词可能导致AI混淆。
- 结合具体描述: 风格词最好与场景、光照、色彩等具体描述相结合,以强化风格表现。例如,“
Dark fantasy forest, eerie lighting, gnarled trees with glowing runes.
(黑暗奇幻森林,诡异的光照,带有发光符文的扭曲树木。)” - 参考模型能力: 不同模型对特定风格的理解和表现能力不同,查阅模型文档或社区了解其擅长的风格。
情绪与氛围
情绪和氛围是视频能否打动观众的关键。通过提示词,我们可以引导AI营造出特定的情感基调。
- 直接描述情绪/氛围词:
- 正面情绪:代码块 1.8.2 JoyfulJoyful (快乐的), 代码块 1.8.2-2 PlayfulPlayful (顽皮的), 代码块 1.8.2-3 HopefulHopeful (充满希望的), 代码块 1.8.2-4 PeacefulPeaceful (宁静的), 代码块 1.8.2-5 SereneSerene (安详的), 代码块 1.8.2-6 RomanticRomantic (浪漫的), 代码块 1.8.2-7 WhimsicalWhimsical (异想天开的), 代码块 1.8.2-8 EnergeticEnergetic (充满活力的), 代码块 1.8.2-9 EuphoricEuphoric (欣喜若狂的) 。
- 示例:“
A joyful scene of children playing in a sunlit meadow.
(孩子们在阳光明媚的草地上嬉戏的快乐场景。)”
- 示例:“
- 负面/紧张情绪:代码块 1.8.2-10 SadSad (悲伤的), 代码块 1.8.2-11 SomberSomber (忧郁的), 代码块 1.8.2-12 LonelyLonely (孤独的), 代码块 1.8.2-13 MysteriousMysterious (神秘的), 代码块 1.8.2-14 Suspensefu…SuspensefuSuspenseful (悬疑的), 代码块 1.8.2-15 TenseTense (紧张的), 代码块 1.8.2-16 EerieEerie (诡异的), 代码块 1.8.2-17 OminousOminous (不祥的), 代码块 1.8.2-18 ChaoticChaotic (混乱的) 。
- 示例:“
A mysterious and ethereal atmosphere in a foggy graveyard at night.
(夜晚有雾的墓地,神秘而空灵的氛围。)” 21
- 示例:“
- 中性/特定氛围:
Calm
(平静的),Dramatic
(戏剧性的),Epic
(史诗般的),Nostalgic
(怀旧的),Dreamlike
(梦幻般的),Busy
(繁忙的),Quiet
(安静的)。
- 正面情绪:代码块 1.8.2 JoyfulJoyful (快乐的), 代码块 1.8.2-2 PlayfulPlayful (顽皮的), 代码块 1.8.2-3 HopefulHopeful (充满希望的), 代码块 1.8.2-4 PeacefulPeaceful (宁静的), 代码块 1.8.2-5 SereneSerene (安详的), 代码块 1.8.2-6 RomanticRomantic (浪漫的), 代码块 1.8.2-7 WhimsicalWhimsical (异想天开的), 代码块 1.8.2-8 EnergeticEnergetic (充满活力的), 代码块 1.8.2-9 EuphoricEuphoric (欣喜若狂的) 。
- 通过环境、光照、色彩、天气间接营造:
- 环境: 荒凉的沙漠(孤独),茂密的丛林(神秘),舒适的壁炉边(温暖)。
- 光照: 柔和的晨光(希望),昏暗的烛光(神秘/浪漫),刺眼的顶光(压抑)。
- 色彩: 暖色调(活力/温暖),冷色调(平静/悲伤),高对比度(戏剧性)。
- 天气: 阳光明媚(快乐),阴雨连绵(忧郁),电闪雷鸣(紧张)。
- 示例:“
A somber mood is created by the rainy weather and cool blue tones of the city street.
(阴雨天气和城市街道的冷蓝色调营造出忧郁的氛围。)” (改编自 14)
- 通过角色表情和动作传递:
- 角色的微笑、哭泣、紧张的姿态等都能直接反映情绪。
- 示例:“
Close-up shot focusing on the character's tearful eyes, conveying deep sadness.
(特写镜头聚焦角色含泪的双眼,传递出深深的悲伤。)”
- 使用技巧:
- 保持一致性: 确保所描述的情绪/氛围与场景、光照、色彩、角色行为等元素协调一致。
- 运用感官联想: 虽然AI主要处理视觉,但描述能引发特定情绪的场景(如“温暖的壁炉火焰跳动”)有助于AI捕捉到期望的氛围。
光照
光是影像的灵魂,不同的光照条件能极大地改变画面的影调、质感和情绪。
- 常用光照关键词:
- 自然光:
Sunlight
(阳光):Bright sunlight
(明亮的阳光),Soft sunlight
(柔和的阳光),Golden hour
(黄金时刻/魔幻时刻,日出后或日落前,光线柔和温暖)。Moonlight
(月光):Full moon
(满月),Crescent moon
(新月)。Overcast
(阴天光): 光线均匀柔和,阴影不明显。Twilight / Dusk / Dawn
(黄昏/黎明): 天色较暗,光线有特殊色温。
- 人造光:
Studio lighting
(影棚光): 专业、可控的光照,如key light
(主光),fill light
(补光),rim light
(轮廓光)。Street lights
(路灯)。Neon lights / Neon glow
(霓虹灯/霓虹光晕): 赛博朋克或都市夜景常用。Candlelight
(烛光): 温暖、摇曳。Spotlight
(聚光灯): 集中照射某一区域。
- 光照特性与效果:
Volumetric lighting / God rays
(体积光/耶稣光): 光线穿过烟雾、尘埃等介质时形成的可见光束。Backlight / Backlit
(逆光): 光源在主体背后,形成剪影或轮廓光。Soft light
(柔光): 光线散射均匀,阴影柔和。Hard light / Harsh light
(硬光): 光线集中,阴影轮廓清晰,对比强烈。High contrast lighting
(高对比度光照): 亮部和暗部差异显著。Low key lighting
(低调光照): 画面整体偏暗,只有少量高光区域。High key lighting
(高调光照): 画面整体明亮,阴影很少。Dramatic lighting
(戏剧性光照): 强调光影对比,营造紧张或神秘氛围。Lens flare
(镜头光晕): 见第六章。Shadows
(阴影):Soft shadows
(柔和阴影),Long shadows
(长长的影子),Deep shadows
(深邃的阴影)。
- 自然光:
- 使用技巧:
- 描述光源类型、方向、强度和颜色。
- 光照与情绪的关联: 明亮的光线通常与积极情绪相关,而昏暗的光线则可能与消极或神秘情绪相关。
- 考虑一天中的时间: “
soft morning light filtering through trees
(柔和的晨光透过树林洒落)”。
色彩
色彩是情绪表达和风格塑造的强有力工具。
- 常用色彩关键词:
- 色调:
Warm tones
(暖色调): 红、橙、黄,给人温暖、活泼、热情的感觉。Cool tones
(冷色调): 蓝、绿、紫,给人平静、凉爽、忧郁的感觉。Monochromatic
(单色): 画面由单一颜色的不同明暗度构成,如黑白black and white / monochrome
。Sepia tone
(棕褐色调): 复古感。Vibrant colors / Saturated colors
(鲜艳色彩/高饱和度色彩): 色彩浓郁,视觉冲击力强。Desaturated colors / Muted colors
(低饱和度色彩/柔和色彩): 色彩较淡,感觉沉稳或压抑。Pastel colors
(粉彩色): 饱和度低、明度高的柔和色彩。
- 色彩关系:
High contrast
(高对比度): 色彩之间差异大,画面鲜明。Low contrast
(低对比度): 色彩之间差异小,画面柔和。
- 特定颜色: 可以直接指定场景中的主色调或关键物体的颜色。例如:“
a long red dress
(一条红色长裙)”。 - 色彩分级/调色:
Cinematic color grading
(电影调色): 模仿电影的特定调色风格。Retro color grading
(复古调色)。
- 色调:
- 使用技巧:
- 色彩与情绪和风格的统一: 选择与视频主题、情绪和整体风格相匹配的色彩方案。
- 突出重点: 利用对比色或鲜艳色来突出画面中的重要元素。
通过对视觉风格、情绪氛围、光照和色彩的精心设定,您的AI视频将不再仅仅是简单的动态图像,而是能够传递情感、讲述故事、展现独特美学的艺术作品。在实践中,多尝试不同的关键词组合,观察AI的反馈,逐步找到最能表达您创意的“魔法咒语”。
进阶之路——高级提示词技巧与策略
掌握了基础元素的描述方法后,我们可以向更高级的提示词技巧迈进。这些技巧能帮助我们应对更复杂的创作需求,如多主体互动、精细的情感表达、特定艺术风格的深度定制,以及充分利用不同AI模型的独特功能。
描述多主体互动与复杂动作序列
当视频中涉及多个主体,或者单个主体需要完成一系列连贯的复杂动作时,提示词的组织和清晰度就显得尤为重要。
- 多主体互动:
- 明确指代: 使用清晰的代词或描述性短语来区分不同主体。例如:“
The tall man in the blue suit hands a document to the woman with blonde hair.
(穿蓝色西装的高个男人把一份文件递给金发女士。)” - 描述互动关系和行为: 他们是在对话、合作、追逐、打斗,还是仅仅同处一个空间但各自行动?例如:“
Two wolves playfully chase each other through the snow.
(两只狼在雪地里嬉戏追逐。)” - 空间位置关系: 明确主体间的相对位置,如“
The cat sits on the man's lap.
(猫坐在男人的腿上。)” 或 “The children stand in a circle holding hands.
(孩子们手拉手围成一圈。)” - Runway建议: 对于多个需要不同运动的主体,可以使用清晰的位置语言(“左边的主体向前走,右边的主体保持静止”)或简单的描述性标识(“女人点头,男人挥手”)。
- 明确指代: 使用清晰的代词或描述性短语来区分不同主体。例如:“
- 复杂动作序列:
- 分解动作: 将复杂动作分解为几个关键的、按时间顺序发生的子动作。例如,描述“一个人从椅子上站起来,走到窗边,然后向外望去”,可以分解为:“
The person stands up from the chair, walks towards the window, and then looks out.
” - 使用连接词: 使用“然后 (then)”、“接着 (next)”、“同时 (while/as)”、“在……之后 (after)”等词语来表明动作的顺序或并发关系。但要注意,AI对复杂时序逻辑的理解可能有限,过于复杂的序列可能导致混乱。
- 强调连贯性: 确保分解后的动作在逻辑上是连贯的,并且能够在视频的预期时长内完成。
- Adobe Firefly结构: 其
镜头类型描述 + 角色 + 动作 + 地点 + 美学风格
的结构中,“动作”部分可以包含相对复杂的描述,如“北极熊轻柔而自信地走向它先前在冰上凿开的一个洞,准备在冰面下捕猎”。 - 避免过度指定每一秒: Runway的指南警告说,试图用多个场景变化、主体动作或风格转换来规定视频的每一秒,可能会因为模型试图调和过多不相干或矛盾的指令而产生意外结果。
- 分解动作: 将复杂动作分解为几个关键的、按时间顺序发生的子动作。例如,描述“一个人从椅子上站起来,走到窗边,然后向外望去”,可以分解为:“
- 技巧与考量:
- 简洁优先: 即使是复杂动作,也要力求描述简洁明了。
- 模型能力: 不同模型处理复杂动作和多主体互动的能力不同。Sora以其能生成包含多个角色和特定类型运动的复杂场景而著称。而一些早期或轻量级模型可能难以准确呈现。
- 迭代优化: 对于复杂场景,通常需要多次迭代调整提示词,逐步逼近理想效果。
精细化角色情感与表情的动态捕捉
让AI生成的角色展现出微妙而真实的情感,是提升视频感染力的关键。
- 描述面部表情的细微变化:
- 不仅仅是“微笑”或“悲伤”,尝试更具体的描述:
a subtle smile plays on her lips
(一丝微笑掠过她的嘴唇),his eyes widen in surprise
(他惊讶地睁大了眼睛),a worried frown creases his forehead
(忧虑的皱纹爬上他的额头),tears welling up in her eyes
(泪水在她眼中打转)。 - 结合情绪词: “
a pensive expression
(沉思的表情)” 18, “looking content and relaxed
(看起来满足而放松)”。
- 不仅仅是“微笑”或“悲伤”,尝试更具体的描述:
- 通过肢体语言和姿态传递情感:
shoulders slumped in defeat
(双肩因失败而垮塌),hands clenched délégation (in anger or determination)
(愤怒或坚定地紧握双拳),head bowed in sorrow
(悲伤地低下头),leaning forward eagerly
(急切地向前倾身)。- 示例: “
The character's posture shifts from confident to hesitant as they approach the mysterious door.
(当角色走近那扇神秘的门时,其姿态从自信变为犹豫。)”
- 环境与情感的互动(情绪化场景):
- 如31所述,可以设计场景让环境反映角色的情绪,例如:“
Design a scene where the environment reflects the character's joy, incorporating bright sunlight, blooming flowers, and uplifting camera movements.
(设计一个场景,让环境反映角色的喜悦,包含明媚的阳光、盛开的鲜花和昂扬的镜头运动。)” - 动态天气、光照变化等都可以用来放大情感效果。
- 如31所述,可以设计场景让环境反映角色的情绪,例如:“
- 技巧:
- 使用富有表现力的形容词和副词。
- 专注于可观察的行为和视觉线索,而非抽象的情感状态。 AI更容易理解“眼角含泪”而不是“内心充满悲伤”。
- 结合镜头语言: 特写镜头或中近景更适合捕捉细微的表情变化。
运用电影术语与专业指令
对于追求更专业视觉效果的用户,学习并使用一些电影制作的专业术语,能让AI更准确地理解并执行你的“导演意图”。
- 摄影与构图术语:
Shallow depth of field
(浅景深),Bokeh
(背景虚化),Rack focus
(焦点转移)。Rule of thirds
(三分法构图),Leading lines
(引导线),Symmetry
(对称构图)。Framing
(取景):Wide shot
(广角),Close up
(特写),Shot from above
(俯拍),Shot from below
(仰拍)。Dutch angle
(荷兰角/斜角)。
- 光照与色彩术语:
Volumetric lighting
(体积光),Backlight
(逆光),Golden hour
(黄金时刻)。Color grading
(调色),Saturated colors
(高饱和色彩),Monochromatic
(单色)。
- 镜头运动术语:
Dolly zoom / Vertigo effect
(滑动变焦/希区柯克式变焦)。Tracking shot
(跟拍),Crane shot
(摇臂镜头),Steadicam shot
(斯坦尼康镜头)。- Google Veo对这类术语有较好的理解。getimg.ai的Video Generator也鼓励使用技术性电影术语。
- 后期与特效术语:
Film grain
(胶片颗粒),Light leaks
(漏光),Chromatic aberration
(色差)。Motion blur
(运动模糊),Slow motion
(慢动作),Timelapse
(延时摄影)。Particle effects
(粒子效果),Explosions
(爆炸),Debris
(碎片)。
- 使用技巧:
- 准确使用: 确保理解术语的准确含义再使用。
- 适度使用: 并非所有模型都支持所有专业术语,过度堆砌可能适得其反。
- 结合描述: 专业术语最好配合具体的场景和动作描述。例如:“
Extreme close-up with a shallow depth of field on the watch face, cinematic lighting highlighting the metallic texture.
(手表表盘的浅景深大特写,电影感光照凸显金属质感。)” (改编自 23)
风格迁移与融合的提示词设计
有时我们希望AI生成具有特定艺术家风格、某部电影调性,或者融合多种艺术特点的视频。
- 引用特定艺术家/作品:
- “
in the style of Van Gogh
(梵高风格)”, “inspired by Blade Runner
(受《银翼杀手》启发)”。 - 注意: AI对这类引用的理解程度因模型而异,且可能涉及版权问题。效果通常取决于模型训练数据中是否包含足够的该艺术家或作品信息。
- “
- 融合多种风格元素:
- 可以尝试将不同风格的关键词组合在一起,例如:“
A cyberpunk cityscape with art deco architecture, rendered in a gritty comic book style.
(赛博朋克城市景观融合装饰艺术建筑,以粗犷的漫画书风格渲染。)” - 关键在于找到能够和谐共存的风格元素。 过于冲突的风格组合可能导致AI难以处理。
- 示例(来自*26*的启发): “
A majestic elven queen, standing in a glowing forest, painted in a high fantasy oil painting style, intricate brushwork, soft lighting.
(一位高贵的精灵女王,站在发光的森林中,以高度奇幻的油画风格绘制,笔触细腻,光线柔和。)”
- 可以尝试将不同风格的关键词组合在一起,例如:“
利用模型的特定参数与功能
许多模型提供了超越基本文本提示的参数或特殊指令,善用它们能极大提升控制力。
- 否定提示:
- 如Pika Labs的
-neg
4 或Google Veo中描述不希望出现的内容。用于排除特定元素、风格或不希望的视觉效果(如变形、噪点、低质量)。 - 示例 (Pika):
-neg morphing, erratic fluctuation in motion, noisy, bad quality, distorted
。
- 如Pika Labs的
- 引导强度/相关性:
- 如Pika Labs的
-gs ##
(值越高越接近文本) ,或Google Veo的temperature
(温度控制随机性,低温更确定,高温更多样)。 - 这些参数影响AI在多大程度上遵循提示词,以及允许多少自由发挥。理解并调整它们对于获得期望结果至关重要。
- 如Pika Labs的
- 种子值:
- 用于控制生成结果的随机性。固定种子值可以在相同提示下产生相似(但不完全相同)的结果,便于在满意的基础上进行微调。
- 宽高比 :
- 通过参数(如Pika的
-ar #:#
)或模型设置直接指定,确保视频符合发布平台的尺寸要求(如16:9, 9:16, 1:1)。
- 通过参数(如Pika的
- 帧率:
- 如Pika Labs的
-fps ##
,影响视频流畅度。
- 如Pika Labs的
- 运动强度:
- 如Pika Labs的
-motion #
,控制运动的剧烈程度。
- 如Pika Labs的
- 模型特定指令:
- Luma AI的
@character
和@style
用于引用图片进行角色和风格一致性控制。 - getimg.ai Video Generator的Director模式提供15种特定相机运动的点击选择。
- Luma AI的
- 使用技巧:
- 查阅官方文档: 不同模型的参数和特殊指令差异很大,务必参考官方指南。
- 实验与记录: 尝试不同的参数组合,记录其对结果的影响。
高级提示词技巧的运用,意味着从简单地“告诉”AI做什么,转向更精细地“指导”AI如何做。这需要对模型能力有更深的理解,以及更具策略性的思考。通过不断实践这些高级技巧,您将能够创作出更复杂、更具表现力且更符合个人创意的AI视频作品。
精益求精——提示词的迭代与优化
生成AI视频很少能一蹴而就,即使是经验丰富的提示词工程师也需要通过不断的迭代和优化来逼近完美的效果。本章将介绍一套系统性的迭代测试方法论,指导您如何分析生成结果、调整提示词,并利用模型的特定功能(如“种子”)进行可控的精进。
迭代测试的方法论
迭代是一个循环往复的过程:提出假设(修改提示词)-> 测试(生成视频)-> 分析结果 -> 调整假设 -> 再次测试。有效的迭代并非盲目尝试,而应遵循一定的方法。
- 从小处着手,逐步求精:
- 从核心提示开始: 正如Runway和Adobe Firefly所建议,可以从一个捕捉了最核心运动或场景的简单提示开始。
- 一次只改一个变量(或少数几个): 当基础效果尚可后,尝试每次只修改提示词中的一个元素(如一个形容词、一个动作细节、一个镜头参数)或一小部分相关联的元素。这样更容易判断该修改对结果的具体影响。例如,如果你想改变光照,就只调整光照相关的描述,保持主体、动作、场景等其他部分不变。
- 逐步增加细节: 在核心提示有效的基础上,逐渐添加更多描述性词语、风格限定或镜头指令,观察效果如何叠加和演变。Luma AI的“画板(Board)”上下文保留功能就很适合这种渐进式创作,AI会“记住”之前的生成并在此基础上构建。
- 建立对照组:
- 在进行修改时,保留原始的、效果尚可的提示词作为参照。将新生成的视频与基于原始提示词生成的视频进行对比,能更客观地评估修改是带来了改进、退步还是仅仅是不同的变化。
- 记录与总结:
- 创建“提示词日志”: 记录下每次尝试的完整提示词、使用的模型、关键参数设置(如种子值、引导强度等)、生成的视频效果(可以是截图或简短描述),以及自己对结果的评价。
- 总结有效模式: 通过日志,你会逐渐发现哪些关键词组合、参数范围或描述结构对特定模型或特定效果更有效。
- 吸取失败教训: 同样重要的是记录下哪些尝试失败了,以及可能的原因,避免重复犯错。
这种系统性的探索过程,远比随机尝试要高效得多。它帮助我们理解提示词中不同部分与生成结果之间的因果关系,逐步建立起对AI模型“脾气”的直觉。
如何分析生成结果并调整提示词
当AI生成的视频与您的预期存在差距时,关键在于准确诊断问题所在,并针对性地调整提示词。
- 明确期望与实际的差距:
- 动作问题: 动作是否自然流畅?是否符合物理规律(除非刻意追求超现实)?运动速度、幅度是否合适?是否存在不必要的抖动或“变形”?
- 主体问题: 主体的外观、数量、位置是否准确?表情、姿态是否符合描述?
- 场景问题: 环境元素是否齐全?氛围是否到位?光照、色彩是否如预期?
- 镜头问题: 景别、角度、运动是否符合指令?是否存在不必要的镜头跳跃或不稳定的运镜?
- 风格问题: 整体视觉风格是否与提示词中的风格描述一致?
- 元素缺失或多余: 是否出现了提示词中未提及的元素,或者遗漏了关键元素?
- 针对性调整策略:
- 动作不自然/错误:
- 调整动词和副词: 尝试更精确或不同的动作描述词。
- 简化动作: 如果动作过于复杂,尝试分解或简化。
- 增加约束: 例如,如果角色手臂摆动幅度过大,可以尝试加入“手臂轻微摆动”。
- 检查物理逻辑: 确保动作描述符合基本的物理常识(除非有意为之)。
- 风格不符:
- 更换或添加风格关键词: 参考第七章的风格词汇表。
- 更具体地描述色彩、光影、质感等构成风格的要素。
- 使用否定提示(如果模型支持): 排除不希望出现的风格特征。
- 元素缺失/错误:
- 检查主体、场景描述的清晰度和具体性。 是否有歧义?是否遗漏了关键特征?
- 调整词语顺序: 有时将关键元素的描述提前可能有助于AI优先处理。
- 加强权重(部分高级技巧): 某些模型或工具可能允许对提示词中的特定部分赋予更高权重(这通常超出基本提示词范畴,属于更高级的Prompt Engineering)。
- 镜头问题:
- 检查镜头指令的准确性。
- 尝试更简单或更明确的镜头描述。
- 如果使用了组合镜头运动,尝试分解为单一运动。
- 整体效果不佳:
- 回顾核心原则: 提示词是否清晰、简洁、具体?
- 尝试大幅修改结构或核心概念。
- 换一个模型试试: 有可能当前模型不擅长处理这类提示。
- 动作不自然/错误:
利用模型的“种子”功能进行可控调整
“种子”或“固定种子”是许多AI生成模型提供的一个非常有用的参数,它为迭代优化提供了更强的可控性。
- 什么是种子值:
- 种子值是一个数字,用作初始化AI模型内部随机数生成器的起点。在AI生成过程中,许多环节都涉及到随机性(例如,在符合提示的多种可能性中选择一种具体的视觉呈现方式)。
- 当使用相同的提示词和所有其他参数,并且固定了种子值时,AI模型理论上会生成非常相似(在某些模型中甚至是完全相同)的结果。。
- 如何使用种子值进行迭代:
- 初步生成与筛选: 首先,在不固定种子值(即让模型随机选择种子)的情况下,用一个基础提示词生成一批视频。从中挑选出整体风格、构图或运动趋势最接近期望的那个。
- 获取并固定种子: 大多数模型会在生成结果旁显示该视频所使用的种子值。复制这个种子值,并在下一次生成时,将模型的种子参数设置为这个固定的值。
- 微调提示词: 在保持种子值固定的前提下,对提示词进行小幅度的修改。例如,改变一个形容词(如将“明亮的阳光”改为“柔和的晨光”),微调一个动作的细节(如将“快速奔跑”改为“轻快地小跑”),或者调整一个镜头的参数(如将“广角镜头”改为“中景镜头”)。
- 观察变化: 由于种子值固定,视频的整体“骨架”和许多随机因素会被保留,所做的提示词微调会更直接地体现在最终结果的相应变化上,而不会因为随机性导致整个画面风格大变。这使得迭代调整更具可预测性和针对性。
- Runway Gen-4的说明: “使用固定种子将允许您创建具有相似运动的生成。如果您希望获得具有相似风格和运动的生成,请启用固定种子滑块并复制粘贴先前输出的种子。”。
- Pika Labs的说明: “-seed ### – 用于:更一致的生成。目前,固定种子仅在提示和否定提示均未更改时才能保证一致性。”。这提示我们,不同模型对种子值作用的实现可能略有差异,需要注意其具体说明。
- 种子值的局限性:
- 固定种子并不能完全消除所有变数,尤其是在大幅修改提示词或使用不同模型版本时。
- 它主要适用于在已有较好基础上进行精细打磨,而非从零开始探索。
A/B测试与效果对比
A/B测试是一种系统比较不同方案优劣的方法,同样适用于提示词优化。
- 操作方法:
- 确定优化目标: 例如,希望让角色的动作更自然,或者让场景的氛围更神秘。
- 设计A/B两个(或多个)版本的提示词:这两个版本的提示词在其他方面尽量保持一致,只在针对优化目标的关键描述上有所不同。
- 例如,目标是“更自然的行走”:
- 提示A:“
A man walks down the street.
(一个男人在街上走。)” - 提示B:“
A man strolls casually down the street, with a slight swing in his arms.
(一个男人随意地在街上漫步,手臂有轻微的摆动。)”
- 提示A:“
- 例如,目标是“更自然的行走”:
- (可选)固定其他变量: 如果模型支持,可以固定种子值、引导强度等参数,以确保对比的公平性。
- 生成并比较结果: 分别用A、B提示词生成视频,然后仔细比较它们在优化目标上的表现。哪个版本的动作更自然?哪个更能体现“随意漫步”的感觉?
- 选择更优方案或进一步迭代: 根据比较结果,选择效果更好的提示词版本,或者从中获得启发,设计新的C版本进行下一轮测试。
- A/B测试的价值:
- 帮助客观评估不同措辞、不同参数组合的实际效果。
- 加速学习过程,更快地掌握哪些类型的描述对特定模型更有效。
- 避免主观臆断,用实际结果指导优化方向。
通过运用上述迭代测试方法、分析调整策略、善用种子功能以及进行A/B测试,您将能够不断提升提示词的质量,逐步将AI生成的视频打磨成符合甚至超越您期望的艺术作品。记住,精益求精的过程本身也是一种创作的乐趣。
避坑指南——常见错误与解决之道
在学习和实践AI视频提示词设计的过程中,初学者乃至有一定经验的用户都可能遇到一些常见的”坑”。了解这些易错点并掌握相应的解决之道,能有效提升创作效率,避免不必要的挫败感。
过于模糊或过于细节
这是初学者最常遇到的问题之一,它关乎信息传递的”度”。
- 过于模糊:
- 表现: 提示词缺乏足够的信息和指向性,让AI难以准确理解用户的真实意图。例如,仅使用”
a beautiful video
(一个美丽的视频)”或”make something cool
(做点酷的东西)”。 - 后果: 生成的视频可能完全随机,与用户期望相去甚远,或者效果平庸,缺乏特色。Google Cloud的文档在解释如何生成视频时,也强调了输入描述性文本提示的重要性。
- 解决之道:
- 明确核心元素: 至少清晰描述视频的主体、基本动作和场景。
- 提供方向性指引: 即使是探索性的创作,也要给出大致的风格、情绪或主题方向。
- 参考第四章”基础元素解析”,确保提示词包含必要的信息。
- 表现: 提示词缺乏足够的信息和指向性,让AI难以准确理解用户的真实意图。例如,仅使用”
- 过于细节/复杂:
- 表现: 提示词中堆砌了大量琐碎的、不必要的细节,或者包含了过多独立甚至相互矛盾的指令。例如,在一个5秒的片段提示中,要求角色完成多个复杂动作,同时场景发生多次变化,并且镜头进行复杂的运镜。
- 后果:
- 信息过载: AI模型可能难以处理所有指令,导致部分细节被忽略或错误执行。
- 元素冲突: 相互矛盾的描述(如”晴朗的雨天”)可能让AI无所适从。
- 动作混乱/不连贯: 试图在短时间内塞入过多动作,会导致动作仓促、不自然或无法完成。
- “平均化”效应: 过多细节可能导致AI试图”折中”满足所有要求,结果反而平庸。
- 解决之道:
- 确立优先级: 明确1-2个最重要的视觉重点,其他细节作为辅助描述。
- 简化动作序列: 一个镜头内专注于一个主要动作或状态变化。
- 检查逻辑一致性: 确保提示词内各元素之间不冲突。
- 分阶段处理: 复杂场景可以拆分为多个简单片段分别生成。
忽视模型特性与限制
不同的AI模型有着各自的优势领域、技术特点和使用限制,忽视这些差异是常见的错误。
- 表现:
- 用相同的提示词在不同模型上测试,期望得到相同效果。
- 不了解模型的技术限制,如生成时长上限、分辨率限制、特定内容的处理能力等。
- 忽视模型的训练数据特点,使用模型”不擅长”的风格或主题。
- 后果:
- 在某个模型上效果很好的提示词,在其他模型上可能表现平庸。
- 超出模型能力范围的要求得不到满足,浪费时间和资源。
- 错失利用模型独特优势的机会。
- 解决之道:
- 深入了解模型特性: 阅读官方文档,了解每个模型的优势领域和技术规格。
- 针对性优化: 根据模型特点调整提示词风格和重点。例如,某些模型更擅长人物动作,某些更适合风景场景。
- 充分利用模型独特功能: 如Pika Labs的参数控制功能,Runway的迭代编辑能力等。
- 建立模型使用档案: 记录不同模型的最佳使用场景和提示词模式。
动作描述不当
动作描述是图片到视频生成的核心,错误的动作指令会直接影响视频质量。
- 常见错误:
- 物理规律违背: 描述不符合现实物理规律的动作,如”人物向上飞行但没有支撑”、”水往高处流”等。
- 动作过于激烈: 在短时间内要求过大幅度的运动,可能导致画面模糊或不自然。
- 缺乏连贯性: 动作的起始和结束状态与原图不符,或动作序列缺乏逻辑。
- 忽视时间尺度: 没有考虑视频时长限制,描述需要更长时间才能完成的动作。
- 解决之道:
- 遵循物理常识: 确保描述的动作符合基本的物理规律和常识。
- 适度控制运动幅度: 从小幅度、自然的动作开始,逐步尝试更复杂的运动。
- 考虑原图状态: 动作描述要与输入图片的人物姿态、物体状态相协调。
- 匹配时间尺度: 动作的复杂程度要与预期的视频时长相匹配。
风格词使用混乱
风格词是营造视觉氛围的重要工具,但不当使用会导致风格冲突。
- 常见问题:
- 风格冲突: 同时使用相互矛盾的风格词,如”极简主义的华丽装饰”。
- 风格堆砌: 使用过多不相关的风格词,希望”多多益善”。
- 文化误用: 对某些具有特定文化背景的风格词理解有误。
- 解决之道:
- 选择1-2个主导风格: 避免风格词过多导致的混乱。
- 了解风格内涵: 深入理解各种风格词的真正含义和视觉特点。
- 风格一致性检查: 确保所选风格词能够和谐共存。
忽视负面提示词的作用
负面提示词是告诉AI”不要生成什么”的重要工具,但经常被忽视。
- 常见遗漏:
- 不使用负面提示词,导致生成内容包含不想要的元素。
- 负面提示词过于宽泛或过于具体。
- 没有针对模型的常见问题设置相应的负面提示。
- 解决之道:
- 主动使用负面提示: 明确列出不希望出现的元素、风格或效果。
- 针对性设置: 根据历史生成经验,预防性地排除常见问题。
- 平衡使用: 负面提示不宜过多,避免过度限制AI的创造空间。
缺乏迭代思维
许多用户期望一次就能生成完美的视频,缺乏迭代优化的耐心。
- 表现:
- 对首次生成结果期望过高。
- 遇到不满意结果就轻易放弃或完全重写提示词。
- 不记录和分析生成过程中的经验教训。
- 解决之道:
- 建立正确预期: 理解AI视频生成是一个迭代优化的过程。
- 系统化改进: 每次只调整提示词的一个方面,观察变化效果。
- 经验积累: 记录成功和失败的案例,建立个人提示词库。
技术参数设置不当
除了提示词本身,技术参数的设置也会显著影响生成效果。
- 常见错误:
- 忽视镜头运动强度设置,导致画面过于静止或过于晃动。
- 不合适的引导强度(CFG Scale)设置。
- 错误的时长或分辨率选择。
- 解决之道:
- 了解参数含义: 深入理解各项技术参数的作用机制。
- 渐进式调整: 从默认参数开始,逐步微调优化。
- 参数与内容匹配: 根据视频内容特点选择合适的参数组合。
通过认识和避免这些常见错误,并掌握相应的解决方法,您将能够更高效地利用AI视频生成工具,创作出更优质的视频内容。记住,优秀的提示词设计师不仅要掌握正确的方法,更要善于从错误中学习和成长。
开启你的AI视频创作新篇章
通过本教程的系统学习,我们从AI视频生成的基本概念出发,深入探索了图片到视频模型的工作原理,全面掌握了提示词设计的核心技巧。让我们回顾一下这段学习之旅的关键收获:
核心技能掌握
基础认知层面: 我们了解了OpenAI Sora、Runway Gen-4、Pika Labs、Luma AI Dream Machine、快手Kling、Google Veo等主流模型的特性与优势,明确了各模型的适用场景和参数调节要点。
提示词构建技能: 从基础的主体、动作、场景描述,到复杂的镜头语言、风格定义和情绪营造,我们建立了完整的提示词设计体系。学会了如何用简洁而精准的语言驾驭AI,让静态图像焕发动态生命力。
进阶应用能力: 掌握了多主体互动、复杂动作序列、情感表达等高级技巧,能够创作出具有电影感和艺术感的视频作品。
优化迭代思维: 建立了系统化的结果分析和提示词优化流程,学会了利用种子值、参数调节等功能进行精细化控制。
实践应用要点
记住,优秀的AI视频创作并非一蹴而就,而是需要:
- 保持创作耐心: 将每次生成视为迭代优化的一步,而非最终结果
- 积累经验库: 建立个人的提示词模板和成功案例档案
- 灵活运用技巧: 根据不同模型特性和创作需求,灵活调整策略
- 持续学习进步: 关注AI技术发展动态,及时更新知识体系
未来展望
AI视频生成技术正在飞速发展,未来我们可以期待:
- 更长时长支持: 从现在的几十秒到未来可能的几分钟甚至更长
- 更高画质表现: 4K、8K分辨率将成为标配
- 更强物理模拟: 对现实世界规律的理解将更加精准
- 更丰富创作工具: 音频生成、多镜头剪辑等功能的集成
- 更智能的交互方式: 更自然的人机对话和创作协作
开始你的创作之旅
现在,是时候将所学知识付诸实践了。建议您:
- 选择一个适合的模型平台开始尝试
- 从简单的静态图片动画化开始练习
- 逐步挑战更复杂的创作场景
- 与其他创作者交流分享经验
- 持续关注新技术和新模型的发布
记住,每一位优秀的AI视频创作者都是从第一个简单的提示词开始的。现在就开始您的创作之旅,用AI的力量将想象变为现实,创造出属于您的精彩视频世界吧!