
大家好,我是冷逸,今天给大家推荐学习Sora 2的官方提示词指南(Prompting Guide)。
国庆期间,要论谁最火,无疑是Sora 2。
火到我在十八线小县城吃席,都听见隔壁桌的00后拿着手机喊:“我让山姆凹凸曼主持婚礼,抖音百万播放,份子钱直接回本!”
我低头一看自己公众号:阅读量2432,点赞13,其中2个还是我小号。
行,啥也不说了,今天咱们就看看OpenAI官方是怎么写Sora 2提示词的,如何把Sam Altman打造成“国庆爆款”。
展开剩余96%原文地址:
https://cookbook.openai.com/examples/sora/sora2_prompting_guide
1.写在前面
构思提示词就像是在向⼀位从未见过你故事板的电影摄影师做简报。如果你遗漏了细节 ,模型会即兴发挥——而你可能得不到你所想要的画⾯ 。通过具体阐述“镜头”应达成的效果 ,你可以给予模型更多的控制和⼀致性。
但有时 ,留出⼀些细节同样强⼤。给予模型更多的创作自由 ,可能会带来令人惊喜的变化和意想不到的、优美的诠释。
这两种方法都是有效的:详细的提示词给予你控制和⼀致性,而简略的提示词则为创意成果开辟了空间。正确的平衡点取决于你的目标和你期望达成的结果。
请将你的提示词视为⼀份创意的愿望清单 ,而非一份合同。 与ChatGPT类似 ,多次使用相同的提示词会产生不同的结果——这是⼀个特性 ,而非⼀个缺陷。每⼀次生成都是⼀次全新的尝试 ,有时第二个或第三个选项会更好。
最重要的是 ,要准备好进行迭代。对相机、光照或动作的微小改动都有可能极大地改变结果。与模型协作——你提供方向 ,模型则交付创意视频。
这不是一门精确的科学——请把下面的指导视为我们从与模型合作中学到的有用建议。
2.API参数
提示词可以控制视频的内容,但某些特定属性只能通过API参数来设定。你无法在提示词中用文字来指定它们,这些属性必须在你的API调用中被明确设置:
模型(model):sora-2或 sora-2-pro
模型(model):sora-2或 sora-2-pro
尺寸(size):一个格式为 {宽度}x{高度} 的字符串。支持的分辨率取决于所选的模型:
尺寸(size):一个格式为 {宽度}x{高度} 的字符串。支持的分辨率取决于所选的模型:
sora-2:1280x720, 720x1280
sora-2-pro:1280x720, 720x1280 1280x720,720x1280,1024x1792, 1792x1024
sora-2:1280x720, 720x1280
sora-2-pro:1280x720, 720x1280 1280x720,720x1280,1024x1792, 1792x1024
秒数(seconds):视频片段的长度,支持的值为:“4”、“8”、“12”。默认值为“4”。
秒数(seconds):视频片段的长度,支持的值为:“4”、“8”、“12”。默认值为“4”。
这些参数构成了视频的“容器”——分辨率、时长和质量不会因为像“把它做得更长一点”这样的文字描述而改变。请在 API 调用中明确地设置它们,你的提示词则控制其余的一切(主题、运动、光照、风格)。
视频分辨率
视频分辨率
视频分辨率直接影响着 Sora 的视觉保真度和运动一致性。更高的分辨率能更精确地生成细节、纹理和光影过渡,而较低的分辨率则会压缩视觉信息,通常会导致画面模糊或产生伪影。
视频时长
视频时长
模型通常在较短的片段中更可靠地遵循指示。为了获得最佳效果,请尝试简洁的镜头。如果您的项目允许,您可以通过编辑时拼接两个 4 秒片段来获得更好的效果,而不是生成一个 8 秒的片段。
3.有效的提示词结构
一条清晰的提示词,应该像在故事板上绘制草图一样来描述镜头。说明镜头取景,指明景深,分步骤描述动作,并设定灯光和色调。用几个独特的细节来锚定主体,能使其易于识别;而一个单一且合理的动作,则能让镜头更容易被理解。
如果你需要呈现一个连续场景,在单个提示词中描述多个镜头也是可行的。这样做的时候,要保持每个镜头单元的独立性:一次只描述一种机位设置、一个主体动作和一种灯光方案。这样一来,你就可以根据项目需求,灵活地生成独立的短片或更长的连续镜头。将每个镜头视为一个独立的创作单元,你既可以在后期编辑中将它们拼接起来,也可以让它们作为连续镜头一次性播放。
较短的提示词给予模型更多创作自由实配网配资,你可能会得到意想不到的惊喜效果。
更长、更详细的提示词会限制模型的创造力。它会尝试遵循你的指引,但可能无法保证每次都精准可靠。
较短的提示词给予模型更多创作自由,你可能会得到意想不到的惊喜效果。
更长、更详细的提示词会限制模型的创造力。它会尝试遵循你的指引,但可能无法保证每次都精准可靠。
以下是一个简短提示词的示例:
这条提示词可能会有很好的效果:
90s documentary设定了视频的风格。模型会据此选择相应的相机镜头、灯光和调色等变量。
an old Swedish man sits in a study以较少的细节描述了主体和场景,让模型在人物和场景的外观上有自由发挥的空间。
and says, "I still remember when I was young."描述了对话内容。Sora 很可能能够精确地遵循这一指令。
这条提示词能够稳定地生成符合这些要求的视频。然而,由于许多细节都被留白,它最终的效果可能不会与你的设partially-known-answer完全一致。例如,该提示词没有描述一天中的时间、天气、服装、基调、角色的外貌与年龄、摄像机角度、剪辑、布景设计以及许多其他因素。除非你描述这些细节,否则 Sora 将会自行补全它们。
进阶:使用超详细提示词
对于复杂的、具有电影感的镜头,你可以超越标准的提示词结构,并以专业的制作术语来指定画面风格、机位设置、调色、声景,甚至是镜头意图。这类似于导演向摄影团队或视觉特效(VFX)团队介绍工作要求的方式。关于镜头选用、滤镜、布光、调色和运动的详细提示,有助于模型锁定一种非常具体的美学风格。
例如,你可以描述观众首先注意到的内容、摄影机平台和镜头、光线方向、色调、画面质感、画内音(diegetic sound)以及镜头节奏。当你想要匹配真实的电影摄影风格(例如,IMAX 航拍、35毫米手持摄影、复古16毫米纪录片风格)或在多个镜头之间保持严格的连续性时,这种方法非常有效。
示例:
Lenses & Filtration32mm / 50mm spherical primes; Black Pro-Mist 1/4; slight CPL rotation to manage glass reflections ontrain windows.
Grade / PaletteHighlights: clean morning sunlight withamber lift.Mids: balanced neutrals withslight teal cast inshadows.Blacks: soft, neutral withmild lift forhaze retention.
Lighting & AtmosphereNatural sunlight fromcamera left, low angle(07:30AM).Bounce: 4×4 ultrabounce silver fromtrackside.Negative fill fromopposite wall.Practical: sodium platform lights ondim fade.Atmos: gentle mist; train exhaust drift through light beam.
Location & FramingUrban commuter platform, dawn.Foreground: yellow safety line, coffee cup onbench.Midground: waiting passengers silhouetted inhaze.Background: arriving train braking to a stop.Avoid signage orcorporate branding.
Wardrobe / Props / ExtrasMain subject: mid-30s traveler, navy coat, backpack slung onone shoulder, holding phone loosely at side.Extras: commuters inmuted tones; one cyclist pushing bike.Props: paper coffee cup, rolling luggage, LED departure board(generic destinations).
SoundDiegetic only: faint rail screech, train brakes hiss, distant announcement muffled(-20LUFS), low ambient hum.Footsteps andpaper rustle; no score oradded foley.
Optimized Shot List(2shots / 4s total)
0.00–2.40 — “Arrival Drift” (32mm, shoulder-mounted slow dolly left)Camera slides past platform signage edge; shallow focus reveals traveler mid-frame looking down tracks. Morning light blooms across lens; train headlights flare softly through mist. Purpose: establish setting andtone, hint anticipation.
2.40–4.00— “Turn andPause” (50mm, slow arc in)Cut to tighter over-shoulder arc astrain halts; traveler turns slightly toward camera, catching sunlight rim across cheek andphone screen reflection. Eyes flick up toward something unseen. Purpose: create human focal moment withminimal motion.
Camera Notes(Why It Reads)Keep eyeline low andclose to lens axis forintimacy.Allow micro flares fromtrain glass asaesthetic texture.Preserve subtle handheld imperfection forrealism.Do notbreaksilhouette clarity withoverexposed flare; retain skin highlight roll-off.
FinishingFine-grain overlay withmild chroma noise forrealism; restrained halation onpracticals; warm-cool LUT formorning split tone.Mix: prioritize train andambient detail over footstep transients.Poster frame: traveler mid-turn, golden rim light, arriving train soft-focus inbackground haze.
【翻译】格式与画面风格 (Format & Look)时长:4秒;快门角度:180度;数字拍摄,模拟65毫米胶片的光化学对比度;细腻的画面颗粒;高光部分有轻微光晕;无画门抖动。
镜头与滤镜 (Lenses & Filtration)32毫米/50毫米球面定焦镜头;1/4黑柔滤镜 (Black Pro-Mist);轻微旋转CPL(偏振镜)以控制火车车窗的玻璃反光。
调色/色调 (Grade / Palette)高光:干净的晨光,带有琥珀色调提升。中间调:均衡的中性色,阴影中带轻微青色偏色。暗部:柔和、中性的黑色,轻微提升以保留薄雾质感。
灯光与氛围 (Lighting & Atmosphere)自然光:来自机位左侧的低角度晨光(上午7:30)。补光:轨道旁使用4x4银色柔光板。减光:来自对面墙壁的负补光。场景光源:站台上的钠灯,亮度渐弱。氛围:轻柔的薄雾;火车排出的废气飘过光束。
地点与构图 (Location & Framing)城市通勤站台,黎明时分。前景:黄色的安全线,长凳上的咖啡杯。中景:在薄雾中等待的乘客剪影。背景:正在刹车进站的火车。避免出现任何标识或公司品牌。
服装/道具/群演 (Wardrobe / Props / Extras)主要人物:30多岁的旅客,身穿海军蓝外套,单肩背着背包,手机随意地拿在身侧。群众演员:穿着柔和色调的通勤者;一名推着自行车的骑行者。道具:纸质咖啡杯,拉杆行李箱,LED出发信息显示屏(显示通用目的地名称)。
声音 (Sound)仅画内音:微弱的铁轨摩擦声、火车刹车的嘶嘶声、远方模糊的广播(-20LUFS)、低沉的环境嗡鸣声。脚步声和纸张沙沙声;无配乐或额外拟音。
优化分镜列表 (2个镜头/总时长4秒)
0.00–2.40— “到站漂移” (32毫米镜头,肩扛式左向慢速推轨)摄影机滑过站台标牌边缘;浅焦揭示出旅客位于画面中央,正望着轨道远方。晨光在镜头中绽放;火车头灯在薄雾中产生柔和的眩光。目的:建立场景和基调,暗示期待感。
2.40–4.00— “转身停顿” (50毫米镜头,向内慢速弧线运动)火车停下时,切至更近的过肩弧线镜头;旅客微转向镜头,阳光勾勒出脸颊的轮廓光,手机屏幕上出现反光。眼神向上瞥向画面外的某物。目的:以最少的运动创造一个聚焦于人物的瞬间。
摄影备注 (拍摄理念)保持视线高度较低并靠近镜头轴线,以营造亲密感。允许火车玻璃产生微小的眩光,作为一种美学质感。保留手持拍摄的轻微不完美感,以增强真实性。不要让过度曝光的眩光破坏剪影的清晰度;保留皮肤高光的平滑过渡。
后期制作 (Finishing)画面:叠加细腻颗粒和轻微的色度噪点以增强真实感;对场景光源施加克制的光晕效果;使用冷暖色调的LUT营造早晨的分离色调效果。混音:优先处理火车和环境音的细节,而非脚步声的瞬态。海报帧:旅客转身的瞬间,金色轮廓光,背景薄雾中失焦的进站火车。
4.视觉引导线索
在编写提示词时,风格是引导模型实现所需结果的最有力的杠杆之一。描述整体美感,例如“1970 年代的电影”、 “史诗般的 IMAX 规模场景”或“16 毫米黑白电影” ——设定了一个视觉基调,框架所有其他选择。尽早建立这种风格,以便模型能够始终如一地贯彻它。
同样的细节读起来会有很大不同,具体取决于你需要的是精美的好莱坞戏剧、手持智能手机剪辑还是颗粒状的复古广告。一旦定下基调,就可以通过镜头、动作和灯光来分层细节。
清晰获胜。不要写“一条美丽的街道”之类的模糊提示,而要写“湿沥青、斑马线、霓虹灯倒影”。不要“快速移动”,而是指定“慢跑三步并停在路边”。指向可见结果的动词和名词总是会给你一个更清晰、更一致的输出。
相机方向和取景决定了拍摄的感觉。从上方拍摄的广角镜头将强调空间和背景,而眼睛水平的特写镜头将把注意力集中在情感上。景深又增加了一层:浅焦可以使主体在模糊的背景中脱颖而出,而深焦则可以使前景和背景保持清晰。灯光也同样强烈地定下了基调。柔和、温暖的灯光营造出诱人的氛围实配网配资,而带有冷酷边缘的单一硬光则营造出戏剧效果。
在介绍角色时,要预料到一些不可预测性——措辞的微小变化可能会改变身份、姿势或场景本身的焦点。保持各个镜头的描述一致,重复使用措辞以保持连续性,并避免混合可能相互竞争的特征。
平庸提示词
优秀提示词
优秀框架说明的一些提示词示例:
wide establishing shot, eye level(广角定场镜头,视线水平)
wide shot, tracking left to right with the charge(广角镜头,从左到右冲锋)
aerial wide shot, slight downward angle(空中广角镜头,轻微向下的角度)
medium close-up shot, slight angle from behind(中特写镜头,从后面微角度拍摄)
wide establishing shot, eye level(广角定场镜头,视线水平)
wide shot, tracking left to right with the charge(广角镜头,从左到右冲锋)
aerial wide shot, slight downward angle(空中广角镜头,轻微向下的角度)
medium close-up shot, slight angle from behind(中特写镜头,从后面微角度拍摄)
优秀相机运动指令的一些示例:
slowly tilting camera(缓慢倾斜相机)
handheld eng camera(手持式工程相机)
slowly tilting camera(缓慢倾斜相机)
handheld eng camera(手持式工程相机)
5.运动控制和时间
运动通常是最难做好的部分,所以提示词一定要简单。每个镜头都应该有一个清晰的摄像机移动和一个清晰的主体动作。当用节拍或计数(小步、手势或停顿)来描述动作时效果最好,这样它们就会感觉有时间依据。
“演员走过房间”并没有太多可合作的地方。像“演员向窗户迈出四步,停顿,在最后一秒拉上窗帘”这样的台词使计时变得精确且可实现。
平庸提示词
优秀提示词
6.光照和色彩一致性
光线与动作或环境一样决定情绪。整个框架的漫射光给人一种平静和中性的感觉,而单一的强光源则营造出鲜明的对比和张力。当您想要将多个剪辑剪切在一起时,保持照明逻辑一致可以使编辑无缝进行。
描述光线的质量和增强光线的颜色锚点。不要使用像“明亮的房间”这样的宽泛的注释,而是指定光源和色调的组合:“柔和的窗光,温暖的灯光填充和走廊的凉爽边缘。”命名三到五种颜色有助于保持镜头中调色板的稳定。
平庸提示词
优秀提示词
7.用图生更可控
为了对镜头构图和风格进行更精细的控制,建议你输入图像作为视觉参考(即图生视频)。你可以使用照片、数字艺术作品或人工智能生成的视觉效果。这锁定了角色设计、服装、布景或整体审美等元素。该模型使用图像作为第一帧的锚点,而您的文本提示定义接下来会发生什么。
在 POST /videos 请求中包含图像文件作为 input_reference 参数。
图像必须与目标视频的分辨率(大小)匹配。
支持的文件格式有: image/jpeg 、 image/png和image/webp 。
图像必须与目标视频的分辨率(大小)匹配。
支持的文件格式有: image/jpeg 、 image/png和image/webp 。
参考图:
Prompt:
She turns around and smiles, then slowly walks out of the frame.
她转身微笑,然后缓缓走出画面
视频:
参考图:
Prompt:
The fridge door opens. A cute, chubby purple monster comes out of it.
冰箱门打开,一个可爱的、胖乎乎的紫色怪物从里面出来。
视频:
8.对话和音频
对话必须直接在提示词中描述。将其放在散文描述下方的块中,以便模型清楚地区分视觉描述和口头台词。保持台词简洁、自然,并尝试将交换限制在少数句子内,以便时间与您的剪辑长度相匹配。对于多角色场景,一致地标记说话者并使用交替轮流;这有助于模型将每一行与正确的角色手势和表情相关联。
您还应该考虑节奏和时机:4 秒的镜头通常可以容纳一到两次简短的交流,而 8 秒的剪辑可以支持更多的交流。长而复杂的演讲不太可能很好地同步,并且可能会打乱节奏。
如果你的镜头是无声的,你仍然可以建议用一种小声音来踱步,例如“远处的交通嘶嘶声”或“清脆的响声”。将其视为节奏提示而不是完整的配乐。
带对话的提示词示例:
带BGM的提示词示例:
9.巧用重混(Remix)功能
重混 (Remix) 是为了微调 ,而不是赌博。用它来进⾏受控的更改(⼀次⼀个)并说明你正在改变什么:“同样的镜头 ,切换到 85 毫⽶” ,或者“同样的光照 ,新的色调:⻘色 、沙是、铁锈色”。 当⼀个结果接近理想时 ,将它固定为参考 ,并只描述需要调整的地⽅ 。这样 ,所有已经奏效的部分都会被锁定。
如果⼀个镜头总是出错 ,那就把它简化——固定相机 ,简化动作 ,清空背景。⼀旦它奏效了 ,再⼀步步地增加复杂性。
原始视频:
提示词:
Change the color of the monster to orange.
将怪物的颜色改为橙色。
重混后视频:
原始视频:
提示词:
A second monster comes out right after.
紧接着第二个怪物也出来了
重混后视频:
10.提示词模板与示例
编写提示的一种有效方法是将您希望模型使用的不同类型的信息分开。这不是一刀切的成功秘诀,但它为您提供了一个清晰的框架,并使您更容易保持一致。并非每个细节都需要包含在内——如果某些内容对镜头不重要,您可以将其省略。
事实上,保留某些元素的开放性将鼓励模型更具创造性。您对每个视觉选择的指定越不严格,模型就有越大的空间来解释并以意想不到的但通常是美丽的变化给您带来惊喜。高度描述性的提示会产生更加一致、可控的结果,而较轻的提示可以释放出让人感觉新鲜和富有想象力的多样化结果。
描述性提示词模板:
【翻译】[用自然语⾔进行散文式场景描述。描述角色、服装、风景、天气和其他细节。尽可能详细地描述,以生成符合您愿景的视频]Cinematography: (电影摄影:)Camera shot: [取景和⻆度,例如:广角建立镜头,眼平高度]Mood: [整体基调,例如: 电影感的、紧张的,有趣的、悬疑的,奢华的、期待的]Actions: (动作:)- [动作 1:⼀个清晰、具体的节拍或⼿势]- [动作 2:⽚段内的另⼀个独特节拍]- [动作 3:另⼀个动作或对话台词]Dialogue: (对话:)[如果镜头有对话,请在此处添加简短的自然台词或作为动作列表的一部分。保持简短,以便与剪辑长度相匹配。]
提示词示例:
示例1
【翻译】风格:手绘 2D/3D 混合动画,具有柔软的画笔纹理、温暖的钨丝灯和触觉定格动画。这种美学让人想起 2000年代中期的故事书动画——舒适、不完美、充满机械魅力。微妙的水彩画和绘画纹理;等级上的冷暖平衡;动画现实主义的电影运动模糊。在杂乱的车间里,架子上摆满了齿轮、螺栓和泛黄的蓝图。在中心,一个小型圆形机器人坐在木凳上,其凹陷的身体用不匹配的板和旧油漆层修补。当它紧张地摆弄着嗡嗡作响的灯泡时,它发光的大眼睛闪烁着淡蓝色。空气中充满了安静的机械嗡嗡声,雨滴打在窗户上,时钟在背景中稳定地滴答作响。摄影:相机:中特写,缓慢推入,悬挂工具产生轻微视差镜头:35mm虚化镜头;浅景深可柔化背景杂乱灯光:暖调从头顶实用;凉爽的液体从窗户溢出以形成对比情绪:温柔、异想天开、一丝悬念行动:- 机器人敲击灯泡;火花噼啪作响。- 它退缩了,灯泡掉落,睁大了眼睛。- 灯泡以慢动作翻滚;它及时抓住了它。- 一股蒸汽从它的胸口逸出——宽慰和自豪。- 机器人轻声说道:“差点就失去了……但我得到了!”背景声音:雨,滴答作响的时钟,柔和的机械嗡嗡声,微弱的灯泡嘶嘶声。
示例2
【翻译】风格:1970年代的浪漫剧情片,采用 35毫米胶片拍摄,具有自然光斑、柔焦和温暖光晕。轻微的门编织和手持微摇唤起复古的亲密感。受柯达启发的温暖等级;灯泡上出现光晕;胶片颗粒和柔和的小插图,展现时代的真实性。在黄金时段,砖砌公寓屋顶会变成一个小舞台。挂着白色床单的洗衣绳在风中摇曳,捕捉着最后的阳光。一串串不匹配的仙女灯泡在头顶上微弱地嗡嗡作响。一位年轻女子穿着飘逸的红色丝绸连衣裙,赤脚跳舞,卷发在暗淡的灯光下闪闪发光。她的搭档卷起袖子,松开背带,拍着手,笑容灿烂,毫无防备。下面,城市里充斥着汽车喇叭声、地铁震动声和远处的笑声。摄影:相机:中广角镜头,从视线水平缓慢推入镜片:40毫米球面;浅焦点将这对夫妇与天际线隔离灯光:金色自然键,钨丝弹跳;仙女灯泡的边缘情绪:怀旧、温柔、电影般行动:-她旋转;她的裙子在阳光下闪闪发光。-女人(笑):“看到了吗?今晚连这座城市都与我们一起跳舞。”-他走了进来,抓住她的手,将她浸入阴影中。-男人(微笑):“只是因为你领导。”-床单飘过框架,短暂地遮住了天际线实配网配资,然后再次分开。背景声音:仅自然氛围:微风、织物飘动、街道噪音、低沉的音乐。没有加分。
发布于:四川省道正网配资提示:文章来自网络,不代表本站观点。