脚本 → 图片 → 视频 · 零基础上手三步走
用 AI 写脚本不是"扔一句话等结果",而是分步引导 + 注入行业知识 + 人工微调。
① 喂背景 — 告诉 AI 产品是什么、目标用户是谁、投放平台是谁
② 给模板 — 给出你想要的脚本结构(口播/信息流/微剧情)
③ 提要求 — 指定时长、字数、语气、禁忌词
你是一个短视频广告脚本专家。请根据以下信息生成脚本: 【产品】 - 产品名:{产品名称} - 核心卖点:{一句话卖点} - 目标用户:{用户画像} 【投放平台】 - {抖音/快手/小红书/朋友圈} 【脚本类型】 - {口播/信息流/微剧情/开箱/对比评测} 【要求】 - 时长:{30-60}秒 - 字数:{80-200}字 - 语气:{自然口语化/专业严肃/搞笑轻松} - 必须包含:前3秒钩子 + 产品露出 + 行动号召 - 避免:{竞品名/违规词/夸张承诺} 请输出格式: 【前3秒钩子】一句话抓住注意力 【主体脚本】分镜头描述+台词 【结尾CTA】引导点击/下载/购买
Prompt:产品=千问AI搜索,卖点="比百度快3倍,没有广告",30秒口播
AI 输出:
【00-03秒】你还在用百度搜东西,翻三页全是广告?
【03-15秒】试试千问,同一个问题,百度给广告它给答案。
我搜"成都最好吃的火锅",千问直接列排名+人均+排队时间。
【15-25秒】关键是真免费,没广告。搜索引擎该有的样子。
【25-30秒】点左下角试试,用过的都说回不去了。
Prompt:产品=社交App"觅友",卖点="真人认证,不尬聊",45秒微剧情
AI 输出:
【00-05秒】(画面:男生对着手机发呆) 又匹配到一个机器人...
【05-15秒】(画面切换:觅友"真人认证"弹窗)
(男生惊讶) 咦?这个还有真人认证?
【15-35秒】(画面:两人聊天记录快切,表情开心)
(旁白) 觅友,全部真人验证。聊真的,不聊代码。
【35-45秒】(Logo + 下载二维码)
觅友,真人社交。扫码下载。
| 问题 | 解决方法 |
|---|---|
| AI 写得像说明书 | 加要求:"用日常口语,像跟朋友聊天" |
| 缺少钩子 | 明确:"前3秒必须用一个反常识/痛点问题开头" |
| 字数超了 | 指定:"总台词不超过150字" |
| 产品露出生硬 | 加规则:"产品名只在第15秒后自然出现一次" |
| 违规词 | 给黑名单:"避免'最好''第一''保证'" |
Image2 是 OpenAI 的 AI 图片生成工具,用于生成视频所需的关键帧、角色参考图、场景图。
| 元素 | 作用 | 示例 |
|---|---|---|
| Context | 场景、时间、氛围 | "温馨的日式厨房,下午阳光从窗户洒入" |
| Reference | 角色外观 | "25岁中国女性,黑色短发,浅蓝围裙" |
| Action | 人物动作/状态 | "她正在切菜,微笑看着镜头" |
| Framing | 构图、镜头 | "中景,平视角度,浅景深" |
| Technical | 画质、风格 | "照片级真实,佳能R5,自然光,胶片质感" |
Context: 傍晚的城市天台,远处有落日和天际线。 Reference: 一个30岁中国男性,短发、戴黑框眼镜、白色衬衫。 Action: 他靠在栏杆上,若有所思地望向远方。 Framing: 中景侧面,黄金分割构图,浅景深虚化背景。 Technical: 照片级真实,富士胶片模拟,暖色调,自然肤色质感。
{角色外观},{表情},{光线},{背景},{构图},
photorealistic, natural skin, Canon R5 portrait,
85mm f/1.4, no airbrush
{产品名}产品摄影,{材质}特写,{摆放方式},{背景},
商业摄影棚光,微距镜头,高清细节,
product photography, studio lighting
{场景描述},{时间/天气},{氛围},
广角镜头,环境光,
cinematic wide shot, natural color grading
① 建立角色卡,每次生图都贴进去:
"小林:25岁中国女性,圆脸、单眼皮、黑色短发齐肩、身高162cm、常穿浅蓝色工装外套+白T恤"
② 锁定关键词:同一角色所有图片一字不改地使用相同描述
③ 批量生成:一次生成正面、侧面、表情集,作为后续视频的 reference
火山引擎视频生成模型(模型 ID:doubao-seedance-2-0-260128),
输出 4-15 秒 / 24fps / 最高 1080p,支持原生音频同步生成 + 多模态混合输入(文本+图片+视频+音频,最多 12 个文件)。
纯文本 Prompt 驱动
适合创意探索期
快速出片验证方向
图片 + 文本 Prompt
适合有明确视觉参考
首帧/尾帧精准控制
参考视频 + 文本 Prompt
适合需要特定运镜/风格
延续参考素材质感
| 元素 | 作用 | 示例 |
|---|---|---|
| Context | 场景时空 | "在日出时分的城市天台" |
| Reference | 人物/资产外观 | "年轻女性,黑色短发,浅蓝工装外套" |
| Action | 动作 + 声音 | "她摘下耳机,深吸一口气,用清脆的中音说:'我准备好了'" |
| Framing | 镜头+运镜 | "背后中景缓慢推进到侧面特写,浅景深" |
| Timing | 时间轴+声音同步 | "0-3s: 摘耳机; 5-8s: 说台词; 背景轻音乐渐弱" |
Context: 日落时分的城市天台,最后一缕阳光染红天际线。 Reference: 小林,25岁中国女性,圆脸单眼皮,黑色短发,蓝色工装外套。 Action: 小林摘下耳机,缓缓深吸一口气。她用清脆的中音说: "三年了,终于站到了这里。" Framing: 背后中景缓慢推进到侧面特写,浅景深,虚化背景。 Timing: 0-3s: 背后中景,小林站在天台边缘,风吹动发丝 3-5s: 缓慢推进到侧面,她摘下耳机 5-8s: 特写侧脸,她说出台词,眼眶微红 8-12s: 慢拉远,回到背后中景,余晖洒在她身上 Technical: photorealistic, natural movement, 35mm film quality, no 3D, no cartoon, no VFX, natural lighting, film grain。
| 参数 | 作用 | 典型用例 |
|---|---|---|
| role: "first_frame" | 首帧关键帧 — 视频从这张图开始 | 从角色定妆照开始说话/动作 |
| role: "last_frame" | 尾帧关键帧 — 视频在这帧结束 | 控制转场落版画面 |
| role: "reference_image" | 参考图 — 不直接做帧,只提供风格/角色参考 | 多镜头保持角色一致 |
同时指定首帧和尾帧,模型补全中间过渡——这是目前可控性最强的图生视频方式。
files: [
{ role: "first_frame", url: "首帧图URL" },
{ role: "last_frame", url: "尾帧图URL" }
]
prompt: "镜头从 A 场景自然过渡到 B 场景,人物保持静止"
duration: 8
最佳实践:① 首尾帧用同一角色卡+同套去AI关键词生成;② Prompt简短,只描述过渡;③ 只需动态效果(人物微动、风吹发丝)时,只传首帧即可。
用已有视频作为风格/运镜参考,Seedance 在此基础上生成新视频。
| 场景 | 示例 |
|---|---|
| 需要特定运镜 | 推拉摇移跟甩,参考找来的样片 |
| 需要特定转场 | 淡入淡出、匹配剪辑效果 |
| 需要统一风格 | 同一部影片的调色、节奏感 |
files: [
{ role: "reference_video", url: "参考视频URL" }
]
prompt: "保持参考视频的运镜节奏和调色风格,替换主角为{新角色描述}"
⚠ 参考视频建议 5-10 秒,画幅比例与目标一致,不要用带水印的素材。
Seed(种子值)是 Seedance 最被低估的核心参数。一个整数,控制生成过程的随机数初始化——相同 seed + 相同 prompt = 高度相似的输出。
| 场景 | seed 用法 | 目的 |
|---|---|---|
| 角色一致性 | 同一角色多镜头复用同一 seed | 确保角色外观不漂移 |
| 迭代优化 | 复用上次 seed,微调 prompt | 每次只改一个维度,观察变化 |
| A/B 对比 | 固定 seed,对比两套 prompt | 排除随机性,准确评估 prompt 质量 |
第1次生成:不传 seed → Seedance 自动分配 → 记录返回值 8642 第2次生成:seed=8642,调整 prompt 中的 Framing → 镜头变了,角色没变 第3次生成:seed=8642,调整 Action → 动作变了,角色和镜头不变
💡 Seed 的边界:相同 seed + 完全相同 prompt ≈ 几乎一样的视频(非100%确定);相同 seed + 微调 prompt → 风格延续但可控变化;不同 seed + 相同 prompt → 同一创意的不同"演绎"。
| 功能 | 说明 | 适用场景 |
|---|---|---|
| 超分辨率 | 提升输出分辨率 | 720p 增强到 1080p |
| 细节增强 | 锐化边缘、增强纹理 | 人物面部、产品细节更清晰 |
| 帧率提升 | 增加帧间插值 | 让慢动作更流畅 |
enable_enhancement: true output_resolution: "1080p"
0-3s: 城市街道环境音,远处车流声 3-5s: 主角脚步声走近 5-8s: 开门铃声,室内安静氛围 8-12s: 主角说:"一杯拿铁,谢谢",背景轻音乐渐起
要点:同一角色固定音色描述词,同一场景固定环境音描述词。
① Prompt 锁定 — 同一角色所有镜头描述词一字不改(最基本的)
② Reference Image — 每个镜头都上传同一组角色参考图
③ First Frame — 用 Image2 生成的同一风格关键帧作为首帧
④ Seed 复用 — 最有效但最被低估的方法,同一角色多镜头复用 seed
| 问题 | 原因 | 解决 |
|---|---|---|
| 视频跳变/闪烁 | 图片尺寸不匹配 | 裁剪或设 ratio: "adaptive" |
| 角色变脸 | 描述不够具体 | 加详细外观描述 + reference_image + 复用 seed |
| 塑料感/3D感 | 缺少去AI关键词 | 加 no 3D, no cartoon, photorealistic |
| 音频不同步 | 时间轴不精确 | 用时间轴标注法 |
| 动作不自然 | prompt太抽象 | 用具体动词:"慢慢转身" 而非 "转身" |
| 多镜头角色不一致 | 没用 seed | 首次生成后记录 seed,后续复用 |
| 生成失败 | 内容审核拦截 | 检查是否有违规画面描述 |
| 首尾帧过渡不自然 | 首尾帧风格差异大 | 用同一角色卡+同套去AI关键词生成首尾帧 |
| 画质模糊 | 未开启增强 | 开启 enable_enhancement |
① 写脚本 → Prompt 模板生成 + 人工微调
② 拆分镜 → 拆成 3-5 个镜头,每段独立
③ 生关键帧 → 每个镜头用 Image2 + CRAFT 公式生图
④ 生视频 → 选择合适模式(文生/图生/视频生),CRAFT+Timing 生成
⑤ 拼接交付 → 剪辑工具拼接 + 字幕 + 背景音乐
用结构化标签组织角色和场景,AI 理解更准:
@character_小林: young woman, black short hair, blue suit, 165cm @character_老张: middle-aged man, gray hair, glasses, brown jacket @scene_办公室: modern open-plan office, white walls, natural light Action: @character_小林 walks toward @character_老张 across @scene_办公室, stopping at his desk and looking down at him. Framing: medium shot tracking @character_小林, shallow depth of field. Timing: 0-3s: walk; 3-6s: stop; 6-8s: @character_小林 says "方案改好了"
① 模板库:验证过的 Prompt 存到模板库中复用
② 角色卡复用:同一产品线角色卡固定不变
③ 场景库:常用场景(办公室/街头/家庭)预存 Prompt
④ A/B 测试:同一脚本用两套 CRAFT 参数生成,固定 seed 对比
生图和生视频前,检查 Prompt 是否包含: