文生视频

万相-文生视频模型支持多模态输入（文本/图像/音频），可生成最长15秒、分辨率为1080P的视频。

基础能力：支持整数级视频时长（2～15 秒）、指定视频分辨率（480P/720P/1080P）、智能改写prompt、添加水印。
音频能力：支持自动配音，或传入自定义音频文件，实现声画同步。（wan2.7/wan2.6/wan2.5）
多镜头叙事：支持生成包含多个镜头的视频，在镜头切换的同时保持主体一致。（wan2.7/wan2.6）

快速开始

输入提示词

输出视频（多镜头，有声视频）

第1个镜头大远景开篇，镜头从接近地面的低机位开始向前移动，镜头沿草原方向推进，同时向上移动，将视角从贴地逐渐抬升至略高位置，使猎豹从左侧进入画面并与前方逃窜的羚羊共同处于同一追逐路径中，建立清晰的前后空间关系。第2个镜头向下移动回到接近地面高度，并沿猎豹运动方向向右移动，与其保持侧向平行关系进行稳定跟随，主体始终处于画面中部偏左位置，背景产生连续横向位移效果，在这一阶段镜头运动保持稳定一段时间以强化速度感与空间连续性。第3个镜头在维持向右移动的同时，沿猎豹运动路径内侧做小幅弧线移动，使画面产生轻微绕行变化但始终保持与主体同向。第4个镜头逐渐减缓横向移动速度并过渡为机位相对稳定，同时执行变焦推进，将视觉焦点逐步压缩至猎豹与羚羊之间不断缩短的距离上。第5个镜头再次向前移动并轻微向下移动，贴近地面逼近两者之间的空间，在猎豹前肢逼近羚羊后方的临界位置停住，形成强烈压迫感与张力，同时配合逐渐增强的交响配乐、持续加密的鼓点、风声与踏地声推进节奏，并在最后阶段压低音乐仅保留环境声与节奏声形成短暂停顿。

模型名称	能力支持	输入模态	输出视频规格
wan2.7-t2v-2026-04-25 `推荐`	有声视频多镜头叙事、声画同步	文本、音频	分辨率档位：720P、1080P 视频时长：[2s, 15s]（整数）固定规格：30fps、MP4（H.264编码）
wan2.7-t2v	有声视频多镜头叙事、声画同步	文本、音频	分辨率档位：720P、1080P 视频时长：[2s, 15s]（整数）固定规格：30fps、MP4（H.264编码）
wan2.6-t2v	有声视频多镜头叙事、声画同步	文本、音频	分辨率档位：720P、1080P 视频时长：[2s, 15s]（整数）固定规格：30fps、MP4（H.264编码）
wan2.5-t2v-preview	有声视频声画同步	文本、音频	分辨率档位：480P、720P、1080P 视频时长：5s、10s 固定规格：30fps、MP4（H.264编码）
wan2.2-t2v-plus	无声视频较2.1模型稳定性与成功率全面提升	文本	分辨率档位：480P、1080P 视频时长：5s 固定规格：30fps、MP4（H.264编码）
wanx2.1-t2v-turbo	无声视频	文本	分辨率档位：480P、720P 视频时长：5s 固定规格：30fps、MP4（H.264编码）
wanx2.1-t2v-plus	无声视频	文本	分辨率档位：720P 视频时长：5s 固定规格：30fps、MP4（H.264编码）

核心能力

制作多镜头视频

支持模型：wan2.7系列、wan2.6系列模型。

功能介绍：模型可自动进行分镜切换，例如从全景切换到特写，制作MV等场景。

参数设置：

wan2.7：无需设置 shot_type，可以在 prompt 中用自然语言描述镜头结构（如使用时间戳分镜描述）。若 prompt 中未包含任何镜头结构描述，模型将分析语义内容，自行决策输出单镜头或多镜头视频。
wan2.6：shot_type 必须设为 "multi"，且 prompt_extend 必须设为 true（开启智能改写以优化分镜描述）。

输入提示词	输出视频（wan2.7）
展现未来科技与自然和谐共存的美好愿景。第1个镜头[0-2秒] 未来城市的空中花园全景，悬浮植物在微风中摇曳。第2个镜头[2-4秒] 机器人园丁正在精心修剪植物，动作精准而优雅。第3个镜头[4-7秒] 阳光透过透明穹顶洒下，照亮整个花园，展现科技与自然的完美融合。第4个镜头[7-10秒] 镜头拉远，展现整个未来城市的壮观景象，空中花园只是其中的一部分。
这是一段以硬核对决为核心的武侠电影片段，在正午烈日照射的石板空地上，两名男子相对冲刺。一人出掌攻击，被对手旋身以手臂硬抗，相撞的冲击力震散地面微尘。随后两人在极小空间内拳掌疾速交错，一人腾空连环重踢，迫使对手双臂交叉抵挡并向后滑行数米，在石面磨出清晰白痕。最终两人分立两端，在剧烈呼吸中死死锁定对方。画面呈现出锐利光影下的写实动作质感，营造出从强力爆发到肃杀对峙的基调。
这是一段以“青春期暗恋试探”为核心的校园电影片段。夕阳斜照操场，两人并肩而立，男同学抱着篮球，目光躲闪地问：“下周的联欢会，你要参加吗？”女同学摆弄着鬓角碎发，试探性地回道：“如果……你也去的话，我就去。”听到回答，男同学喉结滚动，嘴角虽强行压抑却仍牵动出欣喜，只能望着远方强装镇定。画面呈现清透自然的暖色调，营造出细腻而克制的青春初恋基调。

实现声画同步

支持模型：wan2.7系列、wan2.6系列、wan2.5系列模型。

功能介绍：让照片中的人物“开口说话”或唱歌，嘴型与音频匹配。更多示例请参见视频声音生成。

参数设置：

传入音频文件：传入 audio_url。模型会根据音频文件对齐口型。
自动配音：默认输出有声视频，无需传入 audio_url。模型会根据画面自动生成背景音效、音乐或人声。

输入示例

输出视频（有声视频）

输入提示词：一幅史诗级可爱的场景。一只小巧可爱的卡通小猫将军，身穿细节精致的金色盔甲，头戴一个稍大的头盔，勇敢地站在悬崖上。他骑着一匹虽小但英勇的战马，说：“青海长云暗雪山，孤城遥望玉门关。黄沙百战穿金甲，不破楼兰终不还”。悬崖下方，一支由老鼠组成的、数量庞大、无穷无尽的军队正带着临时制作的武器向前冲锋。这是一个戏剧性的、大规模的战斗场景，灵感来自中国古代的战争史诗。远处的雪山上空，天空乌云密布。整体氛围是“可爱”与“霸气”的搞笑和史诗般的融合。

输入音频：

生成无声视频

支持模型：wan2.2系列模型、wanx2.1系列模型。

功能介绍：适用于无需音频的纯视觉展示场景，如动态海报、无声短视频等。

参数设置：wan2.2及以下版本模型，默认生成无声视频，无需额外配置。

输入提示词

输出视频（无声视频）

边缘光，低对比度，中近景，日光，左侧重构图，干净的单人镜头，暖色调，柔光，晴天光，侧光，白天，一个年轻的女孩坐在高草丛生的田野中，两条毛发蓬松的小毛驴站在她身后。女孩大约十一二岁，穿着简单的碎花裙子，头发扎成两条麻花辫，脸上带着纯真的笑容。她双腿交叉坐下，双手轻轻抚弄身旁的野花。小毛驴体型健壮，耳朵竖起，好奇地望着镜头方向。阳光洒在田野上，营造出温暖自然的画面感。

鲁ICP备13008304号-5 |

鲁公网安备37021402002337号

微信咨询加群