Loading

Kling 3.0 Motion Control —— 参考驱动的 AI 角色动画生成器

一张图像 + 一段参考视频,让任意角色精准复刻你想要的动作

快手 Kling 3.0 Motion Control 把一张静态角色图像变成完整动画视频——动作完全由你提供的参考片段驱动。上传一张 JPEG / PNG 角色图像和一段 3–30 秒的参考视频,Kling 会提取参考视频中的全身轨迹、手势、面部微表情与运镜,再迁移到你的角色上,全程保留角色的脸部、服饰与身份特征。输出分辨率为 720p 或 1080p,时长完全匹配参考视频。通过「人物朝向」选项,你可以选择以图像姿态为准(最长 10 秒)或以参考视频为准(最长 30 秒)。还可以可选添加一个参考主体(element_id)锁定整段动画的角色一致性。基于 Omni One 物理引擎,Motion Control 在重心平衡、接触动力学和身份保真上达到了其他角色动画模型难以企及的水平。

Kling 3.0 Motion Control 由快手与 Kling 3.0 主模型同步发布,是一条专门面向参考驱动的角色动画流水线,独立于标准的文生视频和图生视频模式。你不再用文字去描述动作,而是直接提供一段 3–30 秒的真实动作参考。模型会从中抽取完整的运动信息——身体动力学、手部关节、面部表情、相机轨迹——并将其重定位到参考图像中的角色身上。

它真正拉开差距的地方,是 AI 角色动画里最难的几个细节:手部、面部和物理。手势——AI 视频长期以来的失败重灾区——在 V3 中能保持手指级别的清晰度;面部微表情可以平滑迁移,并具备 360° 全角度的身份保留,即便镜头转角度也不破相。Omni One 物理引擎处理重心、重量转移、布料动态以及身体与地面的接触,所以无论是舞蹈还是武术、复杂编舞,角色都不会出现飘移或滑步等典型 AI 伪影。当参考视频中身体的某个部位被遮挡时,模型也能恢复出来,而不是直接产生错位。

两种「人物朝向」模式让你掌控参考素材如何被使用。「人物朝向 = image」会保留角色图像中原本的朝向(以静图驱动姿态),最长支持 10 秒——适合静图本身已经定好理想姿势的场景。「人物朝向 = video」会跟随参考视频的画面与朝向,支持最长 30 秒——适合全身舞蹈、运动或包含转身的动作。输出分辨率可选 720p(标准)或 1080p(专业)。参考视频的原声可以保留(默认)或一键静音。如果你需要在多个 Motion Control 任务中保持同一角色一致,还可以传入一个之前生成的 element_id 锁定主体。Motion Control 与 Kling 3.0 主模型(多镜头、4K、原生音频)形成互补:原创创意走主模型,需要把指定动作迁移到指定角色时走 Motion Control。

如何使用 Kling 3.0 Motion Control

01

上传角色图像

选择你想驱动的角色 JPEG / PNG,要求全身和头部清晰可见、无遮挡。宽高比在 1:2.5 至 2.5:1 之间,长宽各不小于 300px,文件不超过 10MB。

02

上传参考动作视频

添加一段 3–30 秒的动作参考视频。系统会立即识别时长并显示实时计费。选择 720p 或 1080p;选择「人物朝向 = image」(最长 10 秒,按图像姿态)或「video」(最长 30 秒,跟随参考视频)。

03

生成并下载

可选填写提示词引导背景或风格、切换是否保留参考音频,并在「高级设置」中可选填入主体元素 ID。点击「生成」,通常 3–6 分钟完成。结果链接 24 小时内有效,请及时下载保存。

Kling 3.0 Motion Control 技术规格

提供方快手(Kling AI)
发布时间2026 年(与 Kling 3.0 同步)
输入1 张参考图像(.jpg / .jpeg / .png)+ 1 段参考视频
参考图像规格≤ 10MB;长宽 ≥ 300px;宽高比 1:2.5 ~ 2.5:1
参考视频时长3 至 30 秒
输出时长与参考视频一致(3–30 秒)
输出分辨率720p(标准)或 1080p(专业)
人物朝向image(≤10 秒)或 video(≤30 秒)
声音保留参考视频原声(默认)或静音
主体元素最多 1 个(仅支持 video_refer 类型)
物理引擎Omni One —— 重心、接触、布料动态
身份保留360° 面部与身体一致,遮挡恢复
提示词可选,最多 2500 字符
处理方式异步生成;结果链接 24 小时有效

为什么选择 Kling 3.0 Motion Control

参考驱动比提示词驱动更可控

用文字描述动作天然脆弱:「优雅地转一圈」每次生成都不一样。Motion Control 让你直接提供具体动作——一段手机视频、一段舞蹈片段、一个体育精彩瞬间——然后把它迁移到你的角色身上。你能拿到真实表演级别的精度,但不需要让真人去演。

专攻最难的部分:手、脸、物理

V3.0 重点升级了 AI 角色动画里最容易翻车的环节:手部细节、面部微表情、身体接触。基于 Omni One 物理引擎,模型能正确处理重心、重量转移、遮挡恢复——舞蹈、武术、复杂编舞都能自然渲染,不再出现漂移、滑步、穿模这些 AI 伪影。

1080p 最长 30 秒,全程身份一致

大多数动画模型只能做 5–10 秒,Motion Control 可达到 30 秒、跟参考视频长度一致,并在所有镜头角度切换中保持 360° 面部与身体的一致性。配合可选的「主体元素」跨次锁定外观,是目前最具量产能力的角色动画方案之一。

Kling 3.0 Motion Control 与其他动画模型对比

FeatureKling 3.0 Motion ControlKling 3.0(图生视频)Runway Act-OneWan Animate
输入图像 + 参考视频图像 + 提示词图像 + 表演视频(面部)图像 + 驱动视频
动作来源全身、手势、面部、运镜文本提示仅面部表演身体 + 面部
最长时长30 秒15 秒约 10 秒约 5–10 秒
最高分辨率1080p4K720p720p
手势精度高(V3 升级)依赖提示词不适用中等
身份保留360°,支持遮挡恢复参考图 + 主体元素面部锚定参考锚定
物理仿真Omni One 引擎感知物理有限有限
适用场景舞蹈、运动、整段表演电影叙事对话表演轻量角色动画

创作者用 Kling 3.0 Motion Control 在做什么

01

舞蹈与编舞视频

用手机拍下一段舞蹈,作为参考视频上传,迁移到任意角色——你的虚拟形象、插画角色、明星造型或品牌吉祥物。V3 升级后,手势和脚步也能干净地迁移过去。

02

运动与动作场景

把体育精彩瞬间或跑酷片段作为参考,把动作迁移到品牌吉祥物或虚构角色上。Omni One 引擎能稳定处理快速变向、接触和全身旋转,这些场景在纯文生视频里很容易崩。

03

品牌吉祥物动画

把静态品牌插画激活成动画,由真实表演者捕捉动作。配合主体元素,你能在整个营销活动中锁定吉祥物的视觉一致——同样的比例、同样的细节,配上不同动作素材投放不同广告。

04

音乐 MV 表演穿插

参考一位艺人的编舞,迁移到风格化版本的艺人或多个角色身上。原生音频可以原样保留,参考片段中的音乐和口型会嵌入结果,免去重新做音轨。

05

短视频流行模仿

用你自己的角色图像复刻一个流行的舞蹈、动作或表情。最长 30 秒覆盖了几乎所有短视频模板(抖音、Reels、Shorts),720p 用于竖屏移动端已经绰绰有余。

06

动作捕捉前期预演

用手机级别的演员或替身参考,预演最终角色的动作表现——在动捕棚开机之前。30 秒全程身份一致让导演能拿到具体可讨论的成片,跟视效、编舞、表演团队对齐方案。

探索更多 AI 视频模型

关于 Kling 3.0 Motion Control 的常见问题

Kling 3.0 Motion Control 究竟能做什么?

它通过你提供的参考视频,把一张静态角色图像驱动成完整的动画视频。你不需要用文字去描述动作,而是上传一段 3–30 秒的视频(人物或物体在做你想要的动作——跳舞、走路、打招呼、表演等),Kling 会提取参考片段中的全身轨迹、手势、面部微表情与运镜,并迁移到你图像中的角色上。最终视频会保留你的角色的脸、服饰和身份,同时获得参考片段的运动表现。

「人物朝向 = image」和「= video」有什么区别?

image 模式以图像中的姿态为准(静图决定朝向),最长 10 秒,适合参考图本身就摆好理想姿势的情况。video 模式跟随参考视频的画面与朝向,支持最长 30 秒,适合全身舞蹈、运动或包含转身的动作。如果你启用了主体元素(element_list),则只能使用 video 模式。

什么样的参考视频效果最好?

干净的 3–30 秒片段,全身可见、动作平稳、主体清晰是最理想的。参考视频中角色的身体比例最好与你的图像角色相近。尽量避免剧烈晃动、多人主体或杂乱动作。Omni One 物理引擎能很好处理舞蹈、武术、运动等复杂运动,对参考视频中暂时被遮挡的部位也能合理恢复出来。

时长和价格是怎么计算的?

输出时长会向上取整匹配参考视频的秒数。计费随分辨率与时长变化:1080p × 30 秒 ≈ 50 credits,1080p × 10 秒 ≈ 20 credits,时长越短价格越低,最低保留 10 credits 兜底。720p 大约是 1080p 同时长的 75%。每次上传后,生成按钮会实时显示当前价格。

需要写提示词吗?

提示词是可选的。你完全可以留空,模型会根据参考图像与参考视频自动推断场景。如果你希望影响背景、光照或风格(例如「电影级光线,模糊都市背景,黄昏时分」),可以加一段提示词作为引导。但角色的运动始终来自参考视频本身。

我能在多次生成中保持角色一致吗?

可以。在「高级设置」中的「主体元素」字段填入你之前通过 Kling Custom Element(video_refer 类型)创建的 element_id,模型会在不同次生成之间锁定该角色的身份特征,即便参考图像更换也保持一致。注意:使用主体元素时必须将「人物朝向」设为 video,且每次最多只能使用 1 个元素。