Published May 5, 2026Updated May 5, 2026

Kling 3.0 モーションコントロール — 参照ベースのAIキャラクターアニメーション

1枚の画像と参照クリップで、任意のキャラクターに任意のモーションを適用

Kuaishou による Kling 3.0 モーションコントロールは、参照クリップからモーションを抽出し、静止したキャラクター画像を完全にアニメーション化された動画に変換します。キャラクターの JPEG または PNG 画像と、3〜30秒の参照動画を用意するだけで、Kling が全身の軌跡、手のジェスチャー、顔のマイクロ表情、カメラモーションを対象キャラクターに転送し、顔・衣装・アイデンティティを通じて維持します。出力は 720p または 1080p で、参照動画の正確な長さに合わせて生成されます。キャラクター方向設定を使用して、結果が画像のポーズに従う（最大10秒）か、動画の方向に従う（最大30秒）かを選択できます。オプションの参照要素を追加して、クリップ全体にわたってカスタム被写体を固定することもできます。Omni One 物理エンジンを基盤とするモーションコントロールは、他のアニメーションモデルでは実現できない自然なバランス、接触ダイナミクス、アイデンティティ保持を実現します。

Kling 3.0 モーションコントロールは、Kuaishou が Kling 3.0 ベースモデルと同時にリリースした、専用の参照ベースアニメーションパイプラインです。標準のテキスト-ビデオ変換やイメージ-ビデオ変換モードとは異なる仕組みです。プロンプトでモーションを説明する代わりに、3〜30秒の参照クリップという形で独自のモーションを持ち込みます。モデルは完全なモーション軌跡（身体の運動学、手の関節動作、顔のダイナミクス、カメラの動き）を抽出し、参照画像のキャラクターに再ターゲティングします。

このモデルが際立っているのは、人体アニメーションの難しい部分における忠実度です。従来 AI 動画の失敗点だった手のジェスチャーは、指レベルの精度でレンダリングされます。顔のマイクロ表情はクリーンに転送され、角度変化にも対応した360度のアイデンティティ保持が実現されます。Omni One 物理エンジンはバランス、体重移動、布地のダイナミクス、身体と地面の接触を処理するため、複雑なコレオグラフィでもキャラクターが滑ったり浮いたりしません。参照動画で身体の一部が隠れている場合も、モデルはアーティファクトを生成せずに復元します。

2つの方向モードにより、ソース素材の相互作用を制御できます。キャラクター方向＝画像では、キャラクターが参照画像の向きを保ち、最大10秒をサポートします。希望するポーズが静止画で既に完成している場合に最適です。キャラクター方向＝動画では、参照動画のフレーミングと方向に従い、最大30秒の範囲をサポートします。全身のコレオグラフィ、スポーツ、または方向転換を含むモーションに最適です。出力解像度は 720p（スタンダード）または 1080p（プロ）です。参照動画の音声はデフォルトで保持されますが、ワンクリックでミュートできます。複数のモーションコントロール実行にわたって長期的なキャラクター一貫性を保つために、以前に作成した element_id を指定して被写体を固定することができます。モーションコントロールは、Kling 3.0 の標準シネマティックパイプライン（マルチショット、4K、ネイティブオーディオ）と並んで使用できます。オリジナルのクリエイティブな方向性にはベースモデルを、特定のキャラクターに転送する必要がある特定の参照モーションがある場合はモーションコントロールをご利用ください。

Kling 3.0 モーションコントロールの使い方

キャラクター画像をアップロード

アニメーション化したいキャラクターの JPEG または PNG 画像を選択します。全身と頭部が明確に見え、遮蔽されていないものを使用してください。アスペクト比は 1:2.5〜2.5:1、各辺は少なくとも 300px、合計サイズは 10MB 未満にしてください。

参照モーション動画をアップロード

転送したいモーションの3〜30秒のクリップを追加します。検出された長さとリアルタイムのクレジットコストがすぐに表示されます。720p または 1080p を選択し、キャラクター方向＝画像（≤10秒、画像のポーズを保持）または動画（≤30秒、動画のフレーミングに従う）を選択します。

生成してダウンロード

任意で背景やスタイルを誘導するプロンプトを追加し、音声保持をトグル設定し、詳細設定で要素 ID があれば追加します。「生成」をクリックすると、Kling は通常3〜6分で完了します。結果の動画 URL は24時間有効ですので、すみやかにダウンロードしてください。

Kling 3.0 モーションコントロール技術仕様

提供元	Kuaishou（Kling AI）
リリース	2026年（Kling 3.0 と同時）
入力	参照画像1枚（.jpg、.jpeg、.png）＋参照動画1本
参照画像サイズ	≤ 10MB；各辺 ≥ 300px；アスペクト比 1:2.5〜2.5:1
参照動画の長さ	3〜30秒
出力時間	参照動画の長さに準じる（3〜30秒）
出力解像度	720p（スタンダード）または 1080p（プロ）
キャラクター方向	画像（≤10秒）または動画（≤30秒）
音声	参照音声を保持（デフォルト）またはミュート
被写体要素	最大1つ（video_refer 要素のみ）
物理エンジン	Omni One — バランス、接触、布地ダイナミクス
アイデンティティ保持	360° 顔・身体、遮蔽回復
プロンプト	任意、最大2500文字
処理	非同期；結果 URL は24時間有効

Kling 3.0 モーションコントロールが際立つ理由

参照ベースのモーションはプロンプトベースのモーションを上回る

プロンプトでモーションを説明するのは不安定です。「優雅なピルエット」を記述しても、毎回異なる結果になります。モーションコントロールでは、欲しいモーションそのものを提供できます。スマートフォンのクリップ、ダンス動画、スポーツのハイライトから取り込み、キャラクターに再ターゲティングします。実際の被写体を撮影することなく、リアルなパフォーマンスの精度を実現できます。

難しい部分に特化：手、顔、物理

V3.0 では、AIキャラクターアニメーションに長年存在していた失敗箇所を重点的にアップグレードしました。手の関節動作、顔のマイクロ表情、物理的な接触です。Omni One 物理エンジンを搭載し、バランス、体重移動、遮蔽回復を処理するため、ダンス、武道、複雑なコレオグラフィが浮いたり滑ったりするアーティファクトなく、自然にレンダリングされます。

アイデンティティ保持とともに 1080p で最大30秒

多くのアニメーションモデルは5〜10秒が上限です。モーションコントロールは参照動画に合わせて最大30秒稼働し、角度変化にわたって360°の顔・身体アイデンティティ保持を提供します。生成にわたって外観を固定するオプションの被写体要素と組み合わせることで、現在利用可能な最も制作対応したキャラクターアニメーションパイプラインとなります。

Kling 3.0 モーションコントロール vs 他のアニメーションモデル

Feature	Kling 3.0 モーションコントロール	Kling 3.0（イメージ-ビデオ）	Runway Act-One	Wan Animate
入力	画像＋参照動画	画像＋プロンプト	画像＋ドライバー動画（顔）	画像＋ドライバー動画
モーションソース	全身、手、顔、カメラ	テキストプロンプト	顔のパフォーマンスのみ	身体＋顔
最大時間	30秒	15秒	通常10秒	通常5〜10秒
最大解像度	1080p	4K	720p	720p
手のジェスチャー精度	高（V3 アップグレード）	プロンプト依存	N/A	中程度
アイデンティティ保持	360°、遮蔽回復	参照＋要素	顔アンカー	参照アンカー
物理	Omni One エンジン	物理対応モーション	限定的	限定的
最適な用途	ダンス、スポーツ、フルパフォーマンス	シネマティックな物語	トーキングヘッド演技	軽いキャラクターアニメーション

クリエイターが Kling 3.0 モーションコントロールで作るもの

ダンス＆コレオグラフィ動画

スマートフォンでダンスルーティンを撮影し、参照動画として入力するだけで、任意のキャラクター（アバター、イラストキャラクター、有名人の似顔絵、スタイライズドなマスコットなど）に再ターゲティングできます。V3 アップグレードのおかげで、手のジェスチャーとフットワークがクリーンに転送されます。

スポーツ＆アクションシーン

スポーツのハイライトやパルクールのクリップを参照として使用し、ブランドマスコットやフィクションキャラクターにモーションを適用します。Omni One エンジンは、通常プロンプトによるテキスト-ビデオ変換では崩れてしまうような、素早い方向転換、接触、全身の回転を処理します。

ブランドマスコットのアニメーション

実際のパフォーマーからキャプチャしたモーションで、静的なブランドイラストを活性化します。被写体要素を使用することで、キャンペーン全体にわたってマスコットの外観（同じプロポーション、同じディテール）を固定しながら、異なる広告に対して異なるモーションクリップを使用できます。

ミュージックビデオのパフォーマンス挿入

アーティストのコレオグラフィを参照として、スタイライズドバージョンのアーティストや複数のキャラクターのカット間に適用します。ネイティブオーディオパススルーにより、参照の音楽やボーカルシンクが再マスタリングなしで結果に埋め込まれたまま保持されます。

ショートフォームのソーシャルトレンド

自分のキャラクター画像を使ってトレンドのダンス、アクション、表現を再現します。最大30秒でほぼすべてのショートフォームテンプレート（TikTok、Reels、Shorts）をカバーし、720p は縦型モバイルフィードに十分な品質です。

パフォーマンスキャプチャの事前可視化

俳優やスタントダブルのスマートフォン品質の参照映像を使用して、mocap ステージに入る前に最終キャラクターの動きを事前可視化します。30秒にわたるアイデンティティ保持により、監督は VFX、コレオグラフィ、パフォーマンスチームと具体的な内容について議論できます。

Kling 3.0 モーションコントロールに関するよくある質問

Kling 3.0 モーションコントロールとは何をするものですか？

参照動画からキャプチャしたモーションを使って、静止したキャラクター画像をアニメーション化します。プロンプトでモーションを説明する代わりに、希望するように動く人物（またはもの）の3〜30秒のクリップ（ダンス、歩行、ジェスチャー、パフォーマンスなど）をアップロードすると、Kling がその全身の軌跡、手のジェスチャー、顔のマイクロ表情、カメラモーションを画像のキャラクターに転送します。出力はキャラクターの顔・衣装・アイデンティティを保ちながら、参照クリップのモーションを取り入れます。

キャラクター方向＝画像と＝動画の違いは何ですか？

画像方向では、キャラクターが参照画像の向きを保ち（静止画がポーズを決定）、最大10秒に制限されます。既に望むスタイルが画像で完成している場合に最適です。動画方向では、参照動画のフレーミングと方向に従い、最大30秒の範囲をサポートします。全身のコレオグラフィ、スポーツ、または方向転換を含むモーションに最適です。被写体要素（element_list）を使用する場合は、動画方向のみ対応しています。

どのような参照動画が最適ですか？

全身が見え、安定したモーションで、被写体が明確な3〜30秒のクリーンなクリップが最適です。参照動画のキャラクターのプロポーションは、画像のキャラクターとおおよそ一致している方がよいでしょう。激しいカメラシェイク、複数の被写体、乱雑なモーションは避けてください。Omni One 物理エンジンは複雑な動き（ダンス、武道、スポーツ）をクリーンに処理し、参照動画で一時的に遮蔽された身体部位を復元します。

出力時間と価格はどのように決まりますか？

出力時間は参照動画の長さ（整数秒に丸める）に合わせられます。価格は品質と時間に応じてスケールします。1080p × 30秒 ≈ 50クレジット、1080p × 10秒 ≈ 20クレジットで、短い時間は最低10クレジットまで安くなります。720p は同じ時間の 1080p のおよそ75%です。生成ボタンに特定のアップロードに対するリアルタイム価格が表示されます。

プロンプトを入力する必要がありますか？

プロンプトは任意です。空白のままにしておくと、モデルが参照画像と参照動画からシーンを推論します。プロンプトを追加すると、背景・照明・スタイルに影響を与えたい場合に便利です（例：「シネマティックな照明、ぼかした都市の背景、ゴールデンアワー」）。キャラクターのモーションはいずれの場合も参照動画から取得されます。

複数の生成にわたって同じキャラクターを使い続けることはできますか？

はい。詳細設定の被写体要素フィールドに、以前に作成した element_id（Kling カスタム要素で video_refer を使用して作成）を指定できます。設定すると、参照画像が変わっても、モデルは生成全体にわたってそのキャラクターのアイデンティティを固定します。注意：被写体要素にはキャラクター方向＝動画が必要で、1回のモーションコントロール生成につき1つの要素のみサポートされます。

Kling 3.0 モーションコントロール — 参照ベースのAIキャラクターアニメーション

1枚の画像と参照クリップで、任意のキャラクターに任意のモーションを適用