Google DeepMind

Google DeepMind

Gemini Omni

Coming Soon

Google ยังไม่ได้เปิดตัวอย่างเป็นทางการ

Google's unified omni-model for video generation is launching soon on LoveGen AI.

ตัวสร้างวิดีโอ AI Gemini Omni

สร้างและแก้ไขวิดีโอ AI ด้วยโมเดล omni แบบรวมของ Google

Gemini Omni คือโมเดลสร้างวิดีโอแบบรวมของ Google DeepMind ที่กำลังจะมา พบครั้งแรกในรูปแบบสตริงส่วนติดต่อผู้ใช้ในแอป Gemini ก่อน Google I/O 2026 ต่างจากโมเดล Veo เฉพาะทาง Gemini Omni ดูเหมือนจะสร้างบนสถาปัตยกรรม omni แบบรวมที่จัดการข้อความ รูปภาพ วิดีโอ และเสียงในระบบเดียว ตามข้อมูลที่รั่วไหลจากการสาธิต รองรับเสียงซิงค์ดั้งเดิมและการแก้ไขวิดีโอผ่านแชท — ข้อมูลจำเพาะที่แน่นอนขึ้นอยู่กับการประกาศอย่างเป็นทางการ

Gemini Omni ถูกค้นพบในรูปสตริงส่วนติดต่อผู้ใช้ในแอป Gemini ในเดือนพฤษภาคม 2026 เพียงไม่กี่วันก่อน Google I/O 2026 (กำหนดในวันที่ 19–20 พฤษภาคม) Google ยังไม่ได้ประกาศโมเดลอย่างเป็นทางการ และข้อมูลทั้งหมดด้านล่างนี้อ้างอิงจากการสาธิตและสตริงส่วนติดต่อที่รั่วไหล ไม่ใช่เอกสารอย่างเป็นทางการ ข้อมูลจำเพาะ ราคา และความพร้อมใช้งานขึ้นอยู่กับการเปิดตัวอย่างเป็นทางการ

จากข้อมูลที่รั่วไหล โมเดลดูเหมือนจะรองรับการแก้ไขวิดีโอผ่านแชทในฐานะฟีเจอร์หลัก ผู้ใช้ดูเหมือนจะสามารถอธิบายการเปลี่ยนแปลงด้วยภาษาธรรมชาติ เช่น ลบลายน้ำ แทนที่วัตถุหนึ่งด้วยอีกวัตถุ หรือเขียนฉากใหม่ทั้งหมด และโมเดลจะใช้การแก้ไขโดยไม่ต้องทำงานทีละเฟรม วัสดุการสาธิตที่รั่วไหลรวมถึงฉากของผู้ชายสองคนที่กินสปาเกตตี้ในร้านอาหารหรูหราและศาสตราจารย์ที่เขียนการพิสูจน์คณิตศาสตร์บนกระดานดำขณะบรรยาย

เสียงซิงค์ดั้งเดิมดูเหมือนจะถูกผลิตในรอบเดียว ได้แก่ บทสนทนาพร้อมการซิงค์ริมฝีปาก เอฟเฟกต์เสียงบนหน้าจอ และเสียงพื้นหลัง — ทั้งหมดนี้โดยไม่ต้องผ่านขั้นตอน TTS หรือ Foley แยกต่างหาก ไลบรารีเทมเพลตสำเร็จรูปสำหรับการเริ่มต้นอย่างรวดเร็วก็ปรากฏให้เห็นในส่วนติดต่อผู้ใช้ของแอปที่รั่วไหลด้วย

ข้อมูลจำเพาะทางเทคนิคทั้งหมด — รวมถึงความละเอียด ระยะเวลา อัตราเฟรม อัตราส่วนภาพ และราคา — ยังไม่ได้รับการยืนยันอย่างเป็นทางการและจะประกาศในภายหลัง LoveGen AI จะรวม Gemini Omni ทันทีที่ API พร้อมใช้งานสาธารณะ

วิธีใช้ Gemini Omni

01

ขั้นตอนที่ 1: เลือกโหมดการสร้าง

เลือกข้อความเป็นวิดีโอสำหรับการสร้างจากพรอมต์ รูปภาพเป็นวิดีโอสำหรับการเคลื่อนไหวรูปภาพอ้างอิง หรือเลือกเทมเพลตสำเร็จรูปสำหรับการเริ่มต้นอย่างรวดเร็ว

02

ขั้นตอนที่ 2: อธิบายวิดีโอหรือการแก้ไขของคุณ

เขียนพรอมต์โดยละเอียดหรืออธิบายการแก้ไขด้วยภาษาธรรมดา — Gemini Omni เข้าใจการเปลี่ยนแปลงฉากด้วยภาษาธรรมชาติ การแทนที่วัตถุ และการปรับสไตล์ผ่านแชท

03

ขั้นตอนที่ 3: สร้างและปรับแต่ง

คลิกสร้าง Gemini Omni จะส่งคืนวิดีโอพร้อมเสียงซิงค์ดั้งเดิม ใช้ตัวแก้ไขแชทเพื่อปรับแต่งองค์ประกอบเฉพาะโดยไม่ต้องเริ่มต้นใหม่

ข้อมูลจำเพาะทางเทคนิคของ Gemini Omni

ผู้ให้บริการGoogle DeepMind
สถาปัตยกรรมโมเดล omni แบบรวม (ข้อความ + รูปภาพ + วิดีโอ + เสียง) — ขึ้นอยู่กับการยืนยันอย่างเป็นทางการ
สถานะปัจจุบันยังไม่ประกาศอย่างเป็นทางการ — พบในส่วนติดต่อผู้ใช้ที่รั่วไหล พฤษภาคม 2026
การประกาศที่คาดหวังGoogle I/O 2026 (19–20 พฤษภาคม 2026)
โหมดการป้อนข้อมูลข้อความเป็นวิดีโอ รูปภาพเป็นวิดีโอ การแก้ไขผ่านแชท (ตามข้อมูลที่รั่วไหล — TBD)
การแก้ไขวิดีโอผ่านแชท: การแทนที่วัตถุ การลบลายน้ำ การเขียนฉากใหม่ (ตามข้อมูลที่รั่วไหล — TBD)
เทมเพลตไลบรารีเทมเพลตสำเร็จรูป (ตามส่วนติดต่อผู้ใช้ที่รั่วไหล — TBD)
เสียงดั้งเดิมบทสนทนา (การซิงค์ริมฝีปาก), SFX, เสียงพื้นหลังในรอบเดียว (ตามข้อมูลที่รั่วไหล — TBD)
ความละเอียดTBD — ขึ้นอยู่กับการเปิดตัวอย่างเป็นทางการ
ระยะเวลา / FPS / ราคาTBD — ขึ้นอยู่กับการเปิดตัวอย่างเป็นทางการ

เหตุใด Gemini Omni จึงโดดเด่น

สถาปัตยกรรมโมเดล omni แบบรวม

Gemini Omni ดูเหมือนจะเป็นโมเดลวิดีโอ Google รุ่นแรกที่สร้างบนสถาปัตยกรรม omni แบบรวม — โมเดลเดียวจัดการข้อความ รูปภาพ วิดีโอ และเสียงในรอบเดียว ขจัดรอยต่อระหว่างโหมดที่โมเดลท่อแยกต่างหากสร้างขึ้น รายละเอียดสถาปัตยกรรมจะได้รับการยืนยันอย่างเป็นทางการ

การแก้ไขวิดีโอผ่านแชท

ตามข้อมูลที่รั่วไหลจากการสาธิต คุณสามารถอธิบายการเปลี่ยนแปลงด้วยภาษาธรรมดาและ Gemini Omni จะใช้โดยตรง — ลบลายน้ำ แทนที่วัตถุ เขียนฉากใหม่ ไม่ต้องเลื่อนไทม์ไลน์หรือแก้ไขทีละเฟรม รายละเอียดฟีเจอร์ขึ้นอยู่กับการเปิดตัวอย่างเป็นทางการ

เสียงซิงค์ดั้งเดิมในรอบเดียว

ข้อมูลสาธิตที่รั่วไหลแสดงบทสนทนาพร้อมการซิงค์ริมฝีปาก เอฟเฟกต์เสียงบนหน้าจอ และเสียงพื้นหลังที่ผลิตร่วมกับวิดีโอในรอบเดียว — ไม่มีขั้นตอน TTS หรือ Foley แยกต่างหาก ข้อมูลจำเพาะที่ยืนยันจะประกาศอย่างเป็นทางการ

Gemini Omni เทียบกับตัวสร้างวิดีโอ AI อื่นๆ

FeatureGemini OmniVeo 3.1Sora 2Grok Imagine
ผู้ให้บริการGoogle DeepMindGoogle DeepMindOpenAIxAI
สถาปัตยกรรมโมเดล omni แบบรวม (TBD)DiffusionDiffusionAurora (autoregressive)
การแก้ไขผ่านแชทใช่ (ตามข้อมูลที่รั่วไหล)ไม่ไม่ไม่
ความละเอียดสูงสุดTBD1080p1080p720p
เสียงดั้งเดิมใช่ (ตามข้อมูลที่รั่วไหล)ใช่ใช่ใช่
การป้อนรูปภาพTBDสูงสุด 3 รูปภาพ1 รูปภาพ + Cameos1 รูปภาพ
เทมเพลตใช่ (ตามส่วนติดต่อผู้ใช้ที่รั่วไหล)ไม่ไม่ไม่
ความพร้อมใช้งานเร็วๆ นี้พร้อมใช้งานพร้อมใช้งานพร้อมใช้งาน

การใช้งานที่คาดหวังสำหรับผู้สร้าง บรรณาธิการ และผู้เล่าเรื่อง

01

การแก้ไขวิดีโอผ่านแชท

ตามข้อมูลที่รั่วไหลจากการสาธิต คุณสามารถข้ามตัวแก้ไขไทม์ไลน์และอธิบายการเปลี่ยนแปลงที่ต้องการ — ลบองค์ประกอบ แทนที่วัตถุ เปลี่ยนฉาก — และ Gemini Omni จะใช้โดยตรงผ่านภาษาธรรมชาติ

02

เนื้อหาโซเชียลตามเทมเพลต

ตามส่วนติดต่อผู้ใช้ที่รั่วไหล คุณสามารถเลือกเทมเพลตสำเร็จรูป ใส่พรอมต์ และรับวิดีโอที่ประกอบสมบูรณ์พร้อมเสียง — ไม่ต้องมีประสบการณ์ด้านการผลิต รายละเอียดเทมเพลตทั้งหมดขึ้นอยู่กับการเปิดตัวอย่างเป็นทางการ

03

การสร้างฉากบทสนทนา

สร้างฉากสนทนาที่สมจริงพร้อมการซิงค์ริมฝีปากที่แม่นยำและเสียงพื้นหลังในรอบเดียว — เหมาะสำหรับสคริปต์การตลาด เนื้อหาการศึกษา หรือบทสนทนาภาพยนตร์สั้น

04

การเคลื่อนไหวรูปภาพพร้อมเสียง

อัปโหลดรูปถ่ายหรือภาพประกอบและเคลื่อนไหวด้วยพรอมต์ Gemini Omni เพิ่มการเคลื่อนไหวและเอฟเฟกต์เสียงซิงค์โดยไม่ต้องใช้เครื่องมือเสียงแยกต่างหาก

05

การสร้างสตอรีบอร์ดฉาก

แสดงภาพบีตของสคริปต์อย่างรวดเร็วเป็นคลิปสั้นพร้อมเสียงดั้งเดิม ใช้ตัวแก้ไขแชทเพื่อปรับการจัดกรอบหรือบทสนทนาระหว่างช็อตโดยไม่ต้องสร้างใหม่จากศูนย์

06

การผลิตวิดีโอแบรนด์

ใช้เทมเพลตสำหรับการผลิตวิดีโอแบรนด์อย่างรวดเร็ว จากนั้นปรับแต่งด้วยการแก้ไขผ่านแชท — แลกเปลี่ยนองค์ประกอบหรือปรับโทนให้ตรงกับเสียงของแบรนด์คุณ

สำรวจตัวสร้างวิดีโอ AI ที่เกี่ยวข้อง

คำถามที่พบบ่อยเกี่ยวกับ Gemini Omni

Gemini Omni คืออะไร?

Gemini Omni คือโมเดลสร้างวิดีโอของ Google DeepMind ที่กำลังจะมา พบครั้งแรกในรูปสตริงส่วนติดต่อผู้ใช้ในแอป Gemini ก่อน Google I/O 2026 ดูเหมือนจะเป็นโมเดล omni แบบรวมที่จัดการข้อความ รูปภาพ วิดีโอ และเสียงในระบบเดียว พร้อมเสียงซิงค์ดั้งเดิมและการแก้ไขวิดีโอผ่านแชท รายละเอียดทั้งหมดขึ้นอยู่กับการประกาศอย่างเป็นทางการ

Gemini Omni แตกต่างจาก Veo 3.1 อย่างไร?

Veo 3.1 เป็นโมเดล diffusion วิดีโอเฉพาะทางที่มีข้อมูลจำเพาะที่รู้จักและมีเอกสาร Gemini Omni ดูเหมือนจะสร้างบนสถาปัตยกรรม omni แบบรวม — โมเดลเดียวจัดการข้อความ รูปภาพ วิดีโอ และเสียงในรอบเดียว คล้ายกับ GPT-4o ซึ่งช่วยให้การแก้ไขผ่านแชทและการสร้างตามเทมเพลตที่ Veo 3.1 ไม่มี รายละเอียดสถาปัตยกรรมที่แน่นอนจะได้รับการยืนยันอย่างเป็นทางการ

การแก้ไขวิดีโอผ่านแชทใน Gemini Omni คืออะไร?

ตามข้อมูลที่รั่วไหลจากการสาธิต Gemini Omni ช่วยให้คุณอธิบายการแก้ไขด้วยภาษาธรรมดา เช่น 'ลบลายน้ำ' 'แทนถ้วยแดงด้วยแก้วกาแฟ' หรือ 'เขียนฉากนี้ใหม่ให้ตัวละครอยู่ข้างนอก' โมเดลจะใช้การแก้ไขโดยไม่ต้องทำงานทีละเฟรม ฟีเจอร์นี้ยังไม่ได้รับการยืนยันอย่างเป็นทางการและรายละเอียดอาจเปลี่ยนแปลงได้

Gemini Omni สร้างเสียงซิงค์หรือไม่?

ตามข้อมูลที่รั่วไหลจากการสาธิต Gemini Omni ดูเหมือนจะสร้างเสียงซิงค์ดั้งเดิม รวมถึงบทสนทนาพร้อมการซิงค์ริมฝีปาก เอฟเฟกต์เสียงที่ซิงค์กับการกระทำบนหน้าจอ และเสียงพื้นหลัง ในรอบเดียว สิ่งนี้ยังไม่ได้รับการยืนยันอย่างเป็นทางการและข้อมูลจำเพาะทั้งหมดจะประกาศที่ Google I/O 2026

Gemini Omni จะพร้อมใช้งานบน LoveGen AI เมื่อใด?

Gemini Omni ถูกพบในส่วนติดต่อผู้ใช้ที่รั่วไหลก่อน Google I/O 2026 (19–20 พฤษภาคม 2026) Google ยังไม่ได้ประกาศราคา API หรือวันที่พร้อมใช้งานอย่างเป็นทางการ LoveGen AI จะรวม Gemini Omni ทันทีที่ API พร้อมใช้งานสาธารณะ

Gemini Omni มีเทมเพลตวิดีโออะไรบ้าง?

ไลบรารีเทมเพลตสำเร็จรูปปรากฏให้เห็นในส่วนติดต่อผู้ใช้ของแอป Gemini ที่รั่วไหล เทมเพลตดูเหมือนจะจัดการองค์ประกอบ จังหวะ และเสียงโดยอัตโนมัติสำหรับการสร้างวิดีโออย่างรวดเร็ว รายละเอียดทั้งหมด รวมถึงจำนวนเทมเพลตและหมวดหมู่ จะได้รับการยืนยันเมื่อประกาศอย่างเป็นทางการ