
Google DeepMind
Gemini Omni
Google ยังไม่ได้เปิดตัวอย่างเป็นทางการ
Google's unified omni-model for video generation is launching soon on LoveGen AI.
ตัวสร้างวิดีโอ AI Gemini Omni
สร้างและแก้ไขวิดีโอ AI ด้วยโมเดล omni แบบรวมของ Google
Gemini Omni คือโมเดลสร้างวิดีโอแบบรวมของ Google DeepMind ที่กำลังจะมา พบครั้งแรกในรูปแบบสตริงส่วนติดต่อผู้ใช้ในแอป Gemini ก่อน Google I/O 2026 ต่างจากโมเดล Veo เฉพาะทาง Gemini Omni ดูเหมือนจะสร้างบนสถาปัตยกรรม omni แบบรวมที่จัดการข้อความ รูปภาพ วิดีโอ และเสียงในระบบเดียว ตามข้อมูลที่รั่วไหลจากการสาธิต รองรับเสียงซิงค์ดั้งเดิมและการแก้ไขวิดีโอผ่านแชท — ข้อมูลจำเพาะที่แน่นอนขึ้นอยู่กับการประกาศอย่างเป็นทางการ
Gemini Omni ถูกค้นพบในรูปสตริงส่วนติดต่อผู้ใช้ในแอป Gemini ในเดือนพฤษภาคม 2026 เพียงไม่กี่วันก่อน Google I/O 2026 (กำหนดในวันที่ 19–20 พฤษภาคม) Google ยังไม่ได้ประกาศโมเดลอย่างเป็นทางการ และข้อมูลทั้งหมดด้านล่างนี้อ้างอิงจากการสาธิตและสตริงส่วนติดต่อที่รั่วไหล ไม่ใช่เอกสารอย่างเป็นทางการ ข้อมูลจำเพาะ ราคา และความพร้อมใช้งานขึ้นอยู่กับการเปิดตัวอย่างเป็นทางการ
จากข้อมูลที่รั่วไหล โมเดลดูเหมือนจะรองรับการแก้ไขวิดีโอผ่านแชทในฐานะฟีเจอร์หลัก ผู้ใช้ดูเหมือนจะสามารถอธิบายการเปลี่ยนแปลงด้วยภาษาธรรมชาติ เช่น ลบลายน้ำ แทนที่วัตถุหนึ่งด้วยอีกวัตถุ หรือเขียนฉากใหม่ทั้งหมด และโมเดลจะใช้การแก้ไขโดยไม่ต้องทำงานทีละเฟรม วัสดุการสาธิตที่รั่วไหลรวมถึงฉากของผู้ชายสองคนที่กินสปาเกตตี้ในร้านอาหารหรูหราและศาสตราจารย์ที่เขียนการพิสูจน์คณิตศาสตร์บนกระดานดำขณะบรรยาย
เสียงซิงค์ดั้งเดิมดูเหมือนจะถูกผลิตในรอบเดียว ได้แก่ บทสนทนาพร้อมการซิงค์ริมฝีปาก เอฟเฟกต์เสียงบนหน้าจอ และเสียงพื้นหลัง — ทั้งหมดนี้โดยไม่ต้องผ่านขั้นตอน TTS หรือ Foley แยกต่างหาก ไลบรารีเทมเพลตสำเร็จรูปสำหรับการเริ่มต้นอย่างรวดเร็วก็ปรากฏให้เห็นในส่วนติดต่อผู้ใช้ของแอปที่รั่วไหลด้วย
ข้อมูลจำเพาะทางเทคนิคทั้งหมด — รวมถึงความละเอียด ระยะเวลา อัตราเฟรม อัตราส่วนภาพ และราคา — ยังไม่ได้รับการยืนยันอย่างเป็นทางการและจะประกาศในภายหลัง LoveGen AI จะรวม Gemini Omni ทันทีที่ API พร้อมใช้งานสาธารณะ
วิธีใช้ Gemini Omni
ขั้นตอนที่ 1: เลือกโหมดการสร้าง
เลือกข้อความเป็นวิดีโอสำหรับการสร้างจากพรอมต์ รูปภาพเป็นวิดีโอสำหรับการเคลื่อนไหวรูปภาพอ้างอิง หรือเลือกเทมเพลตสำเร็จรูปสำหรับการเริ่มต้นอย่างรวดเร็ว
ขั้นตอนที่ 2: อธิบายวิดีโอหรือการแก้ไขของคุณ
เขียนพรอมต์โดยละเอียดหรืออธิบายการแก้ไขด้วยภาษาธรรมดา — Gemini Omni เข้าใจการเปลี่ยนแปลงฉากด้วยภาษาธรรมชาติ การแทนที่วัตถุ และการปรับสไตล์ผ่านแชท
ขั้นตอนที่ 3: สร้างและปรับแต่ง
คลิกสร้าง Gemini Omni จะส่งคืนวิดีโอพร้อมเสียงซิงค์ดั้งเดิม ใช้ตัวแก้ไขแชทเพื่อปรับแต่งองค์ประกอบเฉพาะโดยไม่ต้องเริ่มต้นใหม่
ข้อมูลจำเพาะทางเทคนิคของ Gemini Omni
| ผู้ให้บริการ | Google DeepMind |
| สถาปัตยกรรม | โมเดล omni แบบรวม (ข้อความ + รูปภาพ + วิดีโอ + เสียง) — ขึ้นอยู่กับการยืนยันอย่างเป็นทางการ |
| สถานะปัจจุบัน | ยังไม่ประกาศอย่างเป็นทางการ — พบในส่วนติดต่อผู้ใช้ที่รั่วไหล พฤษภาคม 2026 |
| การประกาศที่คาดหวัง | Google I/O 2026 (19–20 พฤษภาคม 2026) |
| โหมดการป้อนข้อมูล | ข้อความเป็นวิดีโอ รูปภาพเป็นวิดีโอ การแก้ไขผ่านแชท (ตามข้อมูลที่รั่วไหล — TBD) |
| การแก้ไขวิดีโอ | ผ่านแชท: การแทนที่วัตถุ การลบลายน้ำ การเขียนฉากใหม่ (ตามข้อมูลที่รั่วไหล — TBD) |
| เทมเพลต | ไลบรารีเทมเพลตสำเร็จรูป (ตามส่วนติดต่อผู้ใช้ที่รั่วไหล — TBD) |
| เสียงดั้งเดิม | บทสนทนา (การซิงค์ริมฝีปาก), SFX, เสียงพื้นหลังในรอบเดียว (ตามข้อมูลที่รั่วไหล — TBD) |
| ความละเอียด | TBD — ขึ้นอยู่กับการเปิดตัวอย่างเป็นทางการ |
| ระยะเวลา / FPS / ราคา | TBD — ขึ้นอยู่กับการเปิดตัวอย่างเป็นทางการ |
เหตุใด Gemini Omni จึงโดดเด่น
สถาปัตยกรรมโมเดล omni แบบรวม
Gemini Omni ดูเหมือนจะเป็นโมเดลวิดีโอ Google รุ่นแรกที่สร้างบนสถาปัตยกรรม omni แบบรวม — โมเดลเดียวจัดการข้อความ รูปภาพ วิดีโอ และเสียงในรอบเดียว ขจัดรอยต่อระหว่างโหมดที่โมเดลท่อแยกต่างหากสร้างขึ้น รายละเอียดสถาปัตยกรรมจะได้รับการยืนยันอย่างเป็นทางการ
การแก้ไขวิดีโอผ่านแชท
ตามข้อมูลที่รั่วไหลจากการสาธิต คุณสามารถอธิบายการเปลี่ยนแปลงด้วยภาษาธรรมดาและ Gemini Omni จะใช้โดยตรง — ลบลายน้ำ แทนที่วัตถุ เขียนฉากใหม่ ไม่ต้องเลื่อนไทม์ไลน์หรือแก้ไขทีละเฟรม รายละเอียดฟีเจอร์ขึ้นอยู่กับการเปิดตัวอย่างเป็นทางการ
เสียงซิงค์ดั้งเดิมในรอบเดียว
ข้อมูลสาธิตที่รั่วไหลแสดงบทสนทนาพร้อมการซิงค์ริมฝีปาก เอฟเฟกต์เสียงบนหน้าจอ และเสียงพื้นหลังที่ผลิตร่วมกับวิดีโอในรอบเดียว — ไม่มีขั้นตอน TTS หรือ Foley แยกต่างหาก ข้อมูลจำเพาะที่ยืนยันจะประกาศอย่างเป็นทางการ
Gemini Omni เทียบกับตัวสร้างวิดีโอ AI อื่นๆ
| Feature | Gemini Omni | Veo 3.1 | Sora 2 | Grok Imagine |
|---|---|---|---|---|
| ผู้ให้บริการ | Google DeepMind | Google DeepMind | OpenAI | xAI |
| สถาปัตยกรรม | โมเดล omni แบบรวม (TBD) | Diffusion | Diffusion | Aurora (autoregressive) |
| การแก้ไขผ่านแชท | ใช่ (ตามข้อมูลที่รั่วไหล) | ไม่ | ไม่ | ไม่ |
| ความละเอียดสูงสุด | TBD | 1080p | 1080p | 720p |
| เสียงดั้งเดิม | ใช่ (ตามข้อมูลที่รั่วไหล) | ใช่ | ใช่ | ใช่ |
| การป้อนรูปภาพ | TBD | สูงสุด 3 รูปภาพ | 1 รูปภาพ + Cameos | 1 รูปภาพ |
| เทมเพลต | ใช่ (ตามส่วนติดต่อผู้ใช้ที่รั่วไหล) | ไม่ | ไม่ | ไม่ |
| ความพร้อมใช้งาน | เร็วๆ นี้ | พร้อมใช้งาน | พร้อมใช้งาน | พร้อมใช้งาน |
การใช้งานที่คาดหวังสำหรับผู้สร้าง บรรณาธิการ และผู้เล่าเรื่อง
การแก้ไขวิดีโอผ่านแชท
ตามข้อมูลที่รั่วไหลจากการสาธิต คุณสามารถข้ามตัวแก้ไขไทม์ไลน์และอธิบายการเปลี่ยนแปลงที่ต้องการ — ลบองค์ประกอบ แทนที่วัตถุ เปลี่ยนฉาก — และ Gemini Omni จะใช้โดยตรงผ่านภาษาธรรมชาติ
เนื้อหาโซเชียลตามเทมเพลต
ตามส่วนติดต่อผู้ใช้ที่รั่วไหล คุณสามารถเลือกเทมเพลตสำเร็จรูป ใส่พรอมต์ และรับวิดีโอที่ประกอบสมบูรณ์พร้อมเสียง — ไม่ต้องมีประสบการณ์ด้านการผลิต รายละเอียดเทมเพลตทั้งหมดขึ้นอยู่กับการเปิดตัวอย่างเป็นทางการ
การสร้างฉากบทสนทนา
สร้างฉากสนทนาที่สมจริงพร้อมการซิงค์ริมฝีปากที่แม่นยำและเสียงพื้นหลังในรอบเดียว — เหมาะสำหรับสคริปต์การตลาด เนื้อหาการศึกษา หรือบทสนทนาภาพยนตร์สั้น
การเคลื่อนไหวรูปภาพพร้อมเสียง
อัปโหลดรูปถ่ายหรือภาพประกอบและเคลื่อนไหวด้วยพรอมต์ Gemini Omni เพิ่มการเคลื่อนไหวและเอฟเฟกต์เสียงซิงค์โดยไม่ต้องใช้เครื่องมือเสียงแยกต่างหาก
การสร้างสตอรีบอร์ดฉาก
แสดงภาพบีตของสคริปต์อย่างรวดเร็วเป็นคลิปสั้นพร้อมเสียงดั้งเดิม ใช้ตัวแก้ไขแชทเพื่อปรับการจัดกรอบหรือบทสนทนาระหว่างช็อตโดยไม่ต้องสร้างใหม่จากศูนย์
การผลิตวิดีโอแบรนด์
ใช้เทมเพลตสำหรับการผลิตวิดีโอแบรนด์อย่างรวดเร็ว จากนั้นปรับแต่งด้วยการแก้ไขผ่านแชท — แลกเปลี่ยนองค์ประกอบหรือปรับโทนให้ตรงกับเสียงของแบรนด์คุณ
สำรวจตัวสร้างวิดีโอ AI ที่เกี่ยวข้อง

Veo 3.1
โมเดลวิดีโอ 1080p ของ Google DeepMind พร้อมการสร้างเฟรมเป็นวิดีโอและเสียงดั้งเดิม

Sora 2
ตัวสร้างวิดีโอภาพยนตร์ของ OpenAI ที่มีการเคลื่อนไหวที่ถูกต้องตามฟิสิกส์และระยะเวลา 20 วินาที

Grok Imagine
โมเดลวิดีโอเอนจิน Aurora ของ xAI พร้อมโหมดสไตล์ Fun/Normal/Spicy และเสียงดั้งเดิม
Happy Horse 1.0
ตัวสร้างวิดีโอ AI อันดับ 1 ที่มีการเคลื่อนไหวภาพยนตร์และการซิงค์ริมฝีปากใน 7 ภาษา

Seedance 2.0
โมเดลวิดีโอของ ByteDance พร้อมการรวมการค้นหาเว็บและเสียงซิงค์
Kling 3.0
วิดีโอ 4K ระดับผู้กำกับพร้อมภาพยนตร์ AI หลายช็อตและเสียงดั้งเดิม
คำถามที่พบบ่อยเกี่ยวกับ Gemini Omni
Gemini Omni คืออะไร?
Gemini Omni คือโมเดลสร้างวิดีโอของ Google DeepMind ที่กำลังจะมา พบครั้งแรกในรูปสตริงส่วนติดต่อผู้ใช้ในแอป Gemini ก่อน Google I/O 2026 ดูเหมือนจะเป็นโมเดล omni แบบรวมที่จัดการข้อความ รูปภาพ วิดีโอ และเสียงในระบบเดียว พร้อมเสียงซิงค์ดั้งเดิมและการแก้ไขวิดีโอผ่านแชท รายละเอียดทั้งหมดขึ้นอยู่กับการประกาศอย่างเป็นทางการ
Gemini Omni แตกต่างจาก Veo 3.1 อย่างไร?
Veo 3.1 เป็นโมเดล diffusion วิดีโอเฉพาะทางที่มีข้อมูลจำเพาะที่รู้จักและมีเอกสาร Gemini Omni ดูเหมือนจะสร้างบนสถาปัตยกรรม omni แบบรวม — โมเดลเดียวจัดการข้อความ รูปภาพ วิดีโอ และเสียงในรอบเดียว คล้ายกับ GPT-4o ซึ่งช่วยให้การแก้ไขผ่านแชทและการสร้างตามเทมเพลตที่ Veo 3.1 ไม่มี รายละเอียดสถาปัตยกรรมที่แน่นอนจะได้รับการยืนยันอย่างเป็นทางการ
การแก้ไขวิดีโอผ่านแชทใน Gemini Omni คืออะไร?
ตามข้อมูลที่รั่วไหลจากการสาธิต Gemini Omni ช่วยให้คุณอธิบายการแก้ไขด้วยภาษาธรรมดา เช่น 'ลบลายน้ำ' 'แทนถ้วยแดงด้วยแก้วกาแฟ' หรือ 'เขียนฉากนี้ใหม่ให้ตัวละครอยู่ข้างนอก' โมเดลจะใช้การแก้ไขโดยไม่ต้องทำงานทีละเฟรม ฟีเจอร์นี้ยังไม่ได้รับการยืนยันอย่างเป็นทางการและรายละเอียดอาจเปลี่ยนแปลงได้
Gemini Omni สร้างเสียงซิงค์หรือไม่?
ตามข้อมูลที่รั่วไหลจากการสาธิต Gemini Omni ดูเหมือนจะสร้างเสียงซิงค์ดั้งเดิม รวมถึงบทสนทนาพร้อมการซิงค์ริมฝีปาก เอฟเฟกต์เสียงที่ซิงค์กับการกระทำบนหน้าจอ และเสียงพื้นหลัง ในรอบเดียว สิ่งนี้ยังไม่ได้รับการยืนยันอย่างเป็นทางการและข้อมูลจำเพาะทั้งหมดจะประกาศที่ Google I/O 2026
Gemini Omni จะพร้อมใช้งานบน LoveGen AI เมื่อใด?
Gemini Omni ถูกพบในส่วนติดต่อผู้ใช้ที่รั่วไหลก่อน Google I/O 2026 (19–20 พฤษภาคม 2026) Google ยังไม่ได้ประกาศราคา API หรือวันที่พร้อมใช้งานอย่างเป็นทางการ LoveGen AI จะรวม Gemini Omni ทันทีที่ API พร้อมใช้งานสาธารณะ
Gemini Omni มีเทมเพลตวิดีโออะไรบ้าง?
ไลบรารีเทมเพลตสำเร็จรูปปรากฏให้เห็นในส่วนติดต่อผู้ใช้ของแอป Gemini ที่รั่วไหล เทมเพลตดูเหมือนจะจัดการองค์ประกอบ จังหวะ และเสียงโดยอัตโนมัติสำหรับการสร้างวิดีโออย่างรวดเร็ว รายละเอียดทั้งหมด รวมถึงจำนวนเทมเพลตและหมวดหมู่ จะได้รับการยืนยันเมื่อประกาศอย่างเป็นทางการ
