Google DeepMind

Google DeepMind

Gemini Omni

เร็วๆ นี้

Vertex AI API สาธารณะกำลังเผยแพร่ในสัปดาห์ต่อจาก Google I/O 2026

Gemini Omni Flash เปิดตัวเมื่อวันที่ 19 พฤษภาคม 2026 LoveGen AI จะเพิ่มทันทีที่ Vertex AI API สาธารณะพร้อมใช้งาน

ตัวสร้างวิดีโอ AI Gemini Omni Flash

สร้างและแก้ไขวิดีโอ AI ด้วยโมเดล omni แบบรวมของ Google

Gemini Omni Flash คือโมเดลสร้างวิดีโอแบบรวมใหม่ของ Google DeepMind ที่ประกาศและเปิดตัวที่ Google I/O 2026 เมื่อวันที่ 19 พฤษภาคม 2026 ต่างจากโมเดล Veo เฉพาะทาง Gemini Omni Flash สร้างบนสถาปัตยกรรม omni แบบ transformer เดียวที่รับข้อมูลข้อความ รูปภาพ เสียง และวิดีโอโดยดั้งเดิม และผลิตวิดีโอความละเอียดสูงพร้อมเสียงซิงค์ในครั้งเดียว รองรับการแก้ไขแบบหลายรอบผ่านการสนทนา — เปลี่ยนมุมกล้อง แทนที่วัตถุ เขียนฉากใหม่ หรือแก้ไขพื้นหลังด้วยพรอมต์ภาษาธรรมดา

Gemini Omni เปิดตัวที่ Google I/O 2026 โดยตัวแปรแรกที่จัดส่ง — Gemini Omni Flash — เริ่มเผยแพร่ในวันเดียวกัน (19 พฤษภาคม 2026) Google อธิบายว่าเป็นโมเดลที่สามารถสร้างอะไรก็ได้จากอินพุตใดก็ได้ เริ่มต้นด้วยวิดีโอ ผสมผสานการใช้เหตุผลของ Gemini กับสื่อสร้างสรรค์เพื่อความเข้าใจโลกที่แข็งแกร่งขึ้น หลายโหมด และการแก้ไข

เมื่อเปิดตัว Gemini Omni Flash ผลิตคลิปความละเอียดสูง 10 วินาทีพร้อมเสียงซิงค์ดั้งเดิม — บทสนทนาพร้อมการซิงค์ริมฝีปาก เอฟเฟกต์เสียงที่ตรงกับการกระทำบนหน้าจอ และเสียงพื้นหลัง — ทั้งหมดสร้างขึ้นในรอบเดียว Google ยืนยันว่าข้อจำกัด 10 วินาทีเป็นการตัดสินใจด้านการใช้งาน ไม่ใช่ข้อจำกัดของโมเดล ความเข้าใจฟิสิกส์ที่ดีขึ้น รวมถึงแรงโน้มถ่วง พลังงานจลน์ และพลศาสตร์ของไหล ช่วยให้การเคลื่อนไหวสมจริงมากขึ้น

ฟีเจอร์หลักที่จัดส่งคือการแก้ไขแบบหลายรอบผ่านการสนทนา เมื่อมีคลิปแล้ว คุณอธิบายการเปลี่ยนแปลงด้วยภาษาธรรมดา — 'เลื่อนมุมกล้องไปทางซ้าย' 'ทำให้รูปปั้นทำจากฟองสบู่' 'เมื่อคนแตะกระจก ให้มันกระเพื่อมเหมือนของเหลว' — และ Omni จะแก้ไของค์ประกอบที่เป็นเป้าหมายในขณะที่คงส่วนที่เหลือไว้ การซ้อนอ้างอิงช่วยให้คุณรวมรูปภาพตัวละคร ไฟล์เสียง และการอ้างอิงสไตล์ในพรอมต์เดียว และการสร้างตามเทมเพลตพร้อมการใช้งานด้วยคลิกเดียวถูกรวมไว้ในแอป Gemini และ Google Flow

Gemini Omni Flash กำลังเผยแพร่ทั่วโลกสำหรับผู้สมัครสมาชิก Google AI Plus, Pro และ Ultra ผ่านแอป Gemini และ Google Flow และโดยไม่มีค่าใช้จ่ายสำหรับผู้ใช้อายุ 18 ปีขึ้นไปใน YouTube Shorts Remix และแอป YouTube Create วิดีโอที่สร้างทุกชิ้นมีลายน้ำ SynthID ที่มองไม่เห็นพร้อมกับ C2PA Content Credentials การเข้าถึง API สาธารณะสำหรับนักพัฒนาและองค์กรผ่าน Vertex AI กำลังเผยแพร่ในสัปดาห์ต่อจาก I/O และ LoveGen AI จะรวม Gemini Omni Flash ทันทีที่ API นั้นพร้อมใช้งานสาธารณะ

วิธีใช้ Gemini Omni Flash

01

ขั้นตอนที่ 1: เลือกโหมดการสร้าง

สร้างจากพรอมต์ข้อความ เคลื่อนไหวรูปภาพ ผสมการอ้างอิงหลายรายการ (รูปภาพ เสียง สไตล์) หรือเลือกเทมเพลตในตัวสำหรับการสร้างด้วยคลิกเดียว

02

ขั้นตอนที่ 2: อธิบายวิดีโอหรือการแก้ไขของคุณ

เขียนพรอมต์โดยละเอียดหรืออธิบายการแก้ไขด้วยภาษาธรรมดา — Gemini Omni Flash เข้าใจการเคลื่อนที่ของกล้อง การแทนที่วัตถุ การเปลี่ยนพื้นหลัง และการปรับสไตล์ผ่านแชท

03

ขั้นตอนที่ 3: สร้างและปรับแต่ง

คลิกสร้าง Gemini Omni Flash จะส่งคืนคลิปความละเอียดสูง 10 วินาทีพร้อมเสียงซิงค์ดั้งเดิม ใช้แชทหลายรอบเพื่อปรับแต่งองค์ประกอบเฉพาะโดยไม่ต้องเริ่มต้นใหม่

ข้อมูลจำเพาะทางเทคนิคของ Gemini Omni Flash

ผู้ให้บริการGoogle DeepMind
วันที่เปิดตัว19 พฤษภาคม 2026 (Google I/O 2026)
ตัวแปรGemini Omni Flash (โมเดลแรกในตระกูล Omni ที่จัดส่งแล้ว)
สถาปัตยกรรมโมเดล omni แบบ transformer แบบรวม (ข้อความ + รูปภาพ + เสียง + วิดีโอ → วิดีโอ + เสียงออก)
โหมดการป้อนข้อมูลข้อความ รูปภาพ เสียง วิดีโอ — รวมถึงการซ้อนการอ้างอิงหลายรายการ
ผลลัพธ์วิดีโอความละเอียดสูงพร้อมเสียงซิงค์ดั้งเดิม
ระยะเวลาสูงสุด10 วินาทีต่อคลิป (ข้อจำกัดการใช้งาน ไม่ใช่ข้อจำกัดของโมเดล)
เสียงดั้งเดิมบทสนทนา (ซิงค์ริมฝีปาก), SFX, บรรยากาศ — สร้างขึ้นในรอบเดียว
การแก้ไขแบบหลายรอบผ่านการสนทนา — กล้อง พื้นหลัง วัตถุ การกระทำ สไตล์
ฟิสิกส์แรงโน้มถ่วง พลังงานจลน์ และพลศาสตร์ของไหลที่ดีขึ้น
การพิสูจน์ที่มาลายน้ำ SynthID + C2PA Content Credentials (บังคับ)
ความพร้อมใช้งานแอป Gemini และ Google Flow (AI Plus/Pro/Ultra); YouTube Shorts Remix และแอป Create (ฟรี อายุ 18 ปีขึ้นไป)
การเข้าถึง APIVertex AI API สาธารณะกำลังเผยแพร่ในสัปดาห์ต่อจาก I/O 2026

เหตุใด Gemini Omni Flash จึงโดดเด่น

สถาปัตยกรรมโมเดล omni แบบรวม

Gemini Omni Flash เป็นโมเดลวิดีโอที่จัดส่งรุ่นแรกของ Google ที่สร้างบนสถาปัตยกรรม omni แบบ transformer แบบรวม — โมเดลเดียวจัดการข้อความ รูปภาพ เสียง และวิดีโอในรอบเดียว ขจัดรอยต่อระหว่างโหมดที่ระบบท่อแยกต่างหากสร้างขึ้น การซ้อนอ้างอิงช่วยให้คุณรวมรูปภาพตัวละคร ไฟล์เสียง และการอ้างอิงสไตล์ในพรอมต์เดียว

การแก้ไขแบบหลายรอบผ่านการสนทนา

อธิบายการเปลี่ยนแปลงด้วยภาษาธรรมดาและ Gemini Omni Flash จะใช้โดยตรง — เลื่อนกล้อง แทนที่วัตถุ เขียนฉากใหม่ หรือเปลี่ยนพื้นหลัง — ในขณะที่คงส่วนที่เหลือของคลิปไว้ การแก้ไขหลายรอบสร้างบนบริบทก่อนหน้าเพื่อให้คุณทำซ้ำโดยไม่ต้องเริ่มต้นใหม่

เสียงซิงค์ดั้งเดิม + ฟิสิกส์ที่ดีขึ้น

บทสนทนาพร้อมการซิงค์ริมฝีปาก เอฟเฟกต์เสียงบนหน้าจอ และเสียงพื้นหลังสร้างร่วมกับวิดีโอในรอบเดียว — ไม่มีขั้นตอน TTS หรือ Foley แยกต่างหาก ความเข้าใจแรงโน้มถ่วง พลังงานจลน์ และพลศาสตร์ของไหลที่ดีขึ้นให้การเคลื่อนไหวที่สมจริงมากขึ้น และผลลัพธ์ทุกชิ้นมีการพิสูจน์ที่มาของ SynthID และ C2PA

Gemini Omni Flash เทียบกับตัวสร้างวิดีโอ AI อื่นๆ

FeatureGemini Omni FlashVeo 3.1Sora 2Grok Imagine
ผู้ให้บริการGoogle DeepMindGoogle DeepMindOpenAIxAI
สถาปัตยกรรมโมเดล omni แบบ transformer แบบรวมDiffusionDiffusionAurora (autoregressive)
การแก้ไขแบบสนทนาใช่ — หลายรอบไม่ไม่ไม่
ความละเอียดสูงสุดความละเอียดสูง1080p1080p720p
ระยะเวลาสูงสุด10 วินาที (ข้อจำกัดการใช้งาน)8 วินาที (ขยายได้)20 วินาที15 วินาที
เสียงดั้งเดิมใช่ — รอบเดียวใช่ใช่ใช่
โหมดการป้อนข้อมูลข้อความ รูปภาพ เสียง วิดีโอข้อความ รูปภาพ (สูงสุด 3)ข้อความ รูปภาพ + Cameosข้อความ รูปภาพ 1 ใบ
เทมเพลตใช่ไม่ไม่ไม่
การพิสูจน์ที่มาSynthID + C2PASynthIDC2PA
ความพร้อมใช้งานแอป Gemini, Flow, YouTubeพร้อมใช้งานพร้อมใช้งานพร้อมใช้งาน

สิ่งที่คุณสร้างได้ด้วย Gemini Omni Flash

01

การแก้ไขวิดีโอแบบสนทนา

ข้ามตัวแก้ไขไทม์ไลน์ไปเลย — อธิบายการเปลี่ยนแปลงที่ต้องการด้วยภาษาธรรมดาและ Gemini Omni Flash จะใช้โดยตรง เลื่อนมุมกล้อง แทนที่วัตถุ เปลี่ยนพื้นหลัง หรือเขียนการกระทำทั้งหมดด้วยพรอมต์เดียว

02

เนื้อหาโซเชียลตามเทมเพลต

เลือกเทมเพลตในตัว ใส่พรอมต์ และรับคลิป 10 วินาทีที่ประกอบสมบูรณ์พร้อมเสียงซิงค์ — ออกแบบสำหรับรูปแบบ YouTube Shorts, Reels และ TikTok โดยไม่ต้องมีประสบการณ์ด้านการผลิต

03

การสร้างฉากบทสนทนา

สร้างฉากสนทนาที่สมจริงพร้อมการซิงค์ริมฝีปากที่แม่นยำและเสียงพื้นหลังในรอบเดียว — เหมาะสำหรับสคริปต์การตลาด เนื้อหาการศึกษา หรือบทสนทนาภาพยนตร์สั้น

04

การสร้างแบบซ้อนอ้างอิง

รวมรูปภาพตัวละคร ไฟล์เสียง และการอ้างอิงสไตล์ในพรอมต์เดียวเพื่อสร้างตัวละครที่สม่ำเสมอซึ่งตรงกับรูปลักษณ์ เสียง และสุนทรียศาสตร์เฉพาะในคลิปต่างๆ

05

การสร้างสตอรีบอร์ดฉาก

แสดงภาพบีตของสคริปต์อย่างรวดเร็วเป็นคลิปสั้นพร้อมเสียงดั้งเดิม ใช้การแก้ไขผ่านแชทหลายรอบเพื่อปรับการจัดกรอบ แทนที่วัตถุ หรือเขียนการกระทำใหม่ระหว่างช็อตโดยไม่ต้องสร้างใหม่จากศูนย์

06

การผลิตวิดีโอแบรนด์

ใช้เทมเพลตสำหรับการผลิตวิดีโอแบรนด์อย่างรวดเร็ว จากนั้นปรับแต่งด้วยการแก้ไขแบบสนทนา — แลกเปลี่ยนภาพผลิตภัณฑ์ เปลี่ยนพื้นหลัง หรือปรับโทนภาพให้ตรงกับแบรนด์ของคุณ

สำรวจตัวสร้างวิดีโอ AI ที่เกี่ยวข้อง

คำถามที่พบบ่อยเกี่ยวกับ Gemini Omni Flash

Gemini Omni Flash คืออะไร?

Gemini Omni Flash คือโมเดลสร้างวิดีโอแบบรวมใหม่ของ Google DeepMind ที่ประกาศและเปิดตัวที่ Google I/O 2026 เมื่อวันที่ 19 พฤษภาคม 2026 เป็นโมเดลแรกในตระกูล Gemini Omni ที่จัดส่ง — สร้างบนสถาปัตยกรรม omni แบบ transformer เดียวที่จัดการข้อความ รูปภาพ เสียง และวิดีโออย่างดั้งเดิม และผลิตวิดีโอความละเอียดสูงพร้อมเสียงซิงค์ในรอบเดียว ฟีเจอร์หลักได้แก่ การแก้ไขแบบหลายรอบผ่านการสนทนา ความเข้าใจฟิสิกส์ที่ดีขึ้น และการซ้อนอ้างอิง

Gemini Omni Flash แตกต่างจาก Veo 3.1 อย่างไร?

Veo 3.1 เป็นโมเดล diffusion วิดีโอเฉพาะทางที่มุ่งเน้นข้อความและรูปภาพเป็นวิดีโอเท่านั้น Gemini Omni Flash สร้างบนสถาปัตยกรรม omni แบบ transformer แบบรวม — โมเดลเดียวจัดการข้อความ รูปภาพ เสียง และวิดีโอในรอบเดียว คล้ายกับแนวคิดของ GPT-4o — และเชื่อมโยงการสร้างวิดีโอกับการใช้เหตุผลของ Gemini สิ่งนี้เปิดโอกาสการแก้ไขแบบหลายรอบผ่านการสนทนา การซ้อนอ้างอิง และการสร้างตามเทมเพลตที่ Veo 3.1 ไม่มี ปัจจุบัน Veo 3.1 ให้คลิปที่ยาวกว่าและการควบคุมการป้อนรูปภาพหลายรูปที่ดีกว่า

การแก้ไขแบบสนทนาใน Gemini Omni Flash คืออะไร?

เมื่อมีคลิปแล้ว คุณอธิบายการเปลี่ยนแปลงด้วยภาษาธรรมดา — 'เลื่อนมุมกล้องไปทางซ้าย' 'ทำให้รูปปั้นทำจากฟองสบู่' 'แทนถ้วยแดงด้วยแก้วกาแฟ' หรือ 'เขียนฉากนี้ใหม่ให้ตัวละครอยู่ข้างนอก' — และ Gemini Omni Flash จะแก้ไของค์ประกอบที่เป็นเป้าหมายในขณะที่คงส่วนที่เหลือไว้ การแก้ไขหลายรอบสร้างบนบริบทก่อนหน้าเพื่อให้คุณทำซ้ำโดยไม่ต้องเริ่มต้นใหม่ การแก้ไขเสียงบนวิดีโอที่มีอยู่ถูกระงับไว้ตั้งแต่เปิดตัว

Gemini Omni Flash สร้างเสียงซิงค์หรือไม่?

ใช่ Gemini Omni Flash ผลิตเสียงซิงค์ดั้งเดิม — บทสนทนาพร้อมการซิงค์ริมฝีปาก เอฟเฟกต์เสียงที่ตรงกับการกระทำบนหน้าจอ และเสียงพื้นหลัง — ในรอบเดียวพร้อมกับวิดีโอ โดยไม่ต้องมีขั้นตอน TTS หรือ Foley แยกต่างหาก ผลลัพธ์ที่สร้างทั้งหมดจะถูกติดแท็กอัตโนมัติด้วยลายน้ำ SynthID และ C2PA Content Credentials

Gemini Omni Flash จะพร้อมใช้งานบน LoveGen AI เมื่อใด?

Gemini Omni Flash เปิดตัวเมื่อวันที่ 19 พฤษภาคม 2026 ในแอป Gemini, Google Flow, YouTube Shorts Remix และแอป YouTube Create การเข้าถึง API สาธารณะสำหรับนักพัฒนาและองค์กรผ่าน Vertex AI กำลังเผยแพร่ในสัปดาห์ต่อจาก Google I/O 2026 LoveGen AI จะรวม Gemini Omni Flash ทันทีที่ API นั้นพร้อมใช้งานสาธารณะ

Gemini Omni Flash มีเทมเพลตวิดีโออะไรบ้าง?

Gemini Omni Flash มาพร้อมกับการสร้างวิดีโอตามเทมเพลต ที่ใช้งานด้วยคลิกเดียวในแอป Gemini และ Google Flow เทมเพลตจัดการองค์ประกอบ จังหวะ และเสียงสำหรับการสร้างอย่างรวดเร็ว และมีขั้นตอนการสร้างอวาตาร์ AI แบบกำหนดเองด้วย แค็ตตาล็อกเทมเพลตปัจจุบันอยู่ในแอป Gemini และพื้นผิวผลิตภัณฑ์ Flow