Google DeepMind

Gemini Omni

เร็วๆ นี้

Vertex AI API สาธารณะกำลังเผยแพร่ในสัปดาห์ต่อจาก Google I/O 2026

Gemini Omni Flash เปิดตัวเมื่อวันที่ 19 พฤษภาคม 2026 LoveGen AI จะเพิ่มทันทีที่ Vertex AI API สาธารณะพร้อมใช้งาน

Published May 12, 2026Updated May 12, 2026

ตัวสร้างวิดีโอ AI Gemini Omni Flash

สร้างและแก้ไขวิดีโอ AI ด้วยโมเดล omni แบบรวมของ Google

Gemini Omni Flash คือโมเดลสร้างวิดีโอแบบรวมใหม่ของ Google DeepMind ที่ประกาศและเปิดตัวที่ Google I/O 2026 เมื่อวันที่ 19 พฤษภาคม 2026 ต่างจากโมเดล Veo เฉพาะทาง Gemini Omni Flash สร้างบนสถาปัตยกรรม omni แบบ transformer เดียวที่รับข้อมูลข้อความ รูปภาพ เสียง และวิดีโอโดยดั้งเดิม และผลิตวิดีโอความละเอียดสูงพร้อมเสียงซิงค์ในครั้งเดียว รองรับการแก้ไขแบบหลายรอบผ่านการสนทนา — เปลี่ยนมุมกล้อง แทนที่วัตถุ เขียนฉากใหม่ หรือแก้ไขพื้นหลังด้วยพรอมต์ภาษาธรรมดา

Gemini Omni เปิดตัวที่ Google I/O 2026 โดยตัวแปรแรกที่จัดส่ง — Gemini Omni Flash — เริ่มเผยแพร่ในวันเดียวกัน (19 พฤษภาคม 2026) Google อธิบายว่าเป็นโมเดลที่สามารถสร้างอะไรก็ได้จากอินพุตใดก็ได้ เริ่มต้นด้วยวิดีโอ ผสมผสานการใช้เหตุผลของ Gemini กับสื่อสร้างสรรค์เพื่อความเข้าใจโลกที่แข็งแกร่งขึ้น หลายโหมด และการแก้ไข

เมื่อเปิดตัว Gemini Omni Flash ผลิตคลิปความละเอียดสูง 10 วินาทีพร้อมเสียงซิงค์ดั้งเดิม — บทสนทนาพร้อมการซิงค์ริมฝีปาก เอฟเฟกต์เสียงที่ตรงกับการกระทำบนหน้าจอ และเสียงพื้นหลัง — ทั้งหมดสร้างขึ้นในรอบเดียว Google ยืนยันว่าข้อจำกัด 10 วินาทีเป็นการตัดสินใจด้านการใช้งาน ไม่ใช่ข้อจำกัดของโมเดล ความเข้าใจฟิสิกส์ที่ดีขึ้น รวมถึงแรงโน้มถ่วง พลังงานจลน์ และพลศาสตร์ของไหล ช่วยให้การเคลื่อนไหวสมจริงมากขึ้น

ฟีเจอร์หลักที่จัดส่งคือการแก้ไขแบบหลายรอบผ่านการสนทนา เมื่อมีคลิปแล้ว คุณอธิบายการเปลี่ยนแปลงด้วยภาษาธรรมดา — 'เลื่อนมุมกล้องไปทางซ้าย' 'ทำให้รูปปั้นทำจากฟองสบู่' 'เมื่อคนแตะกระจก ให้มันกระเพื่อมเหมือนของเหลว' — และ Omni จะแก้ไของค์ประกอบที่เป็นเป้าหมายในขณะที่คงส่วนที่เหลือไว้ การซ้อนอ้างอิงช่วยให้คุณรวมรูปภาพตัวละคร ไฟล์เสียง และการอ้างอิงสไตล์ในพรอมต์เดียว และการสร้างตามเทมเพลตพร้อมการใช้งานด้วยคลิกเดียวถูกรวมไว้ในแอป Gemini และ Google Flow

Gemini Omni Flash กำลังเผยแพร่ทั่วโลกสำหรับผู้สมัครสมาชิก Google AI Plus, Pro และ Ultra ผ่านแอป Gemini และ Google Flow และโดยไม่มีค่าใช้จ่ายสำหรับผู้ใช้อายุ 18 ปีขึ้นไปใน YouTube Shorts Remix และแอป YouTube Create วิดีโอที่สร้างทุกชิ้นมีลายน้ำ SynthID ที่มองไม่เห็นพร้อมกับ C2PA Content Credentials การเข้าถึง API สาธารณะสำหรับนักพัฒนาและองค์กรผ่าน Vertex AI กำลังเผยแพร่ในสัปดาห์ต่อจาก I/O และ LoveGen AI จะรวม Gemini Omni Flash ทันทีที่ API นั้นพร้อมใช้งานสาธารณะ

วิธีใช้ Gemini Omni Flash

ขั้นตอนที่ 1: เลือกโหมดการสร้าง

สร้างจากพรอมต์ข้อความ เคลื่อนไหวรูปภาพ ผสมการอ้างอิงหลายรายการ (รูปภาพ เสียง สไตล์) หรือเลือกเทมเพลตในตัวสำหรับการสร้างด้วยคลิกเดียว

ขั้นตอนที่ 2: อธิบายวิดีโอหรือการแก้ไขของคุณ

เขียนพรอมต์โดยละเอียดหรืออธิบายการแก้ไขด้วยภาษาธรรมดา — Gemini Omni Flash เข้าใจการเคลื่อนที่ของกล้อง การแทนที่วัตถุ การเปลี่ยนพื้นหลัง และการปรับสไตล์ผ่านแชท

ขั้นตอนที่ 3: สร้างและปรับแต่ง

คลิกสร้าง Gemini Omni Flash จะส่งคืนคลิปความละเอียดสูง 10 วินาทีพร้อมเสียงซิงค์ดั้งเดิม ใช้แชทหลายรอบเพื่อปรับแต่งองค์ประกอบเฉพาะโดยไม่ต้องเริ่มต้นใหม่

ข้อมูลจำเพาะทางเทคนิคของ Gemini Omni Flash

ผู้ให้บริการ	Google DeepMind
วันที่เปิดตัว	19 พฤษภาคม 2026 (Google I/O 2026)
ตัวแปร	Gemini Omni Flash (โมเดลแรกในตระกูล Omni ที่จัดส่งแล้ว)
สถาปัตยกรรม	โมเดล omni แบบ transformer แบบรวม (ข้อความ + รูปภาพ + เสียง + วิดีโอ → วิดีโอ + เสียงออก)
โหมดการป้อนข้อมูล	ข้อความ รูปภาพ เสียง วิดีโอ — รวมถึงการซ้อนการอ้างอิงหลายรายการ
ผลลัพธ์	วิดีโอความละเอียดสูงพร้อมเสียงซิงค์ดั้งเดิม
ระยะเวลาสูงสุด	10 วินาทีต่อคลิป (ข้อจำกัดการใช้งาน ไม่ใช่ข้อจำกัดของโมเดล)
เสียงดั้งเดิม	บทสนทนา (ซิงค์ริมฝีปาก), SFX, บรรยากาศ — สร้างขึ้นในรอบเดียว
การแก้ไข	แบบหลายรอบผ่านการสนทนา — กล้อง พื้นหลัง วัตถุ การกระทำ สไตล์
ฟิสิกส์	แรงโน้มถ่วง พลังงานจลน์ และพลศาสตร์ของไหลที่ดีขึ้น
การพิสูจน์ที่มา	ลายน้ำ SynthID + C2PA Content Credentials (บังคับ)
ความพร้อมใช้งาน	แอป Gemini และ Google Flow (AI Plus/Pro/Ultra); YouTube Shorts Remix และแอป Create (ฟรี อายุ 18 ปีขึ้นไป)
การเข้าถึง API	Vertex AI API สาธารณะกำลังเผยแพร่ในสัปดาห์ต่อจาก I/O 2026

เหตุใด Gemini Omni Flash จึงโดดเด่น

สถาปัตยกรรมโมเดล omni แบบรวม

Gemini Omni Flash เป็นโมเดลวิดีโอที่จัดส่งรุ่นแรกของ Google ที่สร้างบนสถาปัตยกรรม omni แบบ transformer แบบรวม — โมเดลเดียวจัดการข้อความ รูปภาพ เสียง และวิดีโอในรอบเดียว ขจัดรอยต่อระหว่างโหมดที่ระบบท่อแยกต่างหากสร้างขึ้น การซ้อนอ้างอิงช่วยให้คุณรวมรูปภาพตัวละคร ไฟล์เสียง และการอ้างอิงสไตล์ในพรอมต์เดียว

การแก้ไขแบบหลายรอบผ่านการสนทนา

อธิบายการเปลี่ยนแปลงด้วยภาษาธรรมดาและ Gemini Omni Flash จะใช้โดยตรง — เลื่อนกล้อง แทนที่วัตถุ เขียนฉากใหม่ หรือเปลี่ยนพื้นหลัง — ในขณะที่คงส่วนที่เหลือของคลิปไว้ การแก้ไขหลายรอบสร้างบนบริบทก่อนหน้าเพื่อให้คุณทำซ้ำโดยไม่ต้องเริ่มต้นใหม่

เสียงซิงค์ดั้งเดิม + ฟิสิกส์ที่ดีขึ้น

บทสนทนาพร้อมการซิงค์ริมฝีปาก เอฟเฟกต์เสียงบนหน้าจอ และเสียงพื้นหลังสร้างร่วมกับวิดีโอในรอบเดียว — ไม่มีขั้นตอน TTS หรือ Foley แยกต่างหาก ความเข้าใจแรงโน้มถ่วง พลังงานจลน์ และพลศาสตร์ของไหลที่ดีขึ้นให้การเคลื่อนไหวที่สมจริงมากขึ้น และผลลัพธ์ทุกชิ้นมีการพิสูจน์ที่มาของ SynthID และ C2PA

Gemini Omni Flash เทียบกับตัวสร้างวิดีโอ AI อื่นๆ

Feature	Gemini Omni Flash	Veo 3.1	Sora 2	Grok Imagine
ผู้ให้บริการ	Google DeepMind	Google DeepMind	OpenAI	xAI
สถาปัตยกรรม	โมเดล omni แบบ transformer แบบรวม	Diffusion	Diffusion	Aurora (autoregressive)
การแก้ไขแบบสนทนา	ใช่ — หลายรอบ	ไม่	ไม่	ไม่
ความละเอียดสูงสุด	ความละเอียดสูง	1080p	1080p	720p
ระยะเวลาสูงสุด	10 วินาที (ข้อจำกัดการใช้งาน)	8 วินาที (ขยายได้)	20 วินาที	15 วินาที
เสียงดั้งเดิม	ใช่ — รอบเดียว	ใช่	ใช่	ใช่
โหมดการป้อนข้อมูล	ข้อความ รูปภาพ เสียง วิดีโอ	ข้อความ รูปภาพ (สูงสุด 3)	ข้อความ รูปภาพ + Cameos	ข้อความ รูปภาพ 1 ใบ
เทมเพลต	ใช่	ไม่	ไม่	ไม่
การพิสูจน์ที่มา	SynthID + C2PA	SynthID	C2PA	—
ความพร้อมใช้งาน	แอป Gemini, Flow, YouTube	พร้อมใช้งาน	พร้อมใช้งาน	พร้อมใช้งาน

สิ่งที่คุณสร้างได้ด้วย Gemini Omni Flash

การแก้ไขวิดีโอแบบสนทนา

ข้ามตัวแก้ไขไทม์ไลน์ไปเลย — อธิบายการเปลี่ยนแปลงที่ต้องการด้วยภาษาธรรมดาและ Gemini Omni Flash จะใช้โดยตรง เลื่อนมุมกล้อง แทนที่วัตถุ เปลี่ยนพื้นหลัง หรือเขียนการกระทำทั้งหมดด้วยพรอมต์เดียว

เนื้อหาโซเชียลตามเทมเพลต

เลือกเทมเพลตในตัว ใส่พรอมต์ และรับคลิป 10 วินาทีที่ประกอบสมบูรณ์พร้อมเสียงซิงค์ — ออกแบบสำหรับรูปแบบ YouTube Shorts, Reels และ TikTok โดยไม่ต้องมีประสบการณ์ด้านการผลิต

การสร้างฉากบทสนทนา

สร้างฉากสนทนาที่สมจริงพร้อมการซิงค์ริมฝีปากที่แม่นยำและเสียงพื้นหลังในรอบเดียว — เหมาะสำหรับสคริปต์การตลาด เนื้อหาการศึกษา หรือบทสนทนาภาพยนตร์สั้น

การสร้างแบบซ้อนอ้างอิง

รวมรูปภาพตัวละคร ไฟล์เสียง และการอ้างอิงสไตล์ในพรอมต์เดียวเพื่อสร้างตัวละครที่สม่ำเสมอซึ่งตรงกับรูปลักษณ์ เสียง และสุนทรียศาสตร์เฉพาะในคลิปต่างๆ

การสร้างสตอรีบอร์ดฉาก

แสดงภาพบีตของสคริปต์อย่างรวดเร็วเป็นคลิปสั้นพร้อมเสียงดั้งเดิม ใช้การแก้ไขผ่านแชทหลายรอบเพื่อปรับการจัดกรอบ แทนที่วัตถุ หรือเขียนการกระทำใหม่ระหว่างช็อตโดยไม่ต้องสร้างใหม่จากศูนย์

การผลิตวิดีโอแบรนด์

ใช้เทมเพลตสำหรับการผลิตวิดีโอแบรนด์อย่างรวดเร็ว จากนั้นปรับแต่งด้วยการแก้ไขแบบสนทนา — แลกเปลี่ยนภาพผลิตภัณฑ์ เปลี่ยนพื้นหลัง หรือปรับโทนภาพให้ตรงกับแบรนด์ของคุณ

สำรวจตัวสร้างวิดีโอ AI ที่เกี่ยวข้อง

Veo 3.1

โมเดลวิดีโอ 1080p ของ Google DeepMind พร้อมการสร้างเฟรมเป็นวิดีโอและเสียงดั้งเดิม

Sora 2

ตัวสร้างวิดีโอภาพยนตร์ของ OpenAI ที่มีการเคลื่อนไหวที่ถูกต้องตามฟิสิกส์และระยะเวลา 20 วินาที

Grok Imagine

โมเดลวิดีโอเอนจิน Aurora ของ xAI พร้อมโหมดสไตล์ Fun/Normal/Spicy และเสียงดั้งเดิม

Happy Horse 1.0

ตัวสร้างวิดีโอ AI อันดับ 1 ที่มีการเคลื่อนไหวภาพยนตร์และการซิงค์ริมฝีปากใน 7 ภาษา

Seedance 2.0

โมเดลวิดีโอของ ByteDance พร้อมการรวมการค้นหาเว็บและเสียงซิงค์

Kling 3.0

วิดีโอ 4K ระดับผู้กำกับพร้อมภาพยนตร์ AI หลายช็อตและเสียงดั้งเดิม

คำถามที่พบบ่อยเกี่ยวกับ Gemini Omni Flash

Gemini Omni Flash คืออะไร?

Gemini Omni Flash คือโมเดลสร้างวิดีโอแบบรวมใหม่ของ Google DeepMind ที่ประกาศและเปิดตัวที่ Google I/O 2026 เมื่อวันที่ 19 พฤษภาคม 2026 เป็นโมเดลแรกในตระกูล Gemini Omni ที่จัดส่ง — สร้างบนสถาปัตยกรรม omni แบบ transformer เดียวที่จัดการข้อความ รูปภาพ เสียง และวิดีโออย่างดั้งเดิม และผลิตวิดีโอความละเอียดสูงพร้อมเสียงซิงค์ในรอบเดียว ฟีเจอร์หลักได้แก่ การแก้ไขแบบหลายรอบผ่านการสนทนา ความเข้าใจฟิสิกส์ที่ดีขึ้น และการซ้อนอ้างอิง

Gemini Omni Flash แตกต่างจาก Veo 3.1 อย่างไร?

Veo 3.1 เป็นโมเดล diffusion วิดีโอเฉพาะทางที่มุ่งเน้นข้อความและรูปภาพเป็นวิดีโอเท่านั้น Gemini Omni Flash สร้างบนสถาปัตยกรรม omni แบบ transformer แบบรวม — โมเดลเดียวจัดการข้อความ รูปภาพ เสียง และวิดีโอในรอบเดียว คล้ายกับแนวคิดของ GPT-4o — และเชื่อมโยงการสร้างวิดีโอกับการใช้เหตุผลของ Gemini สิ่งนี้เปิดโอกาสการแก้ไขแบบหลายรอบผ่านการสนทนา การซ้อนอ้างอิง และการสร้างตามเทมเพลตที่ Veo 3.1 ไม่มี ปัจจุบัน Veo 3.1 ให้คลิปที่ยาวกว่าและการควบคุมการป้อนรูปภาพหลายรูปที่ดีกว่า

การแก้ไขแบบสนทนาใน Gemini Omni Flash คืออะไร?

เมื่อมีคลิปแล้ว คุณอธิบายการเปลี่ยนแปลงด้วยภาษาธรรมดา — 'เลื่อนมุมกล้องไปทางซ้าย' 'ทำให้รูปปั้นทำจากฟองสบู่' 'แทนถ้วยแดงด้วยแก้วกาแฟ' หรือ 'เขียนฉากนี้ใหม่ให้ตัวละครอยู่ข้างนอก' — และ Gemini Omni Flash จะแก้ไของค์ประกอบที่เป็นเป้าหมายในขณะที่คงส่วนที่เหลือไว้ การแก้ไขหลายรอบสร้างบนบริบทก่อนหน้าเพื่อให้คุณทำซ้ำโดยไม่ต้องเริ่มต้นใหม่ การแก้ไขเสียงบนวิดีโอที่มีอยู่ถูกระงับไว้ตั้งแต่เปิดตัว

Gemini Omni Flash สร้างเสียงซิงค์หรือไม่?

ใช่ Gemini Omni Flash ผลิตเสียงซิงค์ดั้งเดิม — บทสนทนาพร้อมการซิงค์ริมฝีปาก เอฟเฟกต์เสียงที่ตรงกับการกระทำบนหน้าจอ และเสียงพื้นหลัง — ในรอบเดียวพร้อมกับวิดีโอ โดยไม่ต้องมีขั้นตอน TTS หรือ Foley แยกต่างหาก ผลลัพธ์ที่สร้างทั้งหมดจะถูกติดแท็กอัตโนมัติด้วยลายน้ำ SynthID และ C2PA Content Credentials

Gemini Omni Flash จะพร้อมใช้งานบน LoveGen AI เมื่อใด?

Gemini Omni Flash เปิดตัวเมื่อวันที่ 19 พฤษภาคม 2026 ในแอป Gemini, Google Flow, YouTube Shorts Remix และแอป YouTube Create การเข้าถึง API สาธารณะสำหรับนักพัฒนาและองค์กรผ่าน Vertex AI กำลังเผยแพร่ในสัปดาห์ต่อจาก Google I/O 2026 LoveGen AI จะรวม Gemini Omni Flash ทันทีที่ API นั้นพร้อมใช้งานสาธารณะ

Gemini Omni Flash มีเทมเพลตวิดีโออะไรบ้าง?

Gemini Omni Flash มาพร้อมกับการสร้างวิดีโอตามเทมเพลต ที่ใช้งานด้วยคลิกเดียวในแอป Gemini และ Google Flow เทมเพลตจัดการองค์ประกอบ จังหวะ และเสียงสำหรับการสร้างอย่างรวดเร็ว และมีขั้นตอนการสร้างอวาตาร์ AI แบบกำหนดเองด้วย แค็ตตาล็อกเทมเพลตปัจจุบันอยู่ในแอป Gemini และพื้นผิวผลิตภัณฑ์ Flow