
Grok Imagine AI Video Generator
สร้างวิดีโอ AI ที่มีสไตล์ด้วย Aurora Engine ของ xAI ใน Grok Imagine
Grok Imagine คือโมเดลสร้างวิดีโอของ xAI ที่ขับเคลื่อนด้วย Aurora autoregressive engine และฝึกฝนบนซูเปอร์คอมพิวเตอร์ Colossus ด้วย NVIDIA GB200 GPU จำนวน 110,000 ตัว โดยสามารถสร้างคลิปความยาว 6 หรือ 10 วินาทีที่ความละเอียด 480p หรือ 720p พร้อมเสียงในตัว รองรับทั้งข้อความเป็นวิดีโอและรูปภาพเป็นวิดีโอ พร้อมโหมดสไตล์ 3 แบบที่เป็นเอกลักษณ์ — Fun, Normal และ Spicy — ที่ช่วยให้คุณเปลี่ยนโทนการสร้างสรรค์ของคำสั่งใดๆ ได้ในคลิกเดียว
Grok Imagine 1.0 เปิดให้ใช้งานทั่วไปเมื่อวันที่ 2 กุมภาพันธ์ 2026 หลังจากเปิดตัวรุ่นพรีวิวในปี 2025 โมเดลนี้สร้างขึ้นบน Aurora ซึ่งเป็นสถาปัตยกรรม autoregressive frame-prediction ของ xAI ที่เรนเดอร์ภาพต่อเนื่องจากซ้ายไปขวาแทนที่จะใช้ระบบ diffusion การฝึกฝนใช้ซูเปอร์คอมพิวเตอร์ Colossus พร้อม NVIDIA GB200 GPU จำนวน 110,000 ตัว ซึ่งถือเป็นหนึ่งในโครงสร้างพื้นฐานการฝึกฝนที่ใหญ่ที่สุดในวงการวิดีโอ AI จนถึงปัจจุบัน และมีการผลิตวิดีโอไปแล้วมากกว่า 1.245 พันล้านคลิปภายในช่วงเวลาเพียง 30 วัน
โมเดลนี้มีโหมดอินพุต 2 แบบภายใน LoveGen AI: ข้อความเป็นวิดีโอ (Text-to-video) รองรับคำสั่งสูงสุด 2,000 ตัวอักษร และเรนเดอร์การเคลื่อนไหวใน 5 อัตราส่วนภาพ — 16:9, 9:16, 1:1, 3:2 และ 2:3 — ครอบคลุมทั้งแนวนอน, แนวตั้ง, จตุรัส และการจัดกรอบภาพถ่ายแบบคลาสสิก ส่วนรูปภาพเป็นวิดีโอ (Image-to-video) รองรับรูปภาพอ้างอิงเพียงรูปเดียว (JPG, JPEG, PNG หรือ WebP ขนาดสูงสุด 20 MB) และทำให้ภาพเคลื่อนไหวตามคำสั่งของคุณ ทั้งสองโหมดสร้างที่ 24 fps ในความยาว 6 หรือ 10 วินาที โดยมีความละเอียดสูงสุดที่ 720p
คุณสมบัติเด่นคือปุ่มสลับโหมดสไตล์ (Style mode): โหมด Normal จะรักษาผลลัพธ์ให้สมดุลและตรงตามคำสั่ง โหมด Fun จะเน้นความสนุกสนาน การตีความที่เกินจริงและสร้างสรรค์ ส่วนโหมด Spicy จะปลดล็อกการเรนเดอร์ที่หวือหวาและดราม่ายิ่งขึ้น เสียงประกอบเป็นระบบดั้งเดิมของ Aurora — ทั้งบทสนทนาพร้อมลิปซิงค์, เพลงประกอบ และเอฟเฟกต์เสียงบรรยากาศ จะถูกสร้างขึ้นในการประมวลผลครั้งเดียวโดยไม่ต้องผ่านขั้นตอนหลังการผลิต เมื่อวันที่ 2 มีนาคม 2026 xAI ได้เปิดตัวฟีเจอร์ Extend from Frame ซึ่งเชื่อมต่อคลิปเข้าด้วยกันโดยใช้เฟรมสุดท้ายของคลิปหนึ่งเป็นจุดเริ่มต้นของคลิปถัดไป โดยโมเดลจะส่งคืนคลิป 6 หรือ 10 วินาทีที่เสร็จสมบูรณ์ภายในเวลาเฉลี่ยประมาณ 30 วินาที การสร้างผลงานจะทำงานแบบอซิงโครนัสภายใน LoveGen AI — เมื่อคุณส่งงานแล้ว วิดีโอที่เสร็จแล้วจะปรากฏในแกลเลอรีของคุณเพื่อให้คุณดูตัวอย่าง ดาวน์โหลด และเปรียบเทียบกับ Sora 2, Veo 3.1, Seedance 2.0 และ Happy Horse 1.0 ได้ในพื้นที่ทำงานเดียวกัน
วิธีใช้งาน Grok Imagine
ขั้นตอนที่ 1: เลือกข้อความเป็นวิดีโอหรือรูปภาพเป็นวิดีโอ
สลับระหว่างข้อความเป็นวิดีโอ (Text-to-video) สำหรับการสร้างจากคำสั่งอย่างเดียว หรือรูปภาพเป็นวิดีโอ (Image-to-video) เพื่อทำให้รูปภาพอ้างอิงที่คุณอัปโหลดเคลื่อนไหว
ขั้นตอนที่ 2: เลือกการตั้งค่าของคุณ
เลือกความยาว (6 วินาที หรือ 10 วินาที), ความละเอียด (480p หรือ 720p), อัตราส่วนภาพ (สำหรับ T2V เท่านั้น) และโหมดสไตล์ (Fun หรือ Normal)
ขั้นตอนที่ 3: สร้างและดาวน์โหลด
คลิกปุ่มสร้าง Aurora จะส่งคืนคลิปที่เสร็จสมบูรณ์พร้อมเสียงในตัวภายในเวลาประมาณ 30 วินาที — คุณสามารถดูตัวอย่าง ดาวน์โหลด หรือเปรียบเทียบเคียงข้างกับโมเดลอื่นๆ ในแกลเลอรีของคุณได้
ข้อกำหนดทางเทคนิคของ Grok Imagine
| ผู้ให้บริการ | xAI |
| เอนจิน | Aurora — autoregressive frame prediction |
| เวอร์ชันล่าสุด | Grok Imagine 1.0 (เปิดใช้งานทั่วไป 2 ก.พ. 2026) |
| โครงสร้างพื้นฐานการฝึกฝน | ซูเปอร์คอมพิวเตอร์ Colossus, 110,000 NVIDIA GB200 GPUs |
| โหมดอินพุต | ข้อความเป็นวิดีโอ, รูปภาพเป็นวิดีโอ |
| โหมดสไตล์ | Fun, Normal, Spicy |
| ความยาววิดีโอ | 6 หรือ 10 วินาที (xAI ยังรองรับ 15 วินาทีผ่าน Extend from Frame) |
| ความละเอียด | 480p, 720p |
| อัตราเฟรม | 24 fps |
| อัตราส่วนภาพ (T2V) | 16:9, 9:16, 1:1, 3:2, 2:3 |
| อินพุตรูปภาพ (I2V) | 1 รูป — JPG / JPEG / PNG / WebP ขนาดสูงสุด 20 MB |
| เสียง | แบบดั้งเดิม (Native) — บทสนทนา (พร้อมลิปซิงค์), เพลงประกอบ, เอฟเฟกต์เสียง |
| ความเร็วในการสร้าง | เฉลี่ยประมาณ 30 วินาทีต่อคลิป |
| อายุการใช้งานของผลลัพธ์ | ลิงก์วิดีโอที่สร้างขึ้นจะใช้งานได้ 24 ชั่วโมงหลังจากเสร็จสิ้น |
ทำไมต้องเลือก Grok Imagine
Aurora Autoregressive Engine
Grok Imagine สร้างขึ้นบน Aurora ซึ่งเป็นโมเดลวิดีโอแบบ autoregressive ทีละเฟรมของ xAI ฝึกฝนด้วย NVIDIA GB200 GPU จำนวน 110,000 ตัว — ซึ่งเป็นแนวทางที่แตกต่างอย่างสิ้นเชิงจากคู่แข่งที่ใช้ระบบ diffusion และเป็นเหตุผลหลักที่ทำให้การเคลื่อนไหวของมันให้ความรู้สึกที่โดดเด่น
โหมดสไตล์ 3 แบบที่พร้อมใช้งานทันที
โหมด Fun, Normal และ Spicy ช่วยให้คุณปรับโทนความคิดสร้างสรรค์ได้โดยไม่ต้องเขียนคำสั่งใหม่ ในขณะที่โมเดลวิดีโอส่วนใหญ่ให้ลุคเดียว Grok Imagine ให้คุณถึงสามลุคจากอินพุตเดียวกัน
เสียงในตัวจบในขั้นตอนเดียว
บทสนทนาพร้อมลิปซิงค์, เสียงบรรยากาศ และเพลงประกอบ ถูกสร้างขึ้นพร้อมกับวิดีโอ — ไม่ต้องทำขั้นตอนเสียงแยกต่างหาก และไม่มีปัญหาเสียงไม่ตรงกับภาพ
Grok Imagine เปรียบเทียบกับเครื่องมือสร้างวิดีโอ AI อื่นๆ
| Feature | Grok Imagine | Sora 2 | Veo 3.1 | Seedance 2.0 |
|---|---|---|---|---|
| ผู้ให้บริการ | xAI | OpenAI | Google DeepMind | ByteDance |
| สถาปัตยกรรม | Aurora (autoregressive) | Diffusion | Diffusion | Diffusion |
| ความละเอียดสูงสุด | 720p | 1080p | 1080p | 1080p |
| ตัวเลือกความยาว | 6 วินาที, 10 วินาที (15 วินาทีผ่าน Extend) | 4 วินาที, 8 วินาที, 12 วินาที | 4 วินาที, 6 วินาที, 8 วินาที | 4–15 วินาที |
| โหมดสไตล์ | Fun, Normal, Spicy | โหมดเดียว | โหมดเดียว | โหมดเดียว |
| อินพุตรูปภาพ | 1 รูป (I2V) | 1 รูป + Cameos | สูงสุด 3 รูป | 1–2 รูป |
| อัตราส่วนภาพ (T2V) | 16:9, 9:16, 1:1, 3:2, 2:3 | 16:9, 9:16, 1:1, 3:2, 2:3 | 16:9, 9:16 | 16:9, 9:16, 1:1, และอื่นๆ อีก 4 แบบ |
| เสียงในตัว | มี | มี | มี | มี |
| ความเร็วเฉลี่ยในการสร้าง | ~30 วินาที | ~60 วินาที | ~45 วินาที | ~40 วินาที |
เหมาะอย่างยิ่งสำหรับครีเอเตอร์ นักการตลาด และนักเล่าเรื่อง
คลิปสำหรับโซเชียลมีเดีย
สร้างวิดีโอสั้น 6 หรือ 10 วินาทีในรูปแบบ 9:16 หรือ 1:1 สำหรับ TikTok, Reels และ Shorts เลือกโหมด Fun สำหรับเนื้อหาที่เปี่ยมไปด้วยพลังและดึงดูดสายตาพร้อมเสียงประกอบในตัว
การทำให้รูปภาพเคลื่อนไหว
อัปโหลดภาพถ่ายหรือภาพประกอบที่มีอยู่แล้วเปลี่ยนให้เป็นลำดับภาพเคลื่อนไหว — เหมาะสำหรับภาพสินค้า, งานศิลปะตัวละคร หรือภาพนิ่งเบื้องหลังการถ่ายทำ
บอร์ดแนวคิด (Concept Boards)
สร้างมุมมองสไตล์ที่หลากหลายของฉากเดียวกันที่ความละเอียด 480p อย่างรวดเร็ว เพื่อกำหนดทิศทางที่คุณชอบ แล้วเรนเดอร์ใหม่ที่ 720p — เหมาะสำหรับการระดมไอเดียและการเสนองาน
โฆษณาและสื่อโปรโมชัน
ใช้ขนาดแนวนอน 16:9 สำหรับตำแหน่งหลัก และแนวตั้ง 9:16 สำหรับช่องทางมือถือ ปุ่มสลับโหมดสไตล์ช่วยให้คุณจับคู่โทนของแบรนด์ได้ ไม่ว่าจะเป็นแนวสนุกสนานหรือสมดุล โดยไม่ต้องเขียนคำสั่งใหม่
การทำสตอรี่บอร์ด
จำลองภาพจากบทภาพยนตร์อย่างรวดเร็วเป็นคลิป 6 วินาทีพร้อมบทสนทนาที่ซิงโครไนซ์กัน ทดลองการจัดกรอบภาพและการเคลื่อนไหวก่อนที่จะใช้โมเดลรูปแบบยาว
เนื้อหาเพื่อการศึกษา
ทำให้แผนภูมิ, ภาพถ่าย และภาพประกอบแนวคิดเคลื่อนไหวเป็นคลิปสั้นๆ ที่น่าสนใจพร้อมเสียงบรรยายในตัว ซึ่งช่วยดึงดูดความสนใจได้ดีกว่าสไลด์นิ่งๆ
สำรวจเครื่องมือสร้างวิดีโอ AI ที่เกี่ยวข้อง

Sora 2
เครื่องมือสร้างวิดีโอสไตล์ภาพยนตร์ของ OpenAI พร้อมการเคลื่อนไหวที่ถูกต้องตามหลักฟิสิกส์และความยาว 20 วินาที

Veo 3.1
โมเดลวิดีโอ 1080p ของ Google DeepMind พร้อมโหมดเปลี่ยนเฟรมเป็นวิดีโอและเสียงประกอบ

Seedance 2.0
โมเดลวิดีโอของ ByteDance พร้อมการรวมระบบค้นหาเว็บและเสียงที่ซิงโครไนซ์
Happy Horse 1.0
โมเดลวิดีโออันดับ 1 ของ Alibaba พร้อมคุณภาพการเคลื่อนไหวระดับภาพยนตร์และลิปซิงค์ 7 ภาษา
Kling 2.5 Turbo
เครื่องมือสร้างวิดีโอ 1080p ความเร็วสูงของ Kuaishou ปรับแต่งมาเพื่อความเร็วและความคุ้มค่า

Veo 4
โมเดลวิดีโอยุคใหม่ของ Google พร้อมการอัปสเกล 4K และเสียงเชิงพื้นที่
คำถามที่พบบ่อยเกี่ยวกับ Grok Imagine
Grok Imagine คืออะไร?
Grok Imagine คือโมเดลสร้างวิดีโอของ xAI สร้างขึ้นบน Aurora autoregressive engine และฝึกฝนบนซูเปอร์คอมพิวเตอร์ Colossus พร้อม NVIDIA GB200 GPU จำนวน 110,000 ตัว รองรับข้อความเป็นวิดีโอและรูปภาพเป็นวิดีโอ พร้อมโหมดสไตล์สร้างสรรค์ 3 แบบ ได้แก่ Fun, Normal และ Spicy ที่จะช่วยเปลี่ยนโทนอารมณ์ของคำสั่งใดๆ
Grok Imagine เปิดตัวเมื่อไหร่?
Grok Imagine เปิดตัวรุ่นพรีวิวในปี 2025 และเปิดใช้งานทั่วไปในเวอร์ชัน 1.0 เมื่อวันที่ 2 กุมภาพันธ์ 2026 โดย xAI ยังคงปล่อยอัปเดตอย่างต่อเนื่อง ล่าสุดคือ Extend from Frame เมื่อวันที่ 2 มีนาคม 2026 ซึ่งสามารถต่อคลิปเพื่อสร้างลำดับภาพที่ยาวขึ้นสูงสุด 15 วินาทีต่อคลิปที่เชื่อมต่อ
รองรับความยาวและความละเอียดเท่าใด?
Grok Imagine สร้างคลิปความยาว 6 หรือ 10 วินาทีที่ความละเอียด 480p หรือ 720p โดยเรนเดอร์ที่ 24 fps เวลาเฉลี่ยในการสร้างคือประมาณ 30 วินาทีต่อคลิป
มีอัตราส่วนภาพแบบใดบ้าง?
โหมดข้อความเป็นวิดีโอรองรับ 16:9, 9:16, 1:1, 3:2 และ 2:3 ครอบคลุมทั้งแนวนอน, แนวตั้ง, จตุรัส และการจัดกรอบภาพถ่ายแบบคลาสสิก ส่วนรูปภาพเป็นวิดีโอจะรักษาอัตราส่วนภาพตามรูปภาพอ้างอิงที่คุณอัปโหลด
โหมด Fun, Normal และ Spicy แตกต่างกันอย่างไร?
โหมด Normal ให้ผลลัพธ์ที่สมดุลและตรงไปตรงมา โหมด Fun จะเน้นความสนุกสนาน เกินจริง และสร้างสรรค์ ส่วนโหมด Spicy จะให้ผลลัพธ์ที่หวือหวาและดราม่ายิ่งขึ้น คำสั่งเดียวกันเมื่อรันในโหมดที่ต่างกันจะให้บรรยากาศภาพยนตร์ที่แตกต่างกันอย่างชัดเจน
Grok Imagine สร้างเสียงประกอบด้วยหรือไม่?
ใช่ Aurora จะสร้างบทสนทนาที่ซิงโครไนซ์พร้อมลิปซิงค์, เพลงประกอบ และเอฟเฟกต์เสียงบรรยากาศในตัวในการประมวลผลครั้งเดียว โดยไม่ต้องผ่านขั้นตอนปรับแต่งเสียงแยกต่างหาก