หัวใจสำคัญที่แตกต่างคือ ของเดิม การสร้างและแก้ไขภาพผ่าน Gemini 2.5 Flash Image นั้นรองรับการทำงานผ่านข้อความ (Prompt) และการอัปโหลดภาพ แต่ฟีเจอร์ใหม่ใน Gemini Live นี้ ได้นำวงจรการสร้างและแก้ไขภาพนั้น เข้ามาเป็นส่วนหนึ่งของการสนทนาด้วยเสียงและกล้องแบบเรียลไทม์
โมเดลรูปภาพเบื้องหลังคือ Gemini 2.5 Flash Image หรือ นาโน่กล้วย ที่ Google ระบุว่าเป็นโมเดลสร้างและแก้ไขภาพที่ล้ำสมัยที่สุดของพวกเขา ความสามารถสำคัญๆ ได้แก่
ณ งาน Google I/O 2026 ยังมีการประกาศใหญ่อีกหลายอย่างที่ต่อยอดจากแรงส่งนี้
นี่คือโมเดลใหม่ที่สามารถสร้างเอาท์พุตจากอินพุตหลากหลายรูปแบบ โดยเริ่มต้นที่วิดีโอ Google อธิบายว่าโมเดลนี้ผสานความฉลาดของ Gemini เข้ากับโมเดล Generative Media ที่ดีที่สุด เพื่อความเข้าใจโลก ความเป็นมัลติโหมด และการตัดต่อในอีกระดับ
ถ้าจะให้เข้าใจง่ายๆ Gemini Omni ก็คือ 'นาโน่กล้วยในเวอร์ชันวิดีโอ' ที่ให้คุณสร้างและตัดต่อวิดีโอได้ง่ายเหมือนการสนทนา
นี่คือโมเดลใหม่ที่ถูกตั้งเป็นค่าเริ่มต้นสำหรับแอป Gemini และฟีเจอร์ AI Mode ใน Google Search Google ระบุว่ามันสร้างผลลัพธ์ได้เร็วกว่าโมเดลระดับแนวหน้าตัวอื่นๆ ถึง 4 เท่า ในระดับราคาใกล้เคียงกัน และถูกออกแบบมาเพื่องานที่ซับซ้อนอย่างการเขียนโค้ด การทำงานหลายขั้นตอน และงานที่ใช้เวลานานๆ
จากประกาศเหล่านี้ Google กำลังวางตำแหน่งตัวเองเป็นผู้นำด้วย ระบบ AI มัลติโหมดแบบครบวงจรและเรียลไทม์ ที่ครอบคลุมทั้งการสนทนา การใช้กล้อง การสร้างภาพ และการสร้างวิดีโอ
โดยสรุปแล้ว จุดแข็งของ Google อยู่ที่ความลึกของการผสานรวมเทคโนโลยี Gemini Live ทำให้การสื่อสารด้วยภาพและเสียงเป็นเรื่องเดียวกัน ส่วน Gemini Omni ก็พร้อมจะยกระดับการสร้างคอนเทนต์วิดีโอในแบบที่คุยกันรู้เรื่อง คำถามสำคัญต่อไปคือ เมื่อฟีเจอร์เหล่านี้เปิดให้ใช้ในวงกว้างมากขึ้น มันจะทำงานได้ 'เจ๋ง' แบบที่โชว์ไว้บนเวทีจริงหรือไม่
Comments
0 comments