不只是會動的照片!Google發表能「看懂」世界、能以自然語言影音編輯的Gemini Omni模型

首圖

Google正式發表全新的多模態模型「Gemini Omni」,並且率先釋出該系列的首款模型「Gemini Omni Flash」。有別於過去單純將文字轉化為動態影像的生成工具,Gemini Omni被定位為一個真正融合「推理能力」與「創作能力」的全能大腦。它不僅能處理文字、圖像、音訊與影片等複合式輸入,更能憑藉對現實世界物理定律的理解,讓創作者透過「對話」的方式,精準且連貫地對影片進......