Stable AI推出可透過文字描述生成44.1kHz規格、長度達3分鐘立體音訊的Stable Audio 2.0相比先前版本僅能產生45秒明顯有大幅成長

首圖

推出Stable Diffusion影像生成工具的人工智慧業者Stable AI,近期宣布推出其新款語音生成模型Stable Audio 2.0,將能透過文字產生時間長度達3分鐘的44.1kHz規格立體聲音訊,相比先前版本僅能產生45秒明顯有大幅成長。 Stable Audio 2.0跟1.0版本一樣,都是透過AudioSparx收錄超過80萬組音訊......