Umělá inteligence nyní dokáže generovat hudbu v kvalitě CD z textu a je to stále lepší
Představte si, že napíšete „dramatickou úvodní hudbu“ a posloucháte vzletnou symfonii nebo píšete „strašidelné kroky“ a získáte vysoce kvalitní zvukové efekty. To je příslib Stable Audio, modelu AI pro převod textu na zvuk, který ve středu oznámila Stability AI, který dokáže syntetizovat hudbu nebo zvuky z psaných popisů. Zanedlouho může podobná technologie vyzvat hudebníky k jejich práci.
Pokud si vzpomínáte, Stability AI je společnost, která pomohla financovat vytvoření Stable Diffusion , modelu latentní difúzní syntézy obrazu vydaného v srpnu 2022. Společnost se nespokojila s tím, že se omezila na generování obrázků, a díky podpoře Harmonai se rozšířila na audio , laboratoř AI, která v září spustila hudební generátor Dance Diffusion .
Nyní chtějí Stability a Harmonai proniknout do komerční produkce AI zvuku se Stable Audio. Soudě podle produkčních vzorků se zdá, že jde o významný upgrade kvality zvuku oproti předchozím zvukovým generátorům AI, které jsme viděli.
Na své propagační stránce nabízí Stability příklady modelu AI v akci s výzvami jako „epická upoutávka, intenzivní kmenové perkuse a dechovky“ a „lofi hip hop beat melodický chillhop 85 bpm“. Nabízí také ukázky zvukových efektů generovaných pomocí Stable Audio. , jako je pilot aerolinky mluvící přes interkom a lidé mluvící v rušné restauraci.
Pro trénování svého modelu se Stability spojila s hudebním poskytovatelem AudioSparx a licencovala datovou sadu „skládající se z více než 800 000 zvukových souborů obsahujících hudbu, zvukové efekty a stopky pro jeden nástroj a také odpovídající textová metadata.“ Po dodání 19 500 hodin zvuku Stable Audio do modelu ví, jak napodobit určité zvuky, které slyšel na příkaz, protože zvuky byly spojeny s jejich textovým popisem v rámci jeho neuronové sítě.
Stable Audio obsahuje několik částí, které spolupracují na rychlém vytvoření přizpůsobeného zvuku. Jedna část zmenší zvukový soubor způsobem, který zachová jeho důležité vlastnosti a zároveň odstraní zbytečný šum. Díky tomu se systém rychleji učí a rychleji vytváří nový zvuk. Další část používá text (metadatové popisy hudby a zvuků), aby pomohl určit, jaký druh zvuku je generován.
Aby se věci urychlily, architektura Stable Audio pracuje na značně zjednodušené, komprimované zvukové reprezentaci, aby se zkrátila doba odvození (doba, kterou model strojového učení potřebuje k vygenerování výstupu poté, co mu byl dán vstup). Podle Stability AI dokáže Stable Audio vykreslit 95 sekund stereo zvuku při vzorkovací frekvenci 44,1 kHz (často nazývané „kvalita CD“) za méně než jednu sekundu na GPU Nvidia A100 . A100 je výkonný GPU datového centra určený pro použití s umělou inteligencí a je mnohem schopnější než typický stolní herní GPU.
Jak již bylo zmíněno, Stable Audio není prvním hudebním generátorem založeným na technikách latentní difúze. Loni v prosinci jsme se věnovali Riffusion , fanouškovskému pojetí zvukové verze Stable Diffusion, i když její výsledné generace byly kvalitou daleko od samplů Stable Audio. V lednu Google vydal MusicLM , AI hudební generátor pro 24 kHz zvuk, a Meta spustila v srpnu sadu open source audio nástrojů (včetně generátoru textu na hudbu) s názvem AudioCraft . Nyní, s 44,1 kHz stereo zvukem, Stable Diffusion zvyšuje ante.
Stabilita říká, že Stable Audio bude k dispozici v bezplatné úrovni a měsíčním plánu Pro za 12 $. S bezplatnou možností mohou uživatelé generovat až 20 skladeb za měsíc, z nichž každá má maximální délku 20 sekund. Plán Pro rozšiřuje tyto limity a umožňuje 500 generací skladeb za měsíc a délky skladeb až 90 sekund. Očekává se, že budoucí vydání Stability budou zahrnovat modely s otevřeným zdrojovým kódem založené na architektuře Stable Audio a také školicí kód pro zájemce o vývoj modelů generování zvuku.
Jak to tak je, vypadá to, že bychom mohli být na hranici produkční kvality hudby generované umělou inteligencí se Stable Audio, s ohledem na její věrnost zvuku. Budou hudebníci rádi, když je nahradí modely umělé inteligence? Pravděpodobně ne, pokud nám historie ukázala něco z protestů AI v oblasti vizuálního umění . V současnosti může člověk snadno překonat vše, co umělá inteligence dokáže vytvořit, ale nemusí tomu tak být dlouho. Ať tak či onak, zvuk generovaný umělou inteligencí se může stát dalším nástrojem v sadě profesionálních nástrojů pro produkci zvuku.
Napsat komentář