AI dabar gali generuoti kompaktinio disko kokybės muziką iš teksto, ir tai tik gerėja

AI dabar gali generuoti kompaktinio disko kokybės muziką iš teksto, ir tai tik gerėja

Įsivaizduokite, kad renkate „dramatišką įžanginę muziką“ ir girdite sklandančią simfoniją arba rašote „baisius žingsnius“ ir gaunate aukštos kokybės garso efektus. Tai yra „Stable Audio“ – teksto į garsą AI modelio, kurį trečiadienį paskelbė „Stability AI“, pažadas, galintis sintetinti muziką ar garsus iš rašytinių aprašymų. Netrukus panaši technologija gali mesti iššūkį muzikantams dėl jų darbo.

Jei pamenate, „Stability AI“ yra įmonė, kuri padėjo finansuoti „ Stable Diffusion“ – latentinės sklaidos vaizdo sintezės modelio, išleisto 2022 m. rugpjūčio mėn., kūrimą. Nesitenkindama vien vaizdų generavimu, bendrovė pradėjo kurti garso įrašą, palaikydama „ Harmonai“ , AI laboratorija, kuri rugsėjį paleido muzikos generatorių Dance Diffusion .

Dabar „Stability“ ir „Harmonai“ nori įsiveržti į komercinę AI garso gamybą naudodami „Stable Audio“. Sprendžiant iš gamybos pavyzdžių , atrodo, kad tai yra reikšmingas garso kokybės patobulinimas, palyginti su ankstesniais AI garso generatoriais, kuriuos matėme.

Reklaminiame puslapyje „Stability“ pateikiami AI modelio pavyzdžiai su raginimais, tokiais kaip „epinė anonso muzika, intensyvi genčių perkusija ir variniai“ ir „lofi hip hop ritmas melodingas chillhopas 85 bpm“. Taip pat siūlomi garso efektų pavyzdžiai, sugeneruoti naudojant stabilų garsą. , pvz., oro linijų pilotas kalba per domofoną ir žmonės kalbasi judriame restorane.

Siekdama apmokyti savo modelį, „Stability“ bendradarbiavo su muzikos tiekėju „ AudioSparx“ ir licencijavo duomenų rinkinį, „sudarytą iš daugiau nei 800 000 garso failų, kuriuose yra muzikos, garso efektų ir vieno instrumento stiebų, taip pat atitinkamų teksto metaduomenų“. Modelyje „Stable Audio“ žino, kaip imituoti tam tikrus garsus, kuriuos girdėjo pagal komandą, nes garsai buvo susieti su tekstiniais jų aprašymais jo neuroniniame tinkle.

„Stable Audio“ architektūros blokinė schema, kurią teikia „Stability AI“.

Stabilų garsą sudaro kelios dalys, kurios veikia kartu, kad greitai sukurtų pritaikytą garsą. Viena dalis sumažina garso failą taip, kad išliktų svarbios jo funkcijos ir pašalintas nereikalingas triukšmas. Dėl to sistema greičiau mokosi ir kuria naują garso įrašą. Kitoje dalyje naudojamas tekstas (muzikos ir garsų metaduomenų aprašymai), kad padėtų nustatyti, koks garso įrašas generuojamas.

Kad viskas vyktų greičiau, stabilaus garso architektūra veikia pagal labai supaprastintą, suglaudintą garso atvaizdavimą, kad sutrumpėtų išvados laikas (laikas, kurio reikia, kad mašininio mokymosi modelis sugeneruotų išvestį, kai jam buvo suteikta įvestis). Remiantis „Stability AI“, „Stable Audio“ gali atkurti 95 sekundes stereo garso 44,1 kHz dažniu (dažnai vadinamas „CD kokybe“) per mažiau nei vieną sekundę naudojant Nvidia A100 GPU . A100 yra galingas duomenų centro GPU, sukurtas naudoti dirbtiniu intelektu, ir jis yra daug galingesnis nei įprastas staliniams kompiuteriams skirtas GPU.

Kaip minėta, „Stable Audio“ nėra pirmasis muzikos generatorius, pagrįstas latentinės sklaidos technikomis. Praėjusį gruodį aprašėme „Riffusion“ – „Stable Diffusion“ garso versiją mėgėją, nors jos sukurtos kartos savo kokybe toli gražu neprilygo „Stable Audio“ pavyzdžiams. Sausio mėnesį „Google“ išleido „MusicLM“ – AI muzikos generatorių, skirtą 24 kHz garsui, o „Meta“ rugpjūtį pristatė atvirojo kodo garso įrankių rinkinį (įskaitant teksto į muziką generatorių), pavadintą „ AudioCraft“ . Dabar su 44,1 kHz stereo garsu „Stable Diffusion“ padidina pirmenybę.

„Stabilumas“ teigia, kad „Stable Audio“ bus nemokamas ir 12 USD mėnesinis „Pro“ planas. Naudodami nemokamą parinktį, vartotojai gali sukurti iki 20 takelių per mėnesį, kurių kiekvienos trukmė neviršija 20 sekundžių. „Pro“ planas išplečia šias ribas, leisdamas sukurti 500 takelių kartų per mėnesį ir iki 90 sekundžių trukmės takelių. Tikimasi, kad būsimuose stabilumo leidimuose bus atvirojo kodo modeliai, pagrįsti stabilia garso architektūra, taip pat mokymo kodas tiems, kurie domisi garso generavimo modelių kūrimu.

Atrodo, kad esama gamybinės kokybės dirbtinio intelekto sukurtos muzikos su stabiliu garsu ribos, atsižvelgiant į jos garso tikslumą. Ar muzikantai bus laimingi, jei juos pakeis AI modeliai? Tikėtina, kad ne, jei istorija mums ką nors parodė iš AI protestų vizualiųjų menų srityje . Šiuo metu žmogus gali lengvai pralenkti viską, ką gali sukurti dirbtinis intelektas, tačiau tai gali tęstis neilgai. Bet kuriuo atveju dirbtinio intelekto sukurtas garsas gali tapti dar vienu profesionalaus garso kūrimo įrankių rinkiniu.

Parašykite komentarą

El. pašto adresas nebus skelbiamas. Būtini laukeliai pažymėti *