AI tagad var ģenerēt CD kvalitātes mūziku no teksta, un tas kļūst tikai labāks
Iedomājieties, ka ierakstāt “dramatisku ievadmūziku” un dzirdat spārnu simfoniju vai rakstāt “rāpojošus soļus” un iegūstat augstas kvalitātes skaņas efektus. Tas ir solījums Stable Audio — teksta-audio AI modelim, par kuru trešdien paziņoja Stability AI un kas var sintezēt mūziku vai skaņas no rakstītiem aprakstiem. Drīzumā līdzīga tehnoloģija var izaicināt mūziķus viņu darbā.
Ja atceraties, Stability AI ir uzņēmums, kas palīdzēja finansēt Stable Diffusion — latentas difūzijas attēlu sintēzes modeļa, kas tika izdots 2022. gada augustā, izveidi. Uzņēmums neapmierinās tikai ar attēlu ģenerēšanu, bet gan sāka darboties audio, atbalstot Harmonai . AI laboratorija, kas septembrī uzsāka mūzikas ģeneratoru Dance Diffusion .
Tagad Stabilitāte un Harmonai vēlas ielauzties komerciālā AI audio producēšanā, izmantojot Stable Audio. Spriežot pēc ražošanas paraugiem , šķiet, ka tas ir nozīmīgs audio kvalitātes uzlabojums salīdzinājumā ar iepriekšējiem AI audio ģeneratoriem, ko esam redzējuši.
Savā reklāmas lapā Stabilitāte piedāvā AI modeļa piemērus darbībā ar uzvednēm, piemēram, “episka reklāmkadru mūzika, intensīva cilšu perkusijas un misiņa instrumenti” un “lofi hip hop ritms ar melodisku chillhop 85 sitieniem minūtē”. Tā piedāvā arī skaņas efektu paraugus, kas ģenerēti, izmantojot Stable Audio. , piemēram, aviokompānijas pilots runā pa domofonu un cilvēki sarunājas aizņemtā restorānā.
Lai apmācītu savu modeli, Stabilitāte sadarbojās ar akciju mūzikas pakalpojumu sniedzēju AudioSparx un licencēja datu kopu, “kas sastāv no vairāk nekā 800 000 audio failiem, kas satur mūziku, skaņas efektus un viena instrumenta celmus, kā arī atbilstošus teksta metadatus.” Pēc 19 500 stundu audio ievadīšanas. modelī Stable Audio zina, kā atdarināt noteiktas skaņas, ko tas dzirdējis pēc komandas, jo skaņas ir saistītas ar to teksta aprakstiem tā neironu tīklā.

Stabilais audio satur vairākas daļas, kas darbojas kopā, lai ātri izveidotu pielāgotu audio. Viena daļa samazina audio failu tādā veidā, kas saglabā tā svarīgās funkcijas, vienlaikus novēršot nevajadzīgu troksni. Tas padara sistēmu gan ātrāku apmācībā, gan ātrāku jaunu audio izveidi. Citā daļā tiek izmantots teksts (mūzikas un skaņu metadatu apraksti), lai palīdzētu noteikt, kāda veida audio tiek ģenerēts.
Lai paātrinātu darbību, stabilā audio arhitektūra darbojas ar ļoti vienkāršotu, saspiestu audio attēlojumu, lai samazinātu secinājumu izdarīšanas laiku (laiku, kas nepieciešams, lai mašīnmācīšanās modelis ģenerētu izvadi pēc tam, kad tam ir dota ievade). Saskaņā ar Stabilitātes AI, Stable Audio var atveidot 95 sekundes stereo audio ar 44,1 kHz izlases frekvenci (ko bieži sauc par “CD kvalitāti”) mazāk nekā vienā sekundē, izmantojot Nvidia A100 GPU . A100 ir ietilpīgs datu centra GPU, kas paredzēts AI lietošanai, un tas ir daudz spējīgāks nekā tipisks galddatoru spēļu GPU.
Kā minēts, Stable Audio nav pirmais mūzikas ģenerators, kura pamatā ir latentās difūzijas metodes. Pagājušā gada decembrī mēs apskatījām Riffusion — Stable Diffusion audio versijas cienītāju, lai gan tās radītās paaudzes kvalitātes ziņā bija tālu no Stable Audio paraugiem. Janvārī Google izlaida MusicLM , AI mūzikas ģeneratoru 24 kHz audio, un Meta augustā laida klajā atvērtā pirmkoda audio rīku komplektu (tostarp teksta pārveides mūzikā ģeneratoru) ar nosaukumu AudioCraft . Tagad ar 44,1 kHz stereo skaņu Stable Diffusion paaugstina iepriekšējo.
Stabilitāte saka, ka Stable Audio būs pieejams bezmaksas līmenī un 12 USD ikmēneša Pro plānā. Izmantojot bezmaksas opciju, lietotāji mēnesī var ģenerēt līdz 20 ierakstiem, katrs ar maksimālo garumu 20 sekundes. Pro plāns paplašina šos ierobežojumus, pieļaujot 500 ierakstu paaudzes mēnesī un ierakstu garumu līdz 90 sekundēm. Paredzams, ka turpmākajos Stabilitātes laidienos būs iekļauti atvērtā pirmkoda modeļi, kuru pamatā ir Stable Audio arhitektūra, kā arī apmācības kods tiem, kas interesējas par audio ģenerēšanas modeļu izstrādi.
Ņemot vērā tā audio precizitāti, pašreizējā situācijā šķiet, ka mēs varētu atrasties uz ražošanas kvalitātes mākslīgā intelekta radītas mūzikas robežas ar stabilu audio. Vai mūziķi būs priecīgi, ja viņus nomainīs AI modeļi? Visticamāk, nē, ja vēsture mums ir parādījusi kaut ko no AI protestiem vizuālās mākslas jomā . Pagaidām cilvēks var viegli pārspēt visu, ko AI var ģenerēt, taču tas tā var nebūt ilgi. Jebkurā gadījumā mākslīgā intelekta radītais audio var kļūt par vēl vienu rīku profesionāļa audio ražošanas rīku komplektā.
Atbildēt