AI suudab nüüd tekstist CD-kvaliteediga muusikat genereerida ja see muutub ainult paremaks

AI suudab nüüd tekstist CD-kvaliteediga muusikat genereerida ja see muutub ainult paremaks

Kujutage ette, et tippite “dramaatiline sissejuhatav muusika” ja kuulete hüppeliselt tõusvat sümfooniat või kirjutate “jubedaid samme” ning saate kvaliteetseid heliefekte. Seda lubab Stable Audio, tekst-heli AI mudel, mille kolmapäeval teatas Stability AI ja mis suudab sünteesida muusikat või helisid kirjutatud kirjeldustest. Varsti võib sarnane tehnoloogia muusikutele nende töö jaoks väljakutseid esitada.

Kui mäletate, on Stability AI ettevõte, kes aitas rahastada 2022. aasta augustis välja lastud latentse difusiooni kujutise sünteesi mudeli Stable Diffusion loomist. Ettevõte ei piirdu vaid piltide loomisega, vaid hakkas Harmonai toetamisega tegelema heli , AI labor, mis käivitas septembris muusikageneraatori Dance Diffusion .

Nüüd soovivad Stability ja Harmonai tungida stabiilse heli abil kommertsliku AI-heli tootmisesse. Tootmisnäidiste põhjal otsustades näib see olevat märkimisväärne helikvaliteedi uuendus võrreldes varasemate AI-heligeneraatoritega, mida oleme näinud.

Stabiilsus pakub oma reklaamlehel näiteid tehisintellekti mudelist töös koos selliste viipadega nagu „eepiline treilerimuusika intensiivne tribal löökpillid ja vaskpillid” ja „lofi hip hop meloodiline chillhop 85 lööki minutis”. Samuti pakub see näidiseid heliefektidest, mis on loodud stabiilse heli abil. , näiteks lennufirma piloot räägib sisetelefoni kaudu ja inimesed räägivad elavas restoranis.

Oma mudeli väljaõpetamiseks tegi Stability koostööd aktsiamuusika pakkujaga AudioSparx ja litsentseeris andmekomplekti, mis “koosneb enam kui 800 000 helifailist, mis sisaldavad muusikat, heliefekte ja ühe instrumendi tüvesid, samuti vastavaid teksti metaandmeid.” Pärast 19 500 tunni heli esitamist. mudelisse teab Stable Audio, kuidas jäljendada teatud helisid, mida ta on käsu peale kuulnud, kuna helisid on seostatud nende närvivõrgu tekstikirjeldustega.

Stability AI pakutava stabiilse heli arhitektuuri plokkskeem.

Stabiilne heli sisaldab mitmeid osi, mis töötavad koos, et luua kiiresti kohandatud heli. Üks osa kahandab helifaili viisil, mis säilitab selle olulised funktsioonid, eemaldades samas tarbetu müra. See muudab süsteemi nii õpetamise kui ka uue heli loomise kiiremaks. Teine osa kasutab teksti (muusika ja helide metaandmete kirjeldused), et aidata juhtida, millist heli genereeritakse.

Asjade kiirendamiseks töötab stabiilne heliarhitektuur tugevalt lihtsustatud, tihendatud heliesitusel, et vähendada järeldusaega (aeg, mis kulub masinõppemudelil väljundi genereerimiseks pärast sisendi saamist). Stabiilsuse AI järgi suudab stabiilne heli 95 sekundit stereoheli 44,1 kHz diskreetimissagedusega (mida sageli nimetatakse “CD-kvaliteediks”) Nvidia A100 GPU -ga vähem kui ühe sekundiga . A100 on jõuline andmekeskuse GPU, mis on loodud tehisintellekti kasutamiseks ja see on palju võimekam kui tavaline lauaarvuti mängude GPU.

Nagu mainitud, pole Stable Audio esimene muusikageneraator, mis põhineb latentse difusioonitehnikal. Eelmise aasta detsembris käsitlesime Riffusionit , Stable Diffusioni heliversiooni harrastajat, kuigi selle tulemuseks olevad põlvkonnad olid kvaliteediga Stable Audio näidistest kaugel. Jaanuaris andis Google välja MusicLM , AI muusikageneraatori 24 kHz heli jaoks, ja Meta tõi augustis turule avatud lähtekoodiga helitööriistade komplekti (sh tekstist muusikaks generaatori) nimega AudioCraft . Nüüd, 44,1 kHz stereoheliga, tõstab Stable Diffusion oma tugevust.

Stabiilsus ütleb, et Stable Audio on saadaval tasuta taseme ja 12-dollarise igakuise Pro-paketina. Tasuta valikuga saavad kasutajad luua kuni 20 lugu kuus, millest igaüks on maksimaalselt 20 sekundit pikk. Pro-plaan laiendab neid piiranguid, võimaldades 500 loo genereerimist kuus ja radade pikkust kuni 90 sekundit. Tulevased Stabiilsusväljaanded peaksid sisaldama stabiilsel heliarhitektuuril põhinevaid avatud lähtekoodiga mudeleid, aga ka koolituskoodi neile, kes on huvitatud heli genereerimise mudelite arendamisest.

Praegu tundub, et võime olla stabiilse heliga produktsioonikvaliteediga tehisintellekti loodud muusika äärel, arvestades selle heli täpsust. Kas muusikud on õnnelikud, kui nad asendatakse AI mudelitega? Tõenäoliselt mitte, kui ajalugu on näidanud meile midagi AI protestidest kujutava kunsti valdkonnas . Praegu suudab inimene hõlpsasti ületada kõike, mida tehisintellekt suudab luua, kuid see ei pruugi nii kaua olla. Mõlemal juhul võib AI-ga loodud helist saada professionaalide helitootmise tööriistakasti teine ​​tööriist.

Lisa kommentaar

Sinu e-postiaadressi ei avaldata. Nõutavad väljad on tähistatud *-ga