AI kan nu generere musik i cd-kvalitet fra tekst, og det bliver kun bedre
Forestil dig at skrive “dramatisk intromusik” og høre en svævende symfoni eller skrive “uhyggelige fodtrin” og få lydeffekter af høj kvalitet. Det er løftet om Stable Audio, en tekst-til-lyd AI-model, der blev annonceret onsdag af Stability AI, som kan syntetisere musik eller lyde fra skriftlige beskrivelser. Inden længe kan lignende teknologi udfordre musikere til deres job.
Hvis du husker det, er Stability AI virksomheden, der hjalp med at finansiere skabelsen af Stable Diffusion , en latent diffusionsbilledsyntesemodel udgivet i august 2022. Virksomheden var ikke tilfreds med at begrænse sig til at generere billeder, men virksomheden forgrenede sig til lyd ved at støtte Harmonai , et AI-laboratorium, der lancerede musikgeneratoren Dance Diffusion i september.
Nu ønsker Stability og Harmonai at bryde ind i kommerciel AI-lydproduktion med Stable Audio. At dømme efter produktionseksempler virker det som en betydelig lydkvalitetsopgradering fra tidligere AI-lydgeneratorer, vi har set.
På sin salgsfremmende side giver Stability eksempler på AI-modellen i aktion med prompter som “episk trailermusik, intens tribal percussion og brass” og “lofi hip hop beat melodisk chillhop 85 bpm.” Den tilbyder også eksempler på lydeffekter genereret ved hjælp af Stable Audio , såsom en flyselskabspilot, der taler over et samtaleanlæg, og folk, der taler i en travl restaurant.
For at træne sin model, samarbejdede Stability med aktiemusikudbyderen AudioSparx og licenserede et datasæt “bestående af over 800.000 lydfiler indeholdende musik, lydeffekter og enkeltinstrumentstammer samt tilsvarende tekstmetadata.” Efter at have fodret 19.500 timers lyd ind i modellen ved Stable Audio, hvordan man efterligner visse lyde, den har hørt på kommando, fordi lydene er blevet forbundet med tekstbeskrivelser af dem inden for dets neurale netværk.

Stabil lyd indeholder flere dele, der arbejder sammen for hurtigt at skabe tilpasset lyd. Den ene del krymper lydfilen ned på en måde, der bevarer dens vigtige funktioner, samtidig med at den fjerner unødvendig støj. Dette gør systemet både hurtigere at lære og hurtigere til at skabe ny lyd. En anden del bruger tekst (metadatabeskrivelser af musikken og lyde) til at hjælpe med at vejlede, hvilken slags lyd der genereres.
For at fremskynde tingene fungerer den stabile lydarkitektur på en stærkt forenklet, komprimeret lydrepræsentation for at reducere inferenstiden (den tid, det tager for en maskinlæringsmodel at generere et output, når den først har fået et input). Ifølge Stability AI kan Stable Audio gengive 95 sekunders stereolyd ved en 44,1 kHz samplerate (ofte kaldet “CD-kvalitet”) på mindre end et sekund på en Nvidia A100 GPU . A100 er en kraftig datacenter-GPU designet til AI-brug, og den er langt mere dygtig end en typisk desktop-gaming-GPU.
Som nævnt er Stable Audio ikke den første musikgenerator baseret på latente diffusionsteknikker. Sidste december dækkede vi Riffusion , en hobbyist-version af en lydversion af Stable Diffusion, selvom dens resulterende generationer var langt fra Stable Audios samples i kvalitet. I januar udgav Google MusicLM , en AI-musikgenerator til 24 kHz-lyd, og Meta lancerede en suite af open source-lydværktøjer (inklusive en tekst-til-musik-generator) kaldet AudioCraft i august. Nu, med 44,1 kHz stereolyd, øger stabil diffusion ante.
Stabilitet siger, at Stable Audio vil være tilgængelig i et gratis niveau og en $12 månedlig Pro-plan. Med den gratis mulighed kan brugere generere op til 20 numre om måneden, hver med en maksimal længde på 20 sekunder. Pro-planen udvider disse grænser og giver mulighed for 500 sporgenerationer pr. måned og sporlængder på op til 90 sekunder. Fremtidige Stability-udgivelser forventes at omfatte open source-modeller baseret på Stable Audio-arkitekturen samt træningskode for dem, der er interesserede i at udvikle lydgenereringsmodeller.
Som det står, ser det ud til, at vi kan være på kanten af AI-genereret musik i produktionskvalitet med stabil lyd, i betragtning af dens lydgengivelse. Vil musikere blive glade, hvis de bliver erstattet af AI-modeller? Sandsynligvis ikke, hvis historien har vist os noget fra AI-protester på billedkunstområdet . For nu kan et menneske nemt udkonkurrere alt, hvad AI kan generere, men det er måske ikke tilfældet længe. Uanset hvad, kan AI-genereret lyd blive endnu et værktøj i en professionel lydproduktionsværktøjskasse.
Skriv et svar