Deel jouw ervaring!
Geluidsscheiding is een technologie waarmee individuele geluiden uit een gemengde audiobron kunnen worden geëxtraheerd. Dit werd oorspronkelijk als een bijzonder complexe bewerking beschouwd, maar in 2013 hebben we de AI-technologie van Sony ontwikkeld, waardoor we de prestaties spectaculair verbeterden. We hebben al verschillende resultaten hiermee bereikt, bijvoorbeeld voor het verlevendigen van klassieke films, het elimineren van ruis op smartphones en realtime karaoke voor muziekstreamingdiensten. En we verwachten voor de toekomst nog veel meer toepassingen op allerlei terreinen.
Hieronder vertellen Yuki Mitsufuji van ons R&D Center in Tokio en Stefan Uhlich van ons R&D Center in Stuttgart ons er meer over.
Met machines menselijke vaardigheden namaken.
"Wanneer we als mens luisteren naar een uitvoering waarin meerdere geluiden zijn gemixt, kunnen we individuele instrumenten onderscheiden. We kunnen ons ook van nature concentreren op een enkele stem tijdens een gesprek, zelfs midden in een grote menigte," legt Yuki uit. Vóór de toepassing van AI-technologie was het bijzonder complex om dit met computers te doen. "Sommige mensen beschreven deze taak als het mengen van twee sappen en daarna er weer één uit halen," herinnert hij zich.
In de demo hieronder kunt u drie voorbeelden van onze geluidsscheiding beluisteren, toegepast op een scène uit Lawrence of Arabia, waarin we demonstreren hoe we de dialoog kunnen extraheren, evenals verschillende geluidseffecten.
Computers leren bij op AI gebaseerde geluidsscheiding om deze bewerking uit te voeren.
Neem bijvoorbeeld een gitaar. Dit instrument heeft een heel specifiek geluid, of een specifieke frequentie, die tijdens de training worden geleerd door het neurale netwerk.
"Tijdens deze training hoort het netwerk heel veel muziek, meer muziek dan wij ooit in ons leven zullen horen, samen met het beoogde geluid dat we moeten extraheren," licht Stefan toe. Daarom is ons AI-systeem in staat om de specifieke kenmerken van de gitaar te identificeren en deze te extraheren, ongeacht het aantal verschillende geluiden dat in een opname is gemixt.
"Het is net zoals we een appel eruit kunnen pikken als we er een zien, omdat we er al zoveel eerder hebben gezien," zo veronderstelt Yuki. "AI wordt op vrijwel dezelfde manier toegepast, zowel mechanisch als conceptueel."
Deze technologie draait de tijd vrijwel terug.
Door de AI-technologie voor geluidsscheiding te gebruiken, kunnen we oude muziek opfrissen, de zang extraheren of de instrumenten scheiden en het nummer remixen. En bij films biedt het totaal nieuwe mogelijkheden voor meeslepend entertainment.
"Om een overweldigend geluidsveld voor filmliefhebbers te creëren, is het noodzakelijk om geluiden te produceren vanuit een aantal verschillende hoeken en een nieuwe 3D-audioruimte te creëren," legt Stefan uit. "Bij klassieke films zijn de dialoog en de geluidseffecten echter op dezelfde track opgenomen, en dus is er een grens aan wat we kunnen extraheren en hoe meeslepend we het geluidsveld kunnen maken. We vroegen ons af of we onze technologie zouden kunnen toepassen op films, en nadat ons AI-systeem een bibliotheek met geluidseffecten had geleerd, was het in staat individuele geluidseffecten uit het origineel te extraheren."
Dit kunt u in de praktijk zien in de bovenstaande video van Lawrence of Arabia.
En dan zijn er toepassingsgebieden waaraan u niet meteen zou denken bij geluidsscheidingstechnologie, maar die daar beslist op bouwen.
Yuki noemt bijvoorbeeld aibo, de robothond van Sony. "aibo kan reageren op menselijke stemmen en communiceren, maar als aibo simpelweg de omgevingsgeluiden verzamelt, worden geluiden zoals aibo's eigen mechanische geluiden of het ruisen van de wind ook opgevangen. Door de op AI gebaseerde geluidsscheiding toe te passen om menselijke stemmen te extraheren en alle andere achtergrondgeluiden te elimineren, hebben we zijn spraakherkenning kunnen verbeteren."
We hebben vergelijkbare methoden ook op onze andere producten toegepast. Xperia™-smartphoneklanten horen nu bijvoorbeeld duidelijke menselijke stemmen zonder windruis en genieten van onze 'karaokemodus'-technologie, die we ontwikkelden voor een muziekstreaming-app, waarmee zang in realtime wordt verwijdert, zodat de stem van de gebruiker kan worden gemixt met de geluidsbron.
Een blik op de toekomst.
Nu Sony PSL en Sony Music Solutions zijn begonnen deze technologie extern aan te bieden, kijkt Yuki uit naar wat er gaat komen. "We hopen dat onze technologie werkt als een soort tijdmachine die artiesten uit het verleden en heden de mogelijkheid biedt alsnog samen te werken."
Stefan verheugt zich op een nog verdere verspreiding van de technologie. "Vanuit een technologisch perspectief zullen we de overgang meemaken naar een universele bronnenscheiding, waar niet alleen het aantal bronnen onbekend is maar waar ook de brontypen niet gespecificeerd zijn," vertelt hij. "Collega's hebben onderkend dat dit een uitdagend, maar aantrekkelijk scenario is, dat zelfs nóg meer mogelijkheden voor commercieel gebruik zal opleveren."
We kunnen niet wachten om te zien welke nieuwe terreinen we dankzij geluidsscheiding via AI kunnen gaan verkennen. Waar zou u dit graag toegepast willen zien?
Dit artikel is een bewerkte versie van het origineel op Sony.net, dat hier beschikbaar is: https://www.sony.net/SonyInfo/technology/stories/AI_Sound_Separation/
U moet een geregistreerde gebruiker zijn om hier een opmerking toe te voegen. Als u al geregistreerd bent, moet u zich aanmelden. Als u zich nog niet hebt geregistreerd, moet u zich registreren en aanmelden.