Vocaloid: de stem van de toekomst

Het is in zekere zin paradoxaal dat, in een tijd waarin we steeds beter zijn geworden in het namaken van de menselijke stem, de muziek die gebruikmaakt van de nogal robotisch klinkende stemmen van Vocaloid juist zo’n wereldwijd fenomeen is. Waar deze muziek eerst nog primair populair was in Japan, en dan ook vooral op het internet, is deze inmiddels een wereldwijd fenomeen. Hoe is de ontwikkeling van kunstmatige menselijke stemmen gegaan, en hoe werkt Vocaloid precies? Daar ga ik je in beknopte vorm antwoord op proberen te geven.

De ontwikkeling van Vocaloid staat natuurlijk niet op zichzelf. Zelfs voor de introductie van de computer waren er al pogingen het menselijk stemgeluid machinaal te reproduceren. Zo zijn er legendes van zogenaamde Bronzen Hoofden. Dit zouden automata (mechanische apparaten die een bepaalde handeling automatisch konden uitvoeren) zijn die door middeleeuwse geleerden ontworpen waren en onder andere konden praten. Aan het einde van de 19e eeuw werd er dan echt een serieuze poging gedaan om stemgeluid te genereren. Het was toen een Duits-Deense wetenschapper die met een model van het menselijke spraakkanaal lange klinkerklanken ([aː], [eː], [iː], [oː] en [uː]) kon genereren. Toen een Hongaar dit model uitbreidde met een tong en lippen kon het ook medeklinkers uitspreken.

Schematic circuit of the Voder

Amerikaanse onderzoekers slaagden er in de jaren ’30 in om het menselijke stemgeluid elektronisch te analyseren en hier de fundamentele componenten uit te isoleren —dit project zou bekend staan als vocoder. Op basis van deze kennis werd The Voder (zeker de moeite waard om even op YouTube op te zoeken) ontwikkeld, die door instructies van een menselijke bediener woorden — inclusief intonatie — kon produceren.

Hoewel dit een elektronisch proces was, was dit apparaat nog niet gebaseerd op een computer. De stap naar het digitale domein vindt rond de overgang tussen de jaren ’50 en ’60 plaats. Hier werd ook voor het eerst een kunstmatige stem gebruikt om een liedje te zingen — gebaseerd op het eerdere werk voor de vocoder. Leuk weetje, deze specifieke stem is later ook gebruikt voor de film 2001: A Space Odyssey voor de computer HAL 9000. Een andere bekende vroege computerstem is die van natuurkundige Stephen Hawking. Zijn stem is qua mate van realisme in de loop der jaren op eigen verzoek nooit verbeterd omdat hij er gehecht aan was geraakt.

Maar hoe werkt Vocaloid dan precies?

Er zijn binnen de spraaksynthese verschillende manieren om stemgeluid te produceren. Tegenwoordig is gebruik van neurale netwerken erg in trek, maar hiervoor werd er al gebruik gemaakt van onder andere zogenaamde concatenerende synthese en formant gebaseerde synthese. Bij die laatste worden de verschillende primaire onderdelen van de stemgeluid, dus de verschillende frequenties, op een specifieke manier samengevoegd om stemgeluid na te bootsen.

Vocaloid is een voorbeeld van concatenerende synthese. In de basis wordt hierbij gebruik gemaakt van fragmenten van stemgeluid die aan elkaar worden geplakt en gemanipuleerd om een volledige boodschap te vormen. Je kan dit een beetje vergelijken — hoewel de analogie niet helemaal klopt — met de omroepstem van de NS op het station. Hierbij is er een verzameling woorden die zijn ingesproken, en deze worden aan elkaar geplakt om een bericht over een kapotte bovenleiding te maken. In het geval van concatenerende synthese zijn het niet volledige woorden, maar verschillende letterklanken (of combinaties daarvan) die gebruikt worden.

Dit is ook bij Vocaloid het geval. Bij Vocaloid is er een zogenaamde Singer Library waarin difonen (paren van alle verschillende klanken) in de gewenste taal zijn opgenomen. Om vervolgens een woord te vormen, zoals bijvoorbeeld “kat” [kat], worden steeds deze paren aan elkaar geregen. In dit geval zou dat dan dus #-k, k-a, a-t, t-# worden. Er wordt gewerkt met difonen om klanken beter in elkaar over te laten lopen, zodat het niet klinkt als allemaal losse letters. Dan ben je echter nog niet klaar, want nu heb je alleen nog maar neutrale spraak, en nog geen gezang. Vervolgens wordt door middel van verschillende digitale filters de toonhoogte van de stemfragmenten aangepast, zodat het overeenkomt met de muziek.

Dit filterproces is nogal ingewikkeld en hiervan is hieronder een schematische weergave gegeven. Door gebruik te maken van de Singer Library’s is het mogelijk een groot scala aan verschillende ‘zangers’ te gebruiken die allemaal hun unieke stemgeluid hebben.

Fenomeen

Het is niet alleen dankzij de techniek dat Vocaloid zo snel tot een fenomeen uitgroeide. Hoewel de verschillende stemmen die door Yamaha verkocht werden al wel een naam kregen, was het het bedrijf Crypton Future Media die aan de door hen ontwikkelde stemmen een hele persoonlijkheid koppelde. KAITO, MEIKO en iets later ook Hatsune Miku, waren een paar van de eerste stemmen en bijbehorende karakters die ze uitbrachten. Deze stap gaf de stemmen een gezicht, en dit bleek cruciaal voor de doorbraak van de technologie. Tegenwoordig is de technologie van vocaloid niet meer los te zien van de karakters en hebben ze hele groepen fans zoals ook menselijke artiesten die hebben. Het populaire MIKU EXPO — een reeks concerten waarbij een hologram van het karakter Hatsune Miku danst en zingt onder begeleiding van een liveband — gaat inmiddels de hele wereld over en was vóór de coronapandemie zelfs in Amsterdam.

Vocaloid Synthesis Engine

Hoewel de technologie zichzelf steeds meer zal verbeteren, voorzie ik niet dat dit op Vocaloid zelf veel invloed gaat hebben. Juist het kunstmatige karakter van de stemmen is voor veel mensen — dat geldt in ieder geval voor mij — deel van de charme. Zowel de karakteristieken van het geluid, als de manier waarop je het componeert, maken dat het in een grijs gebied tussen een zanger en een instrument in zit. Een recent voorbeeld laat zien hoe ver we nu al met de nieuwste ontwikkelingen in de spraaksynthese kunnen komen. Eerder dit jaar verscheen op verschillende platforms het lied ‘Heart On My Sleeve’ waarin Drake en The Weeknd zongen. Dit nummer bleek echter niet van de beide artiesten te zijn, maar gemaakt door iemand die zichzelf @ghostwriter noemt. Deze persoon had een computermodel getraind op de stemmen van de beide artiesten, en kon zo een nummer produceren dat menig luisteraar voor de gek kon houden. Dit alles laat zien dat we een interessante toekomst tegemoet gaan waarin kunstmatige stemmen op een niet te onderscheiden manier echte stemmen kunnen gaan vervangen, maar waarin ook nog plaats is voor de stemmen van Vocaloid.

tanuki-logo-48Dit artikel verscheen eerder ook in de TaTanukiKi-journal.
LVSJ Tanuki : Vereniging van studenten Japanse taal en cultuur aan de Universiteit Leiden

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *