VisioLab heeft in de afgelopen jaren met meerdere organisaties meegedacht over het gebruik van voice. We lichten hier een aantal projecten van andere bedrijven in samenwerking met Visio uit.
Communicatie en Multimedia Design-studenten aan de Hogeschool van Amsterdam schakelden in 2021 de expertise van Visio in voor een minor-opdracht. We werkten samen aan een fictieve opdracht: een nieuwe voice-assistent voor webshop Coolblue. Steeds meer grote websites zetten in op spraaktechnologie. We onderzochten hoe je een voice assistent van een webwinkel zo optimaal mogelijk kan laten werken voor mensen met een visuele beperking. VoiceLab projectleider Timon van Hasselt werkte mee aan het project. Hij vindt dat het verbeteren van de toegankelijkheid van websites geen verplicht nummer achteraf moet zijn. “Inclusief design betekent voor mij dat het voor iedereen handiger is, dus niet alleen voor blinden- en slechtzienden. Het interessante aan voice assistenten is dat je een heel ander startpunt hebt dan op een reguliere website, maar gemakkelijker en sneller aan dezelfde informatie komt. Het is mooi om bedrijven als Coolblue vanuit dat startpunt te laten nadenken over het ontwerpen van hun webwinkel.”
De kers op de taart was dat de studenten de onderzoeksresultaten zelf aan Coolblue hebben gepresenteerd, met onder andere onderstaande video:
Coolblue Voice Assistant Demo Video
Begin 2023 ontwikkelde NRC kunstmatige stemmen gebaseerd op die van NRC-redacteuren Mischa Spel en Egbert Kalse. Een nieuwe stap om journalistiek nog beter af te afstemmen op de wensen van de abonnees en breder toegankelijk te maken voor mensen die moeite hebben met lezen of slechtziend zijn. Visio heeft meegedacht en geholpen in de ontwikkelfase van de stemmen en draagt deze nieuwe audio-lezen functie van NRC een warm hart toe. We hebben geholpen om de voorkeuren rondom de stem (persoon, stemkleur, klank) te laten testen door slechtziende en blinde eindgebruikers. En wij hebben onze eigen ervaringen met de ontwikkelaar van een computerstem gedeeld, die we vanuit het project De stem van Nederland (zie hieronder) hebben opgedaan.
Hotel Spieker is een interactief hoorspel voor de Google Home smart speaker, geïnspireerd door het verhaal van een dubbele moordzaak in New Hampshire in 2016 waarbij een Amazon Alexa werd opgeroepen als getuige. Steeds meer huishoudens beschikken over een smart speaker - potentieel allemaal digitale getuigen.
Visio werkte mee aan de beta-test van de app in 2019.
Revalidanten en hun coaches bij Visio Het Loo Erf hadden de primeur om het interactieve gezelschapsspel te testen op de slimme speaker.
Foto’s gemaakt tijdens beta test in Visio Het Loo erf (VHLE) met revalidanten
In 2019 hebben we vanuit VisioLab meegedacht met de innovatie-afdeling van de Volksbank (die je kan kennen van de SNS en ASN bank) over spraakgestuurd bankieren via Google Assistant. Via de Slim-app (geschreven als S.L.!.M.) was het mogelijk voor klanten van de bank om het saldo van hun bankrekening op te vragen, de laatste transactie te horen, of een overboeking op de verzendlijst klaar te zetten.
Superhandig voor bijvoorbeeld thuis op de bank. Maar ook drempelverlagend voor mensen met een visuele beperking. Vanuit Visio hebben we samen met ervaringsdeskundigen de spraakgestuurde bankieren-app getest en feedback gegeven.
Meer dan 300.000 blinden en slechtzienden (dat is zesmaal een volle Johan Cruijf Arena) gebruiken 876 miljoen uur per jaar aan computerstemmen om digitale informatie te lezen. Deze stemmen zijn in de afgelopen twintig jaar niet bijgewerkt en zijn niet meer bij de tijd als het gaat om uitspraak, snelheid en klank.
Zo wordt "file" altijd voorgelezen als -fielu-, met de betekenis van een auto opstopping en nooit met de betekenis van een bestand wat juist nu vaker gebeurt dan twintig jaar geleden. Hetzelfde geld voor de banknaam ING, dit wordt nu altijd als "ingenieur" opgelezen door computerstemmen. Verder wordt een Whatsapp-bericht van je geliefde hetzelfde voorgelezen als je contract met je werkgever.
Jesse Wienholts en Timon van Hasselt van VisioLab hadden de visie: wat als we een eigen AI-stem hebben die eindgebruikers gratis kunnen gebruiken en ontwikkelaars kunnen inzetten om de toegankelijkheid te vergroten? Geïnspireerd door het groeiende aantal AI-gebaseerde stemmen die ingezet worden bij bedrijven, vroegen zij zich af hoe ingewikkeld het zou zijn om zo’n kwalitatief goede Nederlandstalige stem ook te laten ontwikkelen.
Met hulp van de Nederlandstalige Spraak Coalitie, hield Jesse een pitch bij het SIDN-fonds (zie onderstaande video). Het SIDN-fonds was gelijk enthousiast. “Het was misschien wel de beste pitch die we kregen”, gaven zij achteraf aan. Het past dan ook precies bij de missie van SIDN, namelijk om mensen gelijke toegang tot informatie op het internet te geven. De Visio Foundation stond garant voor de uren van de Visio medewerkers in het project, zodat we zoveel mogelijk funding van SIDN konden stoppen in de stem zelf.
Het project “De Stem van Nederland” bestaat uit drie fasen. In de eerste twee fasen vindt gebruikers- en technisch onderzoek plaats om helderheid te krijgen over gebruikersbehoeften en de technische vereisten. Dit onderzoek wordt uitgevoerd door Voice Branding, een bedrijf gespecialiseerd in het onderzoeken van de wensen en behoeften over en het daadwerkelijk maken van kunstmatige stemmen.
In fase 1 is er een enquête uitgezet onder een grote groep slechtziende en blinde spraakgebruikers. Met tien eindgebruikers zijn verdere interviews gehouden. Met hen zijn diverse stemtesten gedaan om te bepalen aan welke voorkeuren en eigenschappen de “perfecte” stem moet voldoen. Vervolgens is een heuse stem-auditie gedaan, waarbij alleen de ronddraaiende rode stoelen ontbraken. Na de audities zijn tien stem acteurs geselecteerd op basis van de vastgelegde gebruikerswensen.
De eindgebruikers waren vrij unaniem over hun favoriete stem, het werd stem “nummer 10”. Een neutraal klinkende, vriendelijke vrouwenstem die zowel vertrouwen als enthousiasme uitstraalt. Met de voice-over in kwestie is daarom vervolgens de volgende stap gezet, namelijk het opnemen van kwalitatief hoogwaardige audio en het bewerken van de stemdata. De 4 uur stemdata is vervolgens getraind tot een AI-stem model bij Microsoft. Ter vergelijking: met 2 uur getrainde stem-data kunnen al zeer goede resultaten worden bereikt. Hoe hoger het aantal uren stemdata, hoe beter de stem. Het eerste prototype van de stem was een feit!
Beluister in de onderstaande video het eerste prototype van de AI Stem van Nederland (op basis van het gebruikersonderzoek met eindgebruikers):
In fase 2 staat op de planning om de eerste versie van de AI-stem te valideren met eindgebruikers. Voldoet het aan de verwachtingen, ook als de stem in de praktijk wordt ingezet (dus bijvoorbeeld voor het lezen van websites, e-mail en chatberichten?).
De testen vinden plaats in juni 2024.
Foto van de 1e gebruikerstest in de studio van VoiceBranding, juni 2024
Omdat de stem nu nog alleen online gebruikt kan worden, wordt daarnaast ook onderzocht wat ervoor nodig is om de stem volledig offline te gebruiken en welke kosten dit met zich meebrengt. Het vervolg van het gebruikersonderzoek wordt dan ook vastgelegd zodat er een duidelijke pitch ontstaat richting belanghebbende technologiebedrijven.
In fase 3 van het project zal gekeken worden of er een partij is die de offline stem uit gaat brengen. “De kosten van het hosten van een AI-stem zijn heel hoog en het liefste zouden we een gratis offlineversie hebben die iedereen kan gebruiken. Een offline stem heeft daarnaast nog andere voordelen. Zo werkt de stem sneller en is deze betrouwbaarder. Dit is natuurlijk erg belangrijk voor een prettige gebruikservaring. Zo ver is het nog niet, maar we hopen dat we dit mogelijk kunnen maken”, aldus Jesse.
De resultaten van het onderzoek zijn in de loop van 2024 te vinden op de volgende website: