Het vervolg van voice

De toekomst begint nu!

Dit magazine blikt terug op het project VoiceLab, een driejarig project om te onderzoeken hoe Visio structureel meer met voice assistants (voice hierna) kan doen in de zorg en ondersteuning aan blinde en slechtziende mensen. De resultaten delen we graag met iedereen, omdat we geloven dat voice de wereld een stuk toegankelijker kan maken en we graag delen hoe wij dit aanpakken.
Bij de start vond ik de bewezen techniek van voice al heel interessant; het biedt een mogelijkheid voor iedereen om de toch vaak ontoegankelijke/ingewikkelde digitale wereld toegankelijk(er) te maken door ‘gewoon’ te praten tegen je slimme apparaten. Niet alleen handig als je slechtziend of blind bent, maar voor heel veel mensen een uitkomst. Bijvoorbeeld als je in de auto zit, uit gemak, maar ook voor mensen die digitaal minder handig zijn.

De vooruitzichten waren bij de start ook veelbelovend (het kunnen maken van eigen voice diensten begon toen net te komen), maar de realiteit was ook dat de voice assistants minder slim waren dan we wilden.
Op dat moment had ik nog niet kunnen vermoeden welke technologische ontwikkelingen er nog zouden volgen die voice noginteressanter zouden maken als nieuw communicatie-kanaal. De ontwikkelingen op het gebied van conversational A.I., oftewel kunstmatige taalmodellen waarmee een computer menselijk wordt en je er echt mee in gesprek kan gaan, heeft iedereen toch wel verrast. Ik licht er twee grote ontwikkelingen uit: de nieuwe generatie voice asssistants en de spraakrevolutie.

Nieuw jasje

We zouden het bijna vergeten, maar de (opeens) oude generatie voice assistants waren al gebaseerd op A.I. Nu krijgen de spraakgestuurde diensten met generatieve A.I. een hele nieuwe boost. Kort gezegd: de voice assistants worden een betere ervaring. De assistent krijgt meer personality (stem, emotie, reactievermogen) en automatisch gaan we van klassieke spraakcommando’s geven naar een bijna menselijk gesprek met de persoonlijke assistent. Zie bijvoorbeeld de recente presentatie van Open AI over hun voice ontwikkelingen, in het filmpje laten zij zien hoe de voice assistent een live vertaler kan zijn:

Maar het biedt tegelijkertijd ook nieuwe uitdagingen: klopt het allemaal wat de slimme speaker zegt? Hoe kunnen we deze slimme techniek gebruiken op een veilige manier met onze eigen data (bijvoorbeeld informatie uit onze informatiesystemen)?

Scherm­afbeelding 2024 06 06 om 23.23.03
Een mooi voorbeeld van een toepassing van ChatGPT is het Visio Kennisportaal AI prototype, ontwikkeld door Hable. Met deze chat/voice app is het mogelijk om vragen te stellen over hulpmiddelen of andere zaken rondom het hebben van een visuele beperking. De GPT zoekt het antwoord op het Visio kennisportaal.

Spraakrevolutie

Het klinkt als science fiction, maar op het gebied van kunstmatige spraak zijn enorme ontwikkelingen gaande. Misschien heb je al eens de computerstemmen van oud Amerika president Barack Obama of BBC presentator David Attenborough voorbij horen komen? Je kan ze alles laten zeggen wat je wilt. Het is inmiddels zelfs mogelijk om je eigen stem te ‘klonen’. Slechts een paar minuten (of misschien inmiddels zelfs 30 seconden) audio van de persoon in kwestie is al voldoende voor eerste werkbare resultaten.

We begonnen het side-project De Stem van Nederland, om een eigen nieuwe generatie stem te ontwikkelen voordat deze A.I. ontwikkelingen plaatsvonden. Maar hoe mooi is het om te zien dat er alleen maar meer Nederlandstalige stemmen bij gaan komen op deze manier.

Hoe gaat het verder?

Ik hoorde eens de uitspraak “The best way to predict the future, is to create it” en dat vind ik op het gebied van voice bij Visio ook een mooi uitgangspunt. We kunnen (af)wachten óf actief aan de slag om spraakgestuurde diensten aan te bieden aan onze gebruikers, en daarmee een voorloper zijn.  
Met de voorbeelden in dit magazine hebben we een inkijkje gegeven in de keuken van het project VoiceLab.

In jaar 3 (2024) van het project richten we ons op het inrichten van een voice omgeving voor Visio om alle nieuwste technieken te kunnen testen in de praktijk met onze bewoners, leerlingen en cliënten. In de schematische afbeelding hieronder geven we een beeld van hoe dat ongeveer gaat werken. Het idee is om een centrale omgeving in te richten, de Visio Voice Assistent, waar alle voice apps die wij zelf ontwikkelen op draaien. Gebruikers kunnen met hun eigen slimme speaker, via een app of website via telefoon of tablet of via een laptop of pc (met bijvoorbeeld randapparatuur zoals een beeldscherm of brailleleesregel), contact maken met deze server en gebruik maken van de voice diensten. 

Schematische afbeelding van de testomgeving. Verschillende voice assistenten (een speaker, een telefoon en een pc met scherm of braille leesregel) maken contact met de centrale Visio Voice Assistent server, powered by OVOS)

Volgen hoe dat verder loopt? 

Check visio.org/voice voor meer informatie, we werken deze pagina verder bij gedurende het vervolg. Of neem contact op via:

innovatie@visio.org

icoon muisklik