Wat is het

Wat is voice en wat zijn voice-assistenten?

Voice-assistenten en slimme speakers

Bij voice-assistenten denken we vaak aan slimme speakers zoals Google Home en Amazon Echo, met de spraakassistent software Google Assistant of Amazon Alexa.
Maar voice-assistenten zien we op veel meer plekken terug dan alleen in slimme speakers. Ze kunnen zich bevinden in de auto, in huishoudelijke apparaten, op smartphones of andere draagbare gadgets en talloze apps. Allemaal met het doel om ons leven makkelijker te maken en de interactie met technologie te vereenvoudigen.

Wat zijn voice-assistenten?

Een voice-assistent is intelligente software die reageert op spraakopdrachten via spraakherkenning en natuurlijke taalverwerking. In tegenstelling tot een chatbot die je bijvoorbeeld op een website tegenkomt, is spraakinvoer de belangrijkste manier van werken.

Een voice-assistent gaat verder dan alleen dicteren: het voert echte gesprekken met gebruikers. Dit wordt ook wel een conversationele interface genoemd. De voice-assistent bevestigt opdrachten, vraagt eventueel om verduidelijking en verbetert zijn reactie op basis van het gesprek.

Voordelen van voice-assistenten

  • Handsfree en eyesfree (je heb je handen en je zicht niet nodig om een actie te doen)
  • Intuïtievere bediening van technologie in plaats van muis, toetsenbord of touchscreens.
  • Eenvoudig met je stem slimme apparatuur in huis kunnen bedienen
  • Steeds meer mogelijkheden voor een unieke gebruikerservaring (de voice-assistent past zich aan de gebruiker aan)

Hoe werkt een voice-assistent?

  1. De gebruiker start met een commando om de voice-assistent actief te laten luisteren (Wake Word)
  2. De voice-assistent zet de spraak om naar tekst (Speech To Text).
  3. De tekst (de vraag, de mededeling) wordt verwerkt door de software (Natural Language Processing/Understanding)
  4. De assistent probeert de beste reactie/keuze te geven op basis van de gegeven informatie (intent matching). Afhankelijk van de vraag/ opdracht wordt de juist informatie opgezocht of uitgevoerd.
  5. Het antwoord van de assistent wordt omgezet naar audio (Text To Speech) en “uitgezonden” via de speaker

Kent u ChatGPT al?

De nieuwste ontwikkeling op het gebied van voice, is de opkomst van zogenaamde “generatieve Artifical Intelligence”. Voice-assistenten worden daarmee steeds beter in het begrijpen van vragen en het verstrekken van antwoorden. Denk aan voorbeelden zoals ChatGPT: de intelligente chatbot die bijna op elke vraag een antwoord heeft. Een gesprek voeren met een voice-assistent eindigt nu nooit meer met “sorry, dat begreep ik niet”. Ook is het mogelijk om verder te gaan met het gesprek op een later moment.

Deze vooruitgang neemt alleen maar toe, waardoor voice-assistenten een steeds grotere rol zullen spelen in het vereenvoudigen en toegankelijker maken van onze dagelijkse taken. Niet alleen voor en slechtziende en blinde mensen, maar voor iedereen.

Visio Lab logo

Visio let ook op privacy

Vind je privacy en eigen beheer belangrijk bij het gebruik van een voice-assistent? Dan zijn er op dit moment al een aantal mogelijkheden om zelf aan de slag te gaan. Vanuit VisioLab houden we een aantal opties nauwlettend in de gaten en testen we hoe wij het zelf kunnen inzetten voor de dienstverlening van Visio.

Google, Amazon en privacy

Google Nest (voorheen Google Home) is een audio speaker met de Google (voice) assistent. Het was de eerste slimme speaker die in het Nederlands beschikbaar kwam in 2019. Hoewel het gebruik van de slimme speaker veel voordelen biedt (goedkoop, snel, kwalitatief erg goed geluid en het werkt goed in het Nederlands) kleven er ook nadelen aan het gebruik. Een grote zorg is bijvoorbeeld de data honger van Google. Hun verdienmodel is het verkopen van informatie om gericht reclame te kunnen aanbieden aan gebruikers.
Wereldwijd heeft Amazon een groot marktaandeel met hun slimme Echo speakers met voice-assistent Alexa. Deze werkt alleen (nog) niet in het Nederlands en ook bij deze partij gelden dezelfde bezwaren als bij Google. 

Luisteren voice-assistenten dan altijd mee op apparaten?

Voice-assistenten/slimme speakers maken geen continue opnames van de gesprekken. De microfoon staat wel open om het wake word te kunnen detecteren om in actie te kunnen komen wanneer de gebruiker ernaar vraagt. Maar het voortdurend opnemen, verwerken en opslaan van alle data wereldwijd zou onmogelijk veel opslagcapaciteit vereisen. Zelfs voor grote partijen zoals Google en Amazon. Deze partijen gebruiken dus de data die mensen zelf aanbieden door vragen te stellen aan het apparaat, niet door heimelijke opnames.

Privacy proof voice-assistenten, wat zijn de opties?

Er zijn momenteel slechts een aantal alternatieven voor slimme speakers zoals de Google Home en Amazon Echo, die ook in het Nederlands werken. Allemaal producten die niet als kant-en-klaar oplossing te koop zijn. Het voordeel van deze spraakassistenten is dat zij zich specifiek richten op privacy. Concreet betekent het dat alle spraakdata op het apparaat blijft en verwerkt wordt. Of als het toch online gaat, dan is het inzichtelijk waar deze informatie precies gedeeld wordt. Deze doe-het-zelf voice-assistenten kunnen zich inmiddels aardig goed meten met de grote spelers: zij zijn allemaal in staat om spraakherkenning en spraakuitvoer te leveren in het Nederlands en kunnen gekoppeld worden aan de slimme apparatuur in huis en allerlei vragen beantwoorden. Voor de handige (computer) knutselaars is het nu al mogelijk een compleet Google vrije voice-assistent te bouwen.

Vanuit VisioLab hebben wij het afgelopen jaar onderzoek gedaan naar Open Voice OS (OVOS) als voice-assistent platform voor Visio. Zie de verschillende kaders in het magazine over de prototypen die we ontwikkeld hebben.

Foto van OVOS die de tijd weergeeft op een scherm
Foto van Home Assistant green
Schermfoto van Rhasppy website
Willow open source spraakassistent
Open Voice Operating System (OVOS)
Foto van OVOS die de tijd weergeeft op een scherm

Zie OVOS in actie

Het Open Voice Operating System (OVOS) platform wordt al jarenlang ontwikkeld door vrijwillige computerprogrammeurs en is beschikbaar voor installatie op pc's, laptops of mini-computers zoals de Raspberry Pi. Met slechts een speaker en microfoon hebben gebruikers vergelijkbare spraak functies als Google Home en Amazon Echo, maar dan privacy-proof, omdat alle benodigde technieken lokaal of in je eigen netwerk kunnen draaien. Met extra voordelen zoals het creëren van eigen voice-applicaties (skills), het zelf kiezen van de gewenste stemmen en spraakherkenningstechnieken en ook het aansluiten van diverse hardware. OVOS is gratis en privacygericht, maar vereist wel kennis van computers voor installatie. 

Home Assistant Assist
Foto van Home Assistant green

Home Assistant heeft met “the year of voice” in 2023 grote stappen gemaakt om het huisautomatiserings platform te voorzien van de assist voice-assistent. Nu nog gericht op de bediening van het slimme huis, maar er komen door middel van plug-ins (integraties) steeds meer functies bij, zoals ondersteuning voor ChatGPT. Home assistant richt zich met name op huisautomatisering en nog niet breder op andere voice gerelateerde toepassingen. We hebben in ons onderzoek alleen Home Assistant (HA) ingezet binnen OVOS, om de domotica toepassingen via HA te laten lopen.

Rhasspy
Schermfoto van Rhasppy website

Rhasspy is een veelzijdige softwaretool voor het bouwen van spraakgestuurde systemen. Het is open source en heeft een sterke nadruk op gebruikersprivacy en lokale verwerking. Gebruikers kunnen Rhasspy configureren voor het bedienen van slimme apparaten of het zelf bouwen van spraakgestuurde toepassingen. Rhasspy lijkt steeds meer op te gaan in Home Assistant. De leercurve voor dit platform is vrij groot en de functionaliteit vergelijkbaar met OVOS.

Willow
Willow open source spraakassistent

Willow is een onafhankelijk initiatief, vergelijkbaar met OVOS en Rhasspy, met een focus op privacy. Hoewel Willow er al erg interessant uit ziet, is de specifieke hardware waar het op draait nog niet leverbaar. Om die reden hebben wij er nog geen onderzoek naar kunnen doen, maar het ziet er veelbelovend uit in demo filmpjes. Deze alternatieven bieden mogelijkheden voor niet-techneuten die op zoek zijn naar meer controle over hun spraakassistenten.