Spraak-naar-tekst kan de communicatie aan boord van treinen verbeteren
Siri en Alexa zijn misschien wel de bekendste voorbeelden van spraak-naar-teksttechnologie voor dagelijkse taken of vragen in business-to-consumer-contexten.
Televic GSP is er sterk van overtuigd dat de onderliggende principes van deze technologie een lastige kwestie in de spoorwegsector kunnen verhelpen: het begrijpen van audio-aankondigingen aan boord.
Het gebruik van public address (PA)-systemen
Steven Lauwereins, Research Lead bij Televic GSP: “De aankondigingen aan boord tussen bemanning en passagiers worden uitgezonden via public address (PA)-systemen, zoals luidsprekers. Deze informatie betreft passagiersgemak, reisinformatie en veiligheidscommunicatie en is cruciaal voor de passagierservaring. Bemanningsleden doen hun aankondigingen vaak live vanwege het persoonlijke contact dat ze graag met de passagiers willen behouden.
“Toch kunnen verschillende factoren een duidelijk begrip van deze informatie in de weg staan: een ander geluid, zoals koptelefoons of treingerelateerd geluid, gehoorproblemen, taalbarrières, enzovoort. Sommige oplossingen – hoortoestellussen bijvoorbeeld – zijn duur en ongeschikt voor het brede publiek. Bij Televic GSP willen we spraak-naar-tekst gebruiken om inclusief aan boord te communiceren.”
Waarom geen transcriptie gebruiken?
Als ondertitels – op basis van een transcriptie – passagiers helpen een YouTube-video op hun smartphone of een online Microsoft Teams-bijeenkomst in een OV-auto te begrijpen… Waarom zouden we dan geen transcriptie gebruiken om informatie over de treinreis zelf te geven?, zo vraagt Lauwereins zich af.
“Een goed presterende transcriptie van audio-aankondigingen is het gewenste resultaat waar we voor gaan. We realiseerden ons daarom dat de spoormarkt een aantal specifieke vereisten heeft waarmee we rekening houden in ons onderzoeksproject.”
De onderzoekspijlers van Televic GSP zijn de volgende:
*Unieke dataset met typische live audio-aankondigingen die leiden tot een relevante trainingsset om de algehele nauwkeurigheid te verbeteren
*Contextuele informatie stelt de algoritmen in staat om de nauwkeurigheid van de transcriptie te verbeteren tot buiten de mogelijkheden van de stand van de techniek.
*Systeeminbedding: de verbinding tussen de transcriptie en onze eigen monitoren is een grote bonus
Ook andere talen zijn mogelijk
Lauwereins: “Uiteindelijk optimaliseren we elke stap in onze stroom van audio tot transcriptie. Door gebruik te maken van een eigen corrector corrigeren we bestaande state-of-the-art modellen voor toepassingen in de spoorsector. We testen zowel vooraf opgenomen berichten als live-aankondigingen in het Engels. In een volgende fase gaan we dat ook voor andere talen doen. We passen contextuele informatie toe om de transcriptie van ultramoderne spraak naar tekstmodellen te verbeteren tot bijna perfecte transcripties.”
Spoorwegpionier
Tenslotte nog eens Lauwereins: “Taalverwerking is erg populair in business-to-consumer contexten. Pionieren in de business-to-business spoorwegmarkt door de transcriptie te optimaliseren is een spannend project. Ons streven is om de toon te zetten voor inclusieve communicatie!”