More with Less: Strategies for Building Robust and Efficient Speech Recognition Models

Promovendus/a
Vanderreydt, Geoffroy
Faculteit
Faculteit Ingenieurswetenschappen en Architectuur
Vakgroep
Vakgroep Elektronica en Informatiesystemen
Curriculum
Master of Science Electrical Engineering, Information Technology and Computer Engineering, RWTH Aachen University (Duitsland), 2016
Academische graad
Doctor in de ingenieurswetenschappen: elektrotechniek
Taal proefschrift
Engels
Vertaling titel
Meer met minder: strategieën voor het bouwen van robuuste en efficiënte spraakherkenningsmodellen
Promotor(en)
prof. Kris Demuynck, vakgroep Elektronica en Informatiesystemen - prof. Veronique Hoste, vakgroep Vertalen, tolken en communicatie
Examencommissie
voorzitter prof. Filip De Turck (academisch secretaris) - prof. Tony Belpaeme, vakgroep Elektronica en Informatiesystemen - prof. Paul Devos, vakgroep Informatietechnologie - prof. Nilesh Madhu, vakgroep Elektronica en Informatiesystemen - prof. Petr Motlicek, Idiap Research Institute (Zwitserland) & Brno University of Technology (Tsjechië) - dr. Louis ten Bosch, Radboud Universiteit (Nederland) - promotor prof. Kris Demuynck, vakgroep Elektronica en Informatiesystemen - promotor prof. Veronique Hoste, vakgroep Vertalen, tolken en communicatie

Korte beschrijving

Spraak is één van de meest natuurlijke vormen van menselijke communicatie. Automatische spraakherkenning (ASR) zet gesproken taal om in tekst en vormt daarmee de basis van toepassingen zoals virtuele assistenten, real-time ondertiteling en digitale toegankelijkheid. Ondanks de grote vooruitgang door deep learning blijven de prestaties echter ongelijk: ruis, accenten, spontane spraak en een gebrek aan data kunnen de nauwkeurigheid aanzienlijk verlagen. Vooral sprekers van minder vertegenwoordigde talen en variëteiten ondervinden hierdoor slechtere resultaten. Tegelijk worden moderne ASR-systemen steeds groter en energie-intensiever, waardoor ze niet voor iedereen toegankelijk zijn. Dit proefschrift richt zich daarom op de vraag hoe spraakherkenning zowel robuuster als efficiënter kan worden, met bijzondere aandacht voor situaties met beperkte data en rekenkracht. Het werk introduceert onder meer technieken voor robuustere signaalverwerking, methoden voor kennisoverdracht tussen talen en spraaktaken, en het gebruik van fonologische kenmerken als interpreteerbare tussenvorm. Daarnaast worden nieuwe, parameter-efficiënte strategieën ontwikkeld om grote neurale modellen aan te passen en stapsgewijs uit te breiden zonder ze volledig opnieuw te trainen. Deze bijdragen tonen aan dat nauwkeurige spraakherkenning mogelijk is zonder buitensporige data- en energiebehoefte. Zo levert dit proefschrift een bijdrage aan duurzamere, toegankelijkere en eerlijkere spraaktechnologie, die een brede en diverse groep sprekers beter kan bedienen.

Praktisch

Datum
Woensdag 4 maart 2026, 18:00
Locatie
auditorium 1, iGent (eerste verdieping), Technologiepark Zwijnaarde 126, 9052 Zwijnaarde
Livestream
Volg online

Meer info

Contact
doctoraat.ea@ugent.be