More with Less: Strategies for Building Robust and Efficient Speech Recognition Models
- Promovendus/a
- Vanderreydt, Geoffroy
- Faculteit
- Faculteit Ingenieurswetenschappen en Architectuur
- Vakgroep
- Vakgroep Elektronica en Informatiesystemen
- Curriculum
- Master of Science Electrical Engineering, Information Technology and Computer Engineering, RWTH Aachen University (Duitsland), 2016
- Academische graad
- Doctor in de ingenieurswetenschappen: elektrotechniek
- Taal proefschrift
- Engels
- Vertaling titel
- Meer met minder: strategieën voor het bouwen van robuuste en efficiënte spraakherkenningsmodellen
- Promotor(en)
- prof. Kris Demuynck, vakgroep Elektronica en Informatiesystemen - prof. Veronique Hoste, vakgroep Vertalen, tolken en communicatie
- Examencommissie
- voorzitter prof. Filip De Turck (academisch secretaris) - prof. Tony Belpaeme, vakgroep Elektronica en Informatiesystemen - prof. Paul Devos, vakgroep Informatietechnologie - prof. Nilesh Madhu, vakgroep Elektronica en Informatiesystemen - prof. Petr Motlicek, Idiap Research Institute (Zwitserland) & Brno University of Technology (Tsjechië) - dr. Louis ten Bosch, Radboud Universiteit (Nederland) - promotor prof. Kris Demuynck, vakgroep Elektronica en Informatiesystemen - promotor prof. Veronique Hoste, vakgroep Vertalen, tolken en communicatie
Korte beschrijving
Spraak is één van de meest natuurlijke vormen van menselijke communicatie. Automatische spraakherkenning (ASR) zet gesproken taal om in tekst en vormt daarmee de basis van toepassingen zoals virtuele assistenten, real-time ondertiteling en digitale toegankelijkheid. Ondanks de grote vooruitgang door deep learning blijven de prestaties echter ongelijk: ruis, accenten, spontane spraak en een gebrek aan data kunnen de nauwkeurigheid aanzienlijk verlagen. Vooral sprekers van minder vertegenwoordigde talen en variëteiten ondervinden hierdoor slechtere resultaten. Tegelijk worden moderne ASR-systemen steeds groter en energie-intensiever, waardoor ze niet voor iedereen toegankelijk zijn. Dit proefschrift richt zich daarom op de vraag hoe spraakherkenning zowel robuuster als efficiënter kan worden, met bijzondere aandacht voor situaties met beperkte data en rekenkracht. Het werk introduceert onder meer technieken voor robuustere signaalverwerking, methoden voor kennisoverdracht tussen talen en spraaktaken, en het gebruik van fonologische kenmerken als interpreteerbare tussenvorm. Daarnaast worden nieuwe, parameter-efficiënte strategieën ontwikkeld om grote neurale modellen aan te passen en stapsgewijs uit te breiden zonder ze volledig opnieuw te trainen. Deze bijdragen tonen aan dat nauwkeurige spraakherkenning mogelijk is zonder buitensporige data- en energiebehoefte. Zo levert dit proefschrift een bijdrage aan duurzamere, toegankelijkere en eerlijkere spraaktechnologie, die een brede en diverse groep sprekers beter kan bedienen.
Praktisch
- Datum
- Woensdag 4 maart 2026, 18:00
- Locatie
- auditorium 1, iGent (eerste verdieping), Technologiepark Zwijnaarde 126, 9052 Zwijnaarde
- Livestream
- Volg online
Meer info
- Contact
- doctoraat.ea@ugent.be