Robust and Efficient Methods for Searching in Speech and Audio Archives

Promovendus/a
Sing, Anup
Faculteit
Faculteit Ingenieurswetenschappen en Architectuur
Vakgroep
Vakgroep Elektronica en Informatiesystemen
Curriculum
Master of Science, Indian Institute of Science Education and Research Kolkata (India), 2018
Academische graad
Doctor in de ingenieurswetenschappen: computerwetenschappen
Taal proefschrift
Engels
Vertaling titel
Robuuste en efficiënte methodes voor het doorzoeken van spraak- en audio-archieven
Promotor(en)
prof. Kris Demuynck, vakgroep Elektronica en Informatiesystemen - prof. Vipul Arora, KU Leuven - prof. Nilesh Madhu, vakgroep Elektronica en Informatiesystemen
Examencommissie
voorzitter em. prof. Daniël De Zutter (eredecaan) - prof. Dick Botteldooren, vakgroep Informatietechnologie - prof. Jan Černocký, Brno University of Technology (Tsjechië) - prof. Miryam de Lhoneux, KU Leuven - prof. Paul Devos, vakgroep Informatietechnologie - promotor prof. Kris Demuynck, vakgroep Elektronica en Informatiesystemen - promotor prof. Vipul Arora, KU Leuven - promotor prof. Nilesh Madhu, vakgroep Elektronica en Informatiesystemen

Korte beschrijving

Dit doctoraatsonderzoek richt zich op de uitdaging om relevante audio uit grote en diverse databases op te halen door akoestische signalen rechtstreeks te vergelijken, zonder gebruik te maken van handmatige annotaties, transcripties of op tekst gebaseerde representaties, en tegelijkertijd generieke opvraagcomponenten te ontwikkelen die breed toepasbaar zijn op andere domeinen, zoals tekst- en beeldopvraging. In het eerste deel wordt audiofingerprinting verbeterd, met als doel audioclips snel te identificeren of te matchen, zelfs als ze kort, ruisachtig of vervormd zijn. Het werk introduceert op leren gebaseerde vingerafdrukken en efficiënte indexeringstechnieken, zodat zoekopdrachten zelfs in zeer grote databases snel blijven. Het tweede deel richt zich op de detectie van gesproken termen, waarbij het doel is om te vinden waar een gesproken woord voorkomt in continue spraak. In plaats van te vertrouwen op spraak-naar-tekstsystemen, zet het onderzoek spraak om in reeksen van discrete geluidstokens, vergelijkbaar met woorden in tekst. Dit maakt het zoeken efficiënter en werkt zelfs voor ruisende opnames, korte zoekopdrachten of talen met beperkte bronnen. Over het geheel genomen draagt dit onderzoek bij aan schaalbare, robuuste en efficiënte audiozoektechnologie, met toepassingen in multimedia-opvraging, spraakgestuurd zoeken en toegang tot spraakgegevens zonder geschreven transcripties.

Praktisch

Datum
Vrijdag 13 maart 2026, 16:30
Locatie
auditorium A - Magnel, gebouw 60 Magnel (eerste verdieping), Technologiepark Zwijnaarde 60, 9052 Zwijnaarde
Livestream
Volg online

Meer info

Contact
doctoraat.ea@ugent.be