Robust and Efficient Methods for Searching in Speech and Audio Archives
- Promovendus/a
- Sing, Anup
- Faculteit
- Faculteit Ingenieurswetenschappen en Architectuur
- Vakgroep
- Vakgroep Elektronica en Informatiesystemen
- Curriculum
- Master of Science, Indian Institute of Science Education and Research Kolkata (India), 2018
- Academische graad
- Doctor in de ingenieurswetenschappen: computerwetenschappen
- Taal proefschrift
- Engels
- Vertaling titel
- Robuuste en efficiënte methodes voor het doorzoeken van spraak- en audio-archieven
- Promotor(en)
- prof. Kris Demuynck, vakgroep Elektronica en Informatiesystemen - prof. Vipul Arora, KU Leuven - prof. Nilesh Madhu, vakgroep Elektronica en Informatiesystemen
- Examencommissie
- voorzitter em. prof. Daniël De Zutter (eredecaan) - prof. Dick Botteldooren, vakgroep Informatietechnologie - prof. Jan Černocký, Brno University of Technology (Tsjechië) - prof. Miryam de Lhoneux, KU Leuven - prof. Paul Devos, vakgroep Informatietechnologie - promotor prof. Kris Demuynck, vakgroep Elektronica en Informatiesystemen - promotor prof. Vipul Arora, KU Leuven - promotor prof. Nilesh Madhu, vakgroep Elektronica en Informatiesystemen
Korte beschrijving
Dit doctoraatsonderzoek richt zich op de uitdaging om relevante audio uit grote en diverse databases op te halen door akoestische signalen rechtstreeks te vergelijken, zonder gebruik te maken van handmatige annotaties, transcripties of op tekst gebaseerde representaties, en tegelijkertijd generieke opvraagcomponenten te ontwikkelen die breed toepasbaar zijn op andere domeinen, zoals tekst- en beeldopvraging. In het eerste deel wordt audiofingerprinting verbeterd, met als doel audioclips snel te identificeren of te matchen, zelfs als ze kort, ruisachtig of vervormd zijn. Het werk introduceert op leren gebaseerde vingerafdrukken en efficiënte indexeringstechnieken, zodat zoekopdrachten zelfs in zeer grote databases snel blijven. Het tweede deel richt zich op de detectie van gesproken termen, waarbij het doel is om te vinden waar een gesproken woord voorkomt in continue spraak. In plaats van te vertrouwen op spraak-naar-tekstsystemen, zet het onderzoek spraak om in reeksen van discrete geluidstokens, vergelijkbaar met woorden in tekst. Dit maakt het zoeken efficiënter en werkt zelfs voor ruisende opnames, korte zoekopdrachten of talen met beperkte bronnen. Over het geheel genomen draagt dit onderzoek bij aan schaalbare, robuuste en efficiënte audiozoektechnologie, met toepassingen in multimedia-opvraging, spraakgestuurd zoeken en toegang tot spraakgegevens zonder geschreven transcripties.
Praktisch
- Datum
- Vrijdag 13 maart 2026, 16:30
- Locatie
- auditorium A - Magnel, gebouw 60 Magnel (eerste verdieping), Technologiepark Zwijnaarde 60, 9052 Zwijnaarde
- Livestream
- Volg online
Meer info
- Contact
- doctoraat.ea@ugent.be