Interpreting and Aligning Large Language Models
- Promovendus/a
- D'Oosterlinck, Karel
- Faculteit
- Faculteit Ingenieurswetenschappen en Architectuur
- Vakgroep
- Vakgroep Informatietechnologie
- Curriculum
- Master of Computer Science Engineering, Universiteit Gent, 2021
- Academische graad
- Doctor in de ingenieurswetenschappen: computerwetenschappen
- Taal proefschrift
- Engels
- Vertaling titel
- Interpreteren en afstemmen van grote taalmodellen
- Promotor(en)
- prof. Chris Develder, vakgroep Informatietechnologie - prof. Thomas Demeester, vakgroep Informatietechnologie
- Examencommissie
- voorzitter prof. Filip De Turck (academisch secretaris) - prof. Tijl De Bie, vakgroep Elektronica en Informatiesystemen - prof. Tom Dhaene, vakgroep Informatietechnologie - prof. A. Seza Doğruöz, vakgroep Vertalen, tolken en communicatie & vakgroep Informatietechnologie - prof. Douwe Kiela, Stanford University, VS - prof. Christopher Potts, Stanford University, VS - promotor prof. Chris Develder, vakgroep Informatietechnologie - promotor prof. Thomas Demeester, vakgroep Informatietechnologie
Korte beschrijving
Moderne AI-systemen, zoals Large Language Models (LLMs), bieden indrukwekkende mogelijkheden, maar brengen ook grote uitdagingen met zich mee op het gebied van interpretatie en alignment. In mijn onderzoek richt ik mij op het begrijpen van de interne werking van LLMs (interpretability) en het waarborgen dat hun gedrag overeenkomt met de bedoelingen van de ontwikkelaar (alignment). Interpretatie is cruciaal omdat we vaak niet begrijpen hoe complexe modellen zoals LLMs beslissingen nemen. In mijn werk introduceer ik een causale benadering voor interpretatie van AI-systemen. Hiermee ontwikkelde ik benchmarks en datasets om bestaande interpretatie-methoden te evalueren en te vergelijken. Ik toonde aan dat veel methoden beperkt effectief zijn en verbeterde prestaties realiseerbaar zijn door een AI-systeem te laten interpreteren door een tweede AI-systeem. Naast interpretatie is alignment een even belangrijk vraagstuk. Mijn onderzoek bracht significante tekortkomingen in bestaande alignment-methoden aan het licht, die de betrouwbaarheid van AI-systemen beïnvloeden. Ik ontwikkelde nieuwe technieken, zoals preciezere trainingsalgoritmen en betere datasets, om de prestaties en ethiek van AI te verbeteren. Mijn werk combineert theoretische inzichten met praktische innovaties en biedt oplossingen om AI-systemen veiliger en transparanter te maken. Hiermee lever ik een bijdrage aan het verantwoord gebruik van AI in onze maatschappij.
Praktisch
- Datum
- Vrijdag 14 februari 2025, 16:00
- Locatie
- Auditorium P Jozef Plateau, Plateaustraat 22, 9000 Gent
- Livestream
- Volg online