Interpreting and Aligning Large Language Models

Promovendus/a
D'Oosterlinck, Karel
Faculteit
Faculteit Ingenieurswetenschappen en Architectuur
Vakgroep
Vakgroep Informatietechnologie
Curriculum
Master of Computer Science Engineering, Universiteit Gent, 2021
Academische graad
Doctor in de ingenieurswetenschappen: computerwetenschappen
Taal proefschrift
Engels
Vertaling titel
Interpreteren en afstemmen van grote taalmodellen
Promotor(en)
prof. Chris Develder, vakgroep Informatietechnologie - prof. Thomas Demeester, vakgroep Informatietechnologie
Examencommissie
voorzitter prof. Filip De Turck (academisch secretaris) - prof. Tijl De Bie, vakgroep Elektronica en Informatiesystemen - prof. Tom Dhaene, vakgroep Informatietechnologie - prof. A. Seza Doğruöz, vakgroep Vertalen, tolken en communicatie & vakgroep Informatietechnologie - prof. Douwe Kiela, Stanford University, VS - prof. Christopher Potts, Stanford University, VS - promotor prof. Chris Develder, vakgroep Informatietechnologie - promotor prof. Thomas Demeester, vakgroep Informatietechnologie

Korte beschrijving

Moderne AI-systemen, zoals Large Language Models (LLMs), bieden indrukwekkende mogelijkheden, maar brengen ook grote uitdagingen met zich mee op het gebied van interpretatie en alignment. In mijn onderzoek richt ik mij op het begrijpen van de interne werking van LLMs (interpretability) en het waarborgen dat hun gedrag overeenkomt met de bedoelingen van de ontwikkelaar (alignment). Interpretatie is cruciaal omdat we vaak niet begrijpen hoe complexe modellen zoals LLMs beslissingen nemen. In mijn werk introduceer ik een causale benadering voor interpretatie van AI-systemen. Hiermee ontwikkelde ik benchmarks en datasets om bestaande interpretatie-methoden te evalueren en te vergelijken. Ik toonde aan dat veel methoden beperkt effectief zijn en verbeterde prestaties realiseerbaar zijn door een AI-systeem te laten interpreteren door een tweede AI-systeem. Naast interpretatie is alignment een even belangrijk vraagstuk. Mijn onderzoek bracht significante tekortkomingen in bestaande alignment-methoden aan het licht, die de betrouwbaarheid van AI-systemen beïnvloeden. Ik ontwikkelde nieuwe technieken, zoals preciezere trainingsalgoritmen en betere datasets, om de prestaties en ethiek van AI te verbeteren. Mijn werk combineert theoretische inzichten met praktische innovaties en biedt oplossingen om AI-systemen veiliger en transparanter te maken. Hiermee lever ik een bijdrage aan het verantwoord gebruik van AI in onze maatschappij.

Praktisch

Datum
Vrijdag 14 februari 2025, 16:00
Locatie
Auditorium P Jozef Plateau, Plateaustraat 22, 9000 Gent
Livestream
Volg online