Speaker

Michele Sponsale

Michele Sponsale

Student @ UniPi

Michele Sponsale è un programmatore con una passione per il machine learning, la programmazione funzionale, la teoria dei tipi e i metodi formali. Ha lavorato come full-stack developer utilizzando varie tecnologie, tra cui Flutter e Firebase.

Quando non programma o legge papers, aiuta il GDG Pisa nell'organizzazione di eventi per la community tech locale.

Addestra il tuo LLM a pensare con GRPO — ora anche su piccole GPU!

DeepSeek R1, uno dei large language model più discussi del momento, ha introdotto GRPO, un nuovo algoritmo di reinforcement learning che permetterebbe di addestrare modelli che "ragionano". Ma è davvero così?

Durante questo talk vedremo in cosa consiste l'algoritmo e come è possibile usarlo per trasformare piccoli LLMs in reasoning models. Inoltre, grazie a Unsloth, potremo replicare questo esperimento con modelli fino a 15B parametri anche non dispondendo di GPU potenti!