Addestra il tuo LLM a pensare con GRPO — ora anche su piccole GPU!
DeepSeek R1, uno dei large language model più discussi del momento, ha introdotto GRPO, un nuovo algoritmo di reinforcement learning che permetterebbe di addestrare modelli che "ragionano". Ma è davvero così?
Durante questo talk vedremo in cosa consiste l'algoritmo e come è possibile usarlo per trasformare piccoli LLMs in reasoning models. Inoltre, grazie a Unsloth, potremo replicare questo esperimento con modelli fino a 15B parametri anche non dispondendo di GPU potenti!