Speaker

Irene Burresi

Irene Burresi

AI Team Leader @ Value Partners

Irene è AI Team Leader in una società di consulenza strategica. Guida un team su progetti di Document AI, RAG e agenti LLM, provando ogni giorno a tenere insieme qualità del codice, architettura, aspettative di business e la realtà, che non sempre collabora. Ha scoperto che la distanza fra una demo che funziona e un sistema in produzione è più lunga di quanto chiunque voglia ammettere. Porta lezioni pratiche, senza hype.

LLM Testing 101: qualità e metriche di valutazione per sistemi GenAI

Nel software classico “passa i test” significa “funziona”. Nei sistemi basati su LLM (chatbot, RAG, document AI, agenti) questa certezza salta: l’output non è deterministico, la correttezza è spesso una questione di grado, e le regressioni possono arrivare da prompt, modello o dati. È il motivo per cui tante demo sono perfette ma tanti progetti una volta in produzione diventano imprevedibili.

Questo talk porta il principio del TDD dentro la GenAI: definire prima cosa significa “buono”, e poi misurarlo in modo ripetibile. Parliamo di come costruire un golden set da casi reali, come scegliere metriche e rubriche in base al task (retrieval, generazione, estrazione strutturata), come impostare soglie come gate in CI/CD, e come chiudere il cerchio con il monitoraggio in produzione trasformando failure reali in nuovi casi di test. L’obiettivo è uscire dalla modalità “speriamo che regga” e costruire un ciclo di rilascio che regge anche quando cambi modello.