LLM Testing 101: qualità e metriche di valutazione per sistemi GenAI
Nel software classico “passa i test” significa “funziona”. Nei sistemi basati su LLM (chatbot, RAG, document AI, agenti) questa certezza salta: l’output non è deterministico, la correttezza è spesso una questione di grado, e le regressioni possono arrivare da prompt, modello o dati. È il motivo per cui tante demo sono perfette ma tanti progetti una volta in produzione diventano imprevedibili.
Questo talk porta il principio del TDD dentro la GenAI: definire prima cosa significa “buono”, e poi misurarlo in modo ripetibile. Parliamo di come costruire un golden set da casi reali, come scegliere metriche e rubriche in base al task (retrieval, generazione, estrazione strutturata), come impostare soglie come gate in CI/CD, e come chiudere il cerchio con il monitoraggio in produzione trasformando failure reali in nuovi casi di test. L’obiettivo è uscire dalla modalità “speriamo che regga” e costruire un ciclo di rilascio che regge anche quando cambi modello.