I Large Language Model sono capaci di valutare i compiti scritti degli studenti? Uno studio pilota in Università

Agostini, Daniele

doi:10.6093/2284-0184/10671

La rapida adozione di modelli linguistici di grandi dimensioni (LLM) come ChatGPT nell'istruzione superiore solleva domande critiche sulle loro capacità valutative. Questo studio pilota esplora la capacità degli LLM attuali nel supportare i docenti universitari nella valutazione dei lavori scritti degli studenti, utilizzando rubriche, anche per compiti aperti. Cinque prominenti LLM (ChatGPT-3.5, ChatGPT-4, Claude 2, Bing Chat, Bard) più un outsider (OpenChat 3.5) hanno valutato 21 progetti di gruppo anonimi di un corso di specializzazione nell’insegnamento utilizzando una rubrica a 5 criteri. I loro punteggi sono stati confrontati con due valutatori umani esperti attraverso analisi statistiche. I risultati hanno rilevato che Claude 2 e ChatGPT-4 hanno raggiunto la più alta concordanza complessiva con i valutatori umani, sebbene il modello open-source OpenChat 3.5 abbia avuto buone prestazioni, al di sopra della sua categoria. La concordanza è variata a seconda dei criteri di valutazione; l'assegnazione dei punteggi da parte degli LLM si è allineata più strettamente su obiettivi di base, divergendo su compiti complessi come i metodi di valutazione e la progettazione dell’intervento didattico. Gli LLM attuali mostrano potenzialità nel supportare la valutazione del docente ma mancano di capacità di assegnazione autonoma dei punteggi, specialmente per criteri sofisticati della rubrica. Ulteriori ricerche dovrebbero affinare le tecniche di prompting e specializzare i modelli, avvicinandosi a una valutazione assistita piuttosto che autonoma da parte dell’AI. Le principali limitazioni di questo studio sono le modeste dimensioni del campione e l’unica disciplina esplorata. Questo studio fornisce prove iniziali delle possibilità e delle sfide che presenta il supporto alla valutazione da parte degli LLM nell'istruzione superiore.

ARE LARGE LANGUAGE MODELS CAPABLE OF ASSESSING STUDENTS’ WRITTEN PRODUCTS? A PILOT STUDY IN HIGHER EDUCATION. The rapid adoption of large language models (LLMs) like ChatGPT in higher education raises critical questions about their capabilities for assessment. This pilot study explores whether current LLMs can support university instructors in evaluating students’ written work using rubrics, even for open-ended tasks. Five prominent LLMs (ChatGPT-3.5, ChatGPT-4, Claude 2, Bing Chat, Bard) plus an outsider (OpenChat 3.5) evaluated 21 anonymous group projects from an education course using a 5-criteria rubric. Their scores were compared to two human expert raters through statistical analyses. Results found Claude 2 and ChatGPT-4 had the highest overall agreement with human raters, although the open-source OpenChat 3.5 model performed well above its scale. Agreement varied by assessment criteria; LLM scoring aligned more closely on basic objectives but diverged on complex tasks like evaluating assessment practices and the educational project design. Current LLMs show promise in supporting assessment but lack independent scoring ability, especially for sophisticated rubric dimensions. Further research should refine prompting techniques and specialize models, moving towards AI-assisted rather than autonomous evaluation. The main limitations of this study are the small sample size and limited disciplines. This study provides initial evidence for the possibilities and pitfalls of LLM assessment aid in higher education.

I Large Language Model sono capaci di valutare i compiti scritti degli studenti? Uno studio pilota in Università / Agostini, Daniele. - In: RESEARCH TRENDS IN HUMANITIES EDUCATION & PHILOSOPHY. - ISSN 2284-0184. - 11:(2024), pp. 38-60. [10.6093/2284-0184/10671]