Ciao! Penso ci sia un po' di confusione sull'argomento.
L'addestramento, o training, viene praticamente sempre fatto su GPU, principalmente perché è un lavoro particolarmente lungo che beneficia molto della computazione parallela, e come utente finale non è una cosa che ti dovrebbe toccare.
Quello che interessa a te è l' "inference", cioè quando chiedi al tuo modello locale di generare delle parole.
Per non perderci troppo nei concetti che, sinceramente, non credo t'interessino, e facendola un sacco grossolana, quello che devi cercare sono i modelli quantizzati in formato GGML , come per esempio questo: https://huggingface.co/TheBloke/manticore-13b-chat-pyg-GGML
Nella model card puoi vedere una descrizione dei vari tipi di quantizzazione disponibili e anche delle veloci descrizioni su come farli funzionare con i vari programmi.
Personalmente uso direttamente llama.cpp e non uso web gui, quindi non ho molta esperienza con oobabooga.
Se vuoi una lista di modelli disponibili ti consiglio quella presente nel profilo di TheBloke, che quantizza modelli anche quando dorme.
Altre note:
I GPTQ sono quantizzati con un altro sistema e credo debbano esser caricati completamente in VRAM (nella memoria della scheda grafica) quindi evitali. Gli f16 sono modelli "grezzi", evita anche quelli.
I modelli SuperHot usano delle tecniche per aumentare il contesto del LLM da 2046 a 8192 token. Se non sai di cosa si tratta per il momento non perderci il sonno ed evitali.
Se ho malinteso la domanda fammelo sapere!
EDIT: Tendenzialmente l'inferenza su CPU è lenta: dovresti puntare a modelli di piccole dimensioni, quindi da 3b o, al massimo, 7b. Quello che ti ho linkato come esempio è più grande, a 13b.