LLM Performance

ASIC per LLM e chip specializzati per l'inferenza (e perché sono importanti)

ASIC per LLM e chip specializzati per l'inferenza (e perché sono importanti)

Gli ASIC e i silicio personalizzati migliorano velocità ed efficienza dell'inferenza degli LLM.

Il futuro dell’AI non riguarda solo modelli più intelligenti. Riguarda anche il silicio che corrisponde al modo in cui questi modelli vengono effettivamente eseguiti. L’hardware specializzato per l’inference degli LLM sta seguendo una strada che ricorda il passaggio del mining di Bitcoin dalle GPU agli ASIC costruiti appositamente, sebbene con vincoli più stringenti perché modelli e schemi di precisione continuano a evolversi.

Come Ollama gestisce le richieste parallele

Come Ollama gestisce le richieste parallele

Configurare ollama per l'esecuzione di richieste parallele.

Quando il server Ollama riceve due richieste contemporaneamente, il suo comportamento dipende dalla sua configurazione e dalle risorse del sistema disponibili.

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Test della rilevazione delle fallacie logiche

Recentemente abbiamo visto l’uscita di diversi nuovi LLM. Tempi eccitanti. Proviamo a testarli e a vedere come si comportano nel rilevare le fallacie logiche.