HomeAIPerché la domanda di inference sta esplodendo e cosa significa per le...

Perché la domanda di inference sta esplodendo e cosa significa per le reti di calcolo decentralizzate

Negli ultimi due anni, l’intelligenza artificiale ha cambiato il proprio baricentro. Se nel 2022–2023 tutto ruotava attorno ai grandi modelli e al loro addestramento, oggi la vera battaglia non si combatte più nella costruzione dei modelli, ma nella loro esecuzione continua, nella capacità di rispondere a miliardi di query ogni giorno. È la guerra dell’inference, ed è molto più importante di quanto sembri.

Messari lo dice chiaramente nel suo reportState of AI 2025”: entro il 2030 l’inference rappresenterà tra il 50% e il 75% della domanda globale di calcolo. Una soglia talmente alta da ridisegnare completamente la geografia dell’infrastruttura AI.

Oggi, ogni volta che un utente apre ChatGPT, genera un’immagine, chiede un consiglio, analizza un testo, chiede a un agente di navigare sul web o di prendere una decisione: sta consumando inference. E lo stesso accade per migliaia di agenti AI che eseguono operazioni continue sullo sfondo, senza che nessuno li guardi.

Il risultato è un consumo di calcolo che cresce in modo verticale, ben oltre quello necessario per addestrare i modelli stessi.

La nuova pressione: utenti reali, interazioni reali

Le ragioni di questa crescita sono molteplici, ma tutte convergono in un’unica direzione: l’AI è ormai un servizio di massa. Gli utenti non si limitano più a sperimentare; usano l’AI in modo quotidiano, prolungato e sempre più complesso.

Le sessioni di ChatGPT sono diventate più lunghe e più articolate: secondo i dati riportati da Messari, il tempo speso sui modelli è raddoppiato in un anno, e la durata media di una singola sessione è salita del 75%. È un segnale chiarissimo: l’AI non è più un assistente “occasionale”, ma un vero ambiente operativo dove l’utente rimane più a lungo, facendo richieste più estese e più dense di token.

A questo si aggiunge l’esplosione dell’AI consumer. Nel 2024 le app di intelligenza artificiale hanno superato il miliardo di download, con una crescita superiore al 100% su base annua. ChatGPT conta oggi oltre 700 milioni di utenti settimanali, mentre Gemini, Copilot e Claude seguono ritmi analoghi. È un’ondata continua di richieste che si traduce in compute, e quindi in costi.

Il fattore “reasoning”: i modelli intelligenti costano molto di più

A rendere tutto ancora più pesante c’è l’ascesa dei modelli orientati al “reasoning”, quelli che non si limitano a completare frasi, ma tentano di ragionare, spiegare, pianificare. Questi modelli consumano fino a dieci volte più token per rispondere alla stessa domanda rispetto a un modello tradizionale.

Se a questo si somma il fatto che il settore ha ormai adottato tecniche di post-training basate sul reinforcement learning — come dimostrato da DeepSeek — la pressione sul compute esplode ulteriormente. Il reinforcement learning genera migliaia di iterazioni per ogni singolo problema, moltiplicando il consumo di calcolo su scala industriale.

In altre parole: più l’AI diventa intelligente, più diventa costosa da far funzionare.

Il problema dei costi: l’inference è diventata il nuovo “nocciolo duro” dell’AI

C’è un punto che spesso viene sottovalutato: il training è un costo enorme, ma è un costo una tantum. Una volta addestrato, il modello esiste. L’inference, al contrario, è un costo continuo, infinito, proporzionale al numero di utenti, agenti e applicazioni che lo utilizzano.

Per i grandi laboratori — OpenAI, Anthropic, Google — l’inference è diventata la voce di spesa dominante. E questa dinamica sta creando spazio per una rivoluzione silenziosa che riguarda molto da vicino l’ecosistema crypto.

L’open-source ribalta l’equilibrio: modelli più piccoli, più veloci e molto più economici

Mentre i modelli proprietari continuano a crescere di dimensione e complessità, l’open-source sta chiudendo rapidamente il divario. Secondo il benchmark Artificial Analysis citato da Messari, la differenza tra i migliori modelli closed e quelli open di lunga scala è oggi sorprendentemente ridotta, soprattutto se confrontata ai costi.

Un modello open da 120 miliardi di parametri costa fino al 90% in meno in inference rispetto a ChatGPT-5, con una perdita di capacità tutto sommato marginale.

Ma la vera rivoluzione riguarda i modelli small e mid-size, tra 4 e 40 miliardi di parametri. Oggi, molti di questi modelli sono in grado di risolvere compiti complessi pur girando su una singola GPU consumer come una RTX 4090 o 5090. Questo significa che l’inference non deve più essere centralizzata in giganteschi data center: può essere distribuita.

Ed è qui che il mondo della decentralized AI trova il suo terreno naturale.

L’ascesa delle reti di calcolo decentralizzate (DCN): una nuova economia del calcolo

Le reti di calcolo decentralizzate (DCN) — come Render, Akash, io.net, Aethir, Hyperbolic, EigenCloud ed Exabits — aggregano milioni di GPU distribuite in tutto il mondo. Per anni queste reti hanno faticato a trovare un vero mercato: il training dei grandi modelli era semplicemente troppo complesso a causa della latenza e dei continui scambi di informazione tra GPU.

Ma l’inference è un’altra storia.

L’inference richiede molta meno comunicazione orizzontale, può essere eseguita in modo altamente parallelizzato e può sfruttare hardware eterogeneo. Non ha bisogno di cluster perfetti e super-sincronizzati. È un lavoro ideale per migliaia di nodi sparsi, soprattutto ora che i modelli più piccoli stanno diventando sorprendentemente potenti.

Questa volta, il mercato c’è davvero. E Messari lo definisce il primo, vero “product-market fit” dell’intero settore deAI.

Il caso Fortytwo: la swarm intelligence come dimostrazione pratica

Tra le innovazioni più interessanti, il report cita Fortytwo Network, una rete che coordina piccoli modelli installati sui laptop degli utenti. Questi modelli lavorano insieme come uno sciame: ognuno risponde alla stessa domanda, poi valuta le risposte degli altri, e infine la rete produce una risposta ottimizzata basata sul consenso.

Il meccanismo genera credito, reputazione e ricompense onchain. Ed è così efficiente che Fortytwo è riuscita addirittura a produrre datasets interamente generati dalla swarm e a post-addestrare un modello specializzato in Rust, ottenendo risultati superiori a modelli molto più grandi.

È un esempio concreto di come la decentralizzazione non sia solo auspicabile, ma già competitiva.

La questione della verifica: il tassello indispensabile per l’inference decentralizzata

Ogni volta che una richiesta viene eseguita su un nodo distribuito, sorge una domanda cruciale: come si può essere certi che il risultato sia corretto? È qui che la crypto entra in gioco in modo decisivo.

Messari analizza tre approcci oggi dominanti:

  • le prove a conoscenza zero (zkML), lente ma estremamente sicure;
  • i sistemi ottimistici, dove il risultato è considerato valido salvo challenge;
  • le enclave hardware (TEE), più veloci ma basate su fiducia hardware.

Tra i pionieri del settore viene citata EigenCloud, che sta portando sul mercato un’inference deterministica e verificabile, compatibile con le API di OpenAI e già utilizzata per agent frameworks di Coinbase e Google.

La verifica non è un dettaglio tecnico: è ciò che rende l’AI adatta alla finanza, alla salute, alla governance, alle transazioni autonome. È il ponte tra AI e Web3.

Il futuro: un’economia di agenti che consumano compute in modo continuo

La conclusione del report è chiara: il futuro dell’AI non sarà dominato dai modelli più grandi, ma da chi saprà servire l’inference nel modo più scalabile, economico e verificabile possibile. Se oggi gli utenti umani generano milioni di richieste, domani gli agenti autonomi ne genereranno miliardi. E ognuna di queste richieste avrà un costo di calcolo.

A quel punto, le decentralized compute networks non saranno più un’alternativa sperimentale: diventeranno una necessità economica.

Conclusione

Stiamo entrando nell’era dell’inference, non del training.
Un’era in cui la domanda cresce senza limiti, in cui il calcolo non è più un investimento isolato ma un flusso continuo, e in cui milioni di modelli — grandi o piccoli — dovranno essere serviti ogni secondo.

Ed è proprio qui, in questo enorme spazio economico, che il mondo crypto sta trovando il suo ruolo più naturale: quello di coordinare, verificare, distribuire ed economicizzare la potenza di calcolo necessaria a sostenere una società sempre più intelligente.

Francesco Antonio Russo
Francesco Antonio Russo
Imprenditore Web 3.0 da oltre 4 anni, esperto di Criptovalute ed Intelligenza Artificiale. Usa le sue competenze trasversali per una Gestione dei social funzionale ed al passo con i trend.
RELATED ARTICLES

Stay updated on all the news about cryptocurrencies and the entire world of blockchain.

LATEST