HomeAITether presenta il dataset QVAC Genesis II, 148 miliardi di token per...

Tether presenta il dataset QVAC Genesis II, 148 miliardi di token per l’AI aperta

Nell’ambito della ricerca su intelligenza artificiale e formazione, Tether ha deciso di ampliare in modo significativo il proprio dataset QVAC Genesis, puntando su qualità didattica e accesso aperto ai dati.

QVAC Genesis II: il più grande dataset educativo sintetico aperto

Tether, attraverso la sua divisione di ricerca dati e AI QVAC, ha rilasciato QVAC Genesis II, un importante aggiornamento del proprio programma di dati educativi sintetici. Il dataset pubblico raggiunge ora 148 miliardi di token, candidandosi come il più grande archivio educativo sintetico aperto per il pre-training di modelli di intelligenza artificiale.

L’espansione rappresenta un salto dimensionale rispetto alla versione precedente, consolidando l’obiettivo di offrire una base di addestramento ampia ma anche strutturata. Inoltre, la crescita non riguarda solo il volume, ma soprattutto la profondità logica e il rigore accademico.

Espansione a 19 domini accademici e focus sul ragionamento

QVAC Genesis II aggiunge 107 miliardi di token e porta la copertura complessiva a 19 domini accademici. Oltre alle precedenti materie STEM, il dataset include ora informatica, chimica, statistica, machine learning, astronomia, geografia ed econometria.

Il team ha inoltre ricostruito in modo mirato i contenuti di fisica a livello universitario, utilizzando tecniche di generazione migliorate. In questo modo, il materiale riflette una progressione logica più solida e standard accademici più stringenti rispetto alla prima generazione di dati.

Ogni area disciplinare è progettata per favorire la comprensione dei concetti, evitando una semplice memorizzazione delle risposte. Inoltre, la struttura dei contenuti mira a ridurre l’ambiguità nelle risposte dei modelli, rafforzando percorsi di ragionamento chiari e tracciabili.

Nuovo metodo Option-Level Reasoning per domande a scelta multipla

Una delle novità centrali del rilascio è l’introduzione di Option-Level Reasoning, un metodo di generazione dati che analizza in profondità le domande a scelta multipla. Per ogni quesito vengono valutate tutte le possibili opzioni di risposta.

Questo approccio spiega esplicitamente perché le risposte corrette sono tali e, al tempo stesso, chiarisce perché le opzioni errate falliscono. Inoltre, il metodo affronta direttamente i fraintendimenti più comuni, integrandoli nel dato di addestramento come esempi istruttivi.

L’Option-Level Reasoning QVAC opera in sinergia con il precedente framework di Failure Analysis, già utilizzato dal team. Di conseguenza, ogni esempio di training è pensato per avere un valore didattico specifico, e non solo informativo in senso generico.

Valore didattico e risultati nei test indipendenti

La combinazione tra Option-Level Reasoning e Failure Analysis trasforma ogni domanda in una mini-lezione strutturata. Tuttavia, l’obiettivo non è solo fornire la soluzione, ma rendere esplicito il percorso logico che porta a quella conclusione.

I test indipendenti condotti su modelli addestrati con Genesis II mostrano spiegazioni più chiare e una maggiore accuratezza nelle capacità di ragionamento. In contrasto con dataset meno strutturati, i modelli risultano più abili nel motivare le proprie risposte.

Nel complesso, la nuova generazione di dati educativi sintetici punta a ridurre risposte superficiali e a minimizzare errori derivanti da comprensioni parziali, un aspetto ritenuto cruciale per applicazioni didattiche e professionali.

Licenza aperta e supporto alla ricerca decentralizzata

L’insieme dei dati ampliato è stato rilasciato con licenza Creative Commons Attribution–NonCommercial. Questa scelta consente un utilizzo esteso da parte di ricercatori accademici e sviluppatori indipendenti, pur mantenendo limiti sull’impiego commerciale diretto.

Inoltre, il dataset resta libero da vincoli proprietari tipici dei grandi archivi utilizzati dalle piattaforme commerciali di AI. Ciò permette analisi, confronti e sperimentazioni in scenari in cui la trasparenza del dato di origine è essenziale.

All’interno di questa cornice, il dataset QVAC Genesis si propone come infrastruttura di riferimento per progetti che puntano a modelli spiegabili e verificabili, evitando dipendenze da ecosistemi chiusi e poco documentati.

Strategia di Tether per sistemi di AI locali e aperti

La decisione di pubblicare un dataset educativo sintetico su larga scala si inserisce nella strategia più ampia di Tether a favore di sistemi di AI decentralizzati e locali. L’azienda evidenzia come solide basi di dati aperti possano ridurre le barriere all’innovazione.

Detto ciò, l’obiettivo non è solo democratizzare l’accesso, ma anche consentire la creazione di modelli affidabili senza dipendere dall’infrastruttura cloud centralizzata. In questo contesto, l’espansione a 148 miliardi di token diventa un elemento chiave per garantire ampiezza e varietà di contenuti.

Nel complesso, la combinazione tra ampiezza del corpus, rigore metodologico e licenza aperta rende il progetto una risorsa potenzialmente centrale per la ricerca decentralizzata in ambito AI, con benefici attesi per comunità di sviluppatori e istituzioni accademiche a livello globale.

Amelia Tomasicchiohttps://cryptonomist.ch
Esperta di digital marketing, Amelia inizia a lavorare nel settore fintech nel 2014 dopo aver scritto la sua tesi di laurea sulla tecnologia Bitcoin. Precedentemente è stata un'autrice di diversi magazine crypto all'estero e CMO di Eidoo. Oggi è co-founder di Cryptonomist, e di Econique.art. E' stata nominata una delle 30 under 30 secondo Forbes. Amelia è stata anche insegnante di marketing presso Digital Coach e ha pubblicato un libro "NFT: la guida completa'" edito Mondadori. Inoltre è co-founder del progetto NFT chiamato The NFT Magazine, oltre ad aiutare artisti e aziende ad entrare nel settore. Come advisor, Amelia è anche coinvolta in progetti sul metaverso come The Nemesis e OVER.
RELATED ARTICLES

Stay updated on all the news about cryptocurrencies and the entire world of blockchain.

Featured video

LATEST