Il ferro che guiderà l’intelligenza artificiale sulle piattaforme Meta

Se c’è una cosa che è costantemente vera per i cluster HPC negli ultimi trent’anni e per i sistemi di formazione basati sull’intelligenza artificiale negli ultimi dieci anni, è che man mano che i carichi di lavoro crescono, la rete diventa sempre più importante – e forse tanto importante quanto racchiudere tanti flop in un unico sistema. nodo come fisicamente e termicamente ha senso.

Per quanto riguarda i sistemi di addestramento con intelligenza artificiale, niente lo illustra meglio dell’evoluzione dei server su misura creati da Meta Platforms, già nel lontano 2016, quando si chiamava ancora Facebook e quando donò il suo primo progetto di sistema di intelligenza artificiale all’Open Compute Project che aveva fondato nel 2011. Tale co-progettazione di hardware e software applicativo negli anni declinanti della Legge di Moore è stato uno dei temi centrali che ci ha portato a fondare The Next Platform, ed eccoci qui, otto anni dopo, e gli hyperscaler e i costruttori di cloud stanno ancora ri-insegnando noi alcune delle lezioni che abbiamo imparato molto tempo fa nell'arena HPC con alcuni colpi di scena interessanti che sono unici per l'IA.

All'OCP Global Summit nella Silicon Valley questa settimana, Meta Platforms ha presentato il suo nuovo sistema di intelligenza artificiale "Grand Teton" e un array di archiviazione ad alta capacità "Grand Canyon" basato su unità disco, i cui progetti saranno entrambi donati all'Open Compute Progetta in modo che altri produttori possano creare sistemi compatibili con il ferro che Meta Platforms utilizzerà per i propri stack software AI.

Le specifiche complete del sistema Grand Teton non sono state divulgate, il che è un peccato, ma abbiamo ottenuto alcune informazioni da un blog pubblicato da Alexis Bjorlin, vicepresidente delle infrastrutture dell'azienda, e le specifiche per l'array di storage Grand Canyon sono in realtà disponibile presso l'OCP. (Nonostante Meta Platforms disponga di una larghezza di banda di streaming video sufficiente per ospitare miliardi di persone, sceglie di non donare risorse a OCP in modo che chiunque possa partecipare all'evento praticamente da qualsiasi luogo. Quest'anno, le persone dovevano partecipare di persona al vertice globale OCP, cosa che non siamo riusciti a fare. Quindi non possiamo affrettarci di persona per avere maggiori dettagli, ma state tranquilli, ci stiamo affrettando da lontano.)

Fortunatamente, curiosando in giro, ci siamo imbattuti in un articolo pubblicato da Meta Platforms in aprile sul sistema Neo di coprogettazione hardware-software utilizzato per creare il sistema di intelligenza artificiale "Zion" della generazione precedente del 2019 e il sistema "ZionEX" del 2021. questo è stato il suo kicker e di cui la società non ha detto molto pubblicamente fino a quest'anno. Neo è una sorta di hypervisor di memorizzazione nella cache creato da Meta Platforms che consente un utilizzo flessibile e scalabile di varie parti della gerarchia di memoria in cluster, il tutto sotto il controllo del software. (Il design di ZionEX è stato contribuito all'OCP, tra l'altro, ed è ora sotto il documento delle specifiche Zion 1.0. Grand Teton sarà contribuito all'OCP nell'aprile 2023, secondo fonti di Meta Platforms. Non sappiamo cosa sia successo alle specifiche del server Zion originale.)

Le macchine ZionEX e l'hypervisor della memoria cache Neo (questo è il nostro termine, non quello di Meta Platforms) vengono utilizzati per addestrare modelli di raccomandazione di deep learning (DLRM), che rappresentano un carico di lavoro chiave per le aziende moderne e in questo caso vengono utilizzati per provare per capire quali annunci e contenuti mostrare agli utenti su Facebook, Instagram, WhatsApp e il resto dello stack.

Il fabbisogno di potenza per i DLRM e per i modelli di trasformatore (utilizzati nell'elaborazione del linguaggio naturale) è piuttosto intenso, come mostrano questi grafici del documento di aprile:

Meta Platforms ha utilizzato i cluster ZionEX, che accoppiano più sistemi Zion insieme, per addestrare modelli DLRM di dimensioni variabili da 95 miliardi a 12 trilioni di parametri e offrendo un ordine di grandezza di accelerazione rispetto ai cluster più semplici di macchine Zion. Il design originale di Zion non si adattava bene, secondo Meta Platforms, e spesso una sessione di allenamento rimaneva intrappolata all'interno di una macchina. Ma con ZionEX, Meta Platforms ha ideato una topologia completamente connessa per le GPU che utilizza RDMA su Converged Ethernet per bypassare lo stack di rete della CPU e fornire alle GPU pieno accesso alla memoria reciproca attraverso la struttura Ethernet. (Ne parleremo più avanti.)