All'interno del futuro rack e microserver Iron di Facebook

Gli hyperscaler e i costruttori di cloud hanno stabilito il ritmo dell’innovazione nell’arena dei server negli ultimi dieci anni circa, in particolare e pubblicamente da quando Facebook ha avviato l’Open Compute Project nell’aprile 2011 e si è intensificato quando Microsoft si è unita all’inizio del 2014 e sostanzialmente ha creato un flusso di innovazione dei server completamente nuovo che era unico e in gran parte incompatibile con i progetti lanciati da Facebook.

Microsoft non parla molto dei suoi progetti hardware all'ultimo Open Compute Summit virtuale di questa settimana, ma Facebook sì. Vijay Rao, direttore della tecnologia e della strategia di Facebook, ha presentato il sistema di formazione sull'apprendimento automatico "Zion" all'OCP Summit dello scorso anno, con l'innovativa architettura OCP Accelerator Module che riteniamo decollerà nel settore grazie alla sua densità e modularità. offerte e la pletora di interconnessioni e acceleratori che possono utilizzare questa architettura. Rao ha accennato a come motori di inferenza M.2 più piccoli potrebbero essere raggruppati e implementati nei progetti di microserver "Yosemite" di Facebook, che hanno fatto il loro debutto nel marzo 2015 e che è stato anche il mese in cui abbiamo avviato The Next Platform. Lo chassis Yosemite è uno sled di elaborazione largo un terzo che si inserisce negli chassis Open Rack da 21 pollici sostenuti da Facebook e inizialmente aveva fino a quattro microserver a socket singolo oltre a rete e archiviazione condivise tra tali nodi e fino a 24 di questi sled più due scaffali elettrici e uno spazio aereo riempivano un singolo rack aperto per un totale di 96 server.

Al nostro evento The Next AI Platform dello scorso anno, Rao ha parlato un po' di più di come Facebook potrebbe andare in parallelo con motori di inferenza relativamente modesti e implementarli all'interno di macchine come Yosemite, e quest'anno al vertice virtuale OCP, gli ingegneri di Facebook hanno delineato con precisione come lo faranno e parleranno dei futuri server a uno e due socket basati sui processori Xeon SP "Cooper Lake" di Intel, che effettueranno anche un po' di lavoro di inferenza grazie al supporto di FP16 e Bfloat16 a mezza precisione formati di dati ed elaborazione nelle unità vettoriali AVX-512 su tali processori.

Lo chassis Yosemite è una parte importante dell'infrastruttura di Facebook, insieme a varie generazioni di macchine a due socket. Abbiamo delineato il modo in cui Facebook configura i suoi server per diversi carichi di lavoro nel 2016 e i sistemi a due socket "Leopard" più Yosemite rappresentavano la stragrande maggioranza della sua infrastruttura, con le macchine abilitate per GPU "Big Sur" con volumi relativamente bassi ma in rapida crescita in importanza. Ma Facebook ha creato più di due macchine e le ha rese open source, come illustrato in questa panoramica di Katharine Schmidtke, direttrice dell'approvvigionamento di ASIC e silicio personalizzato presso il social network, nel suo discorso di apertura:

Facebook ha lanciato progetti per data center, rack, server, server di archiviazione, vari tipi di schede di interfaccia mezzanino e di rete e moduli acceleratori per server, switch modulari e chassis e ricetrasmettitori ottici, per non parlare di un sacco di software. Potresti costruire un data center abbastanza decente anche dai vecchi progetti di Prineville aperti nel 2011 e riempirlo con attrezzature a costi inferiori, senza vanità, ti hanno fatto venire la mente di farlo.

L'anno scorso, Facebook ha parlato vagamente delle modifiche che avrebbe potuto apportare al telaio Yosemite e di come avrebbe potuto creare complessi di inferenza massicciamente paralleli utilizzando motori di inferenza relativamente modesti di un certo numero di fornitori utilizzando una scheda portante "Glacier Point" per gli stick di inferenza che si adatta il recinto dello Yosemite. Quest'anno hanno fornito dettagli sullo chassis Yosemite V2.5 aggiornato e sulla scheda carrier Glacier Point V2 attualmente in produzione. Facebook ha una serie di ragioni per cui vuole utilizzare i chip di inferenza baby sulle schede PCI-Express con fattore di forma M.2. Per prima cosa, l'azienda non vuole che l'inferenza, che è una parte vitale del suo stack di applicazioni, abbia un'enorme area di esplosione se qualcosa va storto. Inoltre, l'inferenza è un carico di lavoro piuttosto leggero e naturalmente massivamente parallelo (come i servizi Web) e che si presta naturalmente all'esecuzione su piccoli dispositivi. Il rapporto prezzo/prestazioni e le caratteristiche termiche di questi dispositivi sono anche molto interessanti per l'esecuzione di inferenze su GPU o FPGA, almeno secondo i calcoli di Facebook. Ma questi dispositivi non sono molto bravi nell'addestramento e vanno nella direzione esattamente opposta a quella che sta facendo Nvidia facendo convergere HPC, addestramento AI e inferenza AI sul nuovo motore GPU "Ampere" GA100 annunciato questa settimana. Ma Facebook ha altri carichi di lavoro che deve supportare, come la codifica e decodifica video, che può essere eseguita anche su chiavette M.2 ed essere distribuita su schede operatore e ospitata nei server Yosemite. Inoltre, il suo compilatore GLOW sviluppato internamente, di cui abbiamo parlato qui, consente di suddividere i modelli di inferenza su più dispositivi relativamente piccoli, quindi non è necessario scegliere un calcolo più pesante per eseguire l'inferenza solo perché ha un'inferenza più pesante.