Car-tech

I supercomputer più pesanti cadono più duramente, il ricercatore suggerisce

180th Knowledge Seekers Workshop, Thursday, July 13, 2017

180th Knowledge Seekers Workshop, Thursday, July 13, 2017

Sommario:

Anonim

I supercomputer diventano più potenti e crescono più vulnerabili ai guasti, grazie alla maggiore quantità di componenti integrati. Alcuni ricercatori della scorsa conferenza SC12 della scorsa settimana a Salt Lake City, nello Utah, hanno offerto possibili soluzioni a questo problema crescente.

I sistemi di elaborazione ad alte prestazioni (HPC) di oggi possono avere 100.000 nodi o più, con ogni nodo costruito da più componenti di memoria, processori, bus e altri circuiti. Statisticamente parlando, tutte queste componenti falliranno ad un certo punto e interromperanno le operazioni quando lo faranno, ha detto David Fiala, uno studente di dottorato presso la North Carolina State University, durante un discorso alla SC12.

Il problema non è uno nuovo, ovviamente. Quando il supercomputer bianco da 600 nodi ASCI (Accelerated Strategic Computing Initiative) di Lawrence Livermore National Laboratory è andato online nel 2001, ha avuto un tempo medio tra i guasti (MTBF) di sole cinque ore, grazie in parte ai guasti dei componenti. Gli sforzi di messa a punto successivi hanno migliorato l'MTBF di ASCI White a 55 ore, ha detto Fiala.

Ma man mano che il numero di nodi del supercomputer aumenta, così sarà il problema. "Bisogna fare qualcosa al riguardo, peggiorerà con il passaggio a exascale", ha detto Fiala, riferendosi a come si suppone che i supercomputer del prossimo decennio abbiano una potenza di calcolo dieci volte superiore ai modelli attuali.

Le tecniche odierne per aver a che fare con l'insuccesso del sistema potrebbe non essere possibile scalare molto bene, ha detto Fiala. Ha citato il checkpoint, in cui un programma in esecuzione viene temporaneamente interrotto e il suo stato viene salvato su disco. Se il programma si blocca, il sistema è in grado di riavviare il lavoro dall'ultimo checkpoint.

NCSUDavid Fiala Il problema con il checkpoint, secondo Fiala, è che quando il numero di nodi cresce, la quantità di sovraccarico del sistema anche il checkpointing cresce e cresce ad un tasso esponenziale. Su un supercomputer da 100.000 nodi, ad esempio, solo il 35 percento dell'attività sarà coinvolto nella conduzione del lavoro. Il resto sarà occupato dal checkpoint e, se necessario, da un'operazione di fail-recovery del sistema, Fiala stimata.

A causa di tutto l'hardware aggiuntivo necessario per i sistemi exascale, che potrebbe essere costruito da un milione o più componenti, l'affidabilità del sistema avrà Fiala ha detto: Fiala ha migliorato 100 volte per mantenere lo stesso MTBF di cui godono i supercomputer di oggi.

Vecchio, buon consiglio: dati di backup

Fiala ha presentato la tecnologia sviluppata da lui e dai suoi colleghi che può aiutare a migliorare l'affidabilità. La tecnologia affronta il problema della corruzione silenziosa dei dati, quando i sistemi commettono errori non rilevati scrivendo dati su disco.

Fondamentalmente, l'approccio dei ricercatori consiste nell'esecuzione di più copie, o "cloni" di un programma, simultaneamente e quindi confrontando le risposte. Il software, chiamato RedMPI, viene eseguito in combinazione con Message Passing Interface (MPI), una libreria per dividere le applicazioni in esecuzione su più server in modo che le diverse parti del programma possano essere eseguite in parallelo.

RedMPI intercetta e copia ogni MPI messaggio inviato da un'applicazione e invia copie del messaggio al clone (o ai cloni) del programma. Se diversi cloni calcolano risposte diverse, i numeri possono essere ricalcolati al volo, il che farà risparmiare tempo e risorse dall'esecuzione di tutto il programma.

"L'implementazione della ridondanza non è costosa. Può essere elevato nel numero di core count che sono necessari, ma evita la necessità di riscritture con il riavvio del checkpoint ", ha detto Fiala. "L'alternativa è, naturalmente, semplicemente rieseguire i lavori finché non si ritiene di avere la risposta giusta."

Fiala ha raccomandato di eseguire due copie di backup di ciascun programma, per una ridondanza tripla. Anche se eseguire più copie di un programma inizialmente richiederebbe più risorse, nel tempo potrebbe essere effettivamente più efficiente, poiché i programmi non avrebbero bisogno di essere rieseguiti per verificare le risposte. Inoltre, il checkpoint potrebbe non essere necessario quando vengono eseguite più copie, il che farebbe risparmiare anche sulle risorse di sistema.

UCSCEthan Miller

"Penso che l'idea di fare ridondanza sia in realtà una grande idea. [Per] calcoli molto grandi, che coinvolgono centinaia di migliaia di nodi, c'è sicuramente una possibilità che gli errori si insinuano", ha detto Ethan Miller, un professore di informatica all'Università della California, Santa Cruz, che ha partecipato alla presentazione. Ma ha detto che l'approccio potrebbe non essere adatto data la quantità di traffico di rete che tale ridondanza potrebbe creare. Ha suggerito di eseguire tutte le applicazioni sullo stesso set di nodi, che potrebbe minimizzare il traffico degli internodi.

In un'altra presentazione, Ana Gainaru, una studentessa di dottorato dell'Università dell'Illinois a Urbana-Champaign, ha presentato una tecnica di analisi del registro file per prevedere quando si verifichino errori di sistema.

Il lavoro combina l'analisi del segnale con il data mining. L'analisi del segnale viene utilizzata per caratterizzare il comportamento normale, quindi quando si verifica un errore, può essere facilmente individuato. Il data mining cerca correlazioni tra diversi guasti riportati. Altri ricercatori hanno dimostrato che a volte fallimenti multipli sono correlati tra loro, perché un fallimento con una tecnologia può influenzare le prestazioni in altri, secondo Gainaru. Ad esempio, quando una scheda di rete si guasta, presto ostacolerà altri processi di sistema che si basano sulla comunicazione di rete.

I ricercatori hanno scoperto che il 70 percento degli errori correlati fornisce una finestra di opportunità di oltre 10 secondi. In altre parole, quando viene rilevato il primo segno di un errore, il sistema può avere fino a 10 secondi per salvare il lavoro o spostare il lavoro su un altro nodo, prima che si verifichi un errore più critico. "La previsione del fallimento può essere unita ad altre tecniche di fault-tolerance", ha detto Gainaru.

Joab Jackson copre le ultime novità del software aziendale e della tecnologia generale per Il servizio News IDG. Segui Joab su Twitter all'indirizzo @Joab_Jackson. L'indirizzo e-mail di Joab è [email protected]