Componenti

Google grida per la copertura delle interruzioni delle app

204th Knowledge Seekers Workshop Dec 28 2017

204th Knowledge Seekers Workshop Dec 28 2017
Anonim

Recenti interruzioni di Google Apps hanno ricevuto una copertura sproporzionata della stampa tecnologica, con conseguente percezione errata della stabilità di questa suite di collaborazione e comunicazione ospitata.

Questa è l'opinione di Matthew Glotzbach, direttore di gestione prodotti di Google Enterprise unità, che di recente ha parlato di questo problema con IDG News Service, una delle fonti di notizie che Google ritiene abbia gonfiato il problema a dismisura.

Il punto di vista di Glotzbach, che ha delineato in un recente post, è la disponibilità e le prestazioni di software ospitato sul Web, come Google Apps, ottiene più controllo perché le interruzioni si verificano pubblicamente nel cloud Internet. La copertura della stampa crea una percezione errata sull'affidabilità complessiva delle applicazioni cloud rispetto a quella del software on-premise.

Ad esempio, la disponibilità di Gmail, misurata come tempo medio di uptime per utente in base a tassi di errore sul lato server, è stata a nord di 99,9 Percentuale nell'ultimo anno, che si aggira su un totale di 10-15 minuti di downtime al mese, secondo Glotzbach. Più basso, sottolinea, rispetto ai 30-60 minuti di inattività media non pianificati che, secondo un recente gruppo Radicati, colpiscono i sistemi di posta elettronica on-premise, che costano anche più per l'acquisto, l'installazione e la manutenzione di Google Apps.

Nell'intervista, Glotzbach ha messo in una prospettiva appropriata di Google le diverse interruzioni di agosto e ottobre che hanno lasciato alcuni utenti di Apps impossibilitati ad accedere al loro servizio Gmail per 24 ore o più. Segue una versione modificata della conversazione.

Servizio di notizie IDG: vorresti ricapitolare i punti principali del tuo recente post sul blog sull'affidabilità e le prestazioni di Gmail e Apps?

Matthew Glotzbach: L'affidabilità del cloud nel complesso è sotto controllo più accurato rispetto all'affidabilità media del sistema IT aziendale, e va bene. Penso che sia bello mantenere il cloud a un livello più alto. Tuttavia, la percezione potenzialmente delle persone è forse sopravvalutata rispetto alla realtà. In questo momento, quando abbiamo il minor numero di un problema che può interessare un numero infinitesimale di persone, viene ripreso e parlato come se interessasse una grande porzione [di utenti]. Non sto dicendo che sia accettabile hanno [interruzioni]. Mi rendo conto che l'aspettativa è al 100% di affidabilità e questo è l'obiettivo: essere affidabili al 100% in modo che non ci siano discussioni perché è sempre disponibile. Questo è il gold standard che abbiamo ottenuto con Google.com ed è qui che vogliamo ottenere anche Google Apps.

IDGNS: perché stai riscontrando interruzioni di più di 24 ore in Gmail di App?

Glotzbach: È molto raro che un utente sia fuori per quel periodo di tempo. Anche quando c'è una segnalazione di un'interruzione, se la durata totale dell'interruzione era di 24 ore o 12 ore, in ogni caso, è molto comune che durante quel periodo un utente possa essere interessato solo per 10 minuti o qualcosa del genere.

Per quanto riguarda il fatto che un utente potrebbe essere inattivo per un certo numero di ore, dipende molto dallo scenario di insuccesso con cui abbiamo a che fare. Tutti gli utenti sono dual-homed, il che significa che i loro dati sono serviti da due posizioni separate, quindi c'è una copia live ridondante dei loro dati. Ogni volta che c'è un'interruzione, la stragrande maggioranza - più di 99 persone in più - non si verifica alcun problema perché li trasferiamo automaticamente nell'altra posizione.

Dove ci sono problemi è nei casi in cui si puo ' t fallire tale utente su [per il backup] per qualsiasi ragione - c'è un errore con l'account, o il master e lo slave [copie] non sono sincronizzati. Pertanto, in alcune circostanze, non è stato possibile eseguire il failover di un utente e non è possibile ripristinare l'accesso dell'utente al servizio finché non ripristiniamo tale posizione fisica. Questa è un'area in cui stiamo migliorando costantemente e alcune delle cose che abbiamo fatto come risultato dei nostri apprendimenti negli ultimi mesi lo hanno indicato.

IDGNS: quando parlo con gli amministratori delle app interessate, molti dicono che vorrebbero che Google fosse più trasparente nel riconoscere i problemi nel forum di discussione di Google Apps e offrire ulteriori dettagli. Ad esempio, Salesforce e Amazon hanno siti Web pubblici in cui riportano in tempo reale lo stato di prestazioni e disponibilità dei servizi e delle applicazioni ospitate.

Glotzbach: Cerchiamo sempre più trasparenza per offrire ai nostri utenti di tutte le forme e dimensioni, sia i consumatori o le più grandi [Apps Premier] che pagano le società e tutti gli altri. Pubblichiamo sistematicamente e molto pubblicamente sui nostri forum degli utenti ogni volta che si verifica un problema e offriamo soluzioni alternative quando possibile.

Una delle sfide o dei problemi percepiti con trasparenza è che eseguiamo molti servizi e storicamente abbiamo provato per indirizzare la messaggistica alle persone che interesserebbe, quindi abbiamo forum di discussione per Gmail, Google Documenti e così via. Stiamo sicuramente ascoltando ciò che le persone stanno dicendo e rispondendo al feedback in questo modo molto trasparente e anche guardando se abbiamo bisogno di un posto centralizzato come Amazon o Salesforce.

Tuttavia, sia Amazon che Salesforce offrono un servizio molto più basso. Ciò non significa che non rispettiamo ciò che stanno facendo, ma operiamo su una scala molto più ampia. Le informazioni che diamo sono più o meno trasparenti di ciò che danno. Se si accede alla dashboard di Salesforce Trust e si fa clic su un problema, viene indicato qualcosa come "in questo giorno c'è stato un problema per due ore". Ancora una volta, non sto suggerendo che non è sufficiente, ma suggerire che non offriamo trasparenza ai nostri utenti [non è corretto].

IDGNS: dopo le interruzioni di Gmail in agosto, hai offerto un livello di servizio contratto di credito per i tuoi clienti Apps Premier e piani illustrati per migliorare la comunicazione durante i problemi. Come va?

Glotzbach: produciamo già rapporti sugli incidenti entro 48 ore e li condividiamo con i nostri clienti della Premier edition. Stai anche assistendo a post più sistematici e tempestivi di problemi attraverso i canali esistenti. La dashboard, le persone delle applicazioni reali possono andare su [per verificare lo stato di interruzione], è in lavorazione.

IDGNS: Tuttavia, alcuni amministratori di Apps, specialmente quelli in edizione Standard, che non hanno il supporto telefonico, vogliono che Google sia più rapidamente sulla pubblicazione di conferme e dettagli sui problemi nel forum ufficiale delle applicazioni.

Glotzbach: lavoriamo costantemente per migliorare il servizio e, quando ci sono problemi, per essere più reattivi e fornire dati di alta qualità. Ogni volta che qualcuno non è in grado di accedere al servizio, questo è motivo di preoccupazione e noi siamo molto sensibili a questo.

[Tuttavia,] attirerei l'attenzione sul confronto pragmatico di quanto spesso i sistemi di posta aziendale delle persone scendono e la compagnia di cinque persone che utilizza l'edizione Standard gratuita. Le loro alternative sono interessanti da guardare: possono pagare centinaia di dollari per posto per una piattaforma di posta commerciale ospitata da un altro fornitore, o pagare decine di migliaia di dollari per gestire il proprio server. E anche se lo facessero, le loro garanzie di uptime sarebbero inferiori al tempo effettivo che vedono dalle App.

IDGNS: Ma i fornitori di cloud computing non entrano in una china scivolosa quando iniziano a giustificare i problemi di prestazioni che incontrano indicando il diverso modello di software on-premise? Un grande motivo per cui le persone scelgono le opzioni cloud è di consegnare le attività di installazione e manutenzione del software a qualcuno come Google, che offre di farle meglio ea costi inferiori. Ma non penso che si aspettino di essere giù per 36 ore di fila, a quel punto potrebbero desiderare di avere il server di posta in casa.

Glotzbach: Assolutamente. Non vorremmo mai che qualcuno fosse inattivo per un numero qualsiasi di ore, o un numero qualsiasi di minuti per quella materia. Sfortunatamente, stiamo parlando di casi ai margini. Il nostro obiettivo è di essere al 100% di affidabilità e ci stiamo avvicinando sempre più settimana dopo settimana. Quando hai a che fare letteralmente con centinaia di milioni di utenti o account attivi, sfortunatamente fino a quando non ti senti abbastanza vicino al 100%, anche quando sei al 99,