Windows

Big Data 3 Vs - Concepts & Models

IA24.3 Apprendimento Automatico: induzione di alberi di decisione

IA24.3 Apprendimento Automatico: induzione di alberi di decisione

Sommario:

Anonim

Il termine "dati" non è nuovo per noi. È una delle cose principali insegnate quando si opta per Information Technology e computer. Se riesci a ricordare, i dati sono considerati la forma grezza di informazioni. Sebbene ci sia già da un decennio, il termine Big Data è un brusio in questi giorni. Come è evidente dal termine, carichi e carichi di dati, sono i Big Data e possono essere elaborati in diversi modi utilizzando diversi metodi e strumenti per ottenere le informazioni richieste. Questo articolo parla dei concetti di Big Data, usando le 3 V menzionate da Doug Laney, un pioniere nel campo del data warehousing che si ritiene abbia avviato il campo di Infonomics (Information Economics).

Prima di procedere, potresti leggere i nostri articoli su Nozioni di base su Big Data e Big Data Usage per coglierne l`essenza. Potrebbero sommarsi a questo post per ulteriori spiegazioni sui concetti dei Big Data.

Big Data 3 Vs

I dati, nella sua enorme forma, accumulati con diversi mezzi sono stati archiviati correttamente in diversi database in precedenza e sono stati scaricati dopo un po `di tempo. Quando è emerso il concetto che più i dati sono, più è facile scoprire - informazioni diverse e pertinenti - utilizzando gli strumenti giusti, le aziende hanno iniziato a memorizzare i dati per periodi più lunghi. È come aggiungere nuovi dispositivi di archiviazione o utilizzare il cloud per archiviare i dati in qualsiasi forma i dati siano stati procurati: documenti, fogli di calcolo, database e HTML, ecc. Vengono quindi organizzati in formati appropriati utilizzando strumenti in grado di elaborare enormi blocchi di Dati.

NOTA: l`ambito dei Big Data non è limitato ai dati raccolti e archiviati nei propri locali e nel cloud. Può includere dati provenienti da diverse altre fonti, inclusi, a titolo esemplificativo, articoli di pubblico dominio.

Il Modello 3D di Big Data si basa sulle seguenti V:

  1. Volume: si riferisce alla gestione della memorizzazione dei dati
  2. Velocità: si riferisce alla velocità di elaborazione dei dati
  3. Varietà: si riferisce ai dati di raggruppamento di diversi insiemi di dati apparentemente non correlati

I paragrafi seguenti spiegano la modellazione dei Big Data parlando di ogni dimensione (ogni V) nei dettagli.

A] Volume di Big Data

Parlando dei Big Data, si potrebbe capire il volume come una vasta raccolta di informazioni non elaborate. Anche se questo è vero, si tratta anche dei costi di archiviazione dei dati. I dati importanti possono essere archiviati nei locali e sul cloud, essendo quest`ultima l`opzione flessibile. Ma hai bisogno di memorizzare ogni cosa?

Secondo un white paper pubblicato da Meta Group, quando il volume dei dati aumenta, parti di dati iniziano a sembrare inutili. Inoltre, afferma che dovrebbe essere mantenuto solo quel volume di dati che le imprese intendono utilizzare. Altri dati possono essere scartati o se le aziende sono riluttanti a rilasciare "dati apparentemente non importanti", possono essere scaricati su dispositivi di computer non utilizzati e persino su nastri in modo che le aziende non debbano pagare per archiviare tali dati.

Ho usato "dati apparentemente insignificanti" perché anch`io credo che i dati di qualsiasi tipo possano essere richiesti da qualsiasi azienda in futuro, prima o poi, e quindi devono essere conservati per un buon periodo di tempo prima di sapere che i dati sono davvero non importante. Personalmente, scarico dati più vecchi su hard disk dal passato e talvolta su DVD. I computer principali e il cloud storage contengono i dati che considero importanti e sanno che userò. Anche tra questi dati vi è un tipo di dati utilizzabile una volta che può finire su un vecchio HDD dopo pochi anni. l`esempio sopra è solo per la tua comprensione. Non si adatta alla descrizione dei Big Data poiché la quantità è molto inferiore rispetto a quella che le imprese percepiscono come Big Data.

B ] Velocità nei Big Data

La velocità di elaborazione dei dati è un fattore importante quando si parla di concetti di Big Data. Esistono molti siti Web, in particolare l`e-commerce. Google aveva già ammesso che la velocità con cui un caricamento della pagina è essenziale per classifiche migliori. Oltre alle classifiche, la velocità offre anche comfort agli utenti mentre fanno acquisti. Lo stesso vale per i dati in elaborazione per altre informazioni.

Parlando di velocità, è essenziale sapere che è al di là di una larghezza di banda solo superiore. Combina dati facilmente utilizzabili con diversi strumenti di analisi. Dati facilmente utilizzabili significa alcuni compiti a casa per creare strutture di dati facili da elaborare. La prossima dimensione - Varietà, diffonde ulteriore luce su questo.

C] Varietà di Big Data

Quando ci sono carichi e carichi di dati, diventa importante organizzarli in modo che gli strumenti di analisi possano facilmente elaborare il dati. Esistono anche strumenti per l`organizzazione dei dati. Quando si memorizza, i dati possono essere non strutturati e di qualsiasi forma. Spetta a te capire quale relazione ha con altri dati con te. Una volta individuata la relazione, puoi raccogliere gli strumenti appropriati e convertire i dati nella forma desiderata per la memorizzazione strutturata e ordinata.

Sommario

In altre parole, il modello 3D di Big Data si basa su tre dimensioni: USABLE dati che tu possiedi; corretta codifica dei dati; e più veloce elaborazione. Se questi tre sono curati, i tuoi dati possono essere facilmente elaborati o analizzati per capire quello che vuoi.

Quanto sopra spiega entrambi i concetti e il modello 3D di Big Data. Gli articoli collegati nel secondo para dimostreranno ulteriore supporto se si è nuovi al concetto.

Se si desidera aggiungere qualcosa, si prega di commentare.