IA24.3 Apprendimento Automatico: induzione di alberi di decisione
Sommario:
Il termine "dati" non è nuovo per noi. È una delle cose principali insegnate quando si opta per Information Technology e computer. Se riesci a ricordare, i dati sono considerati la forma grezza di informazioni. Sebbene ci sia già da un decennio, il termine Big Data è un brusio in questi giorni. Come è evidente dal termine, carichi e carichi di dati, sono i Big Data e possono essere elaborati in diversi modi utilizzando diversi metodi e strumenti per ottenere le informazioni richieste. Questo articolo parla dei concetti di Big Data, usando le 3 V menzionate da Doug Laney, un pioniere nel campo del data warehousing che si ritiene abbia avviato il campo di Infonomics (Information Economics).
Prima di procedere, potresti leggere i nostri articoli su Nozioni di base su Big Data e Big Data Usage per coglierne l`essenza. Potrebbero sommarsi a questo post per ulteriori spiegazioni sui concetti dei Big Data.
Big Data 3 Vs
I dati, nella sua enorme forma, accumulati con diversi mezzi sono stati archiviati correttamente in diversi database in precedenza e sono stati scaricati dopo un po `di tempo. Quando è emerso il concetto che più i dati sono, più è facile scoprire - informazioni diverse e pertinenti - utilizzando gli strumenti giusti, le aziende hanno iniziato a memorizzare i dati per periodi più lunghi. È come aggiungere nuovi dispositivi di archiviazione o utilizzare il cloud per archiviare i dati in qualsiasi forma i dati siano stati procurati: documenti, fogli di calcolo, database e HTML, ecc. Vengono quindi organizzati in formati appropriati utilizzando strumenti in grado di elaborare enormi blocchi di Dati.
NOTA: l`ambito dei Big Data non è limitato ai dati raccolti e archiviati nei propri locali e nel cloud. Può includere dati provenienti da diverse altre fonti, inclusi, a titolo esemplificativo, articoli di pubblico dominio.
Il Modello 3D di Big Data si basa sulle seguenti V:
- Volume: si riferisce alla gestione della memorizzazione dei dati
- Velocità: si riferisce alla velocità di elaborazione dei dati
- Varietà: si riferisce ai dati di raggruppamento di diversi insiemi di dati apparentemente non correlati
I paragrafi seguenti spiegano la modellazione dei Big Data parlando di ogni dimensione (ogni V) nei dettagli.
A] Volume di Big Data
Parlando dei Big Data, si potrebbe capire il volume come una vasta raccolta di informazioni non elaborate. Anche se questo è vero, si tratta anche dei costi di archiviazione dei dati. I dati importanti possono essere archiviati nei locali e sul cloud, essendo quest`ultima l`opzione flessibile. Ma hai bisogno di memorizzare ogni cosa?
Secondo un white paper pubblicato da Meta Group, quando il volume dei dati aumenta, parti di dati iniziano a sembrare inutili. Inoltre, afferma che dovrebbe essere mantenuto solo quel volume di dati che le imprese intendono utilizzare. Altri dati possono essere scartati o se le aziende sono riluttanti a rilasciare "dati apparentemente non importanti", possono essere scaricati su dispositivi di computer non utilizzati e persino su nastri in modo che le aziende non debbano pagare per archiviare tali dati.
Ho usato "dati apparentemente insignificanti" perché anch`io credo che i dati di qualsiasi tipo possano essere richiesti da qualsiasi azienda in futuro, prima o poi, e quindi devono essere conservati per un buon periodo di tempo prima di sapere che i dati sono davvero non importante. Personalmente, scarico dati più vecchi su hard disk dal passato e talvolta su DVD. I computer principali e il cloud storage contengono i dati che considero importanti e sanno che userò. Anche tra questi dati vi è un tipo di dati utilizzabile una volta che può finire su un vecchio HDD dopo pochi anni. l`esempio sopra è solo per la tua comprensione. Non si adatta alla descrizione dei Big Data poiché la quantità è molto inferiore rispetto a quella che le imprese percepiscono come Big Data.
B ] Velocità nei Big Data
La velocità di elaborazione dei dati è un fattore importante quando si parla di concetti di Big Data. Esistono molti siti Web, in particolare l`e-commerce. Google aveva già ammesso che la velocità con cui un caricamento della pagina è essenziale per classifiche migliori. Oltre alle classifiche, la velocità offre anche comfort agli utenti mentre fanno acquisti. Lo stesso vale per i dati in elaborazione per altre informazioni.
Parlando di velocità, è essenziale sapere che è al di là di una larghezza di banda solo superiore. Combina dati facilmente utilizzabili con diversi strumenti di analisi. Dati facilmente utilizzabili significa alcuni compiti a casa per creare strutture di dati facili da elaborare. La prossima dimensione - Varietà, diffonde ulteriore luce su questo.
C] Varietà di Big Data
Quando ci sono carichi e carichi di dati, diventa importante organizzarli in modo che gli strumenti di analisi possano facilmente elaborare il dati. Esistono anche strumenti per l`organizzazione dei dati. Quando si memorizza, i dati possono essere non strutturati e di qualsiasi forma. Spetta a te capire quale relazione ha con altri dati con te. Una volta individuata la relazione, puoi raccogliere gli strumenti appropriati e convertire i dati nella forma desiderata per la memorizzazione strutturata e ordinata.
Sommario
In altre parole, il modello 3D di Big Data si basa su tre dimensioni: USABLE dati che tu possiedi; corretta codifica dei dati; e più veloce elaborazione. Se questi tre sono curati, i tuoi dati possono essere facilmente elaborati o analizzati per capire quello che vuoi.
Quanto sopra spiega entrambi i concetti e il modello 3D di Big Data. Gli articoli collegati nel secondo para dimostreranno ulteriore supporto se si è nuovi al concetto.
Se si desidera aggiungere qualcosa, si prega di commentare.
'The Human Face of Big Data' mostra come la tecnologia cambia la vita

"The Human Face of Big Data" offre un geek-out-worthy libro da tavolino che mira a dare ai lettori, attraverso la fotografia e brevi articoli, uno spaccato di quanto potenti nuove capacità di elaborazione dati stiano cambiando la vita delle persone.
La raccolta di big data contrasta con la privacy, secondo gli analisti

Una recente spinta nel settore della tecnologia dell'informazione per raccogliere e monetizzare i big data per uno scontro con le preoccupazioni sulla privacy degli utenti di Internet e la regolamentazione potenziale di alcuni governi, secondo la società di analisi tecnologica Ovum.
Gli ingegneri di Facebook identificano le sfide dei Big Data di Graph Search

Gli ingegneri di Facebook hanno molte sfide davanti a loro mentre lavorano per aumentare la ricerca dei grafi, il nuovo sito strumento di ricerca sociale. Un ostacolo: un'eccessiva quantità di dati da esaminare.