Car-tech

Google: 129 milioni di libri diversi sono stati pubblicati

What we learned from 5 million books

What we learned from 5 million books
Anonim

Per coloro che si sono mai chiesti quanti libri diversi ci sono nel mondo, Google ha una risposta per te: 129,864,880, secondo Leonid Taycher, un ingegnere informatico di Google che lavora al progetto Google Libri.

Stima del numero dei libri nel mondo è più che un esercizio di curiosità per il gigante della ricerca: fornisce anche una tabella di marcia di alcuni dei lavori ancora da fare per raggiungere l'ambizioso obiettivo aziendale di organizzare tutte le informazioni del mondo.

"Quando fai parte di una società che sta tentando di digitalizzare tutti i libri del mondo, la prima domanda che ottieni spesso è: "Quanti libri ci sono là fuori?", ha spiegato Taycher in un post del blog che annunciava il preventivo.

[Ulteriori letture: i migliori servizi di streaming TV]

Per ottenere un'approssimazione ragionevole, la società ha iniziato a utilizzare le informazioni sui libri da più sistemi di catalogazione, ad esempio l'International Standard Book Number (ISBN).

Tali cataloghi, sebbene utili, non forniscono un conteggio definitivo, però. Ad esempio, gli ISBN sono stati assegnati ai libri solo dagli anni '60 e tendono ad essere utilizzati solo nei paesi occidentali.

Inoltre sono stati assegnati più libri a singoli numeri ISBN e l'editore ha assegnato codici ISBN a elementi diversi dai libri, come t-shirt e DVD.

Quindi gli ingegneri di Google hanno scritto programmi per pettinarne circa 150 di tali cataloghi e directory ed eliminare il maggior numero di voci duplicate che si potrebbero trovare.

L'azienda ha anche dovuto creare un numero di decisioni difficili su ciò che è e non è un libro, ha spiegato Taycher.

Ad esempio, le copertine e le copertine di un testo sono contate come due libri, così come le diverse versioni di un testo popolare, come Shakespeare "Amleto", a causa delle prefazioni e dei commenti che possono contenere. I periodici possono essere considerati come singoli libri o come lavoro raccolto.

A giugno, la società ha scansionato 12 milioni di libri, secondo una presentazione del direttore tecnico di Google Libri Jon Orwant alla US Annual Conference tecnica di Boston. Questi libri sono stati scritti in circa 480 lingue (inclusi 3 libri nella lingua Klingon originata da Star Trek).

La società prevede di completare la scansione di libri esistenti entro un decennio. La raccolta virtuale risultante consisterà in quattro miliardi di pagine e due trilioni di parole, ha detto Orwant.

Circa il 20 percento dei libri del mondo sono di pubblico dominio, ha spiegato Orwant. Circa il 10-15% di questi libri sono in stampa. I libri rimanenti - la stragrande maggioranza di tutti i titoli - sono ancora sotto copyright ma fuori stampa. Google sta prendendo in prestito copie di questi libri per digitalizzarli, da circa 40 grandi biblioteche in tutto il mondo.

È questo atto di scansione nei libri che sono fuori stampa ma sono ancora coperti dal copyright che è stato rispettato

La compagnia è ora in attesa di una sentenza del tribunale distrettuale degli Stati Uniti per il distretto meridionale di New York, sulla possibilità di eseguire la scansione di questi libri.

Nel 2005, la Gilda degli autori e l'Association of American Publishers ha archiviato separatamente azioni legali di class action contro il gigante della ricerca, affermando che la società sta violando i diritti d'autore con la scansione dei libri.

Google ha affermato di voler vendere copie digitali di questi fuori dal stampare libri e mettere da parte i diritti d'autore per gli autori. La società spera anche di rivelare frammenti di questi libri nelle ricerche sul Web e sostiene che questo uso rientra nella dottrina USA sull'uso corretto.

La scansione in tutti i libri del mondo porterà ad altri vantaggi oltre a migliorare le ricerche, ha spiegato Orwant. Una volta che tutti questi volumi sono stati digitalizzati, i loro contenuti possono essere sottoposti ad analisi, che può portare a nuove intuizioni. I linguisti possono scoprire quando alcune parole sono diventate di uso diffuso, o chi ha iniziato a usare queste parole.

Google Ricerca Libri potrebbe anche aiutare a rispondere ad alcune importanti domande storiche: ad esempio, potrebbe informare il dibattito sul fatto che Isaac Newton e Gottfried Leibniz - o qualcun altro interamente - abbiano inventato il calcolo.

"Possiamo cercare non solo per un frase ma per un concetto ", ha spiegato Orwant. "Possiamo prendere tutti i diversi modi [che l'idea di] infinito può essere incurvata, tradurla in lingue diverse e fare una ricerca in parallelo."

"La mia speranza è che mentre iniziamo a esporre molto di più di questa raccolta consentirà alle persone di fare domande come questa che non sono state in grado di chiedere prima ", ha detto.

Juan Carlos Perez, redattore del servizio News di IDG, ha contribuito a questo rapporto.

Joab Jackson copre il software aziendale e le ultime notizie di tecnologia generale per Il servizio di notizie IDG. Segui Joab su Twitter all'indirizzo @Joab_Jackson. L'indirizzo e-mail di Joab è [email protected]