Siti web

Il nuovo software rileva i robot Scraping dei dati del sito Web

Introducing reCAPTCHA v3

Introducing reCAPTCHA v3
Anonim

I siti Web come le bacheche di lavoro affrontano un problema persistente: i loro dati vengono continuamente rubati da bot automatizzati.

I dati finiscono su altre bacheche concorrenti che hanno rubato il contenuto. È un problema che affligge qualsiasi sito Web la cui proprietà intellettuale deve essere pubblicamente pubblicata gratuitamente, o anche quelli con modelli di abbonamento.

Ma un'azienda di sicurezza con sede ad Atlanta specializzata nella rilevazione di bot ha sviluppato un software in grado di rilevare tali screen-scraping e bot di data mining.

[Ulteriori letture: Come rimuovere malware dal tuo PC Windows]

Il prodotto principale di Pramana, HumanPresent, rileva bot automatizzati che, ad esempio, inseriscono spam in moduli Web o registrati gratuitamente account di posta elettronica da utilizzare per lo spam.

Pramana ha ora sviluppato un modulo chiamato "data mining e prevenzione dello scraping dello schermo" per HumanPresent. Funziona su molti degli stessi principi del suo prodotto principale ma è stato modificato per scenari di data mining, ha affermato David Crowder, CEO di Pramana.

HumanPresent può rilevare i robot rilevando differenze nel modo in cui un essere umano normalmente interagirebbe con un Web pagina e contrastando ciò con il comportamento dei bot. Esamina più di 30 metriche, come colpi di tastiera, clic del mouse e la tempistica di tali azioni.

HumanPresent analizza le singole transazioni, ma il modulo di data mining è stato modificato per esaminare un periodo di tempo in cui un bot o umano è sul sito, ha detto Crowder.

I robot di data mining tendono a eludere completamente l'interfaccia utente di un browser. Ad esempio, un bot può richiedere una pagina Web con molti e molti dati, ma non scorre mai o clicca su una pagina. Se una serie di pagine viene aperta e visualizzata in quel modo, potrebbe significare che un bot di data mining è arrivato.

Pramana assegna un ID univoco al visitatore e, dopo aver analizzato il comportamento del visitatore, può decidere se etichettare il visitatore un bot o no. Esistono diversi modi in cui un operatore del sito Web può quindi scegliere di gestire la situazione.

L'indirizzo IP (Internet Protocol) del computer del bot può essere bloccato in modo permanente. Un sito Web di un'asta di automobili che sta testando il modulo di data mining di Pramana ha deciso di spostare i robot sospetti in una "sandbox" in cui vengono pubblicati dati completamente falsi.

"Sono davvero data mining: è semplicemente sbagliato", ha detto Crowder.

Altre opzioni includono richiedere al visitatore del sito Web una sfida o un'attività, che alcuni robot non sono in grado di completare.

Il data mining costa caro alle aziende. Le aziende che vendono dati premium scopriranno che i loro concorrenti compreranno un abbonamento e quindi utilizzeranno i robot automatizzati per rubare i dati per i propri siti. In un esempio, un sito Web con gigabyte di dati sui prezzi delle auto usate ha trovato i loro dati raschiati ed era in vendita su eBay.

"In realtà sono in competizione con i propri contenuti", ha detto Crowder.

Alcuni I siti Web hanno un design scarso che semplifica notevolmente lo scraping dei dati. Il sito di auto usate aveva URL (Uniform Resource Locator) che potevano essere modificati in sequenza per rivelare più dati, ha detto Crowder.

Il modulo di data mining sarà incluso nel prodotto HumanPresent per ora, ma all'inizio del prossimo anno Pramana prevede di venderlo separatamente, ha detto Crowder. Pramana offre HumanPresent come appliance on-premise o come configurazione software-as-service.

Per l'offerta SaaS (software as a service), la tecnologia di Pramana è integrata in un'applicazione Web e le informazioni sulla sessione vengono inviate indietro a Pramana per l'analisi. Crowder ha detto che Pramana è stata in grado di ridurre significativamente il tempo di latenza nella sua ultima versione. Per i clienti che hanno bisogno di maggiore velocità, l'apparecchio è disponibile.