Importante: il dilemma degli editori tra scraping e visibilità su Google

La posizione dominante di Google nel mercato dei motori di ricerca costringe gli editori a prendere decisioni difficili.
I riassunti dei contenuti mostrati all'inizio dei risultati di ricerca possono ridurre il traffico organico fino al 60%.
Il sito di guide alle riparazioni iFixit ha dichiarato di essere stato visitato dai crawler di Anthropic quasi un milione di volte in un giorno.

Google ha recentemente introdotto alcune novità per AI Overviews, che promettono di incrementare il traffico verso i siti web. Tuttavia, gli editori si trovano di fronte a un dilemma: consentire lo scraping delle loro pagine o rischiare di perdere visibilità e, di conseguenza, profitti. Questa situazione evidenzia ancora una volta la posizione dominante di Google nel mercato dei motori di ricerca.

Negli Stati Uniti e in altri sei paesi, vengono mostrati riassunti dei contenuti delle pagine all’inizio dei risultati delle ricerche. Sebbene il tradizionale elenco di link sia ancora presente, esso si trova più in basso, il che potrebbe ridurre il traffico organico fino al 60%, secondo AdWeek. L’indicizzazione delle pagine avviene tramite Googlebot, lo stesso web crawler utilizzato da AI Overviews. Gli editori devono quindi consentire lo scraping senza ricevere un compenso, se vogliono comparire nei riassunti. Se invece bloccano Googlebot nel file robots.txt, il motore di ricerca non indicizzerà più le pagine e il sito scomparirà dai risultati.

Indice dei contenuti

Il Web Scraping: Cos’è e Come Funziona

Iscriviti alla newsletter e scopri i segreti della SEO

Il web scraping è una tecnica di crawling che assume un ruolo insostituibile per identificare tendenze e effettuare indagini statistiche sull’uso di prodotti e servizi, azioni fondamentali nel marketing digitale. Un crawler, o bot, è un software che raccoglie informazioni necessarie per indicizzare automaticamente le pagine di un sito, analizzare i collegamenti ipertestuali e trovare associazioni tra termini di ricerca.

Il web scraping serve a estrarre dati dalle pagine web per poi raccoglierli in database o tabelle locali per analizzarli. Questo sistema può estrapolare una vasta gamma di informazioni: dati di contatto, indirizzi email, numeri di telefono, termini di ricerca e URL. Esistono due metodi principali per fare web scraping: manuale e automatico. Lo scraping manuale è un processo di copia e incolla di singole informazioni, utilizzato raramente per grandi quantità di dati a causa dei lunghi tempi di recupero e catalogazione. Lo scraping automatico, invece, utilizza software come Zoominfo, Octoparse e Hunter.io per scansionare più pagine web.

Cosa ne pensi?

🔍 Grande opportunità per aumentare il traffico......
⚠️ Gli editori rischiano di perdere controllo sui loro contenuti......
🤔 Potrebbe essere utile esplorare metodi alternativi di protezione......

Screen Scraping e Banche Dati: Il Caso Ryanair contro Atrapalo

Il termine screen scraping si riferisce a una tecnica di estrazione di dati da un sito web tramite un software che simula la navigazione effettuata da utenti reali. Questa tecnica è stata al centro di numerosi dibattiti legali, come nel caso Ryanair contro Atrapalo. Ryanair accusava Atrapalo di violare le condizioni di utilizzo del sito, il diritto sui generis e il diritto d’autore sui suoi database, e di concorrenza sleale.

I giudici di primo grado del Tribunale Mercantile di Barcellona hanno affermato che Atrapalo non era contrattualmente vincolata con Ryanair e che l’attività di screen scraping era lecita. La banca dati di Ryanair non compiva i requisiti previsti dalla legge per ottenere tutela del diritto d’autore. Anche i giudici del secondo grado e del Tribunal Supremo hanno confermato queste conclusioni, affermando la liceità dello screen scraping effettuato da Atrapalo.

I Siti Web e la Sfida del Data Scraping da Parte dell’AI

Molti siti web cercano di bloccare il data scraping dei contenuti da parte dell’AI, senza però riuscirci davvero. Ad esempio, la compagnia Anthropic utilizza un nuovo bot scraper, “CLAUDEBOT”, che continua a estrarre dati nonostante i tentativi di blocco. Questo problema è comune per i proprietari di siti web, che devono affrontare la continua comparsa di software pensati per estrarre dati per la formazione dei modelli AI.

Le compagnie di intelligenza artificiale sembrano essere in grado di bypassare il file robots.txt pur di entrare in possesso di dati per l’addestramento dei loro modelli. Molti proprietari di siti web hanno deciso di bloccare indistintamente tutti i crawler, limitando così la propria visibilità nei motori di ricerca. Ad esempio, il sito di guide alle riparazioni iFixit ha dichiarato di essere stato “visitato” dai crawler di Anthropic quasi un milione di volte in un giorno.

Bullet Executive Summary

In conclusione, il tema del web scraping e della visibilità online è complesso e sfaccettato. Da un lato, consentire lo scraping può aumentare la visibilità e il traffico verso i siti web, dall’altro, può comportare una perdita di controllo sui propri contenuti e dati. È fondamentale per gli editori e i proprietari di siti web trovare un equilibrio tra queste due esigenze.

Nozione base di SEO e social marketing: È essenziale ottimizzare il file robots.txt per consentire il crawling solo ai bot desiderati, migliorando così la visibilità nei motori di ricerca senza compromettere la sicurezza dei dati.

Nozione avanzata di SEO e social marketing: Implementare tecniche di cloaking, che mostrano contenuti diversi ai bot rispetto agli utenti reali, può aiutare a proteggere i dati sensibili senza sacrificare la visibilità nei motori di ricerca. Tuttavia, questa pratica deve essere utilizzata con cautela per evitare penalizzazioni da parte dei motori di ricerca.

Riflettere su questi aspetti può aiutare i lettori a comprendere meglio le dinamiche del web scraping e a prendere decisioni informate per la gestione dei propri contenuti online.

Per approfondire:

Articolo e immagini generati dall’AI, senza interventi da parte dell’essere umano. Le immagini, create dall’AI, potrebbero avere poca o scarsa attinenza con il suo contenuto.(scopri di più)