Content scraping


Processo de criação automatizada de páginas com base em conteúdo plagiado, com vista a colocar-lhes anúncios como os do Google AdSense e receber a respectiva comissão pelos cliques que lhes fizerem.
O raciocínio é o seguinte: se uma determinada página rende em publicidade no âmbito do programa Google AdSense 0,10€ por dia, então irá tentar-se replicar o método por 1.000 páginas na esperança de aumentar a receita para 100€ (0,10€ x 1.000).
O custo de aquisição dum domínio e de alojamento é desprezível em relação às receitas esperadas. Mas também é possível criar “splogs” (spam blogs) gratuitamente.
Esta técnica assenta num princípio de larga escala, pelo que a maioria dos processos é automatizada.

Quando se pretende obter dezenas de milhões de keywords utilizam-se ferramentas on-line que disponibilizam bases de dados com biliões de resultados de pesquisas efectuadas em motores de busca. Um dos serviços mais conhecidos é o Keyword Discovery que recolhe diariamente dados de 200 motores de busca, totalizando 36 biliões de registos.


Como é o processo:
  1. “Raspagem” (cópia) de conteúdos web, inserido noutros sites;
  2. Limpeza do conteúdo (remoção de html, imagens, formatações, etc.);
  3. Sinonimização – processo de troca automática de um termo por um sinónimo, pois o Google não indexa páginas com conteúdos duplicados;
  4. Reescrita – feita através de software próprio, como o Markov Engine. Estes dois procedimentos visam impedir o Google de detectar conteúdo duplicado;
  5. Criação da página;

Uma ferramenta que reescrevia e publicava automaticamente era o BlogToRank, podendo fazer upload dos conteúdos “emprestados” (para usar a terminologia dos Black Hats) em centenas de milhares de blogues com um único perfil de utilizador. 

Outra ferramenta de produção massiva de conteúdos era o Blog Solution. Este software fazia auto raspagem, limpeza, sinonimização, reescrita, tradução, criação de links, etc. 

Sem qualquer pudor no cabeçalho da home era declarada a capacidade de criar 100 blogues por segundo, associando infelizmente o conceito “SEO” à dita solução.

A construção massiva de páginas é uma técnica black hat feita exclusivamente para que estas sejam indexadas pelos motores de busca.

 

Google Scrapper Report

Glossário