Google parou de contar, ou pelo menos publicamente exibir o número de páginas indexadas que em setembro de 05, depois de um estaleiro-escola "concurso de medição" com o rival Yahoo. Que contam cobriu para fora em torno de 8 bilhões de páginas antes de ter sido removido da página. A notícia quebrou recentemente, através de vários fóruns de SEO que o Google, de repente, ao longo das últimas semanas, acrescentou outra alguns bilhões de páginas para o índice. Isso pode soar como um motivo para comemoração, mas esta "conquista" não reflectir bem sobre o motor de busca que conseguiu.
O que as pessoas zumbido foi a natureza do fresco, novo alguns bilhões de páginas. Eles foram flagrante spam contendo Pay-Per-Click (PPC) publicidade, conteúdo raspados e eles eram, em muitos casos, aparecendo também nos resultados da pesquisa. Eles empurraram para fora muito mais antiga, mais sites com sede em fazê-lo. Um representante do Google respondeu através de fóruns para a questão, chamando-o de "empurrar dados ruins", algo que se reuniu com vários gemidos por toda a comunidade SEO.
Como se conseguiu enganar a indexação do Google em tantas páginas de spam em um período tão curto de tempo? Vou dar uma visão de alto nível do processo, mas não ficar muito animado. Como um diagrama de um explosivo nuclear não vai lhe ensinar como fazer a coisa real, você não vai ser capaz de correr e fazer você mesmo depois de ler este artigo. No entanto, ele faz para um conto interessante, que ilustra os problemas feio aparecendo com freqüência cada vez maior no motor de busca do mundo mais populares.
A noite escura e tempestuosa
Nossa história começa no fundo do coração de Moldva, colada scenically entre a Roménia ea Ucrânia. Entre rechaçar ataques de vampiros locais, um empreendedor local teve uma idéia brilhante e correu com ela, presumivelmente longe os vampiros ... Sua idéia era explorar como o Google tratado subdomínios, e não apenas um pouco, mas em grande forma.
O cerne da questão é que atualmente, o Google trata subdomínios da mesma maneira como trata completa domínios como entidades únicas. Isso significa que ele vai adicionar a página de um subdomínio para o índice e retornar em algum ponto depois de fazer um "rastreamento profundo." Deep rastreamentos são simplesmente a aranha seguindo os links de homepage mais no site do domínio até que ele encontra tudo ou desiste e volta mais tarde para mais.
Resumidamente, um subdomínio é um "domínio de terceiro nível". Você provavelmente já viu antes, algo parecido com isto: subdomain.domain.com. Wikipedia, por exemplo, usa-las para as línguas, a versão em Inglês é "en.wikipedia.org", a versão em holandês é "nl.wikipedia.org". Subdomínios são um modo de organizar grandes sites, ao contrário de vários diretórios ou até mesmo nomes de domínio separado completamente.
Então, nós temos uma espécie de página do Google indexa praticamente "sem perguntas". É um milagre que ninguém explorou essa situação antes. Alguns comentaristas acreditam que a razão para isso pode ser este "truque" foi introduzido após o "Big Daddy" recente atualização. Nosso amigo do leste europeu se juntaram alguns servidores, raspadores de conteúdo, spam bots, pelo contas PPC, e alguns muito importante, scripts muito inspirado, e misturou-as todas juntas desta forma ...
Cinco bilhões Servido ea contagem ...
scripts Primeiro, o nosso herói aqui trabalhada para seus servidores que, quando o Googlebot caiu, começar a gerar um número essencialmente infinito de subdomínios, todos com uma única página contendo palavras-chave rico conteúdo copiado, keyworded links e anúncios de PPC por aquelas palavras. SpamBots são enviados para colocar GoogleBot na pista através de encaminhamento e comentar spam para dezenas de milhares de blogs espalhados pelo mundo. O spam bots, pelo fornecer a configuração amplo, e não demorará muito para obter o dominó a cair.
GoogleBot encontra os links indesejados e, como é o seu propósito na vida, segue-los na rede. Uma vez que o Googlebot é enviado para a web, a execução de scripts servidores simplesmente manter gerar páginas de página após página, todas com um subdomínio exclusivo, tudo com palavras-chave, conteúdo raspados, e anúncios de PPC. Estas páginas são indexadas e de repente você tem-se um índice do Google 3-5000000000 páginas pesadas em menos de três semanas.
Relatórios indicam, num primeiro momento, os anúncios de PPC nestas páginas foram de Adsense, serviço do Google PPC própria. A ironia é, então, os benefícios do Google financeiramente de todas as impressões serem cobradas dos usuários do Adsense como eles aparecem em todos estes milhares de milhões de páginas de spam. As receitas do Adsense a partir desse esforço foram o ponto, afinal. Cram em páginas tantas que, por pura força dos números, as pessoas iriam encontrar e clicar nos anúncios em suas páginas, tornando o spammer um bom lucro em um período muito curto de tempo.
Milhões ou bilhões? O que está quebrado?
Palavra de esta conquista se espalham como fogo dos fóruns DigitalPoint. Ele se espalhou como um incêndio na comunidade de SEO, para ser específico. O "público" é, como ainda, fora do circuito, e provavelmente continuará assim. A resposta de um engenheiro do Google apareceu em um segmento Threadwatch sobre o tema, chamando-a de "empurrar dados ruins". Basicamente, a linha da empresa foi que eles não têm, de fato, somado 5 páginas bilhões. Mais tarde reivindicações incluem garantias que o problema será corrigido através de algoritmos. Aqueles que seguem a situação (seguindo os domínios conhecidos do spammer estava usando) ver apenas que o Google está removendo-os do índice manualmente.
O rastreamento é feito usando o "site:" comando. Um comando que, teoricamente, apresenta o número total de páginas indexadas a partir do site que você especificar depois do cólon. Google já admitiu que há problemas com este comando, e "5 bilhões de páginas", eles parecem estar dizendo, é apenas um sintoma disso. Esses problemas se estendem para além do mero site o comando:, mas a exibição do número de resultados para muitas consultas, o que algumas pessoas sentem são muito imprecisas e, em alguns casos flutuar descontroladamente. Google admite que eles têm indexados alguns desses subdomínios spam, mas até agora não apresentou nenhum número alternativo para disputar a 3-5000000000 mostrou inicialmente através do site: comando.
Durante a semana passada o número de domínios e subdomínios indexados spam tem vindo a diminuiu como o pessoal do Google remover os anúncios manualmente. Não houve nenhuma declaração oficial de que o "vazio" está fechado. Isto coloca o problema óbvio que, uma vez que o caminho foi mostrado, haverá uma série de imitações de dinheiro correndo para dentro antes que o algoritmo é modificado para lidar com isso.
Conclusões
Há, no mínimo, duas coisas quebradas aqui. O site: comando e pouco obscura minúscula do algoritmo que permitiu bilhões (ou pelo menos milhões) de subdomínios spam no índice. prioridade atual do Google provavelmente deve ser para fechar a lacuna antes de serem enterrados em spammers copycat. As questões em torno do uso ou abuso do Adsense são tão perturbador para aqueles que possam estar vendo pouco retorno em seus adverting orçamento deste mês.
Será que "manter a fé" no Google em face desses fatos? Muito provavelmente, sim. Não é tanto se eles merecem que a fé, mas que a maioria das pessoas nunca vai saber que isso aconteceu. Dias depois a história começou ainda há pouca menção na imprensa "mainstream". Alguns sites de tecnologia ter mencionado isso, mas este não é o tipo de história que vai acabar no noticiário da noite, principalmente porque o conhecimento básico necessário para entender que ultrapassa o que o cidadão comum é capaz de reunir. A história irá provavelmente acabar como uma interessante nota de rodapé em que a maioria dos esotéricos e neoteric dos mundos, "História de SEO".