quarta-feira, 22 de junho de 2011

Por quê os motores de busca são adversos á conteúdo idêntico ?

Razões para Replicação de dados

De acordo com um estudo feito por Krishna Bharat e Brodner Andrei existem várias razões pelas quais os dados são replicados ou por sites espelhos são criados - Balanceamento de Carga, Alta Disponibilidade, Multi-lingual replicação, Franquias ou versões Local, compartilhamento de banco de dados, Virtual Hosting, e manutenção Identidades pseudo.

No balanceamento de carga, replicação de dados é feito para diminuir as cargas dos servidores. Em vez de ter apenas um servidor para lidar com todo o tráfego de internautas interessados ​​em dados ou conteúdo, o site é espelhado ou os dados replicados de modo que o tráfego é dividido entre dois ou mais servidores.

Dados também são replicados para torná-los mais altamente disponíveis. Um exemplo disso é quando os dados são espelhados dentro da mesma organização para fins geográfica para torná-los facilmente disponíveis.

Multi-lingual replicação de dados também é muito comum. Dados traduzidos para diferentes línguas são muito úteis para se chegar a um público mais amplo que todos precisam ter acesso aos mesmos dados. Bons exemplos de multi-lingual replicação são muitos sites canadenses que são os mesmos em tudo, exceto para o idioma do conteúdo em que Inglês ou Francês é usado.

Dados também é replicado para franquias ou versões locais dos dados. Isso acontece quando os dados ou o conteúdo é franqueada para outra empresa, que, então, oferecer os dados mesmo ou produto, mas sob diferentes marcas.

Às vezes, os dados são replicados involuntariamente. Isso acontece quando dois sites independentes compartilham um banco de dados comum ou do sistema de arquivos. O compartilhamento de banco de dados, por vezes, resultados de espelhamento, mesmo sem intenção os sites ".

Virtual que hospeda também às vezes resultar em espelhamento. Isto acontece a serviços com diferentes sites e nomes de host, mas usar o mesmo endereço IP e servidor. O que acontece é o caminho para um site é a única válida enquanto o caminho para o outro site, simplesmente dá uma página idêntica como resultado.

A última razão, ao contrário dos primeiros seis razões, muitas vezes não é uma razão válida para o espelhamento de site. Isto é porque o espelhamento para manter identidades pseudo muitas vezes é feito para spam motores de busca com sites diferentes do mesmo conteúdo como um meio começar um ranking superior da página. Esta razão é considerado inaceitável e é uma das razões muito porque os motores de busca tendem a ser adversas para conteúdo idêntico ou dados replicados.

Orientação para webmasters do Google sobre o conteúdo duplicado

Motores de busca são flagrantemente contra a dados replicados tanto assim que o Google ainda tem uma advertência contra eles em suas diretrizes de Webmaster. Diretrizes para webmasters do Google fosse uma lista de Fazer e Não Fazer que deveria ser seguido por websites para ajudar o motor de pesquisa na busca, indexação e websites ranking. Após a nos fazer, naturalmente, aumentar a chance de que o Google irá listar um site específico e ele correu favoravelmente também. No entanto, fazer qualquer um dos Don'ts, naturalmente diminui rank de um site.

Nas orientações específicas para a qualidade da peça website, declarou-se claramente que os sites não devem criar várias páginas, subdomínios ou domínios com conteúdo substancialmente duplicado. O conteúdo prazo duplicado é no entanto um termo dúbio, uma vez que não está claro quantas palavras duplicadas que leva para os motores de busca como o Google a penalizar uma página. Pode levar dez palavras ou talvez uma sentença inteira, ou parágrafo, ou mesmo precisa de um documento inteiro ou página de conteúdo a ser considerado conteúdo duplicado. A principal coisa a lembrar é que a diretriz diz para não criar páginas com conteúdo substancialmente duplicado. Então, para estar no lado seguro, seria melhor ter sempre um novo conteúdo original. Isto não é possível, no entanto, por vezes, especialmente quando citando artigos de modo que seja a sua chamada para determinar se o conteúdo duplicado pode penalizar seu site. Se a sua consciência é claro que o conteúdo duplicado existe para benefício do utente e não para o seu ranking da página, em seguida, os indexadores esperamos interpretá-lo como o mesmo e não penalizar o seu site.

Surfers irritado e Crawlers Speedy

Motores de busca existem para apontar os surfistas para sites contendo as informações relevantes para a sua seqüência de pesquisa. No entanto, eles não existem para apontar os surfistas para sites diferentes que contenham a mesma ou quase a mesma informação. Quando os surfistas clicar em links diferentes que esperam estar recebendo páginas web diferentes, com talvez a tomar iguais ou diferentes sobre o mesmo tema, mas com conteúdo definitivamente diferente. No entanto, existem muitos sites lá fora, com conteúdo duplicado parcial e até mesmo o conteúdo exato simplesmente replicadas. Clicando em sites espelho irritam surfistas uma vez que é apenas um desperdício de tempo de espera para a mesma coisa para carregar duas ou talvez até mais vezes. Isto é especialmente irritante se o site passa a ser um site de spam cujo conteúdo não é de boa qualidade. Devido a este web crawlers problema agora não rastrear exata páginas web duplicado e quase duplicar ou sites que têm determinado a partir de um rastreamento anterior. Isto significa que os sites espelho não rastreado não vai mesmo fazê-lo à cotação do mecanismo de busca resultados, pois somente uma das duplicatas é indexado pelo rastreador web. Devido a isso os motores de busca não vai ter mais de um dos sites espelhos entre os seus resultados de listagem evitando assim a irritação dos internautas.

Surfistas satisfeitos não são o único resultado da nova técnica de usar esteiras rolantes. Motores de busca também se beneficiam desde não ter que rastrear páginas espelhadas diminui a carga dos rastreadores e, assim, acelera o rastreamento. A largura de banda também é salva por causa deste resultado para uma operação mais rápida rastejando mais eficiente onde o rastreador pode cobrir web sites e índice mais significativo.

Sites válido Espelhado

No entanto, para sites espelho válido como os mencionados acima (multi-lingual franquia, etc) não deve haver nenhuma preocupação desde motores de busca têm disposições para tais coisas e ter em conta o motivo por trás deles. Você pode ajudar seu site espelho, certificando-se que você siga todas as outras orientações para serem notados e classificados por Google. Seguindo as orientações certamente irá ajudar não só o seu ranking no Google, mas com outros motores de busca também.