quinta-feira, 2 de setembro de 2010

Consulta do Google

Refinamentos Consulta do Google


Os motores de busca como objectivo proporcionar os resultados mais relevantes em resposta às consultas, mas as limitações podem ser vistos no que é realmente devolvido com base nas consultas usadas. As consultas de pesquisa pode ser específico demais ou muito geral para motores de busca para reconhecer os bons resultados. Google entrou com pedidos de patentes sobre os termos de consulta ou refinamentos alternativa de consulta para oferecer uma solução.

A solução Google

As consultas de pesquisa que não são muito eficazes na prestação de bons resultados incluem homônimos que são palavras que têm o mesmo som ou grafia, mas significados diferentes. contextos impróprios na escolha das palavras também pode ser muito confuso, especialmente para motores de busca. termos muito gerais, fornecer resultados que são muito amplas, enquanto condições muito estreito pode ser muito restritiva e pode fornecer resultados de pesquisa não-responsivos.

Google apresenta um sistema e método que tenta resolver este problema particular. Neste sistema, uma consulta armazenada e um documento armazenado estão associados como um emparelhamento lógico. O emparelhamento é atribuído um peso, portanto, quando uma consulta é emitido, um conjunto de documentos de pesquisa é produzida. Há pelo menos um documento de pesquisa que corresponde a pelo menos um documento. Recuperação é feito quando a consulta armazenada eo peso atribuído a ele associados encontrados pelo menos um documento armazenado. Um cluster é formado por este e pontuação é feita em pelo menos um cluster em relação a pelo menos um outro cluster. Pelo menos uma consulta, pontuada é sugerido como um conjunto de aperfeiçoamentos consulta.

O processo começa quando o Google encontra resultados, escolhendo o top 100 documentos para clustering. Durante esta fase, os vetores prazo são computados para cada um dos referidos documentos que foram classificados por relevância. Os documentos são associados a um documento armazenado em um banco de dados constantes de associação. termos da consulta são encontradas alternativas, olhando para as associações com as consultas que haviam sido previamente calculado para a correspondência armazenados os documentos.

Termo de vetores também são criados para termos de consulta alternativa. Os clusters são criados a partir de ambos os conjuntos de vetores de expressão para formar agrupamentos. Cada cluster tem um cluster do centróide calculado. Consultas de pesquisa associados a um documento de busca no cluster são pontuados de acordo com a distância entre este centróide e por cento dos documentos armazenados ocorrendo no cluster. O refinamento melhor consulta sugerida contém o maior número de termos de pesquisa e de consulta mais freqüente nos documentos do cluster.

Outros nomes e grupos de consulta podem ser criados para vir para cima com requintes de consulta adicionais sugeridos. Os refinamentos são classificadas por escores de relevância. consultas alternativos podem incluir formas negada de termos que aparecem no conjunto de refinamentos, mas não aparecem na consulta de pesquisa original. Um número de consultas pré-determinado de pesquisa selecionados a partir de consultas do usuário do passado podem ser usados para se chegar a um conjunto pré-computadas possível de refinamentos. As consultas pré seriam emitidas quando os resultados de busca são mantidos em um banco de dados para futuras solicitações de pesquisa do usuário. As consultas refinado seria fornecido para o usuário, juntamente com os resultados da pesquisa original.

O estágio precomputation acontece antes de qualquer consulta é inserida no mecanismo de busca. É melhor descritas com o uso de pelo menos quatro partes - associador, selector, regenerador e inversor.

O associador cria relações relevância ponderada entre as consultas armazenadas e armazenados os documentos. O selector decide quais documentos armazenados e armazenados consultas devem ser recuperados. O regenerador olha logs de consulta e selecionar documentos armazenados com base em pesquisas anteriores. O inversor olha para os dados em cache e seleciona os documentos e procedimentos associados com base nos dados armazenados em cache.

O sistema de consulta-se aperfeiçoamentos tem quatro partes. A matcher corresponde a um ou mais documentos armazenados os documentos de pesquisa reais que tenham sido gerados pelo motor de busca para responder a uma consulta de pesquisa. Também identifica as consultas armazenadas e pesos atribuídos por intermédio das associações correspondentes aos documentos da correspondência armazenada. A forma clusterer uma ou mais clusters usando o termo vetores formados a partir dos termos que ocorrem na correspondência consultas armazenadas e pesos correspondentes. O artilheiro calcula centróides que representam o centro ponderada dos vetores de cada cluster prazo. Um apresentador identifica as consultas de pesquisa de pontuação mais alta que uma ou mais consulta aperfeiçoamentos para o usuário. O aspecto interessante dessa abordagem é a forma como dados de usuário é incorporado em resultados através da utilização de arquivos de log e informações armazenadas em cache.

O pedido de patente mostra uma forma de alcançar melhorias consulta, mas ninguém sabe ao certo exatamente como o Google aparece com resultados alternativos. No entanto, oferece algumas dicas sobre como criar conteúdo em sites e como aparecem nos resultados alternativos. Ao tomar em devida consideração as palavras que as pessoas provavelmente procurar e que aparece nos resultados do Google para pesquisar frases, uma pista pode ser fornecida sobre a forma como a abordagem de pesquisa refinamentos tratará de um website.

Multi-estágio de processamento de consulta

A determinação da relevância da página para responder a consultas de pesquisadores considera como um termo ou expressão é usada no contexto de uma página. Um pedido de patente que olha para as possíveis formas de considerar o contexto destas palavras também foi apresentado pelo Google. Ele descreve um processo de várias fases que determina a relevância e encontra resultados para a pesquisa.

As possíveis medidas a serem tomadas, conforme descrito neste documento pode ser dividido em fases. A primeira etapa trata de supressão de palavras de parada, decorrentes prazo ea expansão de consultas para usar coisas como sinônimos e termos relacionados que geralmente co-ocorrem com eles. Durante esta fase, a pontuação de relevância são criados entre consulta e cada documento computadorizada com um ou mais algoritmos de pontuação. A segunda fase usa adjacência e da proximidade dos termos para classificar os documentos. A terceira fase analisa o prazo atributos como determinar se os termos são títulos, metadados ou se esses termos possuem certas características da fonte. A quarta e última etapa é a geração de trechos de retornar com os resultados.

refinamentos consulta Interactive mostrou que pode promover a recuperação efetiva. Importantes motores de busca utilizar o histórico das ações do usuário, tais como consultas ou cliques para personalizar os resultados de busca. As recomendações da Web de consulta específica (QSRs) responder a consultas com efeitos retroactivos a partir do histórico do usuário como novos resultados surgirem. Seu principal objetivo é recomendar novas páginas web para consultas de idade do usuário. No entanto, este não será de qualquer utilidade, se o usuário tem um interesse permanente em uma consulta particular. Foco também pode ser deslocado de consultas individuais para as sessões de consulta que inclui todas as ações associadas com uma determinada consulta inicial. A consulta é considerada um refinamento da consulta anterior, se ambas as consultas conter pelo menos um termo comum.