A busca de informações é um conjunto de operações sequenciais realizadas com o objetivo de fornecer informações específicas com base em critérios definidos.
O critério de busca é uma consulta informativa que expressa a necessidade do usuário por determinados dados.
O processo de busca envolve várias etapas:
Os resultados da busca são caracterizados pela relevância, ou seja, o grau de correspondência dos dados encontrados com a consulta de busca, e pertinência – a relação entre informações úteis e o total de resultados apresentados.
Para obter resultados úteis, a formulação da consulta informativa desempenha um papel significativo. Em qualquer motor de busca, você pode refinar sua consulta usando ferramentas específicas, assim, restringindo o escopo da busca. A escolha de um motor de busca específico também influencia significativamente o tipo de informações apresentadas.
De maneira geral, qualquer motor de busca opera com um algoritmo semelhante. Ele consiste em dois componentes: um programa que coleta e indexa informações e um complexo de software que recupera dados com base na consulta do usuário e os classifica (ordena) para exibição dos resultados. Vamos examinar cada parte do motor de busca em mais detalhes.
O robô de busca é um programa que realiza a função principal do motor de busca: encontrar novas fontes de dados (páginas). Como este programa navega livremente pela web, ele é frequentemente chamado de "aranha". O princípio de funcionamento da "aranha" é bastante simples: ao acessar uma página, ela procura links para outras páginas e visita cada uma delas, repetindo as ações anteriores. Enquanto isso, o robô indexa (armazena informações-chave sobre o site em um banco de dados) e envia uma cópia de cada página encontrada para um arquivo. É importante entender que "cada" se refere a páginas que atendem aos parâmetros de busca. Antes de serem indexadas, novas páginas são verificadas quanto a vírus, erros técnicos e plágio. Páginas de baixa qualidade são imediatamente filtradas. E, claro, com base no princípio de funcionamento da "aranha", é evidente que quanto mais links para um site (incluindo internos e externos), mais rápido ele será indexado.
Além das verificações de qualidade, existem limitações quantitativas na gravação de páginas no índice. O motor de busca possui recursos limitados e não pode escanear todos os sites na internet instantaneamente ou mesmo dentro de um mês. Portanto, cada site tem um "orçamento de rastreamento" – o número de páginas que o robô de busca pode percorrer de uma só vez e o número máximo de documentos indexados desse site. Para sites grandes, isso pode ser uma das principais razões para atrasos na atualização de dados no índice. A solução mais eficaz nesse caso é configurar um sitemap.xml. Este é um mapa do site especialmente projetado para orientar o trabalho da "aranha". Neste mapa, é necessário especificar quais páginas são atualizadas com mais frequência, o que deve ser priorizado para indexação, quais informações o robô de busca deve prestar atenção e o que já foi verificado.
De qualquer forma, a indexação de páginas não ocorre instantaneamente, pois o robô de busca não pode percorrer toda a rede em um segundo. Atualmente, o processo de indexação leva no máximo 2-3 semanas, enquanto para sites de qualidade, úteis e adequadamente otimizados, pode ocorrer em poucos dias. Você pode verificar a indexação de páginas no Google Search Console.
Os esforços para reduzir o tempo de indexação de um site são cruciais para o crescimento. Os recursos na internet estão aumentando a cada segundo, e os motores de busca não conseguem evoluir na mesma velocidade. Portanto, além do robô de busca regular, foi criado um robô rápido.
O robô rápido é um programa que se concentra na indexação de sites frequentemente atualizados (blogs, portais de notícias, redes sociais, etc.). Assim, esse programa permite que os resultados mais recentes apareçam no topo das buscas. A principal diferença entre um robô regular e um robô rápido é que o robô rápido não considera links. Portanto, a mesma página pode ser indexada tanto pelo robô regular quanto pelo robô rápido.
Vamos examinar a segunda parte do motor de busca usando o Google como exemplo.
Após o usuário inserir sua consulta na barra de busca, o primeiro passo é o "balanceador de carga". Ele distribui automaticamente as consultas entre clusters (grupos de servidores). Esta etapa é essencial para o uso eficiente do poder computacional.
Em seguida, o sistema verifica a existência de resultados já preparados no cache (memória para armazenamento de informações frequentemente solicitadas). Isso simplifica as operações, uma vez que algumas consultas tendem a se repetir com mais frequência durante certos eventos (notícias globais importantes, campanhas publicitárias, etc.), enquanto outras mantêm uma popularidade consistente, como redes sociais.
Os resultados da busca são armazenados no cache do motor de busca por um tempo, permitindo que dados prontos sejam recuperados quando necessário.
O motor de busca então inicia a meta-busca. Ele determina a que tipo de dados a consulta se refere. Na maioria das vezes, isso é texto, mas muitos motores de busca também podem trabalhar com imagens. Neste estágio, são realizadas verificações ortográficas e a localização geográfica da consulta é esclarecida.
O tipo de consulta também é determinado: comercial ou informativa. O tipo de consulta afeta diretamente a classificação. Se a consulta for informativa, por exemplo, "ingredientes do sorvete", os principais resultados apresentarão sites com as informações mais úteis para o usuário (conteúdo envolvente, links naturais, etc.). No caso de uma consulta comercial, como "comprar sorvete", o motor de busca tentará exibir páginas comerciais nos resultados.
As informações sobre o tipo de consulta são cruciais para a otimização adequada do site. Você pode obter esses dados sobre consultas usando serviços especializados como SEMrush.
Além disso, os motores de busca identificam consultas específicas, como aquelas que contêm "avaliação", "baixar", "comprar", etc. Para essas consultas, é essencial não apenas ter palavras-chave nas páginas, mas também a capacidade de realizar transações ("baixar", "comprar") ou avaliações reais. Assim, se os sites concorrentes realmente permitem a compra ou pedido de um produto ou serviço, simplesmente incluir a palavra "comprar" no texto provavelmente não será suficiente. Para diferentes consultas, certos fatores de classificação podem ter mais peso do que outros, como a atualidade das informações para notícias ou a presença do nome da marca no nome de domínio para consultas especificamente sobre a marca.
O sistema começa a coletar informações para uma nova lista. Para isso, a consulta é enviada para a "busca básica". Na busca básica, está armazenado o índice do motor de busca, dividido em várias partes e processado em diferentes servidores. A presença de vários servidores reduz a carga e acelera o processo de busca. Além disso, para proteger contra perda de dados, cada servidor cria várias cópias.
No final da busca básica, os resultados encontrados que correspondem à consulta são retornados para a meta-busca. No entanto, essa resposta ainda não é final e apresentada ao usuário. Após receber os resultados da meta-busca, o Google os processa primeiro através de filtros e, em seguida, os prepara para exibição usando o algoritmo RankBrain.
Um filtro é um algoritmo que contém requisitos específicos para sites. Quando um filtro detecta não conformidade com os parâmetros especificados, o motor de busca aplica sanções: exclusão do índice, redução de posições ou remoção de certas páginas dos resultados.
O objetivo principal da aplicação de filtros é melhorar a qualidade dos resultados de busca. Os filtros dos motores de busca estão em constante aprimoramento para levar em conta mais fatores de utilidade.
Alguns dos filtros mais conhecidos incluem:
Dedicar-se a esses filtros é essencial para otimizar seu site.
Todos eles visam combater spam e imperfeições específicas dos sites, sendo os principais problemas a unicidade do conteúdo, atualizações regulares e links externos de qualidade. A existência de filtros obriga os otimizadores a prestar mais atenção à melhoria da qualidade do site, seu conteúdo e design para alcançar as melhores posições.
Subsequentemente, o Google classifica os resultados usando o algoritmo RankBrain. O RankBrain foi introduzido pela primeira vez com a criação do filtro de busca Hummingbird. O objetivo do desenvolvimento do algoritmo era melhorar a qualidade da busca aumentando os critérios de classificação.
RankBrain é um algoritmo de aprendizado de máquina que constrói uma fórmula de classificação (distribuição de posições) para os resultados da busca. Este algoritmo permite a criação de uma fórmula muito complexa que considera dezenas de coeficientes para apresentar os resultados mais relevantes no topo. Notavelmente, a principal característica do RankBrain é a capacidade de personalizar a fórmula para tipos específicos de consultas sem degradar a qualidade do trabalho para outras.
Os robôs de busca descobrem milhões de páginas, e verificar cada uma quanto à conformidade com a consulta, além de determinar sua posição na lista, pode causar atrasos significativos. O RankBrain revisa todas as páginas retornadas pela busca básica, identifica uma lista de parâmetros de relevância para os textos e atribui a eles um peso específico. Em seguida, começa a classificar as páginas em ordem decrescente de utilidade. O algoritmo considera centenas de fatores diferentes (tráfego, unicidade do conteúdo, número de links, etc.). Atualmente, o RankBrain contém cerca de 800 critérios desse tipo. Após a introdução deste algoritmo, a relevância dos resultados do Google aumentou significativamente, permitindo que os usuários recebessem as respostas necessárias quase instantaneamente. No entanto, a velocidade não é o critério mais crítico para os usuários.
Os principais parâmetros para avaliar um motor de busca incluem:
A precisão expressa a correspondência do resultado com a consulta. Quanto menos sites errôneos nos resultados, melhor o sistema funciona. Os motores de busca não têm problemas com isso.
A completude envolve a diversidade dos resultados apresentados. Por exemplo, se um motor de busca não tem certeza do que o usuário precisa com a consulta "Sura" (existe um rio, uma cidade, um time esportivo), ele tentará fornecer resultados para todas as variações mais comuns da consulta. Consequentemente, a competição entre os sites para tais consultas não gira em torno do top 10, mas sim do top 5 ou top 3. Isso ocorre porque as posições restantes são ocupadas por diretórios, mapas, Wikipedia, etc., assim como sites de outras categorias que são exibidos para completar a busca.
A satisfação do usuário é calculada de forma bastante simples: se o usuário não retornar aos resultados após visitar um site, o resultado é considerado apropriado. Se ele voltar, o motor de busca lembra dessa informação e ajusta a fórmula de classificação usando aprendizado de máquina e avaliações de avaliadores. Avaliadores são especialistas que determinam quão útil é um site escolhido pelo robô de busca. A avaliação humana ajuda o aprendizado de máquina a melhorar continuamente a fórmula de classificação, removendo sites prejudiciais ou inúteis que apenas se encaixam na consulta.
Após a classificação dos resultados, informações adicionais são adicionadas à exibição: mapas, endereços, informações gerais, links úteis, anúncios relevantes, vídeos, recomendações, e assim é apresentado ao usuário. Dessa forma, os motores de busca se esforçam para fornecer informações diversificadas e mais relevantes, o que deve ser levado em consideração ao otimizar um site para alcançar altas posições.