Fundamentos e Evolução dos Sistemas de Busca: Do Início ao Google
Classificado em Computação
Escrito em em português com um tamanho de 5,65 KB
7 – Recuperação de Dados e Informação: Exemplos
A distinção entre recuperação de dados e recuperação de informação é fundamental:
Exemplos de Recuperação de Dados:
- Uma busca por documentos que contêm a palavra "Brasil".
Exemplos de Recuperação de Informação:
- Uma busca por bons documentos sobre o Brasil.
8 – A Lista Invertida: Conceito e Aplicação
A Lista Invertida mostra quantas vezes um determinado termo foi encontrado em um documento específico. Para construí-la, é necessário coletar todos os termos do documento e organizá-los em ordem alfabética.
9 – História e Evolução dos Sistemas de Busca
Em 1997, os usuários realizavam buscas seguindo links a partir de índices mantidos por humanos, como o Yahoo!, por exemplo. As buscas também podiam ser feitas de forma automática, através do AltaVista, por exemplo, porém as respostas retornadas eram de baixíssima qualidade.
Em 1994, acreditava-se que, se um índice fosse completo, seria capaz de encontrar tudo, mas isso não garantia qualidade na resposta.
O Google surgiu como uma proposta para melhorar esse cenário, com o objetivo de construir uma máquina de busca de larga escala na web.
Em 1997, o Google possuía um índice de 24 milhões de páginas. Os fundadores do Google foram Larry Page e Sergey Brin.
Larry e Sergey começaram a colaborar em um projeto de uma máquina de busca chamada BackRub. O dinheiro era curto, e eles saíam à caça de computadores que pudessem ser emprestados para sua rede. Até meados de 1998, Larry e Sergey trabalharam para melhorar a tecnologia da máquina de busca. Compraram 1TB de disco. O fundador do Yahoo!, David Filo, aconselhou os dois a criar, eles mesmos, uma empresa e amadurecer a tecnologia.
10 – Desafios na Recuperação de Textos em Linguagem Natural
Dificuldade em lidar com textos em linguagem natural, que nem sempre são bem estruturados e podem ser semanticamente ambíguos.
11 – Construção e Processo de Recuperação de um Sistema de Busca
Construção do Sistema de Busca:
- As operações sobre o texto modificam os documentos e geram uma visão lógica destes.
- Construção de um índice do texto.
Processo de Recuperação:
- O usuário especifica sua necessidade.
- A necessidade do usuário é transformada pelas mesmas operações de texto que foram aplicadas ao texto dos documentos.
- A consulta é processada e os documentos são recuperados.
- Antes de serem enviados ao usuário, os documentos são ordenados de acordo com sua relevância para a consulta.
- Neste ponto, o usuário pode selecionar um conjunto de documentos realmente relevantes e dar início a um ciclo de feedback.
12 – O Sistema de Busca do Google: Funcionamento e Otimização
O sistema de busca do Google é considerado um dos melhores buscadores do mundo, pois na maioria das vezes retorna resultados relevantes para o usuário. Todos os links da web são vasculhados por um robô (crawler), desde que a indexação do site seja permitida ou não, podendo definir as regras no arquivo chamado robots.txt
.
Quanto mais links apontarem para o seu site, maior será a relevância da página. É utilizado o PageRank para classificar o site, e após isso, a página passa por uma análise para verificar se está de acordo com as políticas do Google. O Google também possui algoritmos AntiSpam para verificar irregularidades, que também podem ser identificadas através de denúncias de usuários.
Quando você começa a digitar uma palavra, o Google faz algumas sugestões de termos de busca, podendo até sugerir a correção ou um sinônimo da palavra. As páginas locais da sua região são exibidas com maior relevância do que as de outros países.
Tudo isso funciona porque o Google tem um sistema de anúncios (Google Ads) integrado, que permite que a empresa gere receita e os anunciantes paguem para que suas empresas sejam divulgadas na web.
13 – Vantagens e Desvantagens de Modelos de Busca
Vantagens: Formalismo claro e Simplicidade.
Desvantagens: Consultas podem trazer poucos ou muitos documentos; Decisão binária e sem balanceamento de relevância.
15 – Conceitos de Hubs e Autoridades em Análise de Links
Hubs são responsáveis por vincular as Autoridades comuns, excluindo as páginas que possuem um alto grau de hyperlinks de entrada e não são relevantes para o assunto. Sendo assim, Autoridades e Hubs exibem uma relação de interdependência: uma boa Autoridade será uma página apontada por bons Hubs, e um bom Hub será uma página que aponta para boas Autoridades.
16 – Exemplo de Busca Booleana e Análise de Relevância
Termos de busca:
- Filme
- Titanic
- Ganhar
- Oscar
- Melhor
- Regresso
- Não
- Longa
- Senhor
- Anel
Representação Vetorial dos Documentos (Exemplo):
D1: (1,1,1,1,1,0,0,0,0,0)
D2: (1,0,1,1,1,1,1,0,0,0)
D3: (1,0,1,1,1,0,0,1,1,1)
Operações Booleanas (Exemplo):
D1: 1 v 0 ^ 1 ^ 1 = 1 ^ 1 = 1
D2: 1 v 0 ^ 1 ^ 1 = 1 ^ 1 = 1
D3: 1 v 1 ^ 1 ^ 1 = 1 ^ 1 = 1
A pesquisa não foi bem elaborada, pois o D2 não ganhou o Oscar e, mesmo assim, foi retornado no resultado da pesquisa.