Modelos Booleano, Vetorial e Probabilístico na Recuperação de Informação

Classificado em Computação

Escrito em em português com um tamanho de 4,61 KB.

1. Faça um paralelo entre os Modelos Booleano, Vetorial e Probabilístico.

Modelo Booleano:

O Modelo Booleano é um dos modelos básicos que considera uma consulta como uma expressão booleana convencional que liga seus termos através de conectivos lógicos AND, OR e NOT.

Modelo Vetorial:

No Modelo Vetorial cada documento é representado como um vetor de termos e cada termo possui um valor associado que indica o grau de importância deste documento.

Modelo Probabilístico:

O Modelo Probabilístico foi proposto em 1976 por Robertson e Spack Jones, com o objetivo de capturar o problema de IR usando um formalismo probabilístico.

2. De acordo com os Documentos abaixo, faça o que se pede:

a) Construa o índice.

a) Ciencia – Informação – Estudar – Gênese – Processo- Transformação – Dado – Conhecimento – Relação – Ser – Objeto – Estudo (Substantivo) – Fenômeno- CI – Escopo – Tecnologia.

3) De acordo com o conjunto de documentos relevantes e o conjunto de documentos recuperados, calcule a Precisão e Revocação até o documento 44. Monte o gráfico da curva Precisão x Revocação

Documentos relevantes: (N){1,4,8,44,72}
Vetor resultado recuperado: <22,8,3,1,2,24,6,33,45,4,48,55,32,72,11,44>

N= Documentos Relevantes
R= Respostas já vistas pelo usuário
RA= Documento Relevante no conjunto Resposta.

Precisão= RA/R
Revocação= RA/N

Situação 1:
Precisão: 0/1=0%
Revocação: 0/5=0%

Situação 7:
Precisão: 2/7 = 28,57%
Revocação: 2/5 = 40%

Situação 13:
Precisão: 3/13 = 23,07%
Revocação: 3/5 = 60%

Situação 2:
Precisão: 1/2 = 50%
Revocação: 1/5 = 20%

Situação 8:
Precisão: 2/8 = 25%
Revocação: 2/5 = 40%

Situação 14:
Precisão: 4/14 = 28,57%
Revocação: 4/5 = 80%

Situação 3:
Precisão: 1/3 = 33,3%
Revocação: 1/5 = 20%

Situação 9:
Precisão: 2/9 = 22,22%
Revocação: 2/5 = 40%

Situação 15:
Precisão: 4/15 = 26,55%
Revocação: 4/5 = 80%

Situação 4:
Precisão: 2/4 = 50%
Revocação: 2/5 = 40%

Situação 10:
Precisão: 3/10 = 30%
Revocação: 3/5 = 60%

Situação 16:
Precisão: 5/16 = 31,25%
Revocação: 5/5 = 100%

Situação 5:
Precisão: 2/5 = 40%
Revocação: 2/5 = 40%

Situação 11:
Precisão: 3/11 = 27,27%
Revocação: 3/5 = 60%

Situação 6:
Precisão: 2/6 = 33,3%
Revocação: 2/5 = 40%

Situação 12:
Precisão: 3/12 = 25%
Revocação: 3/5 = 60%

Gráfico: Precisão: Vertical, Revocação: Horizontal

4. Fale dos 5 itens para o Pré-Processamento do texto em RI.

Análise léxica:

É o processo de converter um Stream de caracteres em um Stream de palavras.

Eliminação de Stop Words:

Stop Words são Palavras que ocorrem em 80% dos documentos de uma coleção, sendo assim, são inúteis do ponto de vista de recuperação de informação.

Streamming:

Em alguns casos apenas variações da palavra especificada por uma consulta de usuário podem estar presentes em um documento. Essas variações podem impedir o casamento de uma palavra na consulta com uma palavra em um documento relevante. Ex: Plural, Gerúndio, Flexões Verbais.

Seleção de Termos de índices:

Quando nem todas as palavras de um documento são usadas como termos de índice, é necessário selecionar os termos que serão usados.

Thesauri:

É um tesouro de palavras, que é uma lista de palavras importantes para um determinado domínio de conhecimento.

5. Fale resumidamente das 3 classificações das Linguagens de Consulta.

Consultas baseadas em palavras chaves:

  • Consultas de palavras únicas.
  • Consultas de Contexto (Frase, Proximidade)
  • Consultas Booleanas
  • Linguagem Natural

Consultas Pattern Matching: Palavras, prefixos, sufixos, limites, substrings, permissão de erros, expressões regulares.

Consultas Estruturais: Estrutura Fixa, Hipertexto, Estrutura Hierárquica.

6. O que é técnica de Compressão? Fale do Modelo de Huffman e cite um exemplo.

Técnica de compressão consiste em representar o texto original em menos espaço.

O modelo Huffman, é um método de codificação bem conhecido e utilizado que foi proposto em 1952. É um código único de tamanho variável, atribuído a cada símbolo diferente do texto.

Entradas relacionadas: