Guia de Modelos e Técnicas de Recuperação de Informação

Classificado em Computação

Escrito em em português com um tamanho de 5,44 KB

1. Paralelo entre os Modelos Booleano, Vetorial e Probabilístico

Modelo Booleano: O Modelo Booleano é um dos modelos básicos que considera uma consulta como uma expressão booleana convencional, que liga seus termos através de conectivos lógicos AND, OR e NOT.

Modelo Vetorial: No Modelo Vetorial, cada documento é representado como um vetor de termos e cada termo possui um valor associado que indica o grau de importância deste documento.

Modelo Probabilístico: O Modelo Probabilístico foi proposto em 1976 por Robertson e Sparck Jones, com o objetivo de capturar o problema de Recuperação de Informação (RI) usando um formalismo probabilístico.

2. Exercício de Indexação de Documentos

De acordo com os documentos abaixo, faça o que se pede:
a) Construa o índice.

Índice: Ciência – Informação – Estudar – Gênese – Processo – Transformação – Dado – Conhecimento – Relação – Ser – Objeto – Estudo (Substantivo) – Fenômeno – CI – Escopo – Tecnologia.

3. Cálculo de Precisão e Revocação

De acordo com o conjunto de documentos relevantes e o conjunto de documentos recuperados, calcule a Precisão e Revocação até o documento 44. Monte o gráfico da curva Precisão x Revocação.

  • Documentos relevantes (N): {1, 4, 8, 44, 72}
  • Vetor resultado recuperado: <22, 8, 3, 1, 2, 24, 6, 33, 45, 4, 48, 55, 32, 72, 11, 44>

Legenda:
N: Documentos Relevantes
R: Respostas já vistas pelo usuário
RA: Documento Relevante no conjunto Resposta

Fórmulas:
Precisão = RA / R
Revocação = RA / N

  • Situação 1: Precisão: 0/1 = 0% | Revocação: 0/5 = 0%
  • Situação 2: Precisão: 1/2 = 50% | Revocação: 1/5 = 20%
  • Situação 3: Precisão: 1/3 = 33,3% | Revocação: 1/5 = 20%
  • Situação 4: Precisão: 2/4 = 50% | Revocação: 2/5 = 40%
  • Situação 5: Precisão: 2/5 = 40% | Revocação: 2/5 = 40%
  • Situação 6: Precisão: 2/6 = 33,3% | Revocação: 2/5 = 40%
  • Situação 7: Precisão: 2/7 = 28,57% | Revocação: 2/5 = 40%
  • Situação 8: Precisão: 2/8 = 25% | Revocação: 2/5 = 40%
  • Situação 9: Precisão: 2/9 = 22,22% | Revocação: 2/5 = 40%
  • Situação 10: Precisão: 3/10 = 30% | Revocação: 3/5 = 60%
  • Situação 11: Precisão: 3/11 = 27,27% | Revocação: 3/5 = 60%
  • Situação 12: Precisão: 3/12 = 25% | Revocação: 3/5 = 60%
  • Situação 13: Precisão: 3/13 = 23,07% | Revocação: 3/5 = 60%
  • Situação 14: Precisão: 4/14 = 28,57% | Revocação: 4/5 = 80%
  • Situação 15: Precisão: 4/15 = 26,55% | Revocação: 4/5 = 80%
  • Situação 16: Precisão: 5/16 = 31,25% | Revocação: 5/5 = 100%

Gráfico: Eixo Vertical (Precisão), Eixo Horizontal (Revocação).

4. Itens para o Pré-Processamento de Texto em RI

  • Análise Léxica: É o processo de converter um stream de caracteres em um stream de palavras.
  • Eliminação de Stop Words: Stop Words são palavras que ocorrem em cerca de 80% dos documentos de uma coleção, sendo assim, são inúteis do ponto de vista de recuperação de informação.
  • Stemming: Em alguns casos, apenas variações da palavra especificada por uma consulta de usuário podem estar presentes em um documento. Essas variações (plural, gerúndio, flexões verbais) podem impedir o casamento de uma palavra na consulta com uma palavra em um documento relevante.
  • Seleção de Termos de Índices: Quando nem todas as palavras de um documento são usadas como termos de índice, é necessário selecionar os temas que serão usados.
  • Thesauri (Tesauros): É um tesouro de palavras, consistindo em uma lista de termos importantes para um determinado domínio de conhecimento.

5. Classificações das Linguagens de Consulta

  • Consultas baseadas em palavras-chave:
    • Consultas de palavras únicas.
    • Consultas de contexto (Frase, Proximidade).
    • Consultas booleanas.
    • Linguagem natural.
  • Consultas Pattern Matching: Palavras, prefixos, sufixos, limites, substrings, permissão de erros e expressões regulares.
  • Consultas Estruturais: Estrutura fixa, hipertexto e estrutura hierárquica.

6. Técnica de Compressão e Modelo de Huffman

A técnica de compressão consiste em representar o texto original ocupando menos espaço físico. O Modelo de Huffman é um método de codificação bem conhecido e utilizado, proposto em 1952. Trata-se de um código único de tamanho variável, que é atribuído a cada símbolo diferente do texto, otimizando o armazenamento com base na frequência dos caracteres.

Entradas relacionadas: