Guia de Modelos e Técnicas de Recuperação de Informação
Classificado em Computação
Escrito em em
português com um tamanho de 5,44 KB
1. Paralelo entre os Modelos Booleano, Vetorial e Probabilístico
Modelo Booleano: O Modelo Booleano é um dos modelos básicos que considera uma consulta como uma expressão booleana convencional, que liga seus termos através de conectivos lógicos AND, OR e NOT.
Modelo Vetorial: No Modelo Vetorial, cada documento é representado como um vetor de termos e cada termo possui um valor associado que indica o grau de importância deste documento.
Modelo Probabilístico: O Modelo Probabilístico foi proposto em 1976 por Robertson e Sparck Jones, com o objetivo de capturar o problema de Recuperação de Informação (RI) usando um formalismo probabilístico.
2. Exercício de Indexação de Documentos
De acordo com os documentos abaixo, faça o que se pede:
a) Construa o índice.
Índice: Ciência – Informação – Estudar – Gênese – Processo – Transformação – Dado – Conhecimento – Relação – Ser – Objeto – Estudo (Substantivo) – Fenômeno – CI – Escopo – Tecnologia.
3. Cálculo de Precisão e Revocação
De acordo com o conjunto de documentos relevantes e o conjunto de documentos recuperados, calcule a Precisão e Revocação até o documento 44. Monte o gráfico da curva Precisão x Revocação.
- Documentos relevantes (N): {1, 4, 8, 44, 72}
- Vetor resultado recuperado: <22, 8, 3, 1, 2, 24, 6, 33, 45, 4, 48, 55, 32, 72, 11, 44>
Legenda:
N: Documentos Relevantes
R: Respostas já vistas pelo usuário
RA: Documento Relevante no conjunto Resposta
Fórmulas:
Precisão = RA / R
Revocação = RA / N
- Situação 1: Precisão: 0/1 = 0% | Revocação: 0/5 = 0%
- Situação 2: Precisão: 1/2 = 50% | Revocação: 1/5 = 20%
- Situação 3: Precisão: 1/3 = 33,3% | Revocação: 1/5 = 20%
- Situação 4: Precisão: 2/4 = 50% | Revocação: 2/5 = 40%
- Situação 5: Precisão: 2/5 = 40% | Revocação: 2/5 = 40%
- Situação 6: Precisão: 2/6 = 33,3% | Revocação: 2/5 = 40%
- Situação 7: Precisão: 2/7 = 28,57% | Revocação: 2/5 = 40%
- Situação 8: Precisão: 2/8 = 25% | Revocação: 2/5 = 40%
- Situação 9: Precisão: 2/9 = 22,22% | Revocação: 2/5 = 40%
- Situação 10: Precisão: 3/10 = 30% | Revocação: 3/5 = 60%
- Situação 11: Precisão: 3/11 = 27,27% | Revocação: 3/5 = 60%
- Situação 12: Precisão: 3/12 = 25% | Revocação: 3/5 = 60%
- Situação 13: Precisão: 3/13 = 23,07% | Revocação: 3/5 = 60%
- Situação 14: Precisão: 4/14 = 28,57% | Revocação: 4/5 = 80%
- Situação 15: Precisão: 4/15 = 26,55% | Revocação: 4/5 = 80%
- Situação 16: Precisão: 5/16 = 31,25% | Revocação: 5/5 = 100%
Gráfico: Eixo Vertical (Precisão), Eixo Horizontal (Revocação).
4. Itens para o Pré-Processamento de Texto em RI
- Análise Léxica: É o processo de converter um stream de caracteres em um stream de palavras.
- Eliminação de Stop Words: Stop Words são palavras que ocorrem em cerca de 80% dos documentos de uma coleção, sendo assim, são inúteis do ponto de vista de recuperação de informação.
- Stemming: Em alguns casos, apenas variações da palavra especificada por uma consulta de usuário podem estar presentes em um documento. Essas variações (plural, gerúndio, flexões verbais) podem impedir o casamento de uma palavra na consulta com uma palavra em um documento relevante.
- Seleção de Termos de Índices: Quando nem todas as palavras de um documento são usadas como termos de índice, é necessário selecionar os temas que serão usados.
- Thesauri (Tesauros): É um tesouro de palavras, consistindo em uma lista de termos importantes para um determinado domínio de conhecimento.
5. Classificações das Linguagens de Consulta
- Consultas baseadas em palavras-chave:
- Consultas de palavras únicas.
- Consultas de contexto (Frase, Proximidade).
- Consultas booleanas.
- Linguagem natural.
- Consultas Pattern Matching: Palavras, prefixos, sufixos, limites, substrings, permissão de erros e expressões regulares.
- Consultas Estruturais: Estrutura fixa, hipertexto e estrutura hierárquica.
6. Técnica de Compressão e Modelo de Huffman
A técnica de compressão consiste em representar o texto original ocupando menos espaço físico. O Modelo de Huffman é um método de codificação bem conhecido e utilizado, proposto em 1952. Trata-se de um código único de tamanho variável, que é atribuído a cada símbolo diferente do texto, otimizando o armazenamento com base na frequência dos caracteres.