Modelos Booleano, Vetorial e Probabilístico na Recuperação de Informação
Classificado em Computação
Escrito em em português com um tamanho de 4,61 KB.
1. Faça um paralelo entre os Modelos Booleano, Vetorial e Probabilístico.
Modelo Booleano:
O Modelo Booleano é um dos modelos básicos que considera uma consulta como uma expressão booleana convencional que liga seus termos através de conectivos lógicos AND, OR e NOT.
Modelo Vetorial:
No Modelo Vetorial cada documento é representado como um vetor de termos e cada termo possui um valor associado que indica o grau de importância deste documento.
Modelo Probabilístico:
O Modelo Probabilístico foi proposto em 1976 por Robertson e Spack Jones, com o objetivo de capturar o problema de IR usando um formalismo probabilístico.
2. De acordo com os Documentos abaixo, faça o que se pede:
a) Construa o índice.
a) Ciencia – Informação – Estudar – Gênese – Processo- Transformação – Dado – Conhecimento – Relação – Ser – Objeto – Estudo (Substantivo) – Fenômeno- CI – Escopo – Tecnologia.
3) De acordo com o conjunto de documentos relevantes e o conjunto de documentos recuperados, calcule a Precisão e Revocação até o documento 44. Monte o gráfico da curva Precisão x Revocação
Documentos relevantes: (N){1,4,8,44,72}
Vetor resultado recuperado: <22,8,3,1,2,24,6,33,45,4,48,55,32,72,11,44>
N= Documentos Relevantes
R= Respostas já vistas pelo usuário
RA= Documento Relevante no conjunto Resposta.
Precisão= RA/R
Revocação= RA/N
Situação 1:
Precisão: 0/1=0%
Revocação: 0/5=0%
Situação 7:
Precisão: 2/7 = 28,57%
Revocação: 2/5 = 40%
Situação 13:
Precisão: 3/13 = 23,07%
Revocação: 3/5 = 60%
Situação 2:
Precisão: 1/2 = 50%
Revocação: 1/5 = 20%
Situação 8:
Precisão: 2/8 = 25%
Revocação: 2/5 = 40%
Situação 14:
Precisão: 4/14 = 28,57%
Revocação: 4/5 = 80%
Situação 3:
Precisão: 1/3 = 33,3%
Revocação: 1/5 = 20%
Situação 9:
Precisão: 2/9 = 22,22%
Revocação: 2/5 = 40%
Situação 15:
Precisão: 4/15 = 26,55%
Revocação: 4/5 = 80%
Situação 4:
Precisão: 2/4 = 50%
Revocação: 2/5 = 40%
Situação 10:
Precisão: 3/10 = 30%
Revocação: 3/5 = 60%
Situação 16:
Precisão: 5/16 = 31,25%
Revocação: 5/5 = 100%
Situação 5:
Precisão: 2/5 = 40%
Revocação: 2/5 = 40%
Situação 11:
Precisão: 3/11 = 27,27%
Revocação: 3/5 = 60%
Situação 6:
Precisão: 2/6 = 33,3%
Revocação: 2/5 = 40%
Situação 12:
Precisão: 3/12 = 25%
Revocação: 3/5 = 60%
Gráfico: Precisão: Vertical, Revocação: Horizontal
4. Fale dos 5 itens para o Pré-Processamento do texto em RI.
Análise léxica:
É o processo de converter um Stream de caracteres em um Stream de palavras.
Eliminação de Stop Words:
Stop Words são Palavras que ocorrem em 80% dos documentos de uma coleção, sendo assim, são inúteis do ponto de vista de recuperação de informação.
Streamming:
Em alguns casos apenas variações da palavra especificada por uma consulta de usuário podem estar presentes em um documento. Essas variações podem impedir o casamento de uma palavra na consulta com uma palavra em um documento relevante. Ex: Plural, Gerúndio, Flexões Verbais.
Seleção de Termos de índices:
Quando nem todas as palavras de um documento são usadas como termos de índice, é necessário selecionar os termos que serão usados.
Thesauri:
É um tesouro de palavras, que é uma lista de palavras importantes para um determinado domínio de conhecimento.
5. Fale resumidamente das 3 classificações das Linguagens de Consulta.
Consultas baseadas em palavras chaves:
- Consultas de palavras únicas.
- Consultas de Contexto (Frase, Proximidade)
- Consultas Booleanas
- Linguagem Natural
Consultas Pattern Matching: Palavras, prefixos, sufixos, limites, substrings, permissão de erros, expressões regulares.
Consultas Estruturais: Estrutura Fixa, Hipertexto, Estrutura Hierárquica.
6. O que é técnica de Compressão? Fale do Modelo de Huffman e cite um exemplo.
Técnica de compressão consiste em representar o texto original em menos espaço.
O modelo Huffman, é um método de codificação bem conhecido e utilizado que foi proposto em 1952. É um código único de tamanho variável, atribuído a cada símbolo diferente do texto.