Banco de Dados Textuais, GED e Hipertexto
Classificado em Computação
Escrito em em português com um tamanho de 12,07 KB
Banco de Dados Textuais
Banco de dados textuais – armazena as palavras e a relação delas com outras palavras. Blocos de textos identificados por um nome. Base de texto armazenada de forma estruturada.
Tipos de Banco de Dados Textuais
COM ESTRUTURA - Campos de tamanho variável. Um dos padrões existentes para bancos textuais estruturados é o padrão ISO. A área ainda está em desenvolvimento, estando menos organizada que a de bancos de dados relacionais.
SEM ESTRUTURA OU POSSUINDO REGISTROS COM DIFERENTES ESTRUTURAS NO MESMO ARQUIVO - Formato livre, apenas texto, sem campos, ou registros com campos diferentes, sem exigência de homogeneidade na entrada de dados. O padrão mais usado para texto livre é o ANSI.
Operadores Booleanos
- OU: função (união, adição)
- E (interseção)
- Não (exclusão)
- Near (interseção, de acordo com a proximidade das palavras pré-estabelecidas)
Principais Características
- Quanto ao armazenamento: Não está na 3ª forma normal.
- Quanto à consulta: Permite buscar por proximidade de palavras.
Exemplos de Aplicação
- Área jurídica (acompanhamento de processos, organização e regulamentos)
- Vendas, marketing e propaganda (cadastros de contatos, clientes, concorrência)
- Jornalistas, editoras e TVs (pesquisa de arquivamento de informações, distribuição/venda de informações em formato eletrônico)
Exemplos específicos: Senado Federal, PRODASEN, Biblioteca do Senado.
Existem dois tipos de pesquisa: por cabeçalho e pelo seu corpo. A menor unidade prática é a frase.
Busca por Palavras-Chave
Palavras-chaves – palavras ou expressões extraídas de um conjunto de palavras ou frases predefinidas que possuem significado para quem está pesquisando.
- QWIC: utiliza um conjunto de palavras e localiza as palavras dentro de frases descritivas do documento original.
- KWIC: índice de frases.
LOC – Dá a cada documento um código de classificação genérico para restringir a pesquisa ao máximo.
Por que a busca semântica é mais complicada? Porque o sistema tem que entender o significado do documento e a pergunta da busca. Em documentos pequenos, a precisão é a nível de palavra e a resposta a nível de documento. Se o documento for grande, a resposta é a nível de parágrafo.
Tipos de Busca
Busca por proximidade – buscas com palavras que estão fisicamente próximas umas das outras.
Busca por quantidade – procura por documentos com um número k dentro de uma lista de n palavras ou padrões, normalmente utilizado para limitar a lista de sinônimos.
Métodos de Atribuição de Valores a Palavras
- 1º: Contagem da presença ou ausência das palavras de uma consulta no documento.
- 2º: Informar o número de ocorrências de cada palavra ou padrão.
Linguagens e Padrões
GREP – Classe de linguagens formais, chamadas de expressões regulares.
ANSI – É mais adequada como linguagem de base de dados. Sintaxe projetada para ser inserido um comando de cada vez.
ISO – É uma linguagem mais voltada para base de texto.
Comandos ANSI
Comandos do Sistema
- CHOOSE: seleciona a base de texto a ser pesquisada.
- DELETE: excluir macros, pedidos de impressão, ou conjuntos de resultados.
- EXPLAIN: obtém informações sobre o sistema.
- RELATE: apresenta termos relacionados do dicionário.
- SCAN: apresenta uma lista ordenada dos termos classificados.
Comandos de Sessão
- SET: altera os parâmetros default da sessão.
- SHOW: apresenta os parâmetros default da sessão.
- START: inicia uma sessão.
- STOP: encerra as sessões.
Comandos Utilizados na Sessão
- BACK: apresenta os dados ou itens anteriores de uma lista.
- FIND: pesquisa a base de dados, índices ou dicionários.
- HELP: obtém auxílio.
- REVIEW: apresenta histórico.
- SORT: organiza registros em um conjunto de resultados.
Gerenciamento Eletrônico de Documentos (GED)
GED – Gerenciamento Eletrônico de Documentos que trabalha com arquivos. TIF: mesma extensão que o fax utiliza.
Implantação do GED
Para implantar o GED, é preciso antes fazer uma amostragem, onde irá determinar os custos da equipe e hardware, estabelecer um cronograma e determinar o número/velocidade dos scanners e discos ópticos.
Ao avaliar a Amostragem, deve-se levar em consideração a quantidade de páginas, a quantidade de páginas agrupadas, as duplicatas, etc., e as condições gerais do material.
Vantagens do GED
- Elimina erros de digitação.
- Elimina perdas de arquivos.
- Maior confiabilidade, pois os arquivos são gravados em discos ópticos.
Tecnologias Envolvidas no GED
DI - Document Imaging - arquivamento e recuperação de documentos, armazenados através da tecnologia de imagem (captura através de scanner).
DM - Document Management - gerenciamento de documentos criados eletronicamente (controla o acesso físico aos documentos: indexação, versões, histórico da vida do documento).
WORKFLOW - gerencia de forma proativa o processo de negócios (atua como integrador de ERP, CRM, SCM, E-business).
COLD/ERM - Computer Output to Laser Disk/Enterprise Report Management (Gerenciamento Corporativo de Relatórios).
FORMS PROCESSING (OCR/ICR) - automatiza o processo de entrada de dados.
RM - Records Management - gerencia o arquivamento, controle e ciclo de vida de arquivos através da categorização de documentos e tabelas de temporalidade.
CM - Content Management - conjunto de tecnologias para captação, ajustes, distribuição e gerenciamento de conteúdo que apoiam a empresa em qualquer formato digital.
Tecnologias relacionadas ou históricas: Microfilme (não envolve computadores), Processamento de Imagens Baseado em Minicomputador, Processamento de Imagens por Micros, Armazenamento em Discos Ópticos.
Etapas de um Processamento de Imagens
- Preparo
- Reconhecimento óptico
- Conferência visual
- Indexação
- Armazenamento
- Carga
Workflow
Workflow - “Fluxo de controle e informação num processo de negócio”, baseado em regras, rotas, papéis desempenhados pelos atores.
O workflow é agilizado por meio de software que cria um caminho ou rota eletrônica para enviar automaticamente as imagens dos documentos de uma estação de trabalho usuária para outra, de acordo com prioridades pré-estabelecidas.
Aplicações do GED
- Apoia a gestão do conhecimento.
- ERP, CRM, comércio eletrônico.
- Arquivos de recortes de jornais e revistas.
- Automação de cartórios.
Para microfilme, contar as imagens por unidade.
Descrição de Grupos de Documentos para Digitalização
- I: Livros com qualidade de impressão muito boa, periódicos e documentos datilografados em preto.
- II: Originais com gráficos de linhas finas e alto contraste.
- III: Desenhos à tinta e lápis.
- IV: Manuscritos e desenhos com baixo contraste.
- V: Documentos com contraste muito baixo.
A atividade que é menos comentada, mais subestimada e que recebe menos custo é a preparação de documentos, que remove e destrói duplicatas, materiais sem importância e materiais mais antigos do que seu padrão para retenção.
A digitalização de mesa é muito mais lenta que o uso de um scanner orientado por cinta ou rolo, mas requer menos trabalho preliminar.
Tipos de Scanner de Documentos
- Vetorial: utilizados para criação de desenhos de engenharia (CAD).
- OCR (Reconhecimento Óptico de Caracteres): convertem todos os números e letras do texto num código ASCII para processamento de dados e texto.
- Raster (digitalizadores): convertem a imagem num bitmap.
Bitmapping ("ilegíveis para o computador") são lidos como um número de zeros e uns que correspondem aos espaços claros e escuros, respectivamente.
Hipertexto e Hipermídia
Hipermídia – É a forma não linear de organizar informações através de ligações que são chamadas de links.
Funções do Hipertexto
- Associação a partir de ideias afins (Autoria).
- Busca a partir de palavras assinaladas na tela.
- Integração com outros programas.
Problemática do Hipertexto
- Perda de rumo (disponibilizar um caminho muito complexo).
- Ansiedade.
- Frustração.
- Fragmentação (dividir exageradamente a informação).
- Perda de contexto (diferenciar-se do conteúdo original).
- Sobrecarga de informação (excesso de recurso disponibilizado).
Principais Conceitos Envolvidos
Autor: A pessoa que cria um hipertexto (projetista), escolhe os links e as interfaces (gráficos, textuais, sonoros), estabelece os caminhos, os botões, as metáforas, organiza o conteúdo.
Autoria: Criação, determinar o conteúdo dos nós, criar elos (links) entre os nós.
Nós: São as menores unidades que contêm informação em um registro de hipertexto/hipermídia.
Elos: Ponteiros de um nó para outro.
Âncora: A forma como os links são apresentados aos leitores.
Leitor e Navegação.
Principais Recursos Previstos
Estrutura de Acesso
- Busca (caixa de texto).
- Índice (Menu).
- Roteiro guiado (guiado por alguém).
Auxílios à Navegação: Mapa, marcadores (lugares por onde passou), trilha (Backtrack na hipermídia já vem no browser), histórico (tudo o que foi feito).
Softwares de hipertexto (software de autoria) - autor é um desenvolvedor de hipertexto.
Um ponto de informação é um nó e um nó é uma unidade de hipertexto.
Um autor monta seus nós e os elos entre eles. Os elos são as ligações entre os nós, que possuem âncoras que são acionadas (ligadas).
Metáfora
Metáfora – Formas de mostrar aos usuários os caminhos para navegação, que possui diversos modos/tarefas: função, linha de tempo, mapa, calendário.
Tipos de Metáforas
- Sala de Operações / Central de Controle: acesso por tarefa.
- Painel de Controle: acesso por função.
- Linha de Tempo: acesso por ordenação linear no tempo.
- Mapa: acesso por ordenação espacial.
- Calendário: acesso por data.
Rede semântica é baseada em nós e elos.
Exemplos de Aplicação de Hipertexto
Em qualquer lugar que a exibição da informação deseja ser em links (caminho). Exemplos: Museu, help, jurídicos, diagnósticos.