Arquitetura e Planeamento de Sistema de IA On-Device

Classificado em Tecnologia

Escrito em em português com um tamanho de 4,6 KB

Arquitetura Funcional

A arquitetura é estruturada em quatro sistemas principais que operam de forma 100% local (on-device).

Funções Principais e Blocos:

  • User Interaction [UI]: Interface audio-first que gere comandos de voz (STT) e feedback (TTS/Áudio Espacial).
  • Sensor & Capture [SC]: Responsável pelo stream contínuo da câmara e extração inteligente de frames para análise.
  • Core AI [AI]: O motor computacional que executa a deteção de objetos, localização de rótulos e OCR.
  • Data & Knowledge [DK]: Base de dados estruturada que armazena metadados de produtos para validação semântica.

Inputs e Outputs: O sistema recebe frames de vídeo e áudio (voz) como inputs e produz coordenadas de navegação (bounding boxes) e texto convertido em fala como outputs principais.

Relação entre Blocos: O [SC] fornece frames pré-processados ao [AI], que retorna coordenadas para o [UI] gerar pistas sonoras. Uma vez confirmada a proximidade, o [AI] isola o rótulo para o [AI] extrair o texto, que é validado pelo [DK] antes de ser lido ao utilizador.

Riscos do Projeto

A equipa utiliza uma matriz de riscos com níveis de probabilidade e impacto severo:

  • Insuficiência de Dados (Crítico): Risco de volume ou diversidade de imagens insuficiente para treino. Mitigação: Alavancar datasets externos (GRAIN, OpenFoodFacts) e definir limites mínimos de amostras por categoria.
  • OCR não Fiável (Crítico): Dificuldade em ler embalagens curvas, brilhantes ou com relevo. Mitigação: Aplicar pré-processamento de dewarping e solicitar nova captura caso a confiança seja baixa.
  • Limitações de Hardware (Alto): Modelos que excedem o orçamento de RAM ou CPU. Mitigação: Aplicar quantização INT8 e pruning nos modelos para otimização.

WBS e Planeamento (Gantt)

O projeto está dividido em 10 Sprints semanais.

  • Tarefas Principais: Recolha de dados (W1-W4), Treino de modelos (W3-W8), Integração de Pipeline (W5-W8) e Testes de Usabilidade (W8-W10).
  • Caminho Crítico: Identificado pela borda escura no Gantt, foca-se na "Label detection & localisation" e na "Module integration".

Justificação: Estas tarefas são o gargalo do sistema; qualquer atraso na localização do rótulo impede o funcionamento do OCR e da interface de áudio final.

Modelo de Desenvolvimento Adotado

O projeto segue uma metodologia Iterativa e Incremental baseada em Scrum.

Racional: Esta abordagem permite a evolução constante dos modelos de IA e a integração modular de componentes. O uso de Sprints semanais garante que falhas de integração sejam detetadas cedo, permitindo o ajuste do pipeline antes da entrega final.

Processo de Validação

O sistema é validado através de dois tipos de métricas:

  • Medidas de Eficácia (MOEs): Focam-se no utilizador, visando 100% de autonomia em tarefas de procura (ME001) e uma pontuação SUS > 75 (ME003).
  • Medidas de Performance (MOPs): Alvos técnicos como latência < 1.5s (NF002), precisão > 95% (NF003) e operação em 0 lux (NF004).

Organização da Equipa

A equipa está dividida em 5 sub-equipas funcionais para garantir a especialização:

  • Mobile UI: Interface e áudio.
  • Data Management: Recolha e qualidade de dados.
  • Spatial & Label Detection: Deteção espacial e de rótulos.
  • OCR Team: Extração de texto.
  • Camera & Stream: Captura física.

Contributo Individual

  • Data Management: Responsável pela recolha de imagens em cenários variados, anotação de dados e validação da qualidade do dataset.
  • Mobile UI: Apoio na definição da estrutura da aplicação e integração de módulos de interface.
  • Gestão: Coordenação de repositórios e documentação técnica conforme as minutas de reunião.

Entradas relacionadas: