Arquitetura e Planeamento de Sistema de IA On-Device
Classificado em Tecnologia
Escrito em em
português com um tamanho de 4,6 KB
Arquitetura Funcional
A arquitetura é estruturada em quatro sistemas principais que operam de forma 100% local (on-device).
Funções Principais e Blocos:
- User Interaction [UI]: Interface audio-first que gere comandos de voz (STT) e feedback (TTS/Áudio Espacial).
- Sensor & Capture [SC]: Responsável pelo stream contínuo da câmara e extração inteligente de frames para análise.
- Core AI [AI]: O motor computacional que executa a deteção de objetos, localização de rótulos e OCR.
- Data & Knowledge [DK]: Base de dados estruturada que armazena metadados de produtos para validação semântica.
Inputs e Outputs: O sistema recebe frames de vídeo e áudio (voz) como inputs e produz coordenadas de navegação (bounding boxes) e texto convertido em fala como outputs principais.
Relação entre Blocos: O [SC] fornece frames pré-processados ao [AI], que retorna coordenadas para o [UI] gerar pistas sonoras. Uma vez confirmada a proximidade, o [AI] isola o rótulo para o [AI] extrair o texto, que é validado pelo [DK] antes de ser lido ao utilizador.
Riscos do Projeto
A equipa utiliza uma matriz de riscos com níveis de probabilidade e impacto severo:
- Insuficiência de Dados (Crítico): Risco de volume ou diversidade de imagens insuficiente para treino. Mitigação: Alavancar datasets externos (GRAIN, OpenFoodFacts) e definir limites mínimos de amostras por categoria.
- OCR não Fiável (Crítico): Dificuldade em ler embalagens curvas, brilhantes ou com relevo. Mitigação: Aplicar pré-processamento de dewarping e solicitar nova captura caso a confiança seja baixa.
- Limitações de Hardware (Alto): Modelos que excedem o orçamento de RAM ou CPU. Mitigação: Aplicar quantização INT8 e pruning nos modelos para otimização.
WBS e Planeamento (Gantt)
O projeto está dividido em 10 Sprints semanais.
- Tarefas Principais: Recolha de dados (W1-W4), Treino de modelos (W3-W8), Integração de Pipeline (W5-W8) e Testes de Usabilidade (W8-W10).
- Caminho Crítico: Identificado pela borda escura no Gantt, foca-se na "Label detection & localisation" e na "Module integration".
Justificação: Estas tarefas são o gargalo do sistema; qualquer atraso na localização do rótulo impede o funcionamento do OCR e da interface de áudio final.
Modelo de Desenvolvimento Adotado
O projeto segue uma metodologia Iterativa e Incremental baseada em Scrum.
Racional: Esta abordagem permite a evolução constante dos modelos de IA e a integração modular de componentes. O uso de Sprints semanais garante que falhas de integração sejam detetadas cedo, permitindo o ajuste do pipeline antes da entrega final.
Processo de Validação
O sistema é validado através de dois tipos de métricas:
- Medidas de Eficácia (MOEs): Focam-se no utilizador, visando 100% de autonomia em tarefas de procura (ME001) e uma pontuação SUS > 75 (ME003).
- Medidas de Performance (MOPs): Alvos técnicos como latência < 1.5s (NF002), precisão > 95% (NF003) e operação em 0 lux (NF004).
Organização da Equipa
A equipa está dividida em 5 sub-equipas funcionais para garantir a especialização:
- Mobile UI: Interface e áudio.
- Data Management: Recolha e qualidade de dados.
- Spatial & Label Detection: Deteção espacial e de rótulos.
- OCR Team: Extração de texto.
- Camera & Stream: Captura física.
Contributo Individual
- Data Management: Responsável pela recolha de imagens em cenários variados, anotação de dados e validação da qualidade do dataset.
- Mobile UI: Apoio na definição da estrutura da aplicação e integração de módulos de interface.
- Gestão: Coordenação de repositórios e documentação técnica conforme as minutas de reunião.