Perception multimodale
Vision, audio et 3D : modèles robustes en environnements bruités et contraints (temps réel, compression).
Ce que nous explorons
Nous développons des briques de perception multimodale (image, vidéo, audio, 3D) adaptées aux contraintes terrain : bruit, compression, domain shift, faible latence et évaluation robuste.
Verrous scientifiques & techniques
Ce qui rend le sujet non trivial en conditions réelles.- Dégradation des signaux (bruit, compression, artefacts) et variations d'acquisition.
- Généralisation : domain shift (caméras, sites, contextes) et rareté des données.
- Contraintes temps réel : latence, mémoire, débit et efficacité énergétique.
- Robustesse et stabilité : stress-tests et contrôle des modes d'échec.
Approches & briques technologiques
Comment nous abordons le problème en R&D.- Architectures et entraînements robustes (augmentations, auto-supervision, distillation).
- Compression et efficience : quantification, pruning, distillation et optimisations runtime.
- Traitement 3D : opérateurs sur maillages/points, reconstruction et métriques géométriques.
- Évaluation terrain : corpus diversifiés, tests de robustesse et instrumentation perf.
Illustrations de travaux
Quelques exemples de sujets traités dans ce thème.
Compression IA pour flux immersifs
Illustration de travauxAutoencodeurs, opérateurs 3D et compromis qualité/débit/latence pour téléprésence.
Détection / segmentation en conditions dégradées
Illustration de travauxRobustesse aux artefacts et protocoles de validation multi-domaines.
Analyse audio/voix
Illustration de travauxReprésentations temporelles, classification et contrôle des biais/robustesse.
Envie d’échanger sur ce thème ?
Nous pouvons partager nos protocoles d’évaluation, nos retours d’expérience et nos options techniques adaptées à vos contraintes.