Critères pour l’évaluation de la performance d’une solution de reconnaissance vocale pour le domaine industriel

Critères pour l’évaluation de la performance d’une solution de reconnaissance vocale pour le domaine industriel

La réponse par Simsoft industry

L’université de South California propose une étude comparative de la performance de différentes solutions logicielles de reconnaissance vocale[1]. Les principaux acteurs du domaine come Amazon, Apple, Google, IBM, Microsoft et Kaldi pour la partie open source sont analysés suivant une liste de critères.

Dans leur étude, les auteurs rappellent l’importance de considérer l’usage et le contexte d’utilisation de la reconnaissance vocale pour sélectionner la solution la plus adaptée. Dans ce contexte, SIMSOFT INDUSTRY souhaite remettre dans un contexte industriel cette liste de critères, et expliquer les fondamentaux de sa proposition “Spixify Your Industry”.

[1] Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020), pages 6469–6476 Marseille, 11–16 May 2020 « Evaluation of Off-the-shelf Speech Recognizers Across Diverse Dialogue Domains »

Introduction: pourquoi étudier la performance de la reconnaissance vocale pour l'industrie

Les Assistants Vocaux Intelligents (AVI) ou les algorithmes de traitement automatique des langues (TAL) utilisent des données textuelles pour comprendre les intentions de l’utilisateur ou sa requête. Quand l’utilisateur dispose d’une interface vocale, alors la qualité de la donnée générée par la brique technologique de reconnaissance vocale (traduction de la voix en texte) devient fondamentale pour le bon fonctionnement de la chaine de traitement.

Ce principe est vrai dans les utilisations dites « grand public » des Assistants Vocaux Intelligents, il devient critique quand on souhaite appliquer ces technologies au domaine industriel. Ainsi, les critères utilisés pour l’évaluation de technologies de reconnaissance vocale pour le grand public peuvent être différents (ou similaires) quand il s’agit du domaine industriel.

SIMSOFT INDUSTRY souhaite apporter sa vision des contraintes industrielles sur l’évaluation des solutions de reconnaissance vocale, dans l’objectif de développement d’Assistants Vocaux Intelligents. L’entreprise focalise ses travaux sur les opérateurs manuels, les techniciens, les agents de terrain dans l’industrie, qui réalisent des tâches de production, de maintenance, ou d’inspection.

Commentaires sur les critères de l’étude de l’université de Californie

L’étude de l’Université de Californie propose 6 critères pour évaluer la performance de la reconnaissance vocale appliquée à un domaine particulier. L’objectif n’est pas de refaire l’étude, mais de valider ou non la pertinence des critères en fonction des contraintes du domaine industriel.

 

Critère 1 : « Le domaine linguistique et le vocabulaire que la reconnaissance vocale doit être en capacité de gérer. »

De la même manière que Alexa est « intelligent » le matin pour nous donner la météo, car c’est la question qui revient le plus entre 07h30 et 08h00, un assistant vocal industriel doit être intelligent en fonction du contexte de travail de la personne qui l’utilise. Pour se faire, la base sémantique mise à disposition de la reconnaissance vocale doit être la plus proche possible de la linguistique spécifique de l’industriel utilisateur. L’utilisation de synonymes et la création de relations par une base d’ontologie, participent à l’enrichissement de l’expérience utilisateur pour un métier, ou une fonction donnée.

Le composant de reconnaissance vocale doit donc être en capacité de tirer parti de ces bases sémantiques afin d’enrichir le vocabulaire spécifique de l’industriel client. L’utilisateur pourra ainsi se sentir en confiance avec son assistant vocal et vivre une expérience digital enrichissante en fonction de sa situation de travail. Cette composante de reconnaissance vocale devra être soutenue par une intelligence artificielle de dialogue afin d’assurer la contextualisation des propos du locuteur.

 

Critère 2 : « L’environnement acoustique dans lequel la reconnaissance vocale doit fonctionner. »

L’industrie fait du bruit… Les interventions des opérateurs humains dans les fonctions clés de l’industrie sont souvent dans des environnements de production bruyants. Le bruit est généré par des machines ou des outillages en fonctionnement, des engins de manutention, ou le bruit du vent en extérieur lors d’opérations d’inspection.

Si le bruit interdit ou dégrade trop fortement le fonctionnement de la reconnaissance vocale, l’ensemble des traitements suivants (NLP, NLU, …) en sera affecté. Si dans le grand public cette contrainte peut être levée (en voiture on utilise les commandes vocales fenêtres fermées), l’utilisation industrielle de solution d’assistance vocale doit prendre cette contrainte très au sérieux.

Les environnements bruyants doivent être testés en amont de la réalisation d’essais avec des opérateurs afin de trouver la bonne solution et d’éviter des déceptions sur le terrain. Plusieurs solutions matérielles (casque, micro, …) et logicielles à base d’intelligence artificielle (réduction de bruit, gestion de boucles de dialogue, désambiguïsation, …) doivent être combinées afin de réduire l’impact du bruit sur le fonctionnement d’une solution globale d’assistance vocale industrielle.

 

Critère 3 : « Le temps de traitement nécessaire à la reconnaissance vocale pour générer une sortie. »

Il y a souvent un compromis à trouver entre la qualité de la sortie de la reconnaissance de la parole et le temps nécessaire pour générer cette sortie. Les systèmes de dialogue en temps réel comme les assistants vocaux, par exemple, peuvent accepter une sortie un peu dégradée en échange de latences plus faibles.

Pour garantir l’acceptabilité opérationnelle d’une solution d’assistance vocale au poste de travail, une latence maximale de 300ms doit pouvoir être garantie entre l’énoncé de la requête et la formulation de la réponse. Dans le domaine industriel, les latences peuvent être de natures différentes. Aux durées intrinsèques de traitement de la reconnaissance de la parole et des modules additionnels, il convient d’ajouter le temps de traversé système lié à l’infrastructure réseau de l’industriel. Dans bien des cas, ce temps est loin d’être négligeable.

Pour garantir un fonctionnement nominal dans un contexte d’utilisation opérationnelle de la voix dans l’industrie, des solutions embarquées sur les équipements des opérateurs et techniciens seront privilégiés. Ces équipements de type PC, tablettes ou téléphone portables disposent aujourd’hui des capacités de calcul nécessaire à la réalisation de traitements embarqués et donc avec une latence garantie.

 

Critère 4 : « Le module de reconnaissance vocale peut-il générer des sorties incrémentales (au fil de l’eau) ou doit-il attendre que le locuteur ait fini de parler pour générer une sortie complète. »

Dans un système dialoguant, l’interlocuteur est poli (!) et peut donc attendre que le premier ait terminé son énoncé avant de répondre. Pour une utilisation en émulation d’un moteur de recherche documentaire par exemple, l’utilisation incrémentale des énoncés peut permettre une optimisation des critères de recherche.

 

Critère 5 : « La reconnaissance vocale doit être réalisée dans le cloud, ou peut être utilisée en mode embarqué sur un appareil hors connexion. »

Pour le domaine du grand public, la mutualisation des moyens de calculs dans le cloud ne pose pas de problèmes particuliers, mis à part les considérations sur le temps de traversé système (voir critère 3). Pour une utilisation industrielle, cette contrainte peut être vue sous plusieurs angles : l’opérateur est-il connecté, si oui, à un cloud externe, ou à un serveur interne à l’entreprise ; si l’opérateur ne dispose pas de connexion, est-ce structurel ou bien est-ce stratégique pour l’industriel. En outre, la question de la connexion peut devenir majeure en cas de problèmes de confidentialité des données manipulées.

Le constat industriel est souvent que la connexion externe n’est pas souhaitée, et que la connexion à des serveurs internes est en cours de développement. Néanmoins, certains secteurs critiques comme l’énergie par exemple, restent réticents aux connexions sans fil pour des raisons de sécurité. Dans ce cas, des installation embarquées ou on premise seront privilégiées. Des systèmes hybrides peuvent également être imaginés avec des fonctions avancées quand l’opérateur peut accéder à un réseau, local ou ouvert.

 

Critère 6 : « Quelle est la procédure pour adapter le dispositif de reconnaissance vocale à un domaine particulier en construisant des modèles acoustiques et / ou linguistiques spécifiques à un domaine. »

L’exemple le plus fréquent d’adaptation des modèles acoustiques concerne les habitacles intérieurs de voitures. En fonction des régimes moteurs et de la vitesse, les ambiances sonores peuvent être modélisés et donc intégrés comme données d’entrée d’algorithmes de réduction de bruit. Cette approche est valide dans les cas d’utilisation massive dans un environnement équivalent de manière acoustique.

Pour l’industrie, cette approche peut difficilement être adoptée vue la diversité des lieux d’interventions des opérateurs humains. Les ambiances sonores entre l’intérieur et l’extérieur, entre une machine en fonctionnement ou à l’arrêt sont potentiellement très différentes. Par contre, tel que décrit dans le critère 1, le domaine linguistique est d’une importance prépondérante.

 

Critère 7 : « Est-il possibilité de former des locuteurs individuels et quelle est la quantité de données de formation spécifiques disponibles pour chaque locuteur. »

L’entrainement de la solution de reconnaissance vocale à la voix de son utilisateur est faisable dans des contextes d’utilisation stables, et avec un utilisateur unique pour un profil donné.

Dans l’industrie, les équipements sont souvent multi-utilisateurs et multi-environnement. L’entrainement d’un locuteur particulier, et la collecte d’information sur un salarié de l’industrie est donc souvent difficile à réaliser. Dans ce contexte, des solutions sans entrainement, utilisables sur des postes de travail par plusieurs personnes seront privilégiées.

Conclusion

L’utilisation de la voix, de la reconnaissance vocale et de l’assistance vocale intelligente est un domaine nouveau pour l’industrie. Si les contraintes liées à l’utilisation de ces technologies d’intelligence artificielle sont bien maitrisées dans le grand public, il convient de les revisiter pour une utilisation industrielle. C’est la mission que SIMSOFT INDUSTRY c’est donnée depuis plusieurs années et qui donne lieu au développement d’une offre technologique et d’une méthodologie associée.

L’offre technologique consiste en la mise au point de composants d’assistance vocale intelligents basés sur des algorithmes d’intelligence artificielle, embarqués et compatibles des contraintes de l’industrie. L’assistant vocal industriel « Spix » est fait d’un catalogue de skills (des services unitaires) destinés à être intégrés dans les outils informatiques déjà déployés chez les industriels.

L’offre de méthodologie « Spixify Your Industry » consiste en un accompagnement des industriels dans la montée en compétence, par de la formation et de la sensibilisation, des études de dérisquage pour amener au développement d’un produit minimum viable utilisable par des opérateurs en situation de production.

L’utilisation opérationnelle de la voix dans l’industrie, et de l’assistance vocale intelligente par des opérateurs de la production ou de la maintenance passe par cette double approche technique et méthodologique. L’intelligence artificielle appliquée au domaine industriel ne peut faire l’économie de cette prise en considération des contraintes particulières liées au domaine visé. SIMSOFT INDUSTRY devient l’acteur européen incontournable de ce domaine avec la mise en œuvre de solution d’assistance vocale industrielle au poste de travail dans l’industrie.