Maison / Technologie / Entendre le personnage dans les choses: Alibaba améliore la reconnaissance vocale en mandarin

Entendre le personnage dans les choses: Alibaba améliore la reconnaissance vocale en mandarin

Cet article fait partie de la Académique Alibaba Cette série est extraite du document ICASSP 2019 intitulé «Enquête sur les unités de modélisation pour la reconnaissance vocale en mandarin à l’aide de DFSMN-CTC-sMBR», par Shiliang Zhang, Ming Lei, Yuan Liu et Wei Li. Le papier complet peut être lu ici.

Si vous avez déjà essayé d’apprendre le mandarin ou même vous êtes demandé comment on y arrive, il peut être utile de savoir que les technologies de pointe de reconnaissance vocale le trouvent également extrêmement difficile. Comme les gens, les systèmes de reconnaissance vocale continue à vocabulaire étendu (LVCSR) se heurtent aux relations de syllabes distinctes du mandarin et à son immense lexique, ce qui entraîne une confusion fréquente au sujet des homophones et des problèmes de manque de vocabulaire. Le but ultime de ces outils étant de convertir un discours oral en un enregistrement écrit, de tels problèmes peuvent nuire à leur efficacité.

Pour relever ces défis, les chercheurs d’Alibaba ont maintenant mis au point un modèle de réseau neuronal DFSMN-CTC-sMBR afin de mieux transcrire le langage humain en mandarin. Avec des unités hybrides Caractère-Syllable qui combinent les caractères chinois les plus courants et leurs syllabes, le modèle a considérablement réduit les erreurs de substitution afin de surpasser les modèles hybrides conventionnels dans 20 000 heures de tests de reconnaissance vocale en mandarin.

Réinterpréter la reconnaissance vocale

Comme son nom l’indique, le modèle Alibaba DFSMN-CTC-sMBR reflète l’innovation sur plusieurs fronts de la reconnaissance vocale.

Présentation technique du modèle DFSMN-CTC-sMBR

La fonction de base du modèle, la classification temporelle connexionniste (CTC), est une alternative relativement récente aux modèles hybrides classiques, qui souffrent d’un choix limité d’unités de modélisation acoustique basées sur des critères de formation. Alors que les travaux antérieurs avec CTC utilisaient principalement des réseaux de neurones à mémoire à court terme (LSTM), ce modèle adopte un réseau de mémoire séquentielle à anticipation profonde (DFSMN) pour améliorer ses performances avec à la fois indépendant du contexte (CI) et dépendant du contexte (CD). téléphones comme étiquettes cibles. S’appuyant sur une technique d’optimisation pour LSTM-CTC, il intègre en outre un critère de risque Bayes minimum au niveau de l’état (sMBR) pour prendre en charge la formation discriminante au niveau de la séquence.

Dans l’ensemble, la principale réalisation de cette conception réside dans son soutien à une plus grande gamme d’unités de modélisation acoustique bien adaptées à la parole en mandarin. Une considération majeure en mandarin est la relation entre les tonalités initiales et les tonalités finales dans les mots: il y a 23 syllabes initiales possibles et 35 syllabes finales pouvant varier entre cinq tons chacune, pour un total de 185 finales. Pour prendre en compte cet écart, les chercheurs ont incorporé une unité initiale / finale indépendante du contexte (CI-IF) reconnaissant les 23 initiales et 185 finales tonales, ainsi qu’une unité dépendante du contexte (CD-IF) pour 7 951 relations de paires supplémentaires déterminées. par un arbre de décision basé sur les données.

De plus, le modèle comporte une unité Syllable pour modéliser individuellement les 1 319 syllabes tonales du mandarin et deux unités hybrides Caractère-Syllable qui ciblent respectivement un ensemble de 2 000 et un ensemble de 3 000 caractères chinois couramment utilisés. Les milliers de syllabes du mandarin correspondent à des dizaines de milliers de caractères, ce qui améliore considérablement la capacité du modèle à distinguer les homophones et à éliminer les problèmes de viseur pour lesquels une syllabe ne peut pas être correctement associée au bon caractère.

Présentation des unités de modélisation acoustique du modèle DFSMN-CTC-sMBR

Résultats d’affûtage, unité par unité

Pour tester le modèle proposé, les chercheurs d’Alibaba ont utilisé environ 20 000 heures de données audio en mandarin issues de l’information, du sport, du tourisme, des jeux, de la littérature et de l’éducation, en utilisant le pourcentage de taux d’erreur de caractère (CER) comme mesure clé de la performance. Lors des essais, il a été confronté à diverses configurations alternatives construites avec certaines des unités de modélisation acoustique discutées dans la section précédente, mais pas toutes.

Résultats de performance pour différentes configurations d’unités de modélisation avec et sans formation sMBR; des scores plus faibles indiquent une meilleure performance.

Comme indiqué ci-dessus, les résultats indiquent que l’inclusion de la formation sMBR peut améliorer les performances relatives des modèles de plus de 10% par rapport à la formation de base CTC. Plus important encore, le modèle DFSMN-CTC-sMBR intégrant toutes les unités de modélisation acoustique (CI-IF, CD-IF, Syllable, Char (2k) + Syllable et Char (3k) + Syllable) a obtenu le taux d’erreur le plus bas, validant l’efficacité. de ces unités à relever des défis spécifiques au mandarin.

Le papier complet peut être lu ici.

Alibaba Tech

Des informations de première main et approfondies sur la dernière technologie d’Alibaba → Facebook: "Alibaba Tech". Gazouillement: “AlibabaTech”.


Entendre le personnage dans les choses: Alibaba améliore la reconnaissance vocale en mandarin a été publié à l’origine dans Hacker midi sur Medium, où les gens poursuivent la conversation en soulignant et en répondant à cette histoire.

Source

A propos newstrotteur-fr

Découvrez également

Le géant chinois de la technologie veut être 'transparent'

Paul Scanlan, directeur technique de Huawei, lors d'une interview accordée à Associated Press à Washington, …

Laisser un commentaire