Maison / Technologie / Seules quelques centaines d’échantillons d’entraînement contiennent un discours à consonance humaine dans le jeu Microsoft TTS

Seules quelques centaines d’échantillons d’entraînement contiennent un discours à consonance humaine dans le jeu Microsoft TTS

Seules quelques centaines d’échantillons d’entraînement contiennent un discours à consonance humaine dans le jeu Microsoft TTS

La structure globale du modèle pour TTS et ASR. Crédit: Yi Ren, Xu Tan et al.

Microsoft Research Asia a été applaudi pour la rédaction d'un texte à la parole nécessitant peu de formation – et montrant "incroyablement" réaliste résultats.

Kyle Wiggers dans VentureBeat m'a dit texteLes algorithmes de parole ne sont pas nouveaux et d’autres très performants, mais l’effort d’équipe chez Microsoft a toujours un avantage.

Abdullah Matloob dans Monde de l'information numérique: "La conversion texte-parole devient intelligente avec le temps, mais l’inconvénient est qu’elle prendra encore montant de temps de formation et de ressources pour construire un produit au son naturel. "

À la recherche d'un moyen de réduire le temps et les ressources consacrés à la formation afin de créer une sortie qui semblait naturelle, Microsoft Research et des chercheurs chinois ont découvert un autre moyen de convertir du texte à la parole.

Fabienne Lang dans Ingénierie intéressante: Leur réponse s’avère être une synthèse vocale IA utilisant 200 échantillons de voix (200 seulement) pour créer une parole à la sonorité réaliste qui correspond aux transcriptions. Lang a déclaré: "Cela représente environ 20 minutes."

Wiggers n’avait besoin que de 200 clips audio et des transcriptions correspondantes. VentureBeat. Il a également noté que les chercheurs avaient mis au point un système d'intelligence artificielle "qui exploite l'apprentissage non supervisé, une branche de l'apprentissage automatique qui exploite les connaissances à partir de données de test non étiquetées, non classifiées et non catégorisées".

Leur papier est sur arXiv. "Texte presque non supervisé et parole automatique Reconnaissance"est écrit par Yi Ren, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao et Tie-Yan Liu. Les affiliations des auteurs sont l'Université du Zhejiang, Microsoft Research et le Centre de technologie de recherche Microsoft (STC) Asia.

Dans leur document, l’équipe a déclaré que l’intelligence artificielle TTS utilisait deux composants clés, un transformateur et un encodeur automatique de débruitage, pour que tout fonctionne.

200 paires seulement. "… d'autant plus qu'il n'y a plus de temps ni d'argent engagés dans la fonte ou l'impression de belles lettres …"
Yi Ren et al. méthode. "… d'autant plus qu'il n'y a plus de temps ni d'argent engagés dans la fonte ou l'impression de belles lettres …"

"Grâce aux transformateurs, l'IA text-to-speech de Microsoft était capable de reconnaître la parole ou le texte en entrée ou en sortie. sortie, "dit un article dans Énervé par Rechelle Fuertes.

Tyler Lee dans Ubergizmo fourni une définition du transformateur: "Transformers … are réseaux de neurones profonds conçu pour imiter les neurones dans notre cerveau .. "

MathWorks avait une définition pour autoencoder. "Un auto-codeur est un type de réseau neuronal artificiel utilisé pour apprendre des données efficaces (codages) de manière non supervisée. Le but d'un auto-codeur est d'apprendre une représentation (codage) d'un ensemble de données, débruitage autoencoders est généralement un type d’auto-encodeurs formés pour ignorer le "bruit" dans les échantillons d’entrée corrompus. "

Les résultats de leur expérience montrent-ils que leur idée vaut la peine d'être poursuivie? "Notre méthode atteint 99,84% en termes de taux d'intelligibilité au niveau des mots et 2,68 MOS pour TTS, et 11,7% PER pour ASR (reconnaissance vocale automatique) sur le jeu de données LJSpeech, en exploitant seulement 200 données de parole et de texte appariées (environ 20 minutes audio), avec des données vocales et textuelles non appariées supplémentaires ".

Pourquoi est-ce important? Cette approche peut rendre le texte à la parole plus accessible, ont déclaré des rapports.

"Les chercheurs travaillent continuellement à l'amélioration du système et espèrent qu'à l'avenir, il faudra encore moins de travail pour générer un discours réaliste", a déclaré Lang.

Le document sera présenté à la Conférence internationale sur l'apprentissage automatique à Long Beach, en Californie, plus tard dans la journée. année, et l’équipe prévoit de publier le code dans les prochaines semaines, a déclaré Wiggers.

Pendant ce temps, les chercheurs n'abandonnent pas encore leur travail en présentant des transformations avec peu de données appariées.

"Dans ce travail, nous avons proposé la méthode presque non supervisée de synthèse vocale et reconnaissance automatique de la parole, qui exploite seulement quelques données vocales et textuelles appariées et des données non appariées supplémentaires … Pour les travaux futurs, nous allons pousser vers la limite de l’apprentissage non supervisé en nous appuyant simplement sur des données non appariées. discours et des données textuelles, à l’aide d’autres méthodes de pré-formation. "


Présentation du service de synthèse vocale en nuage pour les développeurs


Plus d'information:
Reconnaissance vocale quasi non supervisée et reconnaissance vocale automatique: speechresearch.github.io/unsuper/

© 2019 Science X Network

Citation:
                                                 Quelques centaines d’échantillons d’entraînement contiennent un discours à consonance humaine dans le jeu Microsoft TTS (29 mai 2019)
                                                 récupéré le 29 mai 2019
                                                 sur https://techxplore.com/news/2019-05-samples-human-sounding-speech-microsoft-tts.html

Ce document est soumis au droit d'auteur. Mis à part toute utilisation équitable à des fins d’étude ou de recherche privée, aucun
                                            partie peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.

Source

A propos newstrotteur-fr

Découvrez également

SpaceX complète le test de tir statique du système de lancement Crew Dragon

SpaceX a confirmé qu’il avait effectué un test de tir statique de son système d’échappement …

Laisser un commentaire